• Title/Summary/Keyword: Digit recognition

검색결과 203건 처리시간 0.478초

Handwritten Indic Digit Recognition using Deep Hybrid Capsule Network

  • Mohammad Reduanul Haque;Rubaiya Hafiz;Mohammad Zahidul Islam;Mohammad Shorif Uddin
    • International Journal of Computer Science & Network Security
    • /
    • 제24권2호
    • /
    • pp.89-94
    • /
    • 2024
  • Indian subcontinent is a birthplace of multilingual people where documents such as job application form, passport, number plate identification, and so forth is composed of text contents written in different languages/scripts. These scripts may be in the form of different indic numerals in a single document page. Due to this reason, building a generic recognizer that is capable of recognizing handwritten indic digits written by diverse writers is needed. Also, a lot of work has been done for various non-Indic numerals particularly, in case of Roman, but, in case of Indic digits, the research is limited. Moreover, most of the research focuses with only on MNIST datasets or with only single datasets, either because of time restraints or because the model is tailored to a specific task. In this work, a hybrid model is proposed to recognize all available indic handwritten digit images using the existing benchmark datasets. The proposed method bridges the automatically learnt features of Capsule Network with hand crafted Bag of Feature (BoF) extraction method. Along the way, we analyze (1) the successes (2) explore whether this method will perform well on more difficult conditions i.e. noise, color, affine transformations, intra-class variation, natural scenes. Experimental results show that the hybrid method gives better accuracy in comparison with Capsule Network.

중국 자동차 번호판 인식 (Recognition of Chinese Automobile License Plates)

  • 안영준;위규범;홍만표
    • 정보처리학회논문지B
    • /
    • 제14B권2호
    • /
    • pp.81-88
    • /
    • 2007
  • 도난차량 추적과 주차 관리 시스템 및 과속 차량 탐지 등에 광범위하게 사용되는 차량 번호판 인식 시스템을 구현하였다. 인식 시스템은 번호판을 추출하는 부분과 추출된 번호판을 인식하는 단계로 나뉘어진다. 번호판 추출 단계에서는 영상의 기울기를 측정하기 위해 수평 성분만을 추출하는 필터를 사용하여 차창과 번호판을 포함한 차량 전면부의 수평 성분만을 검출한 후 이것의 기울기를 측정하는 방법으로 번호판의 기울기를 구한다. 세그먼트 추출 과정에서는 신경화소 또는 배경화소가 연속하여 나타나는 블록의 계수의 변화를 감지하여 각 문자 또는 숫자를 추출한다. 각 문자 또는 숫자의 인식 단계에서는 잡음의 영향을 덜 받으며 높은 정확도를 보이는 비교템플렛 방법을 제안한다. 기존의 원형정합 방법과 히스토그램 방법과의 비교 실험을 통하여 제안한 방법의 인식 성능이 우수함을 보인다.

반음절쌍과 변형된 연쇄 상태 분할을 이용한 연속 숫자음 인식의 성능 향상 (Performance Improvement of Continuous Digits Speech Recognition using the Transformed Successive State Splitting and Demi-syllable pair)

  • 김동옥;박노진
    • 한국정보통신학회논문지
    • /
    • 제9권8호
    • /
    • pp.1625-1631
    • /
    • 2005
  • 본 논문에서는 언어모델과 음향모델을 개선함으로써 단위 숫자음의 인식성능 최적화에 대해 설명한다. 언어모델은 한국어 단위 숫자음 문장의 문법적 특징을 분석하고, FSN 노드를 두음절로 구성하여 오 인식률을 감소시켰다. 음향모델은 단음절로 구성되어 발성기간이 짧고 조음이 많이 생기는 불명확한 음소, 음절의 분할로 연한 오 인식을 줄이기 위해 인식단위를 반음절쌍으로 하였다. 인식단위의 특징을 효과적으로 모델링하기 위해 특징레벨에서 K-means 알고리즘(4)으로 클러스터링 하여 상태를 분할하는 변형된 연쇄 상태 분할방법을 이용하였다. 실험 결과 제안된 언어모델의 적용 후 동일 문백종속 음소모델에서 $10.5\%$, 음향모델에서 인식단위를 반음절쌍으로 하였을 경우 문백종속 음소모델에 비해 $12.5\%$, 변형된 연쇄 상태분할을 하였을 경우 $1.5\%$의 인식률을 향상시킬 수 있었다.

Continuous Digit Recognition Using the Weight Initialization and LR Parser

  • Choi, Ki-Hoon;Lee, Seong-Kwon;Kim, Soon-Hyob
    • The Journal of the Acoustical Society of Korea
    • /
    • 제15권2E호
    • /
    • pp.14-23
    • /
    • 1996
  • This paper is a on the neural network to recognize the phonemes, the weight initialization to reduce learning speed, and LR parser for continuous speech recognition. The neural network spots the phonemes in continuous speech and LR parser parses the output of neural network. The whole phonemes recognized in neural network are divided into several groups which are grouped by the similarity of phonemes, and then each group consists of neural network. Each group of neural network to recognize the phonemes consisits of that recognize the phonemes of their own group and VGNN(Verify Group Neural Network) which judges whether the inputs are their own group or not. The weights of neural network are not initialized with random values but initialized from learning data to reduce learning speed. The LR parsing method applied to this paper is not a method which traces a unique path, but one which traces several possible paths because the output of neural network is not accurate. The parser processes the continuous speech frame by frame as accumulating the output of neural network through several possible paths. If this accumulated path-value drops below the threshold value, this path is deleted in possible parsing paths. This paper applies the continuous speech recognition system to the threshold value, this path is deleted in possible parsing paths. This paper applies the continuous speech recognition system to the continuous Korea digits recognition. The recognition rate of isolated digits is 97% in speaker dependent, and 75% in speaker dependent. The recognition rate of continuous digits is 74% in spaker dependent.

  • PDF

고속처리 자동차 번호판 인식시스템 (A High Performance License Plate Recognition System)

  • 남기환;배철수
    • 한국정보통신학회논문지
    • /
    • 제6권8호
    • /
    • pp.1352-1357
    • /
    • 2002
  • 본 논문에서는 차량의 후면에서 촬영한 영상을 이용하여 효과적으로 번호판을 추출하고, 그 안에 표기된 문자를 인식하는 방법을 제안한다. 기존의 연구방법은 전체영상에 대하여 전처리를 수행하여 에지(edge)영상을 구하여 이진화한다. 이진화된 영상에서 허프(Hough)변환을 수행하여 수평, 수직선을 구하고, 번호판의 특징을 이용하여 번호판 영역을 추출한다 이 방법의 문제점은 처리시간이 많이 소요되므로 실시간 처리가 곤란하다는 점과 야간관 같이 명암상태가 불규칙하고 영상에서 번호판 테두리가 나타나지 않으면 번호판 영역추출을 할 수 없다는 점이다. 또한 차량의 후면에서 촬영한 영상에서 번호판 영역의 명암값 변화의 특성을 이용하여 번호판 영역에서 숫자폭, 배경영역과 숫자영역의 명암차를 조사하여 숫자영역임을 확인하고, 확인된 숫자와 숫자사이의 거리를 조사하여 번호판 영역을 추출한다. 본 연구는 기존방법의 번호판 테두리 훼손에 따른 번호판 영역추출 실패의 문제점을 해결하고 시간 소요의 문제를 실시간 안에 처리함으로써 실용적 응용이 가능하다. 실험 결과 100장의 샘플영상으로 실험한 결과 멀리 있는 자동차 영상에서도 자동으로 번호판을 판독할 수 있었으며, 번호판 추출에 실패한 영상은 13%를 나타내었고, 문자 인식에 실패한 영상은 0.4%의 결과를 나타내었다

음성인식에서 화자 내 정규화를 위한 진폭 변경 방법 (An Amplitude Warping Approach to Intra-Speaker Normalization for Speech Recognition)

  • 김동현;홍광석
    • 인터넷정보학회논문지
    • /
    • 제4권3호
    • /
    • pp.9-14
    • /
    • 2003
  • 기존의 성도 정규화 방법은 화자 간 정규화의 정확성을 개선하기 위한 매우 좋은 방법이다. 본 논문에서는 피치 변경 발성에 기반을 둔 새로운 화자 내 warping 인수 추정 방법을 제안한다. 화자 내 피치 변경 발성은 성문과 성도에 의해 발생되는 음성의 음향학적 차이 때문에 음성의 특징 공간 분포는 다르게 나타날 것이다. 발성의 변동은 frequency 성분과 amplitude 성분의 두가지 유형이 있다. 성도 정규화는 화자 간 정규화 방법들 중에서 주파수 정규화 방법이다. 여기에서는 화자 내 정규화를 위하여 진폭 변동을 정규화하는 방법을 제안한다. 참조 피치와 입력 피치의 역비례 계산에 의해서 진폭 warping 인수를 결정하는 것이 가능하다. 성능 평가를 위한 인식 실험 결과 숫자와 단어 인식에서 0.4%∼2.3% 정도의 인식 오류가 감소되었다.

  • PDF

The Effectiveness of Early Screening and Intervention for Children at Risk of Reading Underachievement

  • Park, Hyun Jeong;Bang, Hee Jeong;Nam, Min
    • Child Studies in Asia-Pacific Contexts
    • /
    • 제4권1호
    • /
    • pp.47-63
    • /
    • 2014
  • The purpose of this study was to develop a screening test for children at risk of reading underachievement and to investigate the effectiveness of the early-stage intervention program. In the first part of the study, we recruited 155 elementary first grade students for a screening test. Phonological deletion, digit naming, object naming, and sound-letter correspondence knowledge of a screening test, all assessed at the beginning of the school year, predicted the reading ability at the end of the school year. In the second part of the study, we analyzed the difference in the reading ability between fourteen children who participated in the intervention program and eighteen non-participating children. Reading ability was assessed by evaluating word recognition, oral reading fluency, reading comprehension, and pseudo-word recognition. The reading ability of intervention group improved more compared to control group, and the difference between two groups accentuated over time. However, final analysis conducted in November revealed that two groups did not differ significantly in oral reading fluency. This suggests that, unlike word recognition and comprehension, fluency might not dramatically improve in a short period.

연속음성 인식기를 위한 벡터양자화기 기반의 화자정규화 (Vector Quantizer Based Speaker Normalization for Continuos Speech Recognition)

  • 신옥근
    • 한국음향학회지
    • /
    • 제23권8호
    • /
    • pp.583-589
    • /
    • 2004
  • 포만트 등의 음향학적인 정보를 이용하지 않는 연속음성인식 (CSR)을 위한 벡터 양자화기 기반의 화자 정규화 방법을 제안한다. 이 방법은 앞서 제안한 간단한 숫자음 인식기를 위한 화자정규화 방법을 개선한 것으로, 코드북의 크기를 증가시켜 가면서 벡터양자화기를 반복적으로 학습시킴으로써 정규화된 코드북을 구한 다음, 치를 이용하여 시험용화자의 워핑계수를 추정한다. 코드북 생성과 워핑계수 추정을 위해 모음 음소의 집합과 자음과 모음을 포함한 모든 음소의 집합 등 두 가지 음소집합을 이용i,겨 실험하였으며, 추정한 워핑계수에 상응하는 구간선형 워핑함수를 이용하여 인식기의 학습과 시험에 사용될 특징벡터를 워핑하였다. TIMIT 코퍼스와 HTK toolkit을 이용한 음소인식 실험을 수행하여 제안하는 방법의 성능을 조사한 결과, 포만트를 이용한 워핑 방법과 비슷한 성능을 가짐을 확인하였다.

주파수 부대역의 켑스트럼 해상도 최적화에 의한 특징추출 (Feature Extraction by Optimizing the Cepstral Resolution of Frequency Sub-bands)

  • 지상문;조훈영;오영환
    • 한국음향학회지
    • /
    • 제22권1호
    • /
    • pp.35-41
    • /
    • 2003
  • 일반적인 음성인식 방법에서는 주파수 전대역에서 추출한 특징벡터를 사용하므로, 각 주파수 부대역은 최종인식 결과에 동등하게 기여한다. 본 논문에서는 주파수 부대역별로 독립적인 특징을 추출하고, 음성인식에 효과적이 되도록 부대역의 켑스트럼 해상도를 조절하는 방법을 제안한다. 주파수 부대역별로 독립적인 특징을 추출하는 멀티밴드 음성인식접근을 사용하여 부대역 특징벡터의 차원을 변화시킨다. 최적의 벡터 차원 조합을 찾기 위하여 음성인식률과 군집화 품질을 사용한다. TIDIGITS 연결 숫자음을 사용한 실험결과에서, 제안한 방법은 전대역 특징추출에 비해 적은 계산량으로도 숫자열 인식률은 99.12%, 백분율 정확도 (percent correct)는 99.775%, 백분율 정밀도 (percent accuracy)는 99.705%를 얻었으며, 이는 전대역 특징벡터에 비해 상대적 오류율을 각각 38%, 32%, 37% 감소시킨 결과이다.

왜곡 불변 차량 번호판 검출 및 인식 알고리즘 (Distortion Invariant Vehicle License Plate Extraction and Recognition Algorithm)

  • 김진호
    • 한국콘텐츠학회논문지
    • /
    • 제11권3호
    • /
    • pp.1-8
    • /
    • 2011
  • 최근 차량의 출입통제 및 주차관리 그리고 불법 차량의 단속 등 다양한 분야에서 차량 번호판 자동 인식 기술들이 활용되고 있다. 그러나 기울어지거나 햇빛 또는 조명 등의 영향을 받은 차량 영상에서는 번호판의 고유한 정보가 변형될 수 있다. 본 논문에서는 왜곡에 불변한 차량 번호판 검출 및 인식 알고리즘을 제안하였다. 먼저 DoG(Difference of Gaussian) 필터를 이용해서 번호판의 문자 획이 잘 보전된 이진영상을 생성하였다. 그리고 왜곡에 불변한 연속된 큰 숫자들의 위치를 찾고 그 정보를 이용해서 번호판영역을 검출하였다. 기하학적 왜곡 보정과 영상 개선 작업을 수행한 다음 신경망을 이용해서 번호판을 인식하였다. 제안한 알고리즘을 상용 LPR(License Plate Recognition) 시스템으로부터 획득한 6,200장의 차량 영상을 대상으로 시뮬레이션 한 결과 98.4%의 번호판 영상 인식률과 0.05초의 인식 속도를 얻을 수 있었다.