• 제목/요약/키워드: Digit recognition

검색결과 202건 처리시간 0.027초

한국어 숫자음의 음운변화 및 화자 발성특성을 고려한 연결숫자 인식의 성능향상 (Performance Improvement of Connected Digit Recognition by Considering Phonemic Variations in Korean Digit and Speaking Styles)

  • 송명규;김형순
    • 한국음향학회지
    • /
    • 제21권4호
    • /
    • pp.401-406
    • /
    • 2002
  • 한국어 숫자는 모두 단음절로 이루어져 있으며, 연속적으로 발음될 때 인접 숫자들의 상호조음현상에 의해 각 숫자의 고유 발음이 변화하고, 또한 그 숫자들의 경계도 모호해지는 문제점이 있다. 이러한 문제점들과 더불어 배경잡음이나 채널에 의한 왜곡에 따른 문제점들로 인해 한국어 연결숫자의 인식 성능은 만족스럽지 못한 것이 현실이다. 본 논문에서는 연결숫자의 인식성능 향상을 위해서 한국어 숫자들의 음운변화를 고려하여 유사음소 (phonelike units: PLUs)군을 정의하고, 사용자의 여러 가지 발성형태에 따른 다양한 음운 현상의 변화를 흡수할 수 있도록 인식 시스템을 구성하는 방식을 검토하였다. 전화망 4연숫자를 이용한 화자독립 인식 실험을 수행한 결과 제안된 방법의 숫자열 인식률은 상태당 믹스쳐 (mixture) 개수가 1인 경우 83.2%로, 기준 시스템 (baseline)에 대한 오류감소률이 7.2%였고 가장 높은 성능을 나타낸 믹스쳐 개수가 11인 경우 숫자열 인식률은 91.8% 오류감소율은 4.7%였다.

음성과 영상 정보를 이용한 우리말 숫자음 인식 (Digit Recognition using Speech and Image Information)

  • 이종혁;최재원
    • 한국정보통신학회논문지
    • /
    • 제6권1호
    • /
    • pp.83-88
    • /
    • 2002
  • 대부분 음성 인식 시스템에서는 음성 신호에서 추출한 특징 파라미터를 입력 정보로 하고 있다. 본 연구에서는 숫자음 인식률을 높이기 위하여 음성 인식 시스템에 음성과 영상 정보를 동시에 이용할 수 있는 방법을 제안하였다. 실험을 통하여 음성정보만을 사용한 인식결과와 음성과 영상정보를 동시에 사용한 인식결과를 비교한 결과, 음성과 영상 정보를 동시에 입력했을 때 약 6%정도의 인식률의 증가를 가져옴을 알 수 있었다. 이를 통해 숫자음 인식을 위해 음성정보만을 사용하는 것보다 영상정보를 같이 사용하는 것이 더욱 효과적임을 알 수 있었다.

연결숫자음 전화음성 인식에서의 오인식 유형 분석 (Analysis of Error Patterns in Korean Connected Digit Telephone Speech Recognition)

  • 김민성;정성윤;손종목;배건성;김상훈
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2003년도 5월 학술대회지
    • /
    • pp.115-118
    • /
    • 2003
  • Channel distortion and coarticulation effect in the connected digit telephone speech make it difficult to recognize, and degrade recognition performance in the telephone environment. In this paper, as a basic research to improve the recognition performance of Korean connected digit telephone, error patterns are investigated and analyzed. Telephone digit speech database released by SITEC with HTK system is used for recognition experiments. Both DWFBA and MRTCN methods are used for feature extraction and channel compensation, respectively. Experimental results are discussed with our findings.

  • PDF

신경회로망과 퍼지 추론에 의한 필기체 숫자 인식 (Recognition of Handwritten Digits Based on Neural Network and Fuzzy Inference)

  • 고창룡
    • 한국컴퓨터정보학회논문지
    • /
    • 제16권10호
    • /
    • pp.63-71
    • /
    • 2011
  • 본 논문은 퍼지추론을 이용하여 신경회로망의 필기체 숫자 인식 개선 방법을 제안하였고 실험을 통하여 확인하였다. 신경회로망은 학습 시간이 오래 걸리고, 학습한 패턴에서는 100% 인식률을 보였다. 그러나 신경회로망은 시험 패턴에서는 좋은 결과를 보여주지 못했다. 실험결과 신경회로망의 인식률과 오인식률이 각각 초기 89.6%, 10.4%에서 90.2%, 9.8%로 각각 향상되었다. 특히, 숫자 3과 5에서 오인식률을 크게 감소시켰다. 실험에서 퍼지 소속 함수의 추출을 숫자의 밀도로 사용하였으나 필기체 숫자는 입력 패턴이 다양하기 때문에 다양한 특성을 추출하고 복합적으로 퍼지 추론을 사용해 더 나은 인식률을 높여야 한다. 또한 퍼지추론을 엄격하게 적용하기보다는 입력 패턴을 매칭 할 때 퍼지 추론을 적용하는 것을 제안한다.

Robust Multi-Layer Hierarchical Model for Digit Character Recognition

  • Yang, Jie;Sun, Yadong;Zhang, Liangjun;Zhang, Qingnian
    • Journal of Electrical Engineering and Technology
    • /
    • 제10권2호
    • /
    • pp.699-707
    • /
    • 2015
  • Although digit character recognition has got a significant improvement in recent years, it is still challenging to achieve satisfied result if the data contains an amount of distracting factors. This paper proposes a novel digit character recognition approach using a multi-layer hierarchical model, Hybrid Restricted Boltzmann Machines (HRBMs), which allows the learning architecture to be robust to background distracting factors. The insight behind the proposed model is that useful high-level features appear more frequently than distracting factors during learning, thus the high-level features can be decompose into hybrid hierarchical structures by using only small label information. In order to extract robust and compact features, a stochastic 0-1 layer is employed, which enables the model's hidden nodes to independently capture the useful character features during training. Experiments on the variations of Mixed National Institute of Standards and Technology (MNIST) dataset show that improvements of the multi-layer hierarchical model can be achieved by the proposed method. Finally, the paper shows the proposed technique which is used in a real-world application, where it is able to identify digit characters under various complex background images.

화자 종속 한국어 숫자음 음성 인식 다이얼링 시스템 (Voice Dialing System using Speaker Dependent Recognition for Korean Digit Speech)

  • 박기영;신유식;김종교
    • 전자공학회논문지T
    • /
    • 제36T권2호
    • /
    • pp.56-62
    • /
    • 1999
  • 본 논문은 음성으로 다이얼링하는 시스템으로써, 화자종속 한국어 숫자음을 인식을 하기 위한 하드웨어를 구성한 논문이다. 음성 다이얼링 시스템은 충격계수를 이용하여 한국어 숫자음을 인식하도록 하였다. 여기서 제안한 음성 다이얼링 시스템은 적분기, 레벨분별회로 그리고 인식프로그램으로 구성하였다. 아날로그 음성 신호는 차단 주파수 4.5(kHz)를 지닌 저주파 필터를 통해 음성 다이얼링 시스템에 입력하였다. 화자 종속 한국어 숫자음 인식은 하드웨어 시스템에 의해 확실하게 인식 되었음을 확인하였다. 실험결과는 한국어 숫자음 음성인식에 대해 평균 64(%)의 인식율이 나왔고, 숫자음 /사/, /오/, /육/, /칠/, /구/, /영/에 대해서는 100(%)의 인식율을 나타내었다.

  • PDF

획의 방향 코드 조합에 의한 오프라인 필기체 숫자 인식 (Off-line Handwritten Digit Recognition by Combining Direction Codes of Strokes)

  • 이찬희;정순호
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권12호
    • /
    • pp.1581-1590
    • /
    • 2004
  • 본 논문은 한 가지 특징 요소로서 획 방향 코드들만을 사용하는 강건한 오프라인 필기체 숫자 인식 방법을 제안한다. 이 방법은 입력된 숫자 이미지에 대하여 일반적인 8방향 코드를 생성하고 이 코드들의 조합을 다층 신경망에 학습하고 각 숫자를 인식하게 한다. 8방향 코드들은 다양하게 표현된 숫자들의 자기구성 그래프(SOG*:Improved Self-Organizing Graph) 세선화 결과에 의해 만들어지고 이 코드의 사용은 2개 이상의 특징점들을 처리하는 기존의 복합적인 단계들을 단순화시킨다. 실험결과는 모든 숫자 데이타베이스의 어떤 이미지들에 대해서도 인식률이 일관성 있게 98.85% 이상임을 보여준다.

필기 숫자의 기계 인식을 위한 인간의 필기 숫자 인식 실험에 대한 고찰 (A Study on Human Recognition Experiments with Handwritten Digit for Machine Recognition of Handwritten Digit)

  • 윤성수;정현숙;이광오;이일병;이상호
    • 한국지능시스템학회논문지
    • /
    • 제18권3호
    • /
    • pp.373-380
    • /
    • 2008
  • 지금까지 기계 기반의 필기 숫자 인식 방법에 대한 많은 연구가 진행되어 왔다. 그러나 여전히 인간이 만족할 만한 인식 성능을 이루지는 못하였다. 이러한 배경에는 단순히 인식률을 나타내는 수치가 낮은 것도 한 부분을 차지 하지만, 인간이 수긍할 수 없는 오류 성향도 중요한 부분을 차지한다. 그러므로 본 논문에서는 실제 인간의 숫자 인식이 어떻게 이루어지는지를 확인하는 실험을 먼저 수행하고, 이것에 근거하여 기계 인식을 위하여 필요한 요소들이 무엇인지를 고찰하도록 하였다. 실험결과 한쪽 또는 양쪽 방향으로 혼동하는 숫자 쌍, 전혀 혼동하지 않는 숫자 쌍, 오류 발생의 중복성 등의 결과를 비교 분석하여 인간이 인식과정에서 중요하게 고려하는 특징들을 찾아냈고, 그 결과에 근거하여 기계 인식에 있어서 더 높은 인식 성능을 발휘할 수 있고, 더 나아가 인간적인 측면에서 보다 더 신뢰할 수 있는 인식결과를 이끌어 낼 수 있는 접근 방향에 대하여 제시하였다.

다양한 변별분석을 통한 한국어 연결숫자 인식 성능향상에 관한 연구 (Performance Improvement of Korean Connected Digit Recognition Using Various Discriminant Analyses)

  • 송화전;김형순
    • 대한음성학회지:말소리
    • /
    • 제44호
    • /
    • pp.105-113
    • /
    • 2002
  • In Korean, each digit is monosyllable and some pairs are known to have high confusability, causing performance degradation of connected digit recognition systems. To improve the performance, in this paper, we employ various discriminant analyses (DA) including Linear DA (LDA), Weighted Pairwise Scatter LDA WPS-LDA), Heteroscedastic Discriminant Analysis (HDA), and Maximum Likelihood Linear Transformation (MLLT). We also examine several combinations of various DA for additional performance improvement. Experimental results show that applying any DA mentioned above improves the string accuracy, but the amount of improvement of each DA method varies according to the model complexity or number of mixtures per state. Especially, more than 20% of string error reduction is achieved by applying MLLT after WPS-LDA, compared with the baseline system, when class level of DA is defined as a tied state and 1 mixture per state is used.

  • PDF

Online Digit Recognition using Start and End Point

  • Shim, Jae-chang;Ansari, Md Israfil
    • Journal of Multimedia Information System
    • /
    • 제4권1호
    • /
    • pp.39-42
    • /
    • 2017
  • Communication between human and machine is having been researched from last few decades and still it's a challenging task because human behavior is unpredictable. When it comes on handwritten digits almost each human has their own writing style. Handwritten digit recognition plays an important role, especially in the courtesy amounts on bank checks, postal code on mail address etc. In our study, we proposed an efficient feature extraction system for recognizing single digit number drawn by mouse or by a finger on a screen. Our proposed method combines basic image processing and reading the strokes of a line drawn. It is very simple and easy to implement in various platform as compare to the system which required high system configuration. This system has been designed, implemented, and tested successfully.