• Title/Summary/Keyword: Digit recognition

Search Result 202, Processing Time 0.036 seconds

Connected Digit Recognition Using Phonetical Features (음성학적 특징을 이용한 연속 숫자음인식)

  • 김민정
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.06d
    • /
    • pp.72-75
    • /
    • 1998
  • 본 논문에서는 숫자음 인식시스템의 인식률 향상을 위한 연구로서 4연속 숫자음을 대상으로 연음 현상 및 경음화 현상등과 같은 음성학적 특징을 고려하여 숫자음에 강건한 모델을 작성하는 방법을 제안하고 인식실험을 통하여 그 유효성을 확인하고자 한다. 이를 위하여 음성자료로서는 국어공학센터(KLE)에서 채록한 4연속 숫자음을 사용하며 인식의 기본단위로서 음향학적 특징을 고려한 19개의 연속분포 HMM을 유사음소 단위(Phoneme Like Units ; PLUS) 로 사용한다. 또한 , 인식실험에 있어서는 기존의 방법으로 모델을 작성한 경우와 연음 현상과 경음화 현상 등과 같은 음성학적 특징을 고려하여 모델을 작성한 경우에 대해서 유한상태 오토마타(finite State Automata ; FSA)에 의한 구문제어를 통한 OPDP(One Pass Dynamic Programming)법으로 인식실험을 수행하여 그 결과를 비교 검토하였다. 그 결과, 기존이 방법의 경우 64.6%, 음성학적 특징을 고려한 경우 68.6%의 인식률을 보여, 음성학적 특징을 고려한 경우가 4.0% 향상된 인식률을 얻어 제안한 방법의 유효성을 확인하였다.

  • PDF

Off-line Handwritten Digit Recognition Using A Dynamic 3-D Neuro System (동적 3-D 뉴로 시스템을 이용한 오프라인 필기체 숫자 인식)

  • Kim Ki Taek;Kwon Young Chul;Lee Soo Dong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2004.11a
    • /
    • pp.505-508
    • /
    • 2004
  • 본 논문은 동적 3-D 뉴로 시스템(A Dynamic 3-D Neuro System)모델을 이용하여 오프라인 필기체 숫자 인식 실험을 하였다. 3-D 뉴로 시스템 모델을 사용함으로써 기존에 교육된 정보를 유지하면서 새로운 정보를 추가할 수 있는 추가학습이 가능했고, 동일한 범주의 정보에 대해서는 반복교육 횟수에 따라 교육정도가 점점 누적되는 반복교육이 가능했다. 교육과정을 통해 누적된 정보로부터 일반화된 패턴(Generalized Pattern)을 도출해 인식시 사용할 수 있었다. 패턴 인식기는 피드백루틴을 통해 미지의 입력이미지를 원형이미지로 복원한 후, 그 결과 데이터를 사용하여 문자를 인식하도록 동작한다. NIST의 MNIST 데이터베이스를 사용해 실험을 하였고, 결과로 $99.0\%$의 정인식률을 얻었다.

  • PDF

Recognition of Digit String from Low Resolution Image by using Color Clustering and Anisotropic Diffusion (칼라 군집화 및 비등방성확산필터를 이용한 저해상도 영상에서의 숫자열 인식)

  • Park Hyun-Il;Kim Soo Hyung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2004.11a
    • /
    • pp.839-842
    • /
    • 2004
  • 자연영상에서 문자를 인식하는 연구는 활발히 진행되고 있지만 대부분 디지털 카메라나 캠코더 등으로 획득한 고해상도의 영상에서의 연구에 국한되어 있다. 휴대폰 카메라로 획득된 저해상도의 영상은 아주 적은 수의 픽셀로 정보를 표현하기 때문에 기존의 이진화 알고리즘으로는 문자와 배경을 깨끗하게 분리해 낼 수 없다. 본 논문은 영상의 칼라정보를 K-Means 클러스터링을 이용하여 전경과 배경으로 이진화 하였으며, 이진화 성능을 향상시키기 위해 지능형 주파수 필터와 비등방성 확산 필터를 사용하였다. 또한 입력영상을 파이프라인 구조의 이진화 및 인식 시스템에 인식시킴으로써 인식성능을 향상시켰다.

  • PDF

Efficient Construction and Training Multilayer Perceptrons by Incremental Pattern Selection (점진적 패턴 선택에 의한 다충 퍼셉트론의 효율적 구성 및 학습)

  • Jang, Byeong-Tak
    • The Transactions of the Korea Information Processing Society
    • /
    • v.3 no.3
    • /
    • pp.429-438
    • /
    • 1996
  • An incremental learning algorithm is presented that constructs a multilayer perceptron whose size is optimal for solving a given problem. Unlike conventional algorithms in which a fixed size training set is processed repeat-edly, the method uses an increasing number of critical examples to find a necessary and sufficient number of hidden units for learning the entire data. Experimental results in hand- writtern digit recognition shows that the network size optimization combined with incremental pattern selection generalizes significantly better and converges faster than conventional methods.

  • PDF

Noise Reduction for Korean Connected Digit Recognition through Telephone Channel (전화망 환경에서 한국어 숫자음 인식을 위한 잡음처리)

  • Kim Kyuhong;Kim Hoirin
    • Proceedings of the KSPS conference
    • /
    • 2003.05a
    • /
    • pp.211-214
    • /
    • 2003
  • 일반적으로 음성 인식에서의 성능은 잡음의 영향으로 인하여 저하된다. 전화망을 통한 한국어 연속 숫자음 인식은 음성인식 분야에 있어서 어려운 영역에 속하는데, 이는 조음 현상으로 인한 인식률 저하되는 점과 전화망 채널의 영향으로 인하여 스펙트럼 포락이 왜곡되며 음성신호의 대역폭이 제한되기 때문이다. 본 논문에서는 잡음의 영향을 줄이기 위하여, 2WF(2-stage Wiener Filter) 와 SWP (SNR-dependent Waveform Processing) 그리고 CMN(Cepstrum Mean Normalization)을 사용하였다. 2WF는 음성 신호의 포만트 구조를 적게 왜곡시키면서 전체적인 가산잡음 뿐만 아니라 동적 가산잡음도 줄여준다. SWP는 음성파형에서 SNR값이 상대적으로 큰 부분을 강조하여 전체적인 SNR을 향상시킬 수 있다. 또한, CMN은 특징벡터로부터 채널잡음의 영향을 정규화하여 음성 인식 성능을 향상시킨다. 이러한 방법들을 전화망 한국어 연속 숫자음 DB를 이용하여 실험한 결과, 음성신호의 왜곡을 최소화하면서 잡음의 영향을 줄여 전화망에서의 숫자음 인식 성능을 향상시킬 수 있었다.

  • PDF

Common Speech Database Collection for Telecommunications (통신망환경 한국어 공통음성 DB 구축)

  • Kim Sanghun;Park Moonwhan;Kim Hyunsuk
    • Proceedings of the KSPS conference
    • /
    • 2003.05a
    • /
    • pp.23-26
    • /
    • 2003
  • This paper presents common speech database collection for telecommunication applications. During 3 year project, we will construct very large scale speech and text databases for speech recognition, speech synthesis, and speaker identification. The common speech database has been considered various communication environments, distribution of speakers' sex, distribution of speakers' age, and distribution of speakers' region. It consists of Korean continuous digit, isolated words, and sentences which reflects Korean phonetic coverage. In addition, it consists of various pronunciation style such as read speech, dialogue speech, and semi-spontaneous speech. Thanks to the common speech databases, the duplicated resources of Korean speech industries are prohibited. It encourages domestic speech industries and activate speech technology domestic market.

  • PDF

Implementation of Handwriting Number Recognition using Convolutional Neural Network (콘볼류션 신경망을 이용한 손글씨 숫자 인식 구현)

  • Park, Tae-Ju;Song, Teuk-Seob
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2021.05a
    • /
    • pp.561-562
    • /
    • 2021
  • CNN (Convolutional Neural Network) is widely used to recognize various images. In this presentation, a single digit handwritten by humans was recognized by applying the CNN technique of deep learning. The deep learning network consists of a convolutional layer, a pooling layer, and a platen layer, and finally, we set an optimization method, learning rate and loss functions.

  • PDF

The Verify of Memory Improvement by Gastrodia Elata Blume Depends on the Amount (천마의 용량에 따른 기억력 향상 효과에 대한 연구)

  • Kim, Ha-Na;Kim, Ji-Eun;Jeong, Jong-Kil;Kim, Jeong-Sang;Kim, Kyeong-Ok
    • Journal of Oriental Neuropsychiatry
    • /
    • v.25 no.3
    • /
    • pp.243-252
    • /
    • 2014
  • Objectives: This study was designed to investigate the dose-dependent effects of Gastrodia elata Blume for memory improvement. Methods: This study was a 12-weeks, double blind, and comparative clinical study. Those who were eligible worked with a group of healthy seniors, all 60 years of age or older. 22 subjects were randomized either to Gastrodia elata Blume powder form that was steeped in hot water or placebo. We measured the faculty of memory by using MMSE-K, Digit Span, Letter Fluency Test, Word List Memory Test, and Trail Making Test, and again after 12 weeks. Results: 1) Neither Gastrodia elata Blume groups nor control have a difference in MMSE-K, Digit Span, Letter Fluency Test, and Trail Making Test. 2) Gastrodia elata Blume group showed significant advances in immediate recall 1 and 2 of Word List Memory Test, and 3 g group show better results than the 4 g group. 3) 4 g Gastrodia elata Blume group showed significant advances in the recognition of Word List Memory Test. Conclusions: The results suggest that positive effects on memory improvement due to Gastrodia elata Blume depend on the amount.

Implementation of handwritten digit recognition CNN structure using GPGPU and Combined Layer (GPGPU와 Combined Layer를 이용한 필기체 숫자인식 CNN구조 구현)

  • Lee, Sangil;Nam, Kihun;Jung, Jun Mo
    • The Journal of the Convergence on Culture Technology
    • /
    • v.3 no.4
    • /
    • pp.165-169
    • /
    • 2017
  • CNN(Convolutional Nerual Network) is one of the algorithms that show superior performance in image recognition and classification among machine learning algorithms. CNN is simple, but it has a large amount of computation and it takes a lot of time. Consequently, in this paper we performed an parallel processing unit for the convolution layer, pooling layer and the fully connected layer, which consumes a lot of handling time in the process of CNN, through the SIMT(Single Instruction Multiple Thread)'s structure of GPGPU(General-Purpose computing on Graphics Processing Units).And we also expect to improve performance by reducing the number of memory accesses and directly using the output of convolution layer not storing it in pooling layer. In this paper, we use MNIST dataset to verify this experiment and confirm that the proposed CNN structure is 12.38% better than existing structure.

Performance Improvement of Mel-Cepstrum Through Optimzing Filter Banks (필터 뱅크 최적화에 의한 멜켑스트럼의 성능 향상)

  • 현동훈;이철희
    • The Journal of the Acoustical Society of Korea
    • /
    • v.18 no.1
    • /
    • pp.78-85
    • /
    • 1999
  • In this paper we propose a method to improve the performance of the mel-cepstrum that is widely used in speech recognition. Typically, the met-cepstrum is obtained by critical band filters that have fixed center spacing and bandwidth. However different filter characteristics produce a different mel-cepstrum, resulting in a different performance. In this paper we analyze triangular-shaped and rectangular-shaped filters. By changing the characteristics of filters such as center frequency and bandwidth, we analyze the performance of the met-cepstrum. Then utilizing the simplex method, we propose a method to optimize the critical band filters. Using the dynamic time warping, we performed speaker independent recognition experiments with Korean digit words pronounced by 10 males and 10 females. Experiments show that the rectangular-shaped filters show good performance and the mel-cepstrum obtained by the optimized filters shows better performance than filters that have fixed center spacing and bandwidth.

  • PDF