• Title/Summary/Keyword: 모음 정규화

Search Result 19, Processing Time 0.024 seconds

Character Recognition of Vehicle Number Plate Using Feature Based Neural Network (특징 추출에 기반한 신경망 시스템을 이용한 차량 번호판 문자인식)

  • 이현숙;김희승
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10b
    • /
    • pp.383-385
    • /
    • 2000
  • 차량 번호판 문자영상으로부터 여러 가지 특징 추출 방법을 조합하여 입력특징소를 재구성하고, 신경망을 이용하여 문자를 인식한다. 속도 개선을 위해 특별한 전처리 과정없이 이치화와 크기 정규화만을 수행한 후 그물망 방법과 BLT 방법, 정규화된 투영값 특정 방법을 조합하여 입력특징소를 구성한다. 본 연구에서는 숫자 인식에서 그물망 방법과 BLT 방법을 이용하여 잡음으로 인한 유사 문자의 오인식을 해결하였고, 문자 인식에서는 정규화된 투영값 특징을 이용하여 문자의 유형을 분류한 후 자소를 개별적으로 인식하였다. 이로써 모음 인식 경우에 중요한 역할을 하는 작은 획의 영역에 BLT 방법을 사용함으로 기존 연구에서의 모음 오인식 문제를 해결하였다.

  • PDF

On the Classification of Voice Sound and the Recognition of Vowels for Korean Continuous Speech (한국어 연속음인식에 관한 연구(유성음 분류 및 단모음 인식 ))

  • 하판봉;이철희;방승찬;안수길
    • The Journal of the Acoustical Society of Korea
    • /
    • v.5 no.3
    • /
    • pp.28-35
    • /
    • 1986
  • 우리나라 음성의 유성음을 모음, 비음 및 유성화 자음으로 분류하는 알고리즘을 기술하였다. 먼 저 기존의 PITCH 검출 알고리즘에 의하여 음성을 유성음과 무성음으로 나눈 뒤, 단지 정규화된 1차 상 관계수, 영교차율, LOG 에너지 및 LPG 에너지의 골짜기 검출만을 이용하여, 유성음은 모음, 비음 및 유 성화자음으로 분류하고 무성음은 실제의 무성음과 묵음으로 분류하였다. 그리고 이렇게 분류된 모음에 대하여 단모음 인식을 행하였다. 단지 한 FRAME으로 모음을 대표하였기 때문에 메모리 크기와 인식 시간을 줄였다. 여기서 UP & DOWN 및 수정된 영교차율을 새로이 정의하여 적용한 결과 만족한 결과 를 얻을 수 있었다. LPC 매개변수 및 전력 스펙트럼도 단모음 인식의 FEATURE로 사용하였다. 그리고 각 FEATURE 의 성능을 비교하였다. 이들 FEATURE을 잘 조합하여 2단계 인식을 행한 결과 92%의 높은 인식율을 얻을 수 있었다.

  • PDF

Vector Quantizer Based Speaker Normalization for Continuos Speech Recognition (연속음성 인식기를 위한 벡터양자화기 기반의 화자정규화)

  • Shin Ok-keun
    • The Journal of the Acoustical Society of Korea
    • /
    • v.23 no.8
    • /
    • pp.583-589
    • /
    • 2004
  • Proposed is a speaker normalization method based on vector quantizer for continuous speech recognition (CSR) system in which no acoustic information is made use of. The proposed method, which is an improvement of the previously reported speaker normalization scheme for a simple digit recognizer, builds up a canonical codebook by iteratively training the codebook while the size of codebook is increased after each iteration from a relatively small initial size. Once the codebook established, the warp factors of speakers are estimated by comparing exhaustively the warped versions of each speaker's utterance with the codebook. Two sets of phones are used to estimate the warp factors: one, a set of vowels only. and the other, a set composed of all the Phonemes. A Piecewise linear warping function which corresponds to the estimated warp factor is adopted to warp the power spectrum of the utterance. Then the warped feature vectors are extracted to be used to train and to test the speech recognizer. The effectiveness of the proposed method is investigated by a set of recognition experiments using the TIMIT corpus and HTK speech recognition tool kit. The experimental results showed comparable recognition rate improvement with the formant based warping method.

Design & Implementation of Speechreading System using the Face Feature on the Korean 8 Vowels (얼굴 특징점을 이용한 한국어 8모음 독화 시스템 구축)

  • Kim, Sun-Ok;Lee, Kyong-Ho
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2009.01a
    • /
    • pp.135-140
    • /
    • 2009
  • 본 논문은 한국어 8 단모음을 인식하는 자동 독화 신경망 시스템을 구축한 것이다. 얼굴의 특정들은 휘도와 채도 성분으로 인하여 다양한 색 공간에서 다양한 표현 값을 갖는다. 이를 이용하여 각 표현 값들을 증폭하거나 축소, 대비시킴으로서 얼굴 특정들을 추출되게 하였다. 눈과 코, 안쪽 입의 외곽선, 이의 외곽선을 찾았고, 그 후 한국어 8모음 발화시 구분되게 변화는 값들을 파라미터로 설정하였다. 한국어 8모음을 발화하는 2400개의 자료를 모아 분석하고 이 분석을 바탕으로 신경망 시스템을 구축하여 실험하였다. 이 실험에 정상인 5명이 동원되었고, 사람들 사이에 있는 관찰 오차를 정규화를 통하여 수정하였다. 5명으로 분석하였고, 5명으로 인식 실험하여 좋은 결과를 얻었다.

  • PDF

Phoneme Separation and Establishment of Time-Frequency Discriminative Pattern on Korean Syllables (음절신호의 음소 분리와 시간-주파수 판별 패턴의 설정)

  • 류광열
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.16 no.12
    • /
    • pp.1324-1335
    • /
    • 1991
  • In this paper, a phoneme separation and an establishment of discriminative pattern of Korean phonemes are studied on experiment. The separation uses parameters such as pitch extraction, glottal peak pulse width of each pitch. speech duration. envelope and amplitude bias. The first pitch is extracted by deviations of glottal peak and width. energy and normalization on a bias on the top of vowel envelope. And then, it traces adjacent pitch to vowel in whole. On vewel, amethod to be reduced gliding pattern and the possible of vowel distinction to be used just second formant are proposed, and shrinking pitch waveform has nothing to do with pitch length is estimated. A pattern of envelope, spectrum, shrinking waveform, and a method of analysis by mutual relation among phonemes and manners of articulation on consonant are detected. As experimental results, 90% on vowel phoneme, 80% and 60% on initial and final consonant are discriminated.

  • PDF

A Study on the Classification of Hand-written Korean Character Types using Hough Transform (Hough Transform을 이용한 한글 필기체 형식 분류에 관한 연구)

  • 구하성;고경화
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.19 no.10
    • /
    • pp.1991-2000
    • /
    • 1994
  • In this paper, an alagorithm with six types of classification is suggested for the recognition system of hand-written Korean characters. After thinning process and truncating process for noise redection. The input images are used generalized by $64\times64$ size. The six type classification is composed of preliminary and secondary classification process by using the learning algoritm of multi-layer perceptron. Subblock Hough transform is used as local feature and sampling Hough transform is used as global feature. Experiment is conducted for 1800 characters which is written 31 times per each type by 10 persons. The 90% recognition rate is resulted by the preliminary classification of detection the final consonant and by the secondary classification of detecting the vowels.

  • PDF

An Analysis on the Phoneme Duration Modeling For the Trainable TTS System (Trainable TTS System을 위한 음운 지속시간 모델링)

  • Seo Jiln;Lee Yanghee
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • autumn
    • /
    • pp.109-112
    • /
    • 2001
  • 본 논문에서는 한국어 Trainable TTS System의 자연스러운 음성 합성을 위해 400문장(어절수 : 6,220, 음운수: 총43,701: 자음 23,899,모음: 19,802)에 대하여 단일 남성화자가 발성한 문 음성 데이터를 음운레벨세그먼트, 음운 라벨링 ,어절간의 띄어쓰기 ,어절에 대한 음운별 품사가 태깅된 문 음성 코퍼스를 사용하여 음운 환경과 품사에 의하여 음운의 지속시간이 어떻게 변화하는가에 대하여 통계적으로 분석하였다. 그리고 음운 지속시간을 보다 정교하게 예측하기 위하여, 각 음운에 대한 고유 지속시간의 영향이 배제된 정규화 음운지속시간에 대한 회귀트리를 이용하여 정규화 지속시간에 영향을 미치는 특징요소들 간의 관계를 통계적인 방법으로 분석하였다. 그 결과 문법적인 특징요소를 나타내는 요소들간에 서로 상관이 높게 나타나는 것을 알 수 있었다 그리고 이러한 경우 유사한 특징 요소들간에 상관이 1에 가까울 정도로 상관이 높은 요소들의 경우 예측지수가 낮은 요소들을 제거하여도 지속시간변화에 영향을 미치지 못하는 것으로 나타났다. 그 결과 문법적 성질이 유사한 특징 요소들을 회귀트리를 통해 모델링할 경우에 요소들간의 상관정도를 분석하여 최소한의 특징요소들을 선택 할 수 있는 방법을 제시하였다 그리고 이를 토대로 한 정규화 회귀트리의 모델링이 지속시간 회귀트리 모델링보다 우수함을 입증하였다.

  • PDF

Design & Implementation of Lipreading System using the Articulatory Controls Analysis of the Korean 5 Vowels (<<한국어 5모음의 조음적 제어 분석을 이용한 자동 독화에 관한 연구>>)

  • Lee, Kyong-Ho;Kum, Jong-Ju;Rhee, Sang-Bum
    • Journal of the Korea Computer Industry Society
    • /
    • v.8 no.4
    • /
    • pp.281-288
    • /
    • 2007
  • In this paper, we set 6 interesting points around lips. Analyzed and characterized is the distance change of these 6 interesting points when people pronounces 5 vowels of Korean language. 450 data are gathered and analyzed. Based on this analysis, the system is constructed and the recognition experiments are performed. In this system, we used the camera connected to computer to measure the distance vector between 6 interesting points. In the experiment, 80 normal persons were sampled. The observational error between samples was corrected using normalization method. We analyzed with 30 persons and experimented with 50 persons. We constructed three recognition systems and of those the neural net system gave the best recognition result of 87.44 %.

  • PDF

Speech Recognition Using Formant Bandwidth Normalization (포만트 밴드폭 정규화를 이용한 음성인식)

  • 홍종진;강석건;박군작;박규태
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.16 no.5
    • /
    • pp.458-467
    • /
    • 1991
  • In this paper, the cause of linear prediction error is analysed and the theoretical basis for nomalizing the format bandwidth to 0is given and its validity is verified. The formant and bandwidth in relation to the position of the poles of AR filter are measured for an alaysis of the relation between the pole position and the formant bandwidth. By changing the glottis reflection coefficient to 1. the pole position and the formant bandwidth. By changing the glottis reflection coefficient to 1. the effect of the glottis is eliminated and as the result a new linear preiction coefficients are obtained by normalizing the formant bandwidth of the signal to 0. since these coefficients are symmetrical, the standard deviation is larger than the coefficients with fixed glottis reflection coefficient. The bit rate for speech coding can be reduced by a factor of 2 without any loss of information. Through computer simulation, recognition rate of 96.7% is botained by using the proposed algorithm in recognizing 5 Korean vowels in noisy environment.

  • PDF