• 제목/요약/키워드: Isolated word

검색결과 156건 처리시간 0.023초

Modified ISODATA 방법을 이용한 불특정화자 단독어 인식 (Speaker-Independent Isolated Word Recognition Using A Modified ISODATA Method)

  • 황우근;안태옥;이형준;김순협
    • 한국음향학회지
    • /
    • 제6권4호
    • /
    • pp.31-43
    • /
    • 1987
  • 본 논문은 불특정화자의 한국어 단독음인식에 관한 연구로써, 새로운 집단화 방법인 Modified-ISODATA 집단화 방법을 제안한다. 제안된 방법은 종래의 ISODATA 알고리즘에서 외부 고립점 처리 및 분리과정을 단순화 하여, 정확하고도 자동화된 집단의 중심점을 찾는 것을 목적으로 한다. 본 알고리즘을 적용한 결과, 10명의 남성 화자와 4명의 여성 화자가 발음한 11개의 숫자음에 대하여, 최근에 발표된 Modified K-means 방법보다 좋은 인식율을 나타내어, 보다 정확한 집단의 중심점을 찾아내었음을 입증해 보였다.

  • PDF

인지적 청각 특성을 이용한 고립 단어 전화 음성 인식 (Isolated-Word Speech Recognition in Telephone Environment Using Perceptual Auditory Characteristic)

  • 최형기;박기영;김종교
    • 대한전자공학회논문지TE
    • /
    • 제39권2호
    • /
    • pp.60-65
    • /
    • 2002
  • 본 논문에서는, 음성 인식률 향상을 위하여 청각 특성을 기반으로 한 GFCC(gammatone filter frequency cepstrum coefficients) 파라미터를 음성 특징 파라미터로 제안한다. 그리고 전화망을 통해 얻은 고립단어를 대상으로 인식실험을 수행하였다. 성능비교를 위하여 MFCC(mel frequency cepstrum coefficients)와 LPCC(linear predictive cepstrum coefficient)를 사용하여 인식 실험을 하였다. 또한, 각 파라미터에 대하여 전화망의 채널 왜곡 보상기법으로 CMS(cepstral mean subtraction)를 도입한 방법과 적용시키지 않은 방법으로 인식실험을 하였다. 실험 결과로서, GFCC를 사용하여 인식을 수행한 방법이 다른 파라미터를 사용한 방법에 비해 향상된 결과를 얻었다.

자동 교환 시스템을 위한 실시간 음성 인식 구현 (An Implementation of the Real Time Speech Recognition for the Automatic Switching System)

  • 박익현;이재성;김현아;함정표;유승균;강해익;박성현
    • 한국음향학회지
    • /
    • 제19권4호
    • /
    • pp.31-36
    • /
    • 2000
  • 본 논문에서는 음성 인식을 이용한 자동 교환 시스템을 구현하고, 성능을 평가하였다. 이 시스템은 다수의 구성원과 조직 체계를 가지는 관공서나 일반 기업, 학교 등의 교환 서비스를 음성 인식을 통하여 자동으로 제공한다. 본 시스템에 사용된 음성 인식기는 SCHMM(Semi-Continuous Hidden Markov Model) 기반으로 한 전화망에서의 화자 독립 고립 단어 가변 어휘인식기(Speaker-Independent, Isolated-Word, Flexible-Vocabulary Recognizer)이며, 실시간 구현을 위해 사용한 DSP(Digital Signal Processor)는 Texas Instrument 사의 TMS320C32이다. 자동 교환 서비스를 위하여 음성 인식 기능 외에도 음성 인식 DSP 진단 기능과 인식 대상 어휘의 추가 및 변경을 위한 운용 단말을 구현하여 운용의 편의성을 추구하였다. 본 시스템의 인식 실험은 음성 인식 구내 자동 교환 시스템용 1300여 어휘(부서명, 인명 등)에 대해서 8명의 화자가 유선 전화망에서 수행하였으며 인식률은 91.5%이다.

  • PDF

신경 회로망을 이용한 연속 음성에서의 keyword spotting 인식 방식에 관한 연구 (A study on the Method of the Keyword Spotting Recognition in the Continuous speech using Neural Network)

  • 양진우;김순협
    • 한국음향학회지
    • /
    • 제15권4호
    • /
    • pp.43-49
    • /
    • 1996
  • 본 논문은 keyword spotting 기술을 이용한 247개의 DDD 지역명을 인식 대상으로 하여 화자 독립의 한국어 연속 음성인식을 위한 시스템을 제안하였다. 적용된 인식 알고리즘은 음성에서 시간축의 변화와 스펙트럼의 왜곡을 흡수할 수 있는 모델로 DP와 MLP로 구성된 동적 프로그래밍 신경회로망(DPNN)을 사용하였다. 이와 같은 실험을 위해 단어 모델을 만들고 이에 대한 단어 모델을 keyword 모델과 non-keyword 모델로 구분하여 성능을 향상시킬 수 있도록 하였다. 또한 잘못된 결과를 출력시키지 않기 위해서 후처리 과정을 두고 실험을 하였다. 실험결과, 단독어에 대한 화자 종속 실험은 93.45%의 결과를 보였고, 단독어에 대한 화자 독립 실험은 84.05%의 실험결과를 보였으며, 가장 중요한 간단한 대화체 문장의 keyword spotting 실험은 화자 종속으로 77.34%의 결과를 보였으며, 화자 독립 실험은 70.63%의 결과를 얻었다.

  • PDF

MSVQ를 이용한 HMM에 의한 단독어 인식 (Isolated Word Recognition By HMM using Multisection MSVQ)

  • 안태옥;변용규;김순협
    • 대한전자공학회논문지
    • /
    • 제27권9호
    • /
    • pp.1468-1475
    • /
    • 1990
  • In this paper, isolated words are recognized using multisection VQ and HMM. As recognition vocabuaries, 20 area-name which is uttered 5 times by 3 speakers is selected. In generating codebook, we devide recognition vocabulary into equal length, section, and make standard VQ codebook to each section and calculate observation by section and than recognize isolated words by HMM training. Multisection VQ codebook has time information and as observation is calculated by eacy section, computation is lesser and recongnition rate is higher than by whole codword. As a result, it is proved that recognition rate is higher in case of HMM using multisection VQ codebook.

  • PDF

Acquisition of English Voiced Stop in Word Initial Position : Correlation with Vowel Height

  • Yoon, Su-yeon;Seo, Min-kyong;Song, Yoon-Kyoung
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2000년도 7월 학술대회지
    • /
    • pp.199-199
    • /
    • 2000
  • Korean stops are 3 system: aspirated, fortis, lenis, whereas English stops are 2 system: voiced, voiceless. Because in Korean, lenis stop is realized by slight aspirated voiceless stop, it is likely to produce English word initial voiced stop as voiceless stop. We divide subjects into three group-native, experienced, unexperienced- and investigate differences between group. VOT of experienced group IS same as native group, but VOT of unexperienced group is longer than native group. VOt of unexperienced group is 1.8 times than native group. We survey whether the height of following vowel influences VOT of initial stop. As a result, for all group, VOT followed by low vowel is shorter than VOT followed by high vowel. But this tendency is more salient in unexperienced group. For high vowel, VOT of unexperienced group is 2.05 times than native group, whereas for low vowel, it is just 1.55 times. The unexperienced pronounce well English word initial voiced stop followed by low vowel than high vowel. Samples are divided into two group according to type of coda consonant- nasal and voiceless stop. But average of VOT is similar and there is no significant difference between two groups. There is no influence by type of coda consonant. The average of phrases is compared to the average of isolated words. In the case of natives and experienced, there is no significant differences between phrases and words, but in the case of unexperienced, VOT of phrases becomes shorter than words. But VOT of unexperienced is still longer than native group.

  • PDF

가변프레임 길이정규화를 이용한 단어음성인식 (Isolated-Word Speech Recognition using Variable-Frame Length Normalization)

  • 신찬후;이희정;박병철
    • 한국음향학회지
    • /
    • 제6권4호
    • /
    • pp.21-30
    • /
    • 1987
  • 단어음성인식에서 발성속도의 차이에 따른 단어음성 길이의 비선형적 변화는 정확한 인식을 어렵게 하는 주요한 원인이 되어 왔다. DP매칭은 시간축의 비선형 신축에 의해 시간정규화를 행함으로써 인식결과에 대한 신뢰성을 상당히 높였으나 시간정규화 파정에 요구되는 과도한 계산부담이 문제로 되어 있다. 본 논문에서는 시간정규화가 필요없는 방법으로 멀티섹션벡터양자화에 새로운 길이정규화법을 적용하는 방법을 제안한다. 이 방법은 종래의 고정프레임 길이정규화에 의해 멀티섹션코드북을 작성할 때보다. 정규화길이의 실정에 훨씬 융통성을 가질 수 있으므로 분석 및 거리계산의 양면에서 시간 단축을 가능케 하여 좀더 신속히 인식결과를 얻을 수 있는 장점이 있다

  • PDF

Neural-HMM을 이용한 고립단어 인식 (Isolated-Word Recognition Using Neural Network and Hidden Markov Model)

  • 김연수;김창석
    • 한국통신학회논문지
    • /
    • 제17권11호
    • /
    • pp.1199-1205
    • /
    • 1992
  • 본 논문에서는 HMM(Hidden Markov Models)에서 문제점이 되는 개인차에의한 변동을 흡수하고, 적은 학습 데이타로서 인식률을 향상시키기 위하여 신경회로망을 이용한 NN-HMM(Neural Network Hidden Makov Models)에 의해 한국어 인식에 관하여 연구하였다. 이 방법은 HMM과 신경회로망의 출력을 각각 독립적인 인식값으로 가정하여 두 시스템의 확률곱으로 서로 보정되어 최대 인식확률의 음성모델을 인식하는 음성인식 시스템이다. 본 방법의 타당성을 평가하기 위하여 남, 여화자가 28개의 DDD 지역명을 발성한 음성데이타로 실험한 결과, 이산분포 HMM에 의한 방법에서는 91[%], 신경회로망에 의한 방법에서는 89[%], 제안된 방법에서는 95[%]의 향상된 인식률을 얻으므로써 인식성능의 우수함을 확인하였다.

  • PDF

Speech Recognition in Car Noise Environments Using Multiple Models Based on a Hybrid Method of Spectral Subtraction and Residual Noise Masking

  • Song, Myung-Gyu;Jung, Hoi-In;Shim, Kab-Jong;Kim, Hyung-Soon
    • The Journal of the Acoustical Society of Korea
    • /
    • 제18권3E호
    • /
    • pp.3-8
    • /
    • 1999
  • In speech recognition for real-world applications, the performance degradation due to the mismatch introduced between training and testing environments should be overcome. In this paper, to reduce this mismatch, we provide a hybrid method of spectral subtraction and residual noise masking. We also employ multiple model approach to obtain improved robustness over various noise environments. In this approach, multiple model sets are made according to several noise masking levels and then a model set appropriate for the estimated noise level is selected automatically in recognition phase. According to speaker independent isolated word recognition experiments in car noise environments, the proposed method using model sets with only two masking levels reduced average word error rate by 60% in comparison with spectral subtraction method.

  • PDF

다중 관측열을 토대로한 HMM에 의한 음성 인식에 관한 연구 (A study on the speech recognition by HMM based on multi-observation sequence)

  • 정의봉
    • 전자공학회논문지S
    • /
    • 제34S권4호
    • /
    • pp.57-65
    • /
    • 1997
  • The purpose of this paper is to propose the HMM (hidden markov model) based on multi-observation sequence for the isolated word recognition. The proosed model generates the codebook of MSVQ by dividing each word into several sections followed by dividing training data into several sections. Then, we are to obtain the sequential value of multi-observation per each section by weighting the vectors of distance form lower values to higher ones. Thereafter, this the sequential with high probability value while in recognition. 146 DDD area names are selected as the vocabularies for the target recognition, and 10LPC cepstrum coefficients are used as the feature parameters. Besides the speech recognition experiments by way of the proposed model, for the comparison with it, the experiments by DP, MSVQ, and genral HMM are made with the same data under the same condition. The experiment results have shown that HMM based on multi-observation sequence proposed in this paper is proved superior to any other methods such as the ones using DP, MSVQ and general HMM models in recognition rate and time.

  • PDF