• Title/Summary/Keyword: 음소 단위

Search Result 178, Processing Time 0.019 seconds

State-Dependent Weighting of Multiple Feature Parameters in HMM Recognizer (HMM 인식기에서 상태별 다중 특징 파라미터 가중)

  • 손종목;배건성
    • The Journal of the Acoustical Society of Korea
    • /
    • v.18 no.4
    • /
    • pp.47-52
    • /
    • 1999
  • In this paper, we proposed a new approach to weight each feature parameter by considering the dispersion of feature parameters and its degree of contribution to recognition rate. We determined the total distribution factor that is proportional to recognition rate of each feature parameter and the dispersion factor according to the dispersion of each feature parameter. Then. we determined state-dependent weighting using the total distribution factor and dispersion factor. To verify the validity of the proposed approach, recognition experiments were performed using the PLU(Phoneme-Like Unit)-based HMM. Experimental results showed the improvement of 7.7% at the recognition rate using the proposed method.

  • PDF

A Study on Speech Recognition System Using Continuous HMM (연속분포 HMM을 이용한 음성인식 시스템에 관한 연구)

  • Kim, Sang-Duck;Lee, Geuk
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 1998.10a
    • /
    • pp.221-225
    • /
    • 1998
  • 본 논문에서는 연속분포(Continuous) HMM(hidden Markov model)을 기반으로 하여 한국어 고립단어인식 시스템을 설계, 구현하였다. 시스템의 학습과 평가를 위해 자동차 항법용 음성 명령어 도메인에서 추출한 10개의 고립단어를 대상으로 음성 데이터 베이스를 구축하였다. 음성 특징 파라미터로는 MFCCs(Mel Frequency Cepstral Coefficients)와 차분(delta) MFCC 그리고 에너지(energy)를 사용하였다. 학습 데이터로부터 추출한 18개의 유사 음소(phoneme-like unit : PLU)를 인식단위로 HMM 모델을 만들었고 조음 결합 현상(채-articulation)을 모델링 하기 위해 트라이폰(triphone) 모델로 확장하였다. 인식기 평가는 학습에 참여한 음성 데이터와 학습에 참여하지 않은 화자가 발성한 음성 데이터를 이용해 수행하였으며 평균적으로 97.5%의 인식성능을 얻었다.

  • PDF

Development of a Speech Recognition System uSing e++ Language and Standard library (C++ 언어와 Standard Library 를 이용한 음성인식기 개발)

  • 황규웅
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.08a
    • /
    • pp.74-77
    • /
    • 1998
  • 우리는 C++를 이용하여 음성인식기를 구현하여 기존의 C를 이용한 경우에 비하여 30% 수준의 소스로 표현하였고 인식기의 공동개발, 확장 및 개선, 기술 전수 등이 용이하게 되었으며 이를 음성인식 엔진 및 음성인식 연구를 위한 툴로 사용할 수 있게 되었다. 이 인식기의 특징으로는 연속 음성 및 대화체 음성을 인식할 수 있으며 trigram 언어 모델을 사용하였고 문맥 종속 음소 모델링에서는 기존의 triphone 보다 넓은 문맥을 고려한 n-phone context modeling을 사용하였으며 모델의 선정에는 음성학적 지식을 기반으로 한 질문을 사용한 decision tree를 사용하여 훈련에 나타나지 않은 단어나 문맥인 경우라도 가장 가까운 모델을 선정할 수 있게 하였다. 또, tree lexicon을 사용하여 속도를 개선하였으며 state 단위의 모델 공유를 통해 제한된 데이터를 이용하여 더 많은 모델을 훈련할 수 있어 성능을 개선하였다. 상용화를 염두에 두고 pc에서 구현하였다.

  • PDF

A Study of Telephone Digit Recognition Using CHMM (CHMM을 이용한 전화번호 인식에 관한 연구)

  • 이성권
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.08a
    • /
    • pp.31-34
    • /
    • 1998
  • 본 연구는 음소 단위의 CHMM을 이용한 연속어 숫자음 인식에 관한 내용이다. ETRI 445 데이터를 사용하여 초기의 모델은 ML 추정법을 이용하여 작성하였고 적응화를 위해 최대 사후 확률 추정법을 사용하였다. 또한 한국어 숫자음 음성의 음향학적 특성을 고려하여 발성 사전을 작성하였고 음절 다누이로 되어있는 한국어 숫자음의 모든 경우를 고려하여 복수개의 단어를 사전에 등록하였다. 또한 적응화 학습에 있어서 숫자음의 앞 뒤 모든 경우를 고려하여 작성한 21 종류의 7자리 전화번호 숫자음 DB로 사용하였고 이의 효율성을 입증하기 위하여 ETRI에서 작성한 35종류의 4연속 숫자음 목록을 대상으로 인식실험을 수행하였다. 그 결과 5인의 화자에 대하여 4연속 숫자음에 대하여 96%의 인식률을 보이고 있으며 7연속 숫자음에 대하여도 약 91%의 결과를 보여주고 있다. 또한 후처리를 두어 연음 현상으로 인한 오인식의 경우에 대해서도 약 2%의 인식률의 증가를 보여주었다.

  • PDF

The Development of a Speech Recognition System with Large Channel over the PSTN and it's Field Trial (대용량 음성인식 전화정보시스템 개발 및 시험운용)

  • 장경애
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.08a
    • /
    • pp.43-47
    • /
    • 1998
  • 대용량, 대어휘, 화자독립 음성인식시스템의 개발과 1998년 3월 16일부터 일반인들을 대상으로 시험운용하고 있는 음성인식 증권서비스에 대한 것이다. 이 시스템은 상용서비스를 위하여 한 대당 120명이 동시에 사용할 수 있는 대용량 시스템으로 HMM 기술에 기반을 둔 고립단어 인식 시스템이다. 이 시스템은 음소를 기본 인식단위로 사용하여 인식단어의 추가 및 변경이 자유로우며, 추가 또는 변경된 회사명칭을 운용자의 개입 없이 자동적으로 시스템에 반영될 수 있다. 본 서비스의 개발과정에서 인식대상단어를 결정하는데 발생된 문제점과 인식단어의 변경방법 및 적용후의 효과 등을 살펴보았다.

  • PDF

Noise Processing for Speech Recognition in the Telephone Line (음성 인식을 위한 전화망에서의 잡음처리)

  • 전원석;신원호;양태영;김원구;윤대희
    • The Journal of the Acoustical Society of Korea
    • /
    • v.17 no.1
    • /
    • pp.4-8
    • /
    • 1998
  • 본 논문에서는 다양한 전화선 채널을 통하여 수집된 음성 데이터에 포함된 잡음 및 채널 왜곡을 제거하여 음성인식 시스템의 성능을 향상시키는 방법에 관하여 연구하였다. 전 화선을 통과한 음성에 포함된 채널 잡음 및 왜곡을 제거하는 방법으로는 음성신호를 보상하 는 방법으로 CMS(Cepstral Mean Subtraction), SBR(Signal Bias Removal)과 SM(Stochastic Matching)의 성능을 비교 평가하였다. 잡음제거 방식의 성능을 평가를 위하 여 음소 단위의 반연속 HMM을 이용한 화자독립 단독음 인식을 수행하였다. 인식 실험 결 과, 멜 켑스트럼을 사용한 경우에 CMS가 가장 우수한 성능을 내었고 다음으로 SM과 SBR 순으로 나타났다. 또한 특징벡터를 주변 잡음에 강인하게 하는 가중함수(RPS, BPL)를 사용 한 켑스트럼 계수와 잡음제거 방식을 함께 사용한 경우에 인식 성능이 더욱 향상되었다.

  • PDF

Improvement of TAKTAG using unknown-word handling (미등록어 추정을 이용한 TAKTAG의 개선)

  • Cha, Jeong-Won;Lee, Won-Il;Lee, Geun-Bae;Lee, Jong-Hyeok
    • Annual Conference on Human and Language Technology
    • /
    • 1996.10a
    • /
    • pp.203-206
    • /
    • 1996
  • 본 논문에서는 음소단위의 bigram과 trigram 정보를 이용하여 어절내에서의 위치와 개수에 관계없이 미등록어를 추정하고, 미등록어용 형태소 패턴 사전을 도입하여 마치 등록어처럼 미등록어를 처리할 수 있는 방법을 제안한다. 제안된 미등록어 추정 모텔은 조사나 어미와 같은 기능어에 의한 간접적인 추정방법이 아닌 미등록어 자체의 추정과 접속정보를 이용한 검사를 동시에 하여 정확도를 높였다. 본 미등록어 추정방법은 기존의 한국어 품사태깅모델인 TAKTAG에 적용하여 미등록어가 포함된 어절에 대해서 83.72%의 성능을 보였다.

  • PDF

Classifying learner's states and Monitoring it by using opinion Mining (오피니언 마이닝을 통한 학습자 상태 분류 및 활동 모니터링 시스템)

  • Kim, Dong hyun;Chang, Doo Soo;Choi, Yong SuK
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2016.10a
    • /
    • pp.640-643
    • /
    • 2016
  • 오피니언 마이닝은 객관적인 정보를 필요로 하는 많은 분야에서 쓰이는 기법이다. 그러나 표현의 자유도가 높은 한글 Text를 분석하는 것은 상당히 어려운 일이다. 또한 한글 파괴 현상도 하나의 원인으로 대두되고 있다. 본 논문에서는 Text를 음소단위로 분할하는 Trigrarn-Signature 기법과 구문태그 패턴 기법을 통합한 새로운 상태 분류 기법을 제안했고, 만족, 불만, 낙담, 의문, 흥분 5가지 감정 분류를 시도했다. 이를 토대로 사용자의 정보를 그래프로 보여주는 시각화 시스템을 제안한다.

On the Development of a Continuous Speech Recognition System using Continuous Hidden Markov Model for Korean Language (연속분포 HMM을 이용한 한국어 연속 음성 인식 시스템 개발)

  • Kim, Do-Yeong;Park, Yong-Kyu;Kwon, Oh-Wook;Un, Chong-Kwan
    • Annual Conference on Human and Language Technology
    • /
    • 1993.10a
    • /
    • pp.101-110
    • /
    • 1993
  • 본 논문에서는 연속분포 hidden Markov 모델을 이용한 화자독립 연속 음성 인식 시스템에 관해 기술한다. 연속분포 모델은 평균과 분산 벡터로 구성되며 음성신호를 직접 모델링하여 양자화 왜곡이 없어진다. 특징벡터는 filter bank 계수 및 그 1, 2차 미분계수를 사용하여 음성신호의 동적 특성을 반영하였다. Segmental K-means 알고리즘을 이용하여 학습하였으며, 연속어 인식에서 가장 문제가 되는 조음화 현상으로 인한 인식률 저하를 막기 위해 앞뒤의 음소를 고려해 주는 triphone을 인식단위로 사용하였다. Search 알고리즘으로는 시간 면에서 효율이 좋은 one-pass search 알고리즘을 사용하였다. 성능 평가를 위한 화자 독립 인식 실험에서 문법이 없을 경우 83%, finite state network율 적용한 경우에는 94%의 인식률을 나타내었다.

  • PDF

A Study on the Diphone Recognition of Korean Connected Words and Eojeol Reconstruction (한국어 연결단어의 이음소 인식과 어절 형성에 관한 연구)

  • ;Jeong, Hong
    • The Journal of the Acoustical Society of Korea
    • /
    • v.14 no.4
    • /
    • pp.46-63
    • /
    • 1995
  • This thesis described an unlimited vocabulary connected speech recognition system using Time Delay Neural Network(TDNN). The recognition unit is the diphone unit which includes the transition section of two phonemes, and the number of diphone unit is 329. The recognition processing of korean connected speech is composed by three part; the feature extraction section of the input speech signal, the diphone recognition processing and post-processing. In the feature extraction section, the extraction of diphone interval in input speech signal is carried and then the feature vectors of 16th filter-bank coefficients are calculated for each frame in the diphone interval. The diphone recognition processing is comprised by the three stage hierachical structure and is carried using 30 Time Delay Neural Networks. particularly, the structure of TDNN is changed so as to increase the recognition rate. The post-processing section, mis-recognized diphone strings are corrected using the probability of phoneme transition and the probability o phoneme confusion and then the eojeols (Korean word or phrase) are formed by combining the recognized diphones.

  • PDF