• 제목/요약/키워드: 음소

검색결과 529건 처리시간 0.02초

시간 영역 벌크 지표에 기반한 한국어 모음 'ㅜ'의 음성 인식 (Speech Recognition of the Korean Vowel 'ㅜ' Based on Time Domain Bulk Indicators)

  • 이재원
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제22권11호
    • /
    • pp.591-600
    • /
    • 2016
  • 네트워크와 컴퓨팅 기술의 발달로 인해 인간이 생활하는 거의 모든 일상 환경에 컴퓨팅 기술의 접목이 증대되고 있다. 또한, 사물 인터넷에 대한 관심이 급속히 증대되면서, 음성 인식은 중요한 HCI 수단으로 자리 잡고 있다. 본 논문은 음소 기반 한국어 음성 인식 시스템의 일부로서, 한국어 모음 'ㅜ'에 대한 새로운 인식 방식을 제안한다. 제안하는 방식은 주파수 영역에서의 분석 대신, 시간 영역에서 계산한 벌크 지표를 분석하여 동작하므로, 계산 비용을 현저히 절감할 수 있다. 벌크 지표를 사용하여 모음 'ㅜ'의 전형적인 파형 패턴들을 탐지하기 위한 네 가지 요소 알고리즘을 제시하며, 이를 결합하여 최종적인 판별을 수행한다. 실험 결과를 통해, 제안하는 방식이 90.1%의 인식 정확도를 달성할 수 있음을 확인하였으며, 인식 속도는 어절 당 0.68 msec이다.

가변 신뢰도 문턱치를 사용한 미등록어 거절 알고리즘에 대한 연구 (A Study on Out-of-Vocabulary Rejection Algorithms using Variable Confidence Thresholds)

  • 방기덕;강철호
    • 한국멀티미디어학회논문지
    • /
    • 제11권11호
    • /
    • pp.1471-1479
    • /
    • 2008
  • 본 논문에서는 음성인식 분야에서 많이 사용되고 있는 가변어휘 단어 인식 시스템에서 미등록어에 대한 거절 성능을 향상시키는 방법을 제안한다. 거절 기능을 구현하는 방식은 핵심어 검출(keyword spotting)방식과 발화검증(utterance verification)으로 구분이 된다. 발화 검증 방식은 각 음소마다 이와 유사한 반음소모델(anti-phoneme model)을 생성한 후 정상적인 음소 모델과 반음소 모델의 유사도를 비교하여 결정하는 방식이다. 본 논문에서는 화자가 발성할 때마다 구해지는 화자확인 확률값을 신뢰도 문턱치를 결정할 때 적용하는 방법에 대하여 제안하였다. 제안한 방법을 사용하였을 때, 사무실 환경에서 CA(Correctly Accepted for keyword)가 94.23%, CR(Correctly Rejected for out-of-vocabulary)이 95.11%로 나타났고, 잡음 환경에서는 CA가 91.14%, CR이 92.74%로 나타나서 성능이 향상됨을 확인할 수 있었다.

  • PDF

음성 합성기를 위한 문맥 적응 스무딩 필터의 구현 (Context-adaptive Smoothing for Speech Synthesis)

  • 이기승;김정수;이재원
    • 한국음향학회지
    • /
    • 제21권3호
    • /
    • pp.285-292
    • /
    • 2002
  • 문자-음성 합성기 (Text-To-Speech, TTS)에서 해결되어야 할 문제점 중의 하나는 음소의 연결 부위에서 발생하는 불연속성이다. 이러한 문제점을 해결하기 위한 방안으로 본 논문에서는 저역 여파기를 이용한 스무딩 기법을 적용하였다. 제안된 스무딩 기법은 스무딩의 정도를 제어하는 필터 계수를 현재 합성하고자 하는 문맥에 따라 결정하여, 경계에서의 불연속성을 효과적으로 제거하고 스무딩으로 인하여 발생할 수 있는 음성의 왜곡을 억제하였다. 스무딩 정도는 현재 합성된 음성의 불연속 정도와 주어진 문맥으로부터 예측된 불연속 정도를 통해 결정하였으며, 문맥으로부터 불연속 정도의 예측은 음소 정보를 입력, 불연속 값을 출력으로 하는 CART(Classification And Regression Tree)를 통해 이루어진다. 제안된 기법의 성능 평가를 위해 코퍼스 기반 연결(corpus-based concatenative) 문자-음성 합성기를 기본 시스템으로 사용하였으며, 청취 테스트에서 60%이상 의 청취자가 제안된 스무딩 기법을 통해 합성된 음성이 스무딩 기법이 사용되지 않은 경우와 비교하여 명료성과 자연성 면에서 우수하다고 판단하였다.

음성인식 기능을 가진 주소입력 시스템의 개발과 평가 (Development and Evaluation of an Address Input System Employing Speech Recognition)

  • 김득수;황철준;정현열
    • 한국음향학회지
    • /
    • 제18권2호
    • /
    • pp.3-10
    • /
    • 1999
  • 본 논문은 음성인식 기술을 사용자 인터페이스로 하여 국내 행정 단위 시(도), 구(군), 동(읍,면), 번지로 구성되는 주소를 인식의 대상으로 하는 주소 입력 시스템 구축에 대하여 기술한다. 본 시스템은 사운드카드가 장착된 개인용 컴퓨터상의 윈도우 95환경에서 동작하며, 음성인식부는 인식의 기본단위로 유사음소단위(Phoneme Like Units: PLUs)를 이용하여 CHMM(Continuous Hidden Markov Model) 음소모델을 작성하고, 주소인식을 위해서 주소명의 특징을 고려하여 이에 적합한 유한상태 오토마타(Finite State Automata)를 구성하여 OPDP(One Pass Dynamic Programming)법으로 인식을 수행하였다. 실용성있는 시스템 성능을 얻기 위하여 마이크, 환경잡음 및 화자의 변화 등의 사용환경변화에 대해 최대사후확률추정법(Maximum A Posteriori Probability Estimation: MAP)으로 적응화시켜 인식률의 향상을 도모하였고, 개인용 컴퓨터상에서의 인식속도를 향상시키기 위하여 가변프루닝 문턱치를 이용한 고속화 기법을 제안하였다. 평가결과, 화자적응화 후의 성인 남자 3인에 대한 100개의 연결주소명의 연결단어 인식률은 평균 96.0%이상, 인식속도는 발성완료후 약 2초 이내로 인식이 완료되어 본 시스템의 유효성을 확인할 수 있었다.

  • PDF

다양한 연속밀도 함수를 갖는 HMM에 대한 우리말 음성인식에 관한 연구 (The Study of Korean Speech Recognition for Various Continue HMM)

  • 우인성;신좌철;강흥순;김석동
    • 전기전자학회논문지
    • /
    • 제11권2호
    • /
    • pp.89-94
    • /
    • 2007
  • 본 논문은 연속 밀도 함수를 갖는 HMM별 한국어 연속 음성인식에 관한 연구이다. 여기서 우리는 밀도 함수가 2개에서 44개까지 갖는 연속 HMM모델에서 가장 효율적인 연속 음성인식을 위한 방법을 제시한다. 음성 모델은 36개로 구성한 기본음소를 사용한 CI-Model과 3,000개로 구성한 확장음소를 사용한 CD-Model을 사용하였고, 언어 모델은 N-gram을 이용하여 처리하였다. 이 방법을 사용하여 500개의 문장과 6,486개의 단어에 대하여 화자 독립으로 CI Model에서 최고 94.4%의 단어인식률과 64.6%의 문장인식률을 얻었고, CD Model에서는98.2%의 단어인식률과 73.6%의 문장인식률을 안정적으로 얻었다.

  • PDF

온라인 다국적 게임을 위한 다국어 혼합 음성 인식에 관한 연구 (A Study on the Multilingual Speech Recognition for On-line International Game)

  • 김석동;강흥순;우인성;신좌철;윤춘덕
    • 한국게임학회 논문지
    • /
    • 제8권4호
    • /
    • pp.107-114
    • /
    • 2008
  • 최근 게임에도 다국어를 대상으로 하는 음성인식에 대한 요구와 여러 나라의 서로 다른 언어로 표현된 음성을 하나의 음성 모델로 표현하는 다국어 시스템의 개발에 대한 필요성이 점차 증가하고 있다. 이에 따라 다양한 언어로 구성되어 있는 음성을 하나의 음성 모델로 표현할 수 있는 다국어 음성인식 시스템의 발전에 대한 연구가 필요하다. 본 논문에서는 다국어 음성 모델을 통합적으로 구축하기 위한 기본 연구로 한국어 음성과 영어 음성을 국제음소기호(IPA)로 인식하는 시스템을 연구하였고 한국어와 영어 음소를 동시에 만족하는 IPA모델을 찾는데 중점을 두어 실험한 결과 한국어 음성에 대하여 90.62%, 영어 음성에 대하여 91.71%라는 인식률을 얻을 수 있었다.

  • PDF

자음지각검사 (KCPT)의 개발 (Development of Korean Consonant Perception Test)

  • 김진숙;신은영;신현욱;이기도
    • 한국음향학회지
    • /
    • 제30권5호
    • /
    • pp.295-302
    • /
    • 2011
  • 본 연구의 목적은 말지각평가의 기초 자료가 되고 청각장애 자음지각능력의 정량적 정성적 평가가 가능한 음소단위의 한국어자음지각검사 (Korean Consonant Perception Test, 이하 KCPT)도구를 개발하는 것이다. KCPT는 조합 가능한 모든 한국어 단음절어 중 유의미 단음절어만 분류하여, 7종성발음규칙을 적용하고 목표단어의 친숙도를 조절한 사지선다형 초 종성검사문항 시안을 작성한 후, 각 단어들의 조음 특성, 난이도, 음소 출현빈도수를 고려하여 완성되었다. 이를 정상인 20명을 대상으로 평가하여 난이도가 높은 문항을 제거하고 화자 간 변수가 없는 것을 통계적으로 확인한 후 회화체 빈도수에 맞도록 최종문항을 작성하였다. 세부적 수정을 거쳐 초 종성검사문항 각 200개와 100개로 구성된 총 300개 문항을 개발하였다. 30명의 청각장애인을 대상으로 검증하여 A와 B로 구분한 절반목록간 차이도 없음을 확인하고 초성검사문항은 초성자음지각평가에 종성 검사문항은 종성자음 지각평가에 적절한 도구임을 검증하였다.

하이브리드 신뢰도를 이용한 제한 영역 핵심어 검출 성능향상 (Improvement of Domain-specific Keyword Spotting Performance Using Hybrid Confidence Measure)

  • 이경록;서현철;최승호;최승호;김진영
    • 한국음향학회지
    • /
    • 제21권7호
    • /
    • pp.632-640
    • /
    • 2002
  • 본 논문에서는 기존의 RLJ-신뢰도 (RLJ-confidence measure)와 정규화 신뢰도 (normalized CM)의 단점을 보완하기 위해 ACM (Anti-filler CM)을 제안하였고, HCM (hybrid CM)을 이용하여 기존의 NCM과 제안한 ACM을 통합하였다. 제안된 ACM은 기존 신뢰도의 단점 중 하나인 오인증 (FA: false acceptance)의 원인이 반음소 모델의 구성방법에 있다고 보고 음소 인식기를 이용하여 실제 음소 수열을 추정한 다음, 이를 반음소 모델로 정의하고 신뢰도를 계산하였다. 두 가지 신뢰도의 특성을 살펴보면, 기존 NCM(FR: false rejection)에 좋은 성능을 보이고, 제안한 ACM은 FA에서 좋은 성능을 보여 두 신뢰도가 상보적인 특성을 가진다 이를 이용하여 두 가지 신뢰도를 가중치 벡터 α를 이용하여 통합하고 이를 합성 신뢰도 (HCM: Hybrid CM)라고 정의하였다. 실험결과 미검출율 (MDR: missed detection rate) 10%부근에서, HCM 적용시에 0.219 FA/KW/HR (false alarm/keyword/how)로서 NCM 단독사용에 비해 성능이 22% 향상되었다.

음성인식을 위한 새로운 혼성 recurrent TDNN-HMM 구조에 관한 연구 (A study on the new hybrid recurrent TDNN-HMM architecture for speech recognition)

  • 장춘서
    • 정보처리학회논문지B
    • /
    • 제8B권6호
    • /
    • pp.699-704
    • /
    • 2001
  • 본 논문에서는 혼성 모듈 구조의 recurrent 시간지연신경회로망(time-delay neural network)과 HMM(hidden Markov model)을 결합한 음성인식을 위한 새로운 구조에 대해 연구하였다. 시간지연신경회로망에서는 윈도우 크기를 확장하는 것이 인식률 향상에 유리하므로 이를 위해 첫 번째 은닉층에 궤환 구조를 사용하여 윈도우 크기를 실제로 크게 하지 않고도 동일한 효과를 얻을 수 있도록 하였다. 다음 이 시간지연신경망에서 입력된 음소의 특징 벡터의 시간에 따라 변화하는 성질을 잘 처리 할 수 있도록 시간지연신경회로망의 입력층을 복수의 상태로 나누어 음소특징의 시간축에 대한 각 상태마다 특징 감지기를 갖도록 하였다. 이때 시간지연신경회로망은 전체 음성인식 영역에 적용될 수 있도록 모듈 방식의 구조로 구성되었다. 그리고 이 모듈 구조 시간지연신경망의 출력 벡터를 HMM에 연결하여 서로 결합 하므로써 양 구조의 장점을 취하는 혼성 구조의 인식시스템을 구성하였고 이때 이 혼성 구조에서 효율적으로 적용할 수 있는 HMM 파라미터 smoothing 방법을 제시하였다.

  • PDF

음성인식에서 문맥의존 음향모델의 성능향상을 위한 유사음소단위에 관한 연구 (A Study on Phoneme Likely Units to Improve the Performance of Context-dependent Acoustic Models in Speech Recognition)

  • 임영춘;오세진;김광동;노덕규;송민규;정현열
    • 한국음향학회지
    • /
    • 제22권5호
    • /
    • pp.388-402
    • /
    • 2003
  • In this paper, we carried out the word, 4 continuous digits. continuous, and task-independent word recognition experiments to verify the effectiveness of the re-defined phoneme-likely units (PLUs) for the phonetic decision tree based HM-Net (Hidden Markov Network) context-dependent (CD) acoustic modeling in Korean appropriately. In case of the 48 PLUs, the phonemes /ㅂ/, /ㄷ/, /ㄱ/ are separated by initial sound, medial vowel, final consonant, and the consonants /ㄹ/, /ㅈ/, /ㅎ/ are also separated by initial sound, final consonant according to the position of syllable, word, and sentence, respectively. In this paper. therefore, we re-define the 39 PLUs by unifying the one phoneme in the separated initial sound, medial vowel, and final consonant of the 48 PLUs to construct the CD acoustic models effectively. Through the experimental results using the re-defined 39 PLUs, in word recognition experiments with the context-independent (CI) acoustic models, the 48 PLUs has an average of 7.06%, higher recognition accuracy than the 39 PLUs used. But in the speaker-independent word recognition experiments with the CD acoustic models, the 39 PLUs has an average of 0.61% better recognition accuracy than the 48 PLUs used. In the 4 continuous digits recognition experiments with the liaison phenomena. the 39 PLUs has also an average of 6.55% higher recognition accuracy. And then, in continuous speech recognition experiments, the 39 PLUs has an average of 15.08% better recognition accuracy than the 48 PLUs used too. Finally, though the 48, 39 PLUs have the lower recognition accuracy, the 39 PLUs has an average of 1.17% higher recognition characteristic than the 48 PLUs used in the task-independent word recognition experiments according to the unknown contextual factor. Through the above experiments, we verified the effectiveness of the re-defined 39 PLUs compared to the 48PLUs to construct the CD acoustic models in this paper.