Search | Korea Science

Development of Continuous Speech Recognition System for Multimedia Mobile Terminal Applications (휴대 멀티미디어 단말용 음성인식 시스템 개발)

김승희
- Proceedings of the Acoustical Society of Korea Conference
- /
- 1998.06c
- /
- pp.59-62
- /
- 1998
본 논문에서는 한국전자통신연구원의 Handy Combi 응용 도메인을 대상으로 한 화자독립 연속음성인식 시스템 개발에 관하여 기술한다. 불특정화자가 자연스럽게 발음한 연속음성을 인식하는 기술은 펜인식 등과 더불어 멀티모달 인터페이스의 핵심 요소로서, 이동 환경에서 사용자의 다양한 요구사항을 처리하는 지능형 에이전트에 구현을 위해 필수적으로 개발되어야 하는 기술이다. 본 논문에서는 연속확률분포를 가지는 Hidden Markov Model(HMM) 기반의 연속음성인식 시스템을 구현하였다. 개발된 시스템은 음성특징벡터로 MFCC를 사용하였으며, 음소 모델의 강인한 훈련을 위해 음성학적 지식에 기반을 둔 tree-based clustering 방식을 도입하였다. 인식단계에서는 인식속도를 개선시키기 위해 beam-search 기법을 적용하였다. 인식 실험 결과, 99.7%의 어절 인식률과 98.8%의 문장 인식률을 얻었으며, 최종적인 문장의 이해도는 99% 이상이었다.
PDF

Phonetic Tied-Mixture Syllable Model for CSR (연속 음성 인식을 위한 PTM 음절 모델)

Kim Bong-Wan;Lee Yong-Ju
- Proceedings of the Acoustical Society of Korea Conference
- /
- spring
- /
- pp.33-36
- /
- 2004
최근 연속 음성 인식에서의 성능 향상을 위하여 음절을 인식 단위로 사용하고자 하는 노력들이 보고되고 있다. 그러나 음절의 경우 음소에 비해 학습성이 좋지 않고 모델의 수가 많으므로 음절 경계에서의 문맥 종속 모델링이 어렵다는 단점을 갖고 있다. 본 논문에서는 음절의 이러한 단점을 극복하기 위하여 모노폰과 트라이폰을 이용하여 음절 모델을 합성하는 방법을 제안한다. 제안된 모델은 트라이폰에 비하여 평균 $55\%$, PTM에 비하여 평균 $13\%$의 인식 속도 향상을 보이며, 동일한 속도일 경우 PTM, 트라이폰 모델 모두에 대하여 ERR이 약$8\%$ 향상됨을 볼 수 있었다.
PDF

시간특성을 고려한 음성신호의 발성율 검출에 관한 연구

김익성;서지호;배명진
- Proceedings of the Acoustical Society of Korea Conference
- /
- spring
- /
- pp.109-111
- /
- 2004
발성율은 일정한 시간동안 발성되는 음성신호 내에 몇 개의 음절이 포함되어 있는 지를 나타낸다. 발성율은 화자마다 다르고 각 음소들의 특징에 따라 변화할 수 있다. 발성율의 사전 측정이 이루어 진다면 음성부호화 측면에서도 중용한 정보로 사용될 수 있다. 기존의 음성부호화기는 발성율에 관계없이 고정적인 분석 구간을 정하여 전송률을 결정하고 있다. 따라서, 발성율을 미리 측정한다면, 발성율이 느린 부분과 빠른 부분에 각기 다른 부호화 방법을 적용하여 음질을 향상할 수도 있고 전송률을 가변적으로 적용할 수 도 있게 된다. 정확한 발성율을 측정하기 위해서는 음절의 변화를 추정하여야 한다. 음절의 변화를 추정하기 위한 방법으로 음성신호의 에너지 포락선 측정법과 LSP를 이용한 측정법이 각각 제안된 바 있으나, 본 논문에서는 위 두 가지 방법을 혼합한 방법을 사용하였다. 에너지 변동은 음성신호의 시간영역 처리방법으로 LSP 파라미터는 음성신호의 선형예측 분석에 의해 구해질 수 있다.
PDF

The Implementation of Continuous Digit Recognition Using DSP (DSP를 이용한 연속숫자 음성 인식기 구현)

Lee Seong-Kwon;Lim Young-chun;Seo Jun-Bae;Jung Hyun-youl
- Proceedings of the Acoustical Society of Korea Conference
- /
- autumn
- /
- pp.93-96
- /
- 2004
본 논문은 TMS320C5501 16bit DSP를 적용한 실시간 화자독립 연속 숫자인식기의 구현에 관해 서술한다. 하드웨어 모듈의 구성은 TMS320C5501 300MHz DSP, 코덱으로는 TLV320AIC1103, SDRAM, 외부장치와의 인터페이스를 위한 HPI, Uart, MIC, SPK Out 단자로 구성되었다. 음성인식 알고리즘은 HM-Net 방식을 사용하였고 고정소수점 연산처리 방식으로 C를 이용한 최적화 작업을 수행하였으며 스트리밍 방식의 인식 방법으로 실시간 처리가 가능하도록 구현하였다. 숫자 인식에 사용한 모델은 41음소에 기반한 트라이폰을 학습하였으며, 특징 파라미터로는 LPCMEL 20차를 사용하였다. 임베디드 시스템의 실시간 음성인식 시스템 구성에 중점을 두었으며 PC상에서의 성능과 비교해 볼때 본 DSP 상에서 500단어, 50문장의 인식을 평균 1.5초 전후로 인식하도록 하였으며 간단한 연결 단어 인식을 수행하는데 무리 없음을 보여준다. 특별히 한국어 연속숫자 부분에 중점을 두었고, 본 연구에서 구현된 연속 음성인식 시스템에 사용된 숫자 인식에서 음절 바이폰 모델에 대하여 $92.92\%$의 인식율을 얻을 수 있었다.
PDF

A Phonetics Based Design of PLU Sets for Korean Speech Recognition (한국어 음성인식을 위한 음성학 기반의 유사음소단위 집합 설계)

Hong, Hye-Jin;Kim, Sun-Hee;Chung, Min-Hwa
- MALSORI
- /
- no.65
- /
- pp.105-124
- /
- 2008
This paper presents the effects of different phone-like-unit (PLU) sets in order to propose an optimal PLU set for the performance improvement of Korean automatic speech recognition (ASR) systems. The examination of 9 currently used PLU sets indicates that most of them include a selection of allophones without any sufficient phonetic base. In this paper, a total of 34 PLU sets are designed based on Korean phonetic characteristics arid the effects of each PLU set are evaluated through experiments. The results show that the accuracy rate of each phone is influenced by different phonetic constraint(s) which determine(s) the PLU sets, and that an optimal PLU set can be anticipated through the phonetic analysis of the given speech data.
PDF

Japanese Adults' Perceptual Categorization of Korean Three-way Distinction (한국어 3중 대립 음소에 대한 일본인의 지각적 범주화)

Kim, Jee-Hyun;Kim, Jung-Oh
- Proceedings of the Korean Society for Cognitive Science Conference
- /
- 2005.05a
- /
- pp.163-167
- /
- 2005
Current theories of cross-language speech perception claim that patterns of perceptual assimilation of non-native segments to native categories predict relative difficulties in learning to perceive (and produce) non-native phones. Perceptual assimilation patterns by Japanese listeners of the three-way voicing distinction in Korean syllable-initial obstruent consonants were assessed directly. According to Speech Learning Model (SLM) and Perceptual Assimilation Model (PAM), the resulting perceptual assimilation pattern predicts relative difficulty in discrimination between lenis and aspirated consonants, and relative ease in the discrimination of fortis. This study compared the effects of two different training conditions on Japanese adults’perceptual categorization of Korean three-way distinction. In one condition, participants were trained to discriminate lenis and aspirated consonants which were predicted to be problematic, whereas in another condition participants were trained with all three classes of 'learnability' did not seem to depend lawfully on the perceived cross-language similarity of Korean and Japanese consonants.
PDF

Automatic Generation of Domain-Dependent Pronunciation Lexicon with Data-Driven Rules and Rule Adaptation (학습을 통한 발음 변이 규칙 유도 및 적응을 이용한 영역 의존 발음 사전 자동 생성)

Jeon, Je-Hun;Chung, Min-Hwa
- Proceedings of the Korean Society for Cognitive Science Conference
- /
- 2005.05a
- /
- pp.233-238
- /
- 2005
본 논문에서는 학습을 이용한 발음 변이 모델링을 통해 특정 영역에 최적화된 발음 사전 자동 생성의 방법을 제시하였다. 학습 방법을 이용한 발음 변이 모델링의 오류를 최소화 하기 위하여 본 논문에서는 발음 변이 규칙의 적응 기법을 도입하였다. 발음 변이 규칙의 적응은 대용량 음성 말뭉치에서 발음 변이 규칙을 유도한 후, 상대적으로 작은 용량의 음성 말뭉치에서 유도한 규칙과의 결합을 통해 이루어 진다. 본 논문에서 사용된 발음 사전은 해당 형태소의 앞 뒤 음소 문맥의 음운 현상을 반영한 발음 사전이며, 학습 방법으로 얻어진 발음 변이 규칙을 대용량 문자 말뭉치에 적용하여 해당 형태소의 발음을 자동 생성하였다. 발음 사전의 평균 발음의 수는 적용된 발음 변이 규칙의 확률 값들의 한계 값 조정에 의해 이루어졌다. 기존의 지식 기반의 발음 사전과 비교 할 때, 본 방법론으로 작성된 발음 사전을 이용한 대화체 음성 인식 실험에서 0.8%의 단어 오류율(WER)이 감소하였다. 또한 사전에 포함된 형태소의 평균 발음 변이 수에서도 기존의 방법론에서 보다 5.6% 적은 수에서 최상의 성능을 보였다.
PDF

Optimize Data Glove-based System for Korean Finger Spelling Recognition (한글 지화 인식에 최적화된 데이터 글러브 시스템)

Min, Seung-Ki;Oh, Sang-Hyeok;Kim, Gyo-Ryeong;Yoon, Tae-Hyun;Lim, Chun-Gyu;Lee, Yun-Ii;Jung, Kee-Chul
- Proceedings of the Korean Information Science Society Conference
- /
- 2007.06c
- /
- pp.237-241
- /
- 2007
본 논문에서는 지화 인식에 최적화된 데이터 글러브 기반의 시스템을 제안한다. 제안된 데이터 글러브는 적은 수의 센서로 인식 속도의 향상을 기대할 수 있으며 한글의 지화 인식만을 위한 특수한 목적을 가지고 저렴하게 설계되었다. 그에 따라 한글의 지화를 사용한 많은 어플리케이션에 쉽게 적용할 수 있을 것이 기대된다. 2개의 틸트 센서는 손의 방향을 인식하고 5개의 플렉스 센서는 각 손가락의 구부러진 정도를 측정한다. 제안된 시스템에서는 k-means 알고리즘과 간단한 인덱싱 방식을 사용하여 한글의 기본적인 음소 24개를 인식하는 실험을 하였으며 인식율은 80.27% 에 이르렀다.
PDF

Problems of Discrepancy between English Vowels and Spelling (영어 모음과 철자간 대응성 결여 문제)

Youe Hansa Mahn-Gunn
- MALSORI
- /
- no.48
- /
- pp.69-80
- /
- 2003
음성 영어교육에서 각 음소(모음.자음) 음가 인식이 중요한 것은 물론이지만, 실제로 영어를 듣고 말하는 데는 강세모음과 약음(주로 음)이 번갈아들며 엮어내는 영어 특유 말씨 박자에 대한 이해가 오히려 더 중요한 면이 있다. 그런데 영어 철자가 자음 정보는 비교적 잘 보여주지만, 모음 정보는 정확히 알려주지 못한다. 이를테면 (equation omitted)를 적는 철자가 각각 20가지 이상이며, 특히 쭉정모음(schwa) $\partial$를 적는 철자는 무려 90가지가 넘는다. 이 $\partial$는 강세 그늘에서 비록 짧고 약하게 발음되지만 영어에서 딴 어느 모음보다도 훨씬 높은 빈도를 보이기 때문에 [(equation omitted)] 음가와 그것이 있는 자리, 즉 철자 밑에 숨어 그 존재를 알기 어려운 $\partial$ 음의 소재를 철저히 파악하는 것은 영어를 잘 듣고 영어답게 말하는 데에 필수 요체라 할 수 있다. 이 글에서는 쭉정모음(schwa) [$\partial$]를 포함한 영어 주요 모음 철자 다양성을 고찰하여 우리나라 음성 영어 교육(TEFL/TESOL)에 귀중한 참고 자료를 제공하고, 이를 통한 올바른 영어 발음 학습 태도를 제언한다.
PDF

A Study on the Speech Recognition For the Voice Dialing System (Voice Dialing System을 위한 음성인식)

이성권
- Proceedings of the Acoustical Society of Korea Conference
- /
- 1998.06e
- /
- pp.365-368
- /
- 1998
본 연구는 음소 단위의 CHMM(Continuous Hidden Markov Model)을 이용한 Voice Dialing System을 위한 연속 음성인식에 관한 내용이다. 연구실 환경에서 음성으로 전화를 걸기 위하여 전국 지역명과 연속 숫자음 인식을 수행하였다. ETRI 445 데이터를 사용하여 초기의 모델은 ML(Maximum Likelihood) 추정법을 이용하여 작성하였고 적응화를 위해 최대 사후 확률 추정법을 사용하였다. 음성으로 다이얼링을 수행하기 위하여 문맥자유문법을 이용하여 제한적이나마 대화체문장으로 수행할 수 있도록 하였다. 그리하여 숫자음에 대하여 5인의 화자에 대하여 4연속 숫자음에 대하여 96%의 인식률을 보이고 있으며 7연속 숫자음에 대하여도 약 91%의 결과를 보여주고 있다. 문장으로도 음성 다이얼링을 수행하였을 경우 문장내에 단어와 숫자음에 대하여 약 80%의 인식률을 보였다.
PDF

Search Result 529, Processing Time 0.027 seconds

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)