• 제목/요약/키워드: phoneme

검색결과 458건 처리시간 0.024초

음소경계검출과 신경망을 이용한 음소인식 연구 (Phoneme-Boundary-Detection and Phoneme Recognition Research using Neural Network)

  • 임유두;강민구;최영호
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 1999년도 추계종합학술대회
    • /
    • pp.224-229
    • /
    • 1999
  • 음성 인식 연구는 유사음소 단위의 인식시스템을 구축하는 방향과 단어 단위의 인식시스템에서의 효율을 최대화하는 방향으로 이루어지고 있다. 이중 유용한 유사음소 단위의 인식시스템 구현을 위해서는 음소의 경계 검출 문제와 검출된 음소에 대한 인식률 향상 문제가 해결되어야 한다. 기존의 LPC(Linear Predictive Coefficient) 방법들은 기준 음소데이터의 LPC와 입력 음성프레임의 LPC 사이의 거리를 Itakura-Saito 방법으로 구하여 음소의 경계를 검출하였으며, 근래에는 MFCC(Mel-Frequency-Cepstrum Coefficient)를 이용하여 스펙트럼의 천이부분을 음소의 경계로 검출하는 방법들이 제안되어왔으나 이러한 방법들은 공통적으로 적응성이 미비하다는 단점이 있다. 본 논문에서는 이러한 단점을 극복하기 위해 음소경계검출을 위해서는 auto-correlation을 이용하고 음소인식을 위해서는 적응성이 뛰어난 다층 Feed-Forward 신경망을 사용하는 새로운 인식시스템을 제안하였다 제안하는 시스템은 기존의 방법들보다 적응성이 뛰어나고 특징추출부분과 인식 부분의 알고리듬이 독립적이라는 장점을 가지며 프레임단위의 음소인식시스템의 구현 가능성을 확인해 주었다.

  • PDF

한국어 음성 인식에서 변동성과 벌크 지표에 기반한 음소 경계 검출 (Phoneme Segmentation based on Volatility and Bulk Indicators in Korean Speech Recognition)

  • 이재원
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제21권10호
    • /
    • pp.631-638
    • /
    • 2015
  • 최근 모바일 환경에서 작동 가능한 음성 인식 시스템에 대한 수요가 급격히 증대되고 있다. 본 논문은 음소 기반 한국어 음성 인식 시스템에 적용하기 위한 새로운 한국어 음소 경계 검출 방안을 제안한다. 먼저 입력 신호는 동일한 크기의 블록들을 구성한다. 제안하는 방식은 입력 음성 신호의 각 블록에 대해 계산되는 변동성 지표와, 부호가 동일한 인접 샘플들의 집합인, 블록 내의 각 벌크에 대해 계산되는 벌크 지표를 음소 경계 검출의 기반 지표로 사용한다. 두 가지 기반 지표를 결합하여 활용하는 세 개의 전용 인식 알고리즘을 사용하여, 모음, 유성 자음, 그리고 무성 자음을 차례로 인식하여 음소 간 경계를 검출한다. 실험 결과를 통해, 제안하는 방식을 사용함으로써 기존의 경계 검출 방식에 비해 오류율을 현저히 감소시킬 수 있음을 확인하였다.

가변어휘 단어 인식에서의 미등록어 거절 알고리즘 성능 비교 (Performance Comparison of Out-Of-Vocabulary Word Rejection Algorithms in Variable Vocabulary Word Recognition)

  • 김기태;문광식;김회린;이영직;정재호
    • 한국음향학회지
    • /
    • 제20권2호
    • /
    • pp.27-34
    • /
    • 2001
  • 발화 검증이란 등록된 단어 목록 이외의 단어가 입력되었을 때, 미등록된 단어는 인식할 수 없는 단어임을 알려주는 기능으로써 사용자에게 친숙한 음성 인식 시스템을 설계하는데 중요한 기술이다. 본 논문에서는 가변어휘 단어 인식기에서 최소 검증 오류를 나타낼 수 있는 발화 검증 시스템의 알고리즘을 제안한다. 우선, 한국전자통신연구원의 PBW(Phonetically Balanced Words) 445DB를 이용하여 가변어휘 단어 인식에서의 미등록어 거절 성능을 향상시키는 효과적인 발화 검증 방법을 제안하였다. 구체적으로 특별한 훈련 과정이 없이도 유사 음소 집합을 많이 포함시킨 반음소 모델을 제안하여 최소 검증 오류를 지니도록 하였다. 또한, 음소 단위의 null hypothesis와 alternate hypothesis의 비를 이용한 음소 단위의 신뢰도는 null hypothesis로 정규화해서 강인한 발화 검증 성능을 보여 주었으며, 음소 단위의 신뢰도를 이용한 단어 단위의 신뢰도는 등록어와 미등록어 사이의 분별력을 잘 표현해 주었다. 이와 같이 새로이 제안된 반음소 모델과 발화 검증 방법을 사용했을 때, CA (Correctly Accept for Keyword: 등록어를 제대로 인정한 경우)는 약 89%, CR (Correctly Reject for OOV (Out-of-Vocabulary): 미등록어에 대해 거절한 경우)은 약 90%로써, 기존 필터 모델을 이용한 방법보다 미등록어 거절 성능이 ERR (Error Reduction Rate) 측면에서 약 15-21% 향상됨을 알 수 있었다.

  • PDF

SOFM 신경회로망을 이용한 한국어 음소 인식 (Korean Phoneme Recognition Using Self-Organizing Feature Map)

  • 전용구;양진우;김순협
    • 한국음향학회지
    • /
    • 제14권2호
    • /
    • pp.101-112
    • /
    • 1995
  • 본 논문에서는 패턴 매칭 방법에 근거하여 인식 단위가 음소인 음소 기반 인식 시스템을 구성하였다. 선택한 신경망 구조는 생물학적 신경망인 코호넨(T. Kohonen)의 SOFM(Self-Organizing Feature Map)으로 패턴 매칭 과정 중 클러스터러(clusterer)로 사용하였다. SOFM 신경망은 신호 공간에 대해서 최적의 국소(局所) 해부적 사상(local topographical mapping)에 의한 자기 조직화 과정을 수행하며, 그 결과 인식 문제에 있어서 상당히 높은 정확도를 나타낸다. 따라서 SOFM 신경망은 음소 인식에도 효과적으로 응용될 수 있다. 또한 음소 인식 시스템의 성능 향상을 위해 K-means클러스터링 알고리즘이 결합된 학습 알고리즘을 제안하였다. 제안된 음소 인식 시스템의 성능을 평가하기 위해 먼저, 인식 대상음소는 모음군 17개, 자음의 경우 파열음9개, 마찰음 3개, 파찰음 3개, 유음 및 비음 4개, 음소의 성질이 다른 종성 7개의 음소군으로 모두 43개의 음소를 대상으로 실험하였으며, 각 음소군에 대한 특징 지도를 구성하여 레이블러(labeler)의 기능을 수행하게 하였다. 화자 종속 인식 실험 결과 $87.2\%$의 인식률을 보였으며 제안한 학습법의 빠른 수렴성과 인식률 향상을 확인하였다.

  • PDF

연속음에서의 각 음소의 대표구간 추출에 관한 연구 (A study on extraction of the frames representing each phoneme in continuous speech)

  • 박찬응;이쾌희
    • 전자공학회논문지B
    • /
    • 제33B권4호
    • /
    • pp.174-182
    • /
    • 1996
  • In continuous speech recognition system, it is possible to implement the system which can handle unlimited number of words by using limited number of phonetic units such as phonemes. Dividing continuous speech into the string of tems of phonemes prior to recognition process can lower the complexity of the system. But because of the coarticulations between neiboring phonemes, it is very difficult ot extract exactly their boundaries. In this paper, we propose the algorithm ot extract short terms which can represent each phonemes instead of extracting their boundaries. The short terms of lower spectral change and higher spectral chang eare detcted. Then phoneme changes are detected using distance measure with this lower spectral change terms, and hgher spectral change terms are regarded as transition terms or short phoneme terms. Finally lower spectral change terms and the mid-term of higher spectral change terms are regarded s the represent each phonemes. The cepstral coefficients and weighted cepstral distance are used for speech feature and measuring the distance because of less computational complexity, and the speech data used in this experimetn was recoreded at silent and ordinary in-dorr environment. Through the experimental results, the proposed algorithm showed higher performance with less computational complexity comparing with the conventional segmetnation algorithms and it can be applied usefully in phoneme-based continuous speech recognition.

  • PDF

프리엠퍼시스 FIR 필터링의 음성 검출 및 음소 분할에의 응용 (Application of Preemphasis FIR Filtering To Speech Detection and Phoneme Segmentation)

  • 이창영
    • 한국전자통신학회논문지
    • /
    • 제8권5호
    • /
    • pp.665-670
    • /
    • 2013
  • 이 논문에서 우리는 음성 검출 및 음소 분할에 대한 새로운 방법을 제안한다. 배경 잡음으로부터 신호를 구분하기 위해 에너지를 활용하게 되는데, 그 이전에 프리엠퍼시스 FIR 필터링을 적용하는 효과에 대해 조사한다. 이 방법에 의해, 에너지 프로필에서 진폭과 주파수의 곱이 동시에 작은 부분이 두드러지게 나타나게 된다. 이 처방에 의해, 묵음/음성 경계가 종전의 방법에 비해 더 선명해짐을 실험적으로 확인하였다. 또한 이 방법을 적용함으로써, 음소 분할 또한 더 수월해짐을 밝혔다.

의미 분석과 형태소 분석을 이용한 핵심어 인식 시스템 (Key-word Recognition System using Signification Analysis and Morphological Analysis)

  • 안찬식;오상엽
    • 한국멀티미디어학회논문지
    • /
    • 제13권11호
    • /
    • pp.1586-1593
    • /
    • 2010
  • 확률적 패턴 매칭과 동적 패턴 매칭의 어휘 인식 오류 보정 방법에서는 핵심어를 기반으로 문장을 의미론적으로 분석하므로 형태론적 변형에 따른 핵심어 분석이 어려운 문제점을 가지고 있다. 이를 해결하기 위해 본 연구에서는 음절 복원 알고리즘에서 형태소 분석을 이용하여 인식된 음소 열을 의미 분석 과정을 통해 음소의 의미를 파악하고 형태론적 분석으로 문장을 복원하여 어휘 오인식률을 감소하였다. 시스템 분석을 위해 음소 유사률과 신뢰도를 이용하여 오류 보정률을 구하였으며, 어휘 인식 과정에서 오류로 판명된 어휘에 대하여 오류 보정을 수행하였다. 에러 패턴 학습을 이용한 방법과 오류 패턴 매칭 기반 방법, 어휘 의미 패턴 기반 방법의 성능 평가 결과 2.0%의 인식 향상률을 보였다.

한국의 지하철역명을 위한 음소 기반의 음성인식에 관한 연구 (A Study on Speech Recognition based on Phoneme for Korean Subway Station Names)

  • 김범승;김순협
    • 한국철도학회논문집
    • /
    • 제14권3호
    • /
    • pp.228-233
    • /
    • 2011
  • 본 논문에서는 한국의 지하철역명을 위하여 음운론적 특성을 반영한 음소 기반의 음성인식 구현에 관한 방법을 제시하였다. 한국의 지하철역명의 음소 기반의 음성인식을 위하여 사용되는 최적의 유사음소 단위(PLU: Phoneme-Likely Unit)를 선정하기 위하여 네 가지의 Case 별로 PLU set과 음운 현상을 고려한 발음사전을 구성하여 인식률을 평가하였다. 적용된 유사음소 단위의 경우 초성과 종성 자음의 인식 단위 구분 및 음운 현상을 반영한 경우 트라이폰 모델에서 최적의 인식률(97.74%)을 보임을 알 수 있었다.

음절구조로 본 서울코퍼스의 글 어절과 말 어절의 음소분포와 음운변동 (Phoneme distribution and phonological processes of orthographic and pronounced phrasal words in light of syllable structure in the Seoul Corpus)

  • 양병곤
    • 말소리와 음성과학
    • /
    • 제8권3호
    • /
    • pp.1-9
    • /
    • 2016
  • This paper investigated the phoneme distribution and phonological processes of orthographic and pronounced phrasal words in light of syllable structure in the Seoul Corpus in order to provide linguists and phoneticians with a clearer understanding of the Korean language system. To achieve the goal, the phrasal words were extracted from the transcribed label scripts of the Seoul Corpus using Praat. Following this, the onsets, peaks, codas and syllable types of the phrasal words were analyzed using an R script. Results revealed that k0 was most frequently used as an onset in both orthographic and pronounced phrasal words. Also, aa was the most favored vowel in the Korean syllable peak with fewer phonological processes in its pronounced form. The total proportion of all diphthongs according to the frequency of the peaks in the orthographic phrasal words was 8.8%, which was almost double those found in the pronounced phrasal words. For the codas, nn accounted for 34.4% of the total pronounced phrasal words and was the varied form. From syllable type classification of the Corpus, CV appeared to be the most frequent type followed by CVC, V, and VC from the orthographic forms. Overall, the onsets were more prevalent in the pronunciation more than the codas. From the results, this paper concluded that an analysis of phoneme distribution and phonological processes in light of syllable structure can contribute greatly to the understanding of the phonology of spoken Korean.

형상 형성 제어를 이용한 어휘인식 공유 모델의 가우시안 최적화 (Gaussian Optimization of Vocabulary Recognition Clustering Model using Configuration Thread Control)

  • 안찬식;오상엽
    • 한국컴퓨터정보학회논문지
    • /
    • 제15권2호
    • /
    • pp.127-134
    • /
    • 2010
  • 연속 어휘 인식 확률 분포의 공유 방법에서는 사용될 모델 파라미터들의 초기 추정치를 생성하기 위한 각 문맥들에 대한 음소 데이터가 반드시 필요하지만 이들 음소 데이터에 대한 모델을 구성할 수 없는 단점으로 가우시안 모델의 정확성을 확보하지 못한다는 단점이 있다. 이를 개선하기 위하여 확률 분포의 혼합 가우시안 모델을 최적화하고, 음소 단위로 데이터를 탐색을 지원하는 형상 형성 시스템을 제안한다. 본 논문의 형상 형성 시스템은 확장 facet 분류를 이용하여 사용자에게 음소 단위의 형상 형성 정보를 제공하므로 가우시안 모델의 정확성을 제공한다. 본 논문에서 제안한 시스템을 적용한 결과 시스템 성능에서 어휘 종속 인식률은 98.31%, 어휘 독립 인식률은 97.63%의 인식률을 나타내었다.