• 제목/요약/키워드: 고립단어

검색결과 127건 처리시간 0.022초

발화속도 적응적인 한국어 연속음 인식기 (Adaptive Korean Continuous Speech Recognizer to Speech Rate)

  • 김재범;박찬규;한미성;이정현
    • 한국정보처리학회논문지
    • /
    • 제4권6호
    • /
    • pp.1531-1540
    • /
    • 1997
  • 본 논문에서는 발화속도 측정과 이를 통한 보상방법을 통하여 성능 향상된 한국어 연속음 인식 시스템을 제안한다. 연속음 인식은 다양한 조음화 현상과 발화속도의 변화로 인하여 고립단어 인식에 비하여 어렵다. 따라서, 연속음 인식을 위해서는 조음화 현상과 발화속도의 변화를 모델링할 수 있는 방법이 필요하다. 본 논문에서는 발화속도를 포만트의 변화율로서 측정하였고, 이 정보를 이용하여 빠른 발화에서는 상대적으로 많은 특징벡터를 발생시켜 보상을 시도하였다. 또한 조음화 현상을 모델링하기 위하여 한국어의 다이폰 집합을 514개로 정의하였고, 훈련을 위한 음성 DB론느 ETRI의 445 단어 DB를 사용하였다. 이러한 방법을 결합한 한국어 연속음 인식기를 DHMM (Discrete Hidden Markov Model)으로 구현하여 인식률이 향상됨을 보였다.

  • PDF

Diphone 단위 의 hidden Markov model을 이용한 한국어 단어 인식 (Korean Word Recognition Using Diphone- Level Hidden Markov Model)

  • 박현상;은종관;박용규;권오욱
    • 한국음향학회지
    • /
    • 제13권1호
    • /
    • pp.14-23
    • /
    • 1994
  • 본 논문에서는 한국어 음성인식에 적합한 음성 인식 단위에 대해서 연구하였다. 좋은 음성 인식 시스템을 구현하기 위해서는 발음된 음성내의 조음화현상을 처리할 수 있는 인식단위를 선택해야만 한다. 따라서 음소보다 개념적으로 확대된 인식단위가 필요하게 되는데, diphone은 음소간의 전이영역을 modeling하기때문에 좋은 인식 단위가 될 수 있다. Diphone을 인식 단위로 할 경우에 안정적인 음소영역을 diphone사이에 삽입할 수도 있다. 7명의 남성화자가 발음한 74단어로 구성된 고립단어 인식 실험결과 diphone을 2-state HMM으로, 터짐소리 `ㅂ',`ㄷ','ㄱ'와 묵음을 제외한 음소에 대해서 1-state HMM으로 나타냈을 때 가장 높은 인식률을 보였다. 이때 드물게 발생하는 diphone들을 하나의 단위로 merging했을 때 인식률이 $93.98\%$에서 $96.29\%$로 향상되었다. 또한 merging된 diphone과 제안한 국소보간법 (local interpolation technique)을 사용함으로써 $97.22\%$까지 인식률이 향상되었다.

  • PDF

분산 신경망을 이용한 고립 단어 음성에 나타난 음소 인식 (Recognition of Korean Phonemes in the Spoken Isolated Words Using Distributed Neural Network)

  • 김선일;이행세
    • 한국음향학회지
    • /
    • 제14권6호
    • /
    • pp.54-61
    • /
    • 1995
  • 본 논문에서는 총 106개의 단어로 구성되는 30개의 한국어 속담 문장에 대해 프레임 단위로 인식하는 분산 신경망을 구현하였다. 음성에 대한 특징값으로는 PLP 켐스트럼과 에너지 및 영교차율을 사용하였으며 분산 신경망의 입력으로 사용되는 이 특징값들이 음성의 시간적 특성을 잘 반영할 수 있도록 한 프레임 주변의 넓은 영역에 걸쳐 데이타를 수집하였다. 20대 젊은 남자가 30개의 속담을 5번씩 발음하였다. 신경망 학습에 네집단을 사용하고 학습에 참여하지 않은 나머지 한집단은 인식용으로 사용하였다. 속담내의 단어와 단어 사이는 구별이 잘 되도록 묵음 구간을 두어 발음하였다. 인식 결과음소를 판 군별로 분류하는 대분류 신경망에서의 각 군의 프레임 인식율은 네 집단을 학습에 사용한 경우 $95.3\%$를 나타내었다.

  • PDF

잡음환경에 강인한 음성인식을 위해 SNR과 마스킹 효과를 이용한 적응 스펙트럼 차감법 (Adaptive Spectral Subtraction Method Using SNR and Masking Effect for Robust Speech Recognition in Noisy Environments)

  • 김태준;김종훈;이경모;이정현
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 가을 학술발표논문집 Vol.31 No.2 (2)
    • /
    • pp.580-582
    • /
    • 2004
  • 스펙트럼 차감과정에서 발생하는 잔류 잡음을 제거하는 방법으로 파라메터를 이용하는 적응 스펙트럼 차감법이 있다. 이는 파라메터를 증가시켜 잔류 잡음을 감소시키는 방법이지만 파라메터를 과도하게 증가시킬 경우 음성 왜곡이 발생한다. 따라서, 적절한 파라메터를 추출하기 위하여 SNR이나, 마스킹 효과 등을 이용한 방법들이 제안되었으나 과도한 잡음의 제거로 인한 음성 왜곡 문제와 낮은 SNR에서 부정확한 파라메터의 추출 문제는 여전히 해결해야 할 과제로 남아있다. 본 논문은 기존의 SNR을 이용한 방법에 마스킹 효과를 적용한 수정된 적응 스펙트럼 차감법을 제안한다. 제안된 방법에서는 마스킹 임계치를 이용하여 잡음 추정값을 재 계산 항으로써 SNR을 향상시켰고, 이를 이용하여 파라메터를 추출함으로써 성능을 개선했다 성능평가 결과, 제안한 차감법을 적용한 음성신호를 고립단어 음성인식 시스템에 적용했을 때 기존의 방법 보다 인식률이 향상된 것을 확인할 수 있었다.

  • PDF

주파수 영역에서의 고립단어에 대한 음성 특징 추출 (Speech Feature Extraction for Isolated Word in Frequency Domain)

  • 조영훈;박은명;강홍석;박원배
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2000년도 하계종합학술대회 논문집(4)
    • /
    • pp.81-84
    • /
    • 2000
  • In this paper, a new technology for extracting the feature of the speech signal of an isolated word by the analysis on the frequency domain is proposed. This technology can be applied efficiently for the limited speech domain. In order to extract the feature of speech signal, the number of peaks is calculated and the value of the frequency for a peak is used. Then the difference between the maximum peak and the second peak is also considered to identify the meanings among the words in the limited domain. By implementing this process hierarchically, the feature of speech signal can be extracted more quickly.

  • PDF

신경망을 이용한 이중모달 음성 인식 모델링 (Bimodal Speech Recognition Modeling Using Neural Networks)

  • 류정우;성지애;이순신;김명원
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (B)
    • /
    • pp.567-569
    • /
    • 2003
  • 최근 잡음환경에서 강인한 음성인식을 위해 음성 잡음에 영향을 받지 않은 영상정보를 이용한 이중모달 음성인식 연구가 활발히 진행되고 있다. 기존 음성인식기로 좋은 성능을 보이는 HMM은 이질적인 정보를 융합하는데 있어 많은 제약과 어려움을 가지고 있다. 하지만 신경망은 이질적인 정보를 효율적으로 융합할 수 있는 장점을 가지고 있으며 그에 대한 많은 연구가 수행되고 있다. 따라서 본 논문에서는 잡음환경에 강인한 이중모달 음성 인식 모델로 이중모달 신경망(BN-NN)을 제안한다. 이중모달 신경망은 특징융합 방법으로 음성정보와 영상정보를 융합하고 있으며. 입력정보의 특성을 고려하기 위해 윈도우와 중복영역의 개념을 적용하여 시제위치를 고려하도록 설계되어있다. 제안된 모델은 잡음환경에서 음성인식기와 성능을 비교하고, 화자독립 고립단어 인식에서 기존 융합방법인 CHMM과 비교하여 그 가능성을 확인한다.

  • PDF

MFCC와 DTW에 알고리즘을 기반으로 한 디지털 고립단어 인식 시스템 (Digital Isolated Word Recognition System based on MFCC and DTW Algorithm)

  • 장한;정길도
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2008년도 학술대회 논문집 정보 및 제어부문
    • /
    • pp.290-291
    • /
    • 2008
  • The most popular speech feature used in speech recognition today is the Mel-Frequency Cepstral Coefficients (MFCC) algorithm, which could reflect the perception characteristics of the human ear more accurately than other parameters. This paper adopts MFCC and its first order difference, which could reflect the dynamic character of speech signal, as synthetical parametric representation. Furthermore, we quote Dynamic Time Warping (DTW) algorithm to search match paths in the pattern recognition process. We use the software "GoldWave" to record English digitals in the lab environments and the simulation results indicate the algorithm has higher recognition accuracy than others using LPCC, etc. as character parameters in the experiment for Digital Isolated Word Recognition (DIWR) system.

  • PDF

다층퍼셉트론의 출력 노드 수 증가에 의한 성능 향상 (Performance Improvement of Multilayer Perceptrons with Increased Output Nodes)

  • 오상훈
    • 한국콘텐츠학회논문지
    • /
    • 제9권1호
    • /
    • pp.123-130
    • /
    • 2009
  • 일반적으로 다층퍼셉트론을 패턴인식 문제에 적용할 경우 클래스 당 하나의 출력 노드를 배정하고, 이 출력 노드의 인덱스가 입력 패턴의 클래스를 뜻하도록 한다. 이 논문에서는 이와 달리 다층퍼셉트론의 성능 향상을 위하여 클래스 당 출력노드 수를 증가시키는 방법을 제안한다. 두 개의 클래스 문제를 대상으로 클래스 발생확률이 동일하고 각 클래스 내에서 출력노드가 균일분포를 지닌다는 가정 하에, 이 방법의 효용성을 확률론적인 유도를 통하여 증명하였다. 그리고, 50개의 고립단어 인식의 시뮬레이션으로 출력노드를 증가 시킬 경우 성능이 향상됨을 확인하였다.

어휘독립 환경에서의 가변어휘 음성인식에 관한 연구 (A Study on the Variable Vocabulary Speech Recognition in the Vocabulary-Independent Environments)

  • 황병한
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 학술발표대회 논문집 제17권 2호
    • /
    • pp.369-372
    • /
    • 1998
  • 본 논문은 어휘독립(Vocabulary-Independent) 환경에서 별도의 훈련과정 없이 인식대상 어휘를 추가 및 변경할 수 있는 가변어휘(Variable Vocabulary) 음성인식에 관한 연구를 다룬다. 가변어휘 인식은 처음에 대용량 음성 데이터베이스(DB)로 음소모델을 훈련하고 인식대상 어휘가 결정되면 발음사전에 의거하여 음소모델을 연결함으로써 별도의 훈련과정 없이 인식대상 어휘를 변경 및 추가할 수 있다. 문맥 종속형(Context-Dependent) 음소 모델인 triphone을 사용하여 인식실험을 하였고, 인식성능의 비교를 위해 어휘종속 모델을 별도로 구성하여 인식실험을 하였다. Unseen triphone 문제와 훈련 DB의 부족으로 인한 모델 파라메터의 신뢰성 저하를 방지하기 위해 state-tying 방법 중 음성학적 지식에 기반을 둔 tree-based clustering(TBC) 기법[1]을 도입하였다. Mel Frequency Cepstrum Coefficient(MFCC)와 대수에너지에 기반을 둔 3 가지 음성특징 벡터를 사용하여 인식 실험을 병행하였고, 연속 확률분포를 가지는 Hidden Markov Model(HMM) 기반의 고립단어 인식시스템을 구현하였다. 인식 실험에는 22 개 부서명 DB[3]를 사용하였다. 실험결과 어휘독립 환경에서 최고 98.4%의 인식률이 얻어졌으며, 어휘종속 환경에서의 인식률 99.7%에 근접한 성능을 보였다.

  • PDF

음소 모델링 방식들의 성능 비교 (Performance Comparison of Acoustic Modeling Technique)

  • 송명규
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 학술발표대회 논문집 제17권 2호
    • /
    • pp.377-380
    • /
    • 1998
  • HMM 기반의 음성 인식기를 구현하는데 있어서 모델의 복잡도와 제한된 훈련 데이터 사이의 균형을 유지하는 것은 중요한 문제이다. 중간규모 또는 대용량 어휘 인식 시스템은 정교한 모델을 얻기 위해서 문맥종속 음소 모델링이 필수적이다. 그러나, 제한된 훈련 데이터로는 발생 가능한 모든 context를 포함하기가 어렵고, 더구나 훈련 데이터에서 관찰된 context중에서도 그 관찰빈도가 낮은 것이 많아서 신뢰성 있는 문맥종속 모델들을 얻기에는 여전히 어려움이 따른다. 또한 경우에 따라서는 계산량의 감축을 위하여 모델 규모를 축소시킬 필요도 생긴다. 이러한 문제를 해결하기 위해 본 논문에서는 unit reduction 방법들과 state tying을 이용한 방법들의 성능을 실험을 통해 비교한다. 고립단어 인식 실험결과 state tying을 이용한 방법이 unit reduction에 비하여 우수함을 확인 할 수 있었다.

  • PDF