• 제목/요약/키워드: 연속음성인식

검색결과 259건 처리시간 0.026초

구어파서를 위한 생성 인식 언어모델 (Generation and Recognition Language Model for Spoken Language Parser)

  • 정홍;황광일
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.167-172
    • /
    • 1999
  • 구어는 프로그래밍 언어와는 달리 주어진 문장 내에서의 해당 어휘의 뜻(semantic information)을 알고 다른 어휘들과의 연관성 (grammatical information)을 알아야만 적절한 형태소분석이 가능하다. 또한 구어는 방대한 양의 어휘들로 구성되어 있으며 사용하는 사람마다의 다양한 응용과 공식화되기 어려운 수많은 예외들로 운용되기 때문에 단순히 찾아보기표와 오토마타만으로는 형태소분석에 한계가 있다. 이에 본 논문에서는 주어진 어휘집과 그 어휘들로 만들어진 다양한 문장들로부터 구어운용의 근본기제를 스스로 학습해나가는 강화학습중심의 언어모델을 제안하고 실제로 한국어 형태소분석에 적용하여 그 성능과 특성을 파악해보았다. 구어파서의 입력은 음절단위의 발음이며 인간이 문장을 듣거나 보는 것과 동일하게 시간에 따라 순차적으로 입력된다. 파서의 출력 또한 시간에 따라 변화되면서 나타나며 입력된 연속음절을 형태소단위로 분리(segmentation)하고 분류(labeling)한 결과를 나타낸다. 생성인식 언어모델이 기존의 언어모델과 다른 점은 구어 파싱에 있어서 필수적인 미등륵어에 대한 유연성과 앞단의 음성인식기 오류에 적절한 반응(fault tolerance)을 나타내는 것이다.

  • PDF

모수적 궤적 기반의 분절 HMM을 이용한 연속 음성 인식 (Continuous Speech Recognition based on Parmetric Trajectory Segmental HMM)

  • 윤영선;오영환
    • 한국음향학회지
    • /
    • 제19권3호
    • /
    • pp.35-44
    • /
    • 2000
  • 본 논문에서는 음성 패턴을 효율적으로 모델링하고자 분절 특징(segmental feature)을 이 용하여 은닉 마코프 모델(hidden markov model)의 일반적인 형식에 기반한 새로운 모수적 궤적 모델 (parametric trajectory model)을 제안한다. 일반적으로 벡터의 열로써 표현되는 분절은 관측 열의 궤적(trajectory)으로 표현된다. 이 궤적은 연속적인 프레임들의 전이 정보(transitional information)를 표현하는 디자인 행렬을 이용하여 얻어지며, 다항식의 회귀 함수(polynomial regression function)로써 나타낼 수 있다. 이러한 궤적을 HMM에 적용하기 위해서 프레임 특징 대신 분절의 특성 을 표현하는 궤적으로 대치하고 우도(likelihood) 계산에 궤적들의 비교에 의한 확률 값을 반영시켜야 한다. 본 논문에서는 궤적간의 유사도를 측정하는 분절 우도(segment likelihood)와 모델을 구성하는 궤적변수의 추정 알고리즘을 제안한다. 임의의 분절에 대한 관측 확률은 제안된 분절 우도와 궤적의 추정 오차(estimation error of trajectories)의 곱으로써 표현된다. 궤적의 추정 오차는 상태에서 주어진 분절 우도의 가중치로 표현될 수 있으며, 이 가중치는 궤적과 대응되는 분절의 적합도를 표현하는 확률을 나타낸다. 본 논문에서 제 안된 모델은 일반적 인 HMM과 모수적 궤적 모델의 일반화(generalization) 또는 확장(extension) 모델로 생각될 수 있다. 본 모델의 성능을 평가하기 위하여 TIMIT 데이터에 기반한 실험을 한 결과, 분절 길이(segment length)와 회귀 차수(regression order)가 변할수록 일반적인 HMM에 비하여 뚜렷한 성능향상이 있음을 알 수 있었다.

  • PDF

한국어 숫자음의 음운변화 및 화자 발성특성을 고려한 연결숫자 인식의 성능향상 (Performance Improvement of Connected Digit Recognition by Considering Phonemic Variations in Korean Digit and Speaking Styles)

  • 송명규;김형순
    • 한국음향학회지
    • /
    • 제21권4호
    • /
    • pp.401-406
    • /
    • 2002
  • 한국어 숫자는 모두 단음절로 이루어져 있으며, 연속적으로 발음될 때 인접 숫자들의 상호조음현상에 의해 각 숫자의 고유 발음이 변화하고, 또한 그 숫자들의 경계도 모호해지는 문제점이 있다. 이러한 문제점들과 더불어 배경잡음이나 채널에 의한 왜곡에 따른 문제점들로 인해 한국어 연결숫자의 인식 성능은 만족스럽지 못한 것이 현실이다. 본 논문에서는 연결숫자의 인식성능 향상을 위해서 한국어 숫자들의 음운변화를 고려하여 유사음소 (phonelike units: PLUs)군을 정의하고, 사용자의 여러 가지 발성형태에 따른 다양한 음운 현상의 변화를 흡수할 수 있도록 인식 시스템을 구성하는 방식을 검토하였다. 전화망 4연숫자를 이용한 화자독립 인식 실험을 수행한 결과 제안된 방법의 숫자열 인식률은 상태당 믹스쳐 (mixture) 개수가 1인 경우 83.2%로, 기준 시스템 (baseline)에 대한 오류감소률이 7.2%였고 가장 높은 성능을 나타낸 믹스쳐 개수가 11인 경우 숫자열 인식률은 91.8% 오류감소율은 4.7%였다.

FAES : 감성 표현 기법을 이용한 얼굴 애니메이션 구현 (On the Implementation of a Facial Animation Using the Emotional Expression Techniques)

  • 김상길;민용식
    • 한국콘텐츠학회논문지
    • /
    • 제5권2호
    • /
    • pp.147-155
    • /
    • 2005
  • 본 논문은 여러 가지 감정들 중에서 4가지 감정의 범주 즉, 중성, 두려움, 싫증 및 놀람을 포함한 음성과 감성이 결합되어진 얼굴의 표정을 좀 더 정확하고 자연스러운 3차원 모델로 만들 수 있는 FAES(a Facial Animation with Emotion and Speech) 시스템을 구축하는데 그 주된 목적이 있다. 이를 위해서 먼저 사용할 훈련자료를 추출하고 난후에 감성을 처리한 얼굴 애니메이션에서는 SVM(Support vector machine)[11]을 사용하여 4개의 감정을 수반한 얼굴 표정을 데이터베이스로 구축한다. 마지막으로 얼굴 표정에 감정과 음성이 표현되는 시스템을 개발하는 것이다. 얼굴 표정을 위해서 본 논문에서는 한국인 청년을 대상으로 이루어졌다. 이런 시스템을 통한 결과가 기존에 제시된 방법에 비해서 감정의 영역을 확대시킴은 물론이고 감정인지의 정확도가 약 7%, 어휘의 연속 음성인지가 약 5%의 향상을 시켰다.

  • PDF

연속형 속성을 갖는 인공 신경망의 규칙 추출 (Extracting Rules from Neural Networks with Continuous Attributes)

  • 바트셀렘;이완곤;전명중;박현규;박영택
    • 정보과학회 논문지
    • /
    • 제45권1호
    • /
    • pp.22-29
    • /
    • 2018
  • 지난 수십 년 동안 인공 신경망은 음성 인식에서 이미지 분류에 이르기까지 수많은 분야에서 성공적으로 사용되었다. 그러나 인공 신경망은 특정 결론이 어떻게 도출되었는지 알 필요가 있음에도 불구하고 이러한 결과를 설명할 수 있는 능력이 부족하다. 대부분의 연구는 신경망에서 이진 규칙을 추출하는데 초점을 맞추고 있지만, 기계 학습 응용 프로그램에 사용되는 데이터는 연속된 값이 포함되어 있기 때문에 실용적이지 않은 경우가 있다. 이러한 격차를 줄이기 위해 본 논문에서는 연속된 값이 포함된 데이터로부터 학습된 신경망에서 논리 규칙을 추출하는 알고리즘을 제안한다. 초평면 기반 선형 분류기를 사용하여 입력 및 은닉 층 사이에서 학습된 가중치로부터 규칙을 추출하고, 비선형 분류 규칙을 생성하기 위해 은닉 층과 출력 층에서 학습된 이진 규칙과 분류기를 결합한다. 비선형 연속값으로 구성된 여러 데이터셋을 대상으로 진행한 실험에서 제안하는 방법이 논리적 규칙을 정확하게 추출할 수 있음을 보였다.

유전자 알고리듬을 이용한 CDHMM의 최적화 (An Optimization method of CDHMM using Genetic Algorithms)

  • 백창흠
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 학술발표대회 논문집 제17권 1호
    • /
    • pp.71-74
    • /
    • 1998
  • HMM (hidden Markov model)을 이용한 음성인식은 현재 가장 널리 쓰여지고 있는 방법으로, 이 중 CDHMM (continuous observation density HMM)은 상태에서 관측심볼확률을 연속확률밀도를 사용하여 표현한다. 본 논문에서는 가우스 혼합밀도함수를 사용하는 CDHMM의 상태천이확률과, 관측심볼확률을 표현하기 위한 인자인 평균벡터, 공분산 행렬, 가지하중값을 유전자 알고리듬을 사용하여 최적화하는 방법을 제안하였다. 유전자 알고리듬은 매개변수 최적화문제에 대하여 자연의 진화원리를 모방한 알고리듬으로, 염색체 형태로 표현된 개체군 (population) 중에서 환경에 대한 적합도 (fitness)가 높은 개체가 높은 확률로 살아남아 재생 (reproduction)하게 되며, 교배 (crossover)와 돌연변이 (mutation) 연산 후에 다음 세대 개체군을 형성하게 되고, 이러한 과정을 반복하면서 최적의 개체를 구하게 된다. 본 논문에서는 상태천이확률, 평균벡터, 공분산행렬, 가지하중값을 부동소수점수 (floating point number)의 유전자형으로 표현하여 유전자 알고리듬을 수행하였다. 유전자 알고리듬은 복잡한 탐색공간에서 최적의 해를 찾는데 효과적으로 적용되었다.

  • PDF

신경망을 이용한 음소분할에 관한 연구 (A Study on the Phoneme Segmentation Using Neural Network)

  • 이광석;이광진;조신영;허강인;김명기
    • 한국통신학회논문지
    • /
    • 제17권5호
    • /
    • pp.472-481
    • /
    • 1992
  • 본 연구에서는 신경망으로 음성신호를 음소분할 할 수 있는 알고리즘을 제시하고 시뮬레이션을 통해 타당성을 검토하였다. 제안된 신경망은 1개의 은닉층을 가지는 다층 인식자로 구성하였다. 실험결고 연속보음과 6개 지명음을 자료로 하여 종속화자인 경우 100% 독립화자인 경우 99.4% 그리고 6개 지명음을 동시에 학습하여 각 지명음에 대해 음소분할한 결과는 94.5%의 정합율을 얻었다.

  • PDF

연속음성중 키워드(Keyword) 인식을 위한 Binary Clustering Network (Binary clustering network for recognition of keywords in continuous speech)

  • 최관선;한민홍
    • 제어로봇시스템학회:학술대회논문집
    • /
    • 제어로봇시스템학회 1993년도 한국자동제어학술회의논문집(국내학술편); Seoul National University, Seoul; 20-22 Oct. 1993
    • /
    • pp.870-876
    • /
    • 1993
  • This paper presents a binary clustering network (BCN) and a heuristic algorithm to detect pitch for recognition of keywords in continuous speech. In order to classify nonlinear patterns, BCN separates patterns into binary clusters hierarchically and links same patterns at root level by using the supervised learning and the unsupervised learning. BCN has many desirable properties such as flexibility of dynamic structure, high classification accuracy, short learning time, and short recall time. Pitch Detection algorithm is a heuristic model that can solve the difficulties such as scaling invariance, time warping, time-shift invariance, and redundance. This recognition algorithm has shown recognition rates as high as 95% for speaker-dependent as well as multispeaker-dependent tests.

  • PDF

제한된 한국어 연속음성에 나타난 음소인식에 관한 연구 (A Study on the Phoneme Recognition in the Restricted Continuously Spoken Korean)

  • 심성룡;김선일;이행세
    • 전자공학회논문지B
    • /
    • 제32B권12호
    • /
    • pp.1635-1643
    • /
    • 1995
  • This paper proposes an algorithm for machine recognition of phonemes in continuously spoken Korean. The proposed algorithm is a static strategy neural network. The algorithm uses, at the stage of training neurons, features such as the rate of zero crossing, short-term energy, and either PARCOR or auditory-like perceptual linear prediction(PLP) but not both, covering a time of 171ms long. Numerical results show that the algorithm with PLP achieves approximately the frame-based phoneme recognition rate of 99% for small vocabulary recognition experiments. Based on this it is concluded that the proposed algorithm with PLP analysis is effective in phoneme recognition.

  • PDF

음성망을 이용한 한국어 연속 숫자음 인식에 관한 연구 (Study on the Recognition of Spoken Korean Continuous Digits Using Phone Network)

  • 이강성;이형준;변용규;김순협
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 1988년도 전기.전자공학 학술대회 논문집
    • /
    • pp.624-627
    • /
    • 1988
  • This paper describes the implementation of recognition of speaker - dependent Korean spoken continuous digits. The recognition system can be divided into two parts, acoustic - phonetic processor and lexical decoder. Acoustic - phonetic processor calculates the feature vectors from input speech signal and the performs frame labelling and phone labelling. Frame labelling is performed by Bayesian classification method and phone labelling is performed using labelled frame and posteriori probability. The lexical decoder accepts segments (phones) from acoustic - phonetic processor and decodes its lexical structure through phone network which is constructed from phonetic representation of ten digits. The experiment carried out with two sets of 4continuous digits, each set is composed of 35 patterns. An evaluation of the system yielded a pattern accuracy of about 80 percent resulting from a word accuracy of about 95 percent.

  • PDF