• 제목/요약/키워드: Isolated word

검색결과 156건 처리시간 0.024초

음성인식 로봇을 위한 동시통화검출 기반의 강인한 음성 끝점 검출 (Robust End Point Detection for Robot Speech Recognition Using Double Talk Detection)

  • 문성규;박진수;고한석
    • 한국음향학회지
    • /
    • 제31권3호
    • /
    • pp.161-169
    • /
    • 2012
  • 본 논문에서는 반향이 큰 로봇 환경에 강인한 음성 끝점 검출 방법을 제안한다. 양방향 대화 로봇과 같이 반향대 신호 비가 -5 dB 이하인 반향환경에서는, 반향제거기의 성능이 저하되어 사용자 음성 에너지와 비슷한 크기의 에너지를 갖는 잔여반향이 생긴다. 잡음에 강인한 기존의 음성 끝점검출 방법이라도, 사용자 음성과 비슷한 수준의 에너지를 갖는 잔여반향은 음성으로 오검출하기 때문에 정확한 음성 끝점검출이 어렵다. 반향 환경에 강인한 끝점검출을 위해, 본 논문에서는 음성/반향 구간 판별에 좋은 성능을 보이는 동시통화검출의 결과를 기존의 음성끝점검출 방법과 AND 연산하여 음성끝점검출기를 구성하였다. 제안하는 방법의 평가를 위해 반향이 큰 환경에서 고립단어 인식을 실험하였고, 다양한 실험환경에서 기존 음성 끝점검출 방법보다 평균 30 % 이상의 인식 성능 향상을 확인할 수 있었다.

인간과 로봇 협력작업을 위한 로봇 지능제어알고리즘 개발에 관한 연구 (A Study on Intelligent Control Algorithm Development for Cooperation Working of Human and Robot)

  • 이우송;정양근;박인만;정종교;김희진;김민성;한성현
    • 한국산업융합학회 논문집
    • /
    • 제20권4호
    • /
    • pp.285-297
    • /
    • 2017
  • This study proposed a new approach to develop an Intelligent control algorithm for cooperative working of human and robot based on voice recognition. In general case of speaker verification, Gaussian Mixture Model is used to model the feature vectors of reference speech signals. On the other hand, Dynamic Time Warping based template matching techniques were presented for the voice recognition about several years ago. We converge these two different concepts in a single method and then implement in a real time voice recognition enough to make reference model to satisfy 95% of recognition performance. In this paper it was illustrated the reliability of voice recognition by simulation and experiments for humanoid robot with 18 joints.

이산분포 HMM을 이용한 음성인식에서의 코드워드 Tying 알고리즘 (A Codeword Tying Algorithm in Speech Recognition based on Discrete Hidden Markov Model)

  • 김도영;김남수;은종관
    • 한국음향학회지
    • /
    • 제13권3호
    • /
    • pp.63-70
    • /
    • 1994
  • 본 논문에서는 수형구조 분류기를 이 용한 코드워드 tying 알고리즘을 제안한다. 코드워드와 상태간의 통계적 특성을 이용한 일종의 soft decision 방식이라고도 볼 수 있는 제안된 알고리즘은 빠른 트리 구성과 유일한 최적의 해를 제공하는 특징이 있다. 또한, 이산분포 hidden Markov model(HMM)을 이용한 인식 시스템에 쉽게 적용이 가능하다는 장점을 가진다. 제안된 알고리즘의 성능 평가를 위한 화자독립 격리단어 인식실험에서 코드북 크기가 256과 512일 경우에 대해 각각 $6\%$, $9\%$의 오차를 감소시켰으며, HMM 파라미터도 $20\%$ 정도 줄임을 확인하였다.

  • PDF

Homogeneous Centroid Neural Network에 의한 Tied Mixture HMM의 군집화 (Clustering In Tied Mixture HMM Using Homogeneous Centroid Neural Network)

  • 박동철;김우성
    • 한국통신학회논문지
    • /
    • 제31권9C호
    • /
    • pp.853-858
    • /
    • 2006
  • 음성인식에서 TMHMM(Tied Mixture Hidden Markov Model)은 자유 매개변수의 수를 감소시키기 위한 좋은 접근이지만, GPDF(Gaussian Probability Density Function) 군집화 오류에 의해 음성인식의 오류를 발생시켰다. 본 논문은 TMHMM에서 발생하는 군집화 오류를 최소화하기 위하여 HCNN(Homogeneous Centroid Neural Network) 군집화 알고리즘을 제안한다. 제안된 알고리즘은 CNN(Centroid Neural Network)을 TMHMM상의 음향 특징벡터에 활용하였으며, 다른 상태에 소속된 확률밀도가 서로 겹쳐진 형태의 이질군집 지역에 더 많은 코드벡터를 할당하기 위해서 본 논문에서 새로 제안이 제안되는 이질성 거리척도를 사용 하였다. 제안된 알고리즘을 한국어 고립 숫자단어의 인식문제에 적용한 결과, 기존 K-means 알고리즘이나 CNN보다 각각 14.63%, 9,39%의 오인식률의 감소를 얻을 수 있었다.

잡음에 강한 음성 인식을 위한 성문 가중 켑스트럼에 관한 연구 (Glottal Weighted Cepstrum for Robust Speech Recognition)

  • 전선도;강철호
    • 한국음향학회지
    • /
    • 제18권5호
    • /
    • pp.78-82
    • /
    • 1999
  • 본 연구는 잡음에 강한 음성 파라미터로써 널리 사용하는 가중 켑스트럼에 관한 연구이다. 특히 청각 모델인 PLP(Perceptual Linear Predictive)에서 켑스트럼을 추출 후 비대칭형 성문 펄스 파형 형태를 가중치 함수로 사용하는 방법을 제안한다. 또한 이러한 가중 켑스트럼을 성도 모델에서의 성도파형과 켑스트럼과 연관하여 분석하였다. 그리고 청각 모델인 PLP의 켑스트럼에 가중시켜 청각 모델과 성도 모델을 모두 적용한 음성 파라미터를 얻었다. 이러한 방법의 성능 평가를 위해 차량내 잡음과 길거리에서의 잡음 환경에서의 고립 단어 인식 실험을 하였다. 그리고 기존의 LP(Linear Prediction)에 의한 가중된 윈도우 켑스트럼 및 PLP에 의한 가중된 Liftering 켑스트럼 등과 비교하였다. 모의 실험 결과는 기존의 가중된 cepstrum 보다 제안하는 성문 가중 켑스트럼이 보다 높은 인식율을 보여준다.

  • PDF

베이시안 신뢰도 융합을 이용한 신뢰도 측정 (Bayesian Fusion of Confidence Measures for Confidence Scoring)

  • 김태윤;고한석
    • 한국음향학회지
    • /
    • 제23권5호
    • /
    • pp.410-419
    • /
    • 2004
  • 본 논문에서는 베이시안에 기반한 신뢰도 융합 기법을 제안한다. 음성인식에서 신뢰도는 인식 결과에 대한 신뢰의 정도를 말하며, 인식 결과가 맞는 지의 여부를 판단할 수 있다. 개별 신뢰도 기법의 신뢰도 값을 융합하여 최종 판단을 내리는 집중형 융합 방식과 개별 신뢰도 기법의 판단 결과들을 융합하는 분산형 융합의 두 가지 방식에 대해 최적의 베이시안 융합규칙이 제시되었다. 고립단어 인식에서의 미등록어 거절 실험 결과 집중형 베이시안 신뢰도 융합 기법은 개별 신뢰도 기법에 비해 13% 이상의 상대적인 에러 감소 효과를 보였으나, 분산형 베이시안 융합은 성능의 향상을 보이지 못했다.

히스토그램 처리방법에 의한 잡음 스펙트럼 추정을 이용한 잡음환경에서의 음성인식 (Speech Recognition in Noisy Environments using the NOise Spectrum Estimation based on the Histogram Technique)

  • 권영욱;김형순
    • 한국음향학회지
    • /
    • 제16권5호
    • /
    • pp.68-75
    • /
    • 1997
  • 스펙트럼 차감법은 잡음이 더해진 환경에서의 음성인시기에 널리 사용되는 전처리 방법이지만, 이를 위해서는 잡음의 스펙트럼을 잘 추정할 필요가 있다. 본 논문에서는 잡음 스펙트럼의 추정방법으로 히스토그램 처리방법을 사용한다. 이 방법은 음성/비음성 구간의 구분을 할 필요가 없으며 서서히 변화하는 잡음의 스펙트럼도 추정할 수 있다는 점에서 여타의 잡음 추정방법에 비해 장점을 지닌다. 다양한 SNR 조건하에서 유색 가우시안 잡음 및 실제 자동차 소음을 부가시킨 음성에 대해 화자독립 고립단어 인식 실험을 수행한 결과, 히스토그램 처리방법에 기반을 둔 스펙트럼 차감법의 인식성능이 초기 비음성구간의 스펙트럼 평균을 이용한 기존의 잡음 스펙트럼 추정방법에 비해 우수한 성능을 나타내었다.

  • PDF

DHMM을 이용한 한국어 음성 인식 (Korean Speech Recognition using DHMM)

  • 안태옥;이강성;유형근;이형준;조형제;변용규;김순협
    • 한국음향학회지
    • /
    • 제10권1호
    • /
    • pp.52-60
    • /
    • 1991
  • 본 연구는 스펙트럼의 동적 특징을 한 파라메타로 하는 DHMM(Dynamic Hidden Markov Model)을 이용한 단독어인식에 관한 것으로 정적 스펙트럼 특징뿐 아니라 동적 스펙트럼 특징을 평가할 수 있는 DHMM에 근거한 음성 인식 실험을 논의 한다. 정적특징으로는 LPC cepstrum 계수를 이용하였고, 동적특징으로는 LPC cepstrum 의 회귀계수를 사용하였다. 이들 두 개의 특징 벡터들을 각각 집단화하여 만든 두 VQ codebook과 입력으로 받아들인 정적 벡터및 동적벡터로 단어들을 DHMM(Dynamic Hidden Markov Model)으로 모델링 하였다. 전체적인 실험에서 기존의 HMM을 이용한 인식실험에서는 88.8%의 인식율을 얻었는데 반해, DHMM을 이용한 인식실험에서는 92.7%의 인식율을 보였다.

  • PDF

시간 동기 비터비 빔 탐색을 위한 인식 시간 감축법 (Recognition Time Reduction Technique for the Time-synchronous Viterbi Beam Search)

  • 이강성
    • 한국음향학회지
    • /
    • 제20권6호
    • /
    • pp.46-50
    • /
    • 2001
  • 본 논문은 HMM (Hidden Markov Model) 음성 인식 시스템에 적용할 수 있는 새로운 인식 시간 알고리즘인 스코아 캐쉬기법을 제안한다. 다른 많은 기법들이 인식 시간을 줄이면서 계산량을 줄이기 위하여 어느 정도의 인식율 저하를 감수하는 반면에 제안하는 스코아 캐쉬기법은 인식율 저하를 전혀 일으키지 않으면서 인식 시간을 상당량 줄일 수 있는 기법이다. 단독어 인식 시스템에 적용 가능할 뿐 아니라 연속어 인식에도 적용이 가능하며, 기존에 이미 설계된 인식 시스템의 구조를 전혀 흩트리지 않고 간단히 하나의 함수만 대치함으로서 인식시간을 크게 감축할 수 있다 또한 기존의 계산량 감축 알고리즘과 함께 적용 가능하므로 추가의 계산량 감소를 얻을 수 있다. 스코아 캐쉬 기법을 적용한 결과 최대 54% 만큼 계산량을 줄일 수 있었다.

  • PDF

Rum-Length code를 이용한 제약없이 쓰여진 한글 필기체 주소열 분할 (An Approach to Segmentation of Address Strings of unconstrained handwritten Hangul using Run-Length Code)

  • 김경환;윤정석
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제28권11호
    • /
    • pp.813-821
    • /
    • 2001
  • 대부분의 문자 인식기들이 인식대상영상이 인식단위로 분할되어있다는 가정아래 개발되고 있으나, 실제 필기한글의 분할에 대한 연구는 미미한 실정이다. 본 논문은 Run-length code를 이용한 능동적인 한글 분할방법을 제시한다. 전처리와 인식단위 분할에 응용할 수 있는, 한글의 구조적 특성을 반영한, 기울기 보정 알고리즘을 제안하고, 필기자들이 일반적인 필기 습관과 한글이 갖는 2차원 구조의 특성을 반영하면서 문자의 접촉점을 적극적으로 찾아내기 위한 기초 함수들과 접촉점들의 분류 방법을 제시한다. 임의의 필기자로부터 수집한 필기 한글 주소열 데이터를 이용해 수행한 실험을 통해, 초과분할을 포함하여, 88.2%의 접촉 문자들을 분리할 수 있었다.

  • PDF