• 제목/요약/키워드: 연속음성인식

검색결과 259건 처리시간 0.033초

최대 엔트로피 모델을 이용한 연속음성인식에서의 인식 신뢰도 측정 (CONFIDENCE MEAUSRING METHOD FOR CONTIUOUS SPEECH RECOGNITION USING MAXIMUM ENTROPY MODEL)

  • 정상근;정민우;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2004년도 제16회 한글.언어.인지 한술대회
    • /
    • pp.200-204
    • /
    • 2004
  • 음성인식기술을 실제 생활에 적용할 때 발생하는 대표적인 문제로. 인식기의 낮은 인식률로 인한 오동작을 들 수 있다. 본 연구에서는, 텔레뱅킹 도메인에서의 HTK(Hidden Markov Model Toolkit) 연속 음성 인식 시스템과, 최대 엔트로피 기법에 기반한 사용자 발화에서의 핵심이 되는 단어(주로 고유 명사들)들에 대한 인식 신뢰도의 측정 방법을 제시한다. 음향특징과 언어특징들을 모두 고려하여 인식 신뢰도를 구하였으며 인식된 단어들에 대해 오인식 되었음을 약 86%의 정확도로 판단할 수 있음을 확인하였다. 본 인식신뢰도를 이용하여 차후에 음성인식의 확인대화(Clarification Dialog)모델을 개발하는데 활용하고자 한다.

  • PDF

은닉 마르코프 모델과 레벨 빌딩을 이용한 한국어 연속 음성 인식 (Recognition of Continuous Spoken Korean Language using HMM and Level Building)

  • 김경현;김상균;김항준
    • 전자공학회논문지C
    • /
    • 제35C권11호
    • /
    • pp.63-75
    • /
    • 1998
  • 한국어 연속 음성에서 발생하는 조음결합문제를 해결하기 위하여 단어를 기본 인식 단위로 사용할 경우 각 단어의 효율적인 표현 방법, 연속된 단어로 이루어진 여러 문장의 표현 방법 그리고 입력된 연속음성을 연속된 여러 단어로의 정합 방법에 관한 연구가 선행되어야 한다. 본 논문에서는 은닉 마르코프 모델과 레벨빌딩 알고리즘을 이용한 한국어 연속 음성 인식 시스템을 제안한다. 각 단어는 은닉 마르코프 모델로 표현하고 문장을 표현하기 위하여 단어 모델을 연결한 형태인 인식 네트워크를 구성한다. 인식네트워크의 탐색 알고리즘으로는 레벨 빌딩 알고리즘을 사용한다. 제안한 방법은 항공기 예약 시스템에 적용한 실험에서 인식율과 인식속도면에서 실용적이었으며 또한 비교적 적은 저장공간으로 전체 문장을 표현하고 쉽게 확장할 수 있다는 장점을 가지고 있다.

  • PDF

음성인식기술의 현황과 전망

  • 이종락
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1992년도 제4회 한글 및 한국어정보처리 학술대회
    • /
    • pp.689-707
    • /
    • 1992
  • 인간의 가장 익숙한 정보교환 수단인 음성을 기계가 인식하게 함으로써 모든 기계를 말로써 작동시키고자 하는 것은 인간의 오랜 꿈이었다. 최근 컴퓨터 기술과 음성처리 기술의 급속한 발달에 힘입어 그 꿈은 현실로 다가오고 있다. 현재 고립어 인식은 충분히 실용화될 수 있는 단계에 들어 섰으며 이제 연속어 인식 내지 연속어 이해에 연구가 집중되고 있다. 인간과 기계를 인터페이스하는 언어의 전위레벨로서 날로 그 중요성이 부각되고 있는 음성인식 기술의 현황을 살펴보고 그것의 미래를 전망해 본다.

  • PDF

전화망 환경에서 한국어 숫자음 인식을 위한 잡음처리 (Noise Reduction for Korean Connected Digit Recognition through Telephone Channel)

  • 김규홍;김회린
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2003년도 5월 학술대회지
    • /
    • pp.211-214
    • /
    • 2003
  • 일반적으로 음성 인식에서의 성능은 잡음의 영향으로 인하여 저하된다. 전화망을 통한 한국어 연속 숫자음 인식은 음성인식 분야에 있어서 어려운 영역에 속하는데, 이는 조음 현상으로 인한 인식률 저하되는 점과 전화망 채널의 영향으로 인하여 스펙트럼 포락이 왜곡되며 음성신호의 대역폭이 제한되기 때문이다. 본 논문에서는 잡음의 영향을 줄이기 위하여, 2WF(2-stage Wiener Filter) 와 SWP (SNR-dependent Waveform Processing) 그리고 CMN(Cepstrum Mean Normalization)을 사용하였다. 2WF는 음성 신호의 포만트 구조를 적게 왜곡시키면서 전체적인 가산잡음 뿐만 아니라 동적 가산잡음도 줄여준다. SWP는 음성파형에서 SNR값이 상대적으로 큰 부분을 강조하여 전체적인 SNR을 향상시킬 수 있다. 또한, CMN은 특징벡터로부터 채널잡음의 영향을 정규화하여 음성 인식 성능을 향상시킨다. 이러한 방법들을 전화망 한국어 연속 숫자음 DB를 이용하여 실험한 결과, 음성신호의 왜곡을 최소화하면서 잡음의 영향을 줄여 전화망에서의 숫자음 인식 성능을 향상시킬 수 있었다.

  • PDF

대용량 연속음성 인식을 위한 효율적인 탐색 알고리즘 (Efficient Search Algorithms for Continuous Speech Recognition)

  • 박형민
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 학술발표대회 논문집 제17권 1호
    • /
    • pp.75-78
    • /
    • 1998
  • 이 논문에서는 대용량 연속음성 인식에서 인식 속도를 향상시키기 위한 방법들에 대해서 연구하였다. 음성인식에 있어서 많은 양의 계산을 요하는 부분은 관측 확률의 계산과 탐색에 필요한 계산이다. 탐색에 필요한 계산을 줄이기 위하여 빔 탐색법과 phoneme look-ahead기법을 통해 탐색 공간을 줄였으며, 관측 확률을 계산하는데 소요되는 시간을 줄이기 위하여 입력 특징 벡터와 이웃 관계에 있는 가우시안 성분들만 정확한 계산을 하는 VQ에 의한 계산량 감축 방법과 tree-structured pdf 방법을 구현하였다. 3천개의 어휘와 2천여개의 트라이폰 모델로 구성된 연속 음성인식 시스템에서 보통의 Viterbi 빔 탐색법을 적용한 경우에 실시간의 2.73배의 인식 속도로 93.39%의 단어 인식률을 얻을 수 있는데 phoneme look-ahead 기법과 tree-structured pdf 방법을 추가 적용함으로써 비슷한 인식 성능에서 1.55배의 인식 속도를 얻을 수 있었다.

  • PDF

에러패턴 학습과 후처리 모듈을 이용한 연속 음성 인식의 성능향상 (Improving Performance of Continuous Speech Recognition Using Error Pattern Training and Post Processing Module)

  • 김용현;정민화
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 봄 학술발표논문집 Vol.27 No.1 (B)
    • /
    • pp.441-443
    • /
    • 2000
  • 연속 음성 인식을 하는 경우에 많은 에러가 발생한다. 특히 기능어의 경우나 서술어의 경우에는 동시 조음 현상에 의한 음운 변화에 의해 빈번한 에러가 발생한다. 이러한 빈번한 에러를 수정하기 위한 방법에는 언어 모델의 개선과 음향 모델의 개선등을 통한 인식률 향상과 여러 단계의 인식과정을 두어 서로 다른 언어 모델을 적용하는 등의 방법이 있지만 모두 시간과 비용이 많이 들고 각각의 상황에 의존적인 단점이 있다. 따라서 본 논문에서 제안하는 방법은 이것을 수정하기 위해 음성 인식기로부터 인식되어 나온 결과 문장을 정답과 비교, 학습함으로써 빈번하게 에러 패턴을 통계적 방법에 의해 학습하고 후처리 모듈을 이용하여 인식시에 발생하는 에러를 적은 비용과 시간으로 수정할 수 있도록 하는 것이다. 실험은 3000 단어급의 한국어 낭독체 연속 음성을 대상으로 하여 형태소와 의사형태소를 각각 인식단위로 하고, 언어모델로 World bigram과 Tagged word bigram을 각각 적용 실험을 하였다. 형태소, 의사 형태소일 경우 모두 언어 모델을 tagged word bigram을 사용하였을 경우 N best 후보 문장 중 적당한 단어 후보의 분포로 각각 1 best 문장에 비해 12%, 18%정도의 에러 수정하여 문장 인식률 향상에 상당한 기여를 하였다.

상태레벨 공유를 이용한 HM-Net 적응화 시스템의 성능평가에 관한 연구 (A Study on Performance Evaluation of HM-Net Adaptation System Using the State Level Sharing)

  • 오세진;김광동;노덕규;황철준;김범국;김광수;성우창;정현열
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2003년도 신호처리소사이어티 추계학술대회 논문집
    • /
    • pp.397-400
    • /
    • 2003
  • 본 연구에서는 KM-Net(Hidden Markov Network)을 다양한 태스크에의 적용과 화자의 특성을 효과적으로 나타내기 위해 HM-Net 음성인식 시스템에 MLLR(Maximum Likelihood Linear Regression) 적응방법을 도입하였으며, HM-Net 학습 알고리즘을 개량하여 회귀클래스 생성방법을 제안한다. 제안방법은 PDT-SSS(Phonetic Decision Tree-based Successive State Splitting) 알고리즘의 문맥방향 상태분할에 의한 상태레벨 공유를 이용한 방법으로 새로운 화자로부터 문맥정보와 적응화 데이터의 발성 양에 의존하여 결정된 많은 적응 파라미터들을(평균, 분산) 자유롭게 제어할 수 있게 된다. 제안방법의 유효성을 확인하기 위해 국어공학센터(KLE) 452 음성 데이터와 항공편 예약관련 연속음성을 대상으로 인식실험을 수행한 결과, 전체적으로 음소인식의 경우 평균 34-37%, 단어인식의 경우 평균 9%, 연속음성인식의 경우 평균 7-8%의 인식성능 향상을 각각 보였다. 또한 적응화 데이터의 양에 따른 인식성능 비교에서, 제안방법을 적용한 인식 시스템이 적응 데이터의 양이 적은 경우에도 향상된 인식률을 보였으며. 잡음을 부가한 음성에 대한 적응화 실험에서도 향상된 인식성능을 보여 MLLR 적응방법의 특성을 만족하였다. 따라서 MLLR 적응방법을 도입한 HM-Net 음성인식 시스템에 제안한 회귀클래스 생성방법이 유효함을 확인한 수 있었다.

  • PDF

연속음성인식의 음향모델 출력을 이용한 뉴스 데이터 분석 (News Data Analysis Using Acoustic Model Output of Continuous Speech Recognition)

  • 이경록
    • 한국콘텐츠학회논문지
    • /
    • 제6권10호
    • /
    • pp.9-16
    • /
    • 2006
  • 본 논문에서는 연속음성인식의 음향모델 출력을 이용하여 뉴스 데이터를 분석하였다. 실험에 사용된 뉴스 데이터베이스는 2,093개의 기사로 구성되어 있다. 기존의 한국어 연속음성인식은 열악한 언어모델 때문에 낮은 인식성능을 보여 뉴스 데이터 분석에 적합하지 않다. 본 논문에서는 이를 보완하기 위해서 상대적으로 견인한 음향모델의 인식결과를 후처리하여 핵심어 정보 파일을 만들었다. 음향모델의 출력레벨 문턱치가 100일 때 전체 인식대상 형태소의 86.9%가 인식되었다. 동일한 조건에 길이정보 기반 정규화를 적용하였더니 81.25%가 인식되었다. 정규화의 목적은 긴 길이의 형태소를 보상하는 것이다. 실험결과, 인식대상 형태소 인식률은 75.13%였다. 그리고 5,040MB의 뉴스 데이터에서 314MB의 핵심어 정보 파일이 만들어졌다. 이것은 절대적인 정보량이 93.8% 감소한 것이다.

  • PDF

확률적 모델을 이용한 연속 숫자음 인식에 관한 연구 (A Study on Continuous Digits Speech Recognition using Probabilistic Models)

  • 이주승;이성권;김순협
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1999년도 학술발표대회 논문집 제18권 2호
    • /
    • pp.109-112
    • /
    • 1999
  • 본 연구는 음소 단위의 CHMM(Continuous Hidden Markov Model)을 이용한 한국어 연속 음성인식에 관한 내용이다. 연구실 환경에서 음성으로 전화를 걸기 위하여 연속 숫자음 인식을 수행하였다. ETRI 445 데이터를 사용하여 초기의 모델은 ML(Maximum Likelihood) 추정법을 이용하여 작성하였고 적응화를 위해 최대 사후 확률 추정법을 사용하였다. 연속 숫자음의 인식을 위하여 한국어 숫자음 음성의 음향학적 특성을 고려하여 발성 사전을 작성하였고, 음절 단위로 되어있는 한국어 숫자음의 모든 경우를 고려하여 복수개의 단어를 사전에 등록하였다. 또한 숫자음의 알 뒤 연음현상을 고려하여 작성한 21 종류의 7자리 숫자음과 이를 음절 단위로 세그먼트한 숫자음을 DB로 사용하여 적응화를 수행하였다. 이의 효율성을 입증하기 위하여 ETRI에서 작성한 35종류의 4연속 숫자음 목록을 대상으로 인식실험을 수행하였다.

  • PDF

음절수와 모음 열을 이용한 한국어 연결 숫자 음성인식 (Connected Korean Digit Speech Recognition Using Vowel String and Number of Syllables)

  • 윤재선;홍광석
    • 정보처리학회논문지A
    • /
    • 제10A권1호
    • /
    • pp.1-6
    • /
    • 2003
  • 본 논문에서는 음절수와 모음 열 정보를 이용한 한국어 연속 숫자 인식을 제안하였다. 제안한 연속 숫자 인식기는 첫 단계로 발성된 연속 숫자 음성에서 음절수와 구간을 추출하고, 두 번째 단계로 모음 열을 인식한다. 이와 같이 인식된 모음 열 정보를 이용하여 인식 후보를 줄이게 된다. 인식후보 모델은 조음효과에 효과적으로 대처할 수 있는 CV(Consonant Vowel), VCCV, VC단위 HMM(Hidden Markov Model)을 사용하여 연속 숫자 음성인식기를 구성하였다. 실험결과 제안된 방법이 조음효과를 효과적으로 대처하고 연결 숫자 인식에 유효함을 확인하였다.