• 제목/요약/키워드: 고립단어 인식

검색결과 109건 처리시간 0.022초

LPC Cepstrum과 집단화를 이용한 한국어 고립단어 인식에 관한 연구 (A Study on Korean isolated word recognition using LPC cepstrum and clustering)

  • 김진영;성굉모
    • 한국음향학회지
    • /
    • 제6권4호
    • /
    • pp.44-54
    • /
    • 1987
  • 본 논문은 화자독립 고립단어 인식에 있어서 LP모델의 문제점과 그 해결 방안으로서 cepstrum영역에 있어서 lifter를 이용한 해결에 대해서 고찰하였다. 한편, 각 인식 단어의 기준 패턴을 구하기 위한 방법으로서 집단화의 방법에 대해 논하였다. 집단화의 방법으로서는 UWA방법과 K-iteration방법을 변형시킨 KMA 방법을 제시 비교하였다. 인식실험결과 정현파 lifter와 KMA의 집단화 방법을 사용하였을 때 $95\%$의 최고 인식률을 보였다.

  • PDF

가변어휘 음성인식기 구현에 관한 연구 (A Study on the Implementatin of Vocalbulary Independent Korean Speech Recognizer)

  • 황병한
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 학술발표대회 논문집 제5권
    • /
    • pp.60-63
    • /
    • 1998
  • 본 논문에서는 사용자가 별도의 훈련과정 없이 인식대상 어휘를 추가 및 변경이 가능한 가변어휘 인식시스템에 관하여 기술한다. 가변어휘 음성인식에서는 미리 구성된 음소모델을 토대로 인식대상 어휘가 결정되명 발음사전에 의거하여 이들 어휘에 해당하는 음소모델을 연결함으로써 단어모델을 만든다. 사용된 음소모델은 현재 음소의 앞뒤의 음소 context를 고려한 문맥종속형(Context-Dependent)음소모델인 triphone을 사용하였고, 연속확률분포를 가지는 Hidden Markov Model(HMM)기반의 고립단어인식 시스템을 구현하였다. 비교를 위해 문맥 독립형 음소모델인 monophone으로 인식실험을 병행하였다. 개발된 시스템은 음성특징벡터로 MFCC(Mel Frequency Cepstrum Coefficient)를 사용하였으며, test 환경에서 나타나지 않은 unseen triphone 문제를 해결하기 위하여 state-tying 방법중 음성학적 지식에 기반을 둔 tree-based clustering 기법을 도입하였다. 음소모델 훈련에는 ETRI에서 구축한 POW (Phonetically Optimized Words) 음성 데이터베이스(DB)[1]를 사용하였고, 어휘독립인식실험에는 POW DB와 관련없는 22개의 부서명을 50명이 발음한 총 1.100개의 고립단어 부서 DB[2]를 사용하였다. 인식실험결과 문맥독립형 음소모델이 88.6%를 보인데 비해 문맥종속형 음소모델은 96.2%의 더 나은 성능을 보였다.

  • PDF

웨이블렛 필터뱅크를 이용한 자동차 소음에 강인한 고립단어 음성인식 (Robust Speech Recognition with Car Noise based on the Wavelet Filter Banks)

  • 이대종;곽근창;유정웅;전명근
    • 한국지능시스템학회논문지
    • /
    • 제12권2호
    • /
    • pp.115-122
    • /
    • 2002
  • 본 논문에서는 웨이블렛 서브밴드 필터링기법을 이용하여 다중의사 결정기법에 기반을 둔 외부 잡음에 강인한 고립단어 음성인식 알고리즘을 제안하고자 한다. 음성인식에 있어서 외부잡음은 음성인식 알고리듬의 인식률을 저하시키는 주요 원인으로 지적되므로 음성인식기의 성능을 향상시키기 위해서 무엇보다도 잡음에 강인한 음성인식 알고리즘의 개발이 절실히 요구되고 있다. 제안된 알고리즘의 타당성을 검증하기 위하여 다양한 자동차 소음하에서 한국어 단독 숫자음 10단어의 인식률 변동을 알아 보았다. 그 결과 현재 음성인식 기법으로 널리 쓰이고 있는 벡터양자화 알고리즘만을 적용한 경우에 비해 9~25%의 향상된 인식률을 보였다.

자동통역용 한국어 음성 데이터베이스 (A Korean Speech Database for Use in Automatic Translation)

  • 최인정
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1994년도 제11회 음성통신 및 신호처리 워크샵 논문집 (SCAS 11권 1호)
    • /
    • pp.287-290
    • /
    • 1994
  • 음성 인식 시스템의 개발을 위해서는 음성 데이터베이스구축이 중요한 과제의 하나로서, 많은 시간과 노력이 요구된다. 개별적인 음성데이타베이스 구축에 따른 중복 투자를 줄이고 다양한 인식 알고리듬의 성능 비교와 국내 음성 인식 기술의 발전을 위해서는 벤치마크 시험을 위한 공통의 음성 데이터베이스가 필수적이다. 본 논문에서는 한국과학기술원 통신연구실에서 제작한 한국어 음성 데이터베이스에 관하여 기술한다. KAIST 음성데이타베이스는 자동통ㅇ역을 N이한 무역 상담과 관련되 3,000 단어 규모의 연속어를 비롯하여, 가변 길이 연결 숫자음, phoneme-balanced 75 고립단어, 지역명 관련 500 고립단어, 한국어 아-세트로 구성되어 있다. 이 음성 데이터베이스의 구축을 위하여 사용된 태스크선정 절차, 녹음 방법, 규격, 및 기대효과 등 세부사항을 기술한다.

  • PDF

대용량 음성인식 전화정보시스템 개발 및 시험운용 (The Development of a Speech Recognition System with Large Channel over the PSTN and it's Field Trial)

  • 장경애
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 제15회 음성통신 및 신호처리 워크샵(KSCSP 98 15권1호)
    • /
    • pp.43-47
    • /
    • 1998
  • 대용량, 대어휘, 화자독립 음성인식시스템의 개발과 1998년 3월 16일부터 일반인들을 대상으로 시험운용하고 있는 음성인식 증권서비스에 대한 것이다. 이 시스템은 상용서비스를 위하여 한 대당 120명이 동시에 사용할 수 있는 대용량 시스템으로 HMM 기술에 기반을 둔 고립단어 인식 시스템이다. 이 시스템은 음소를 기본 인식단위로 사용하여 인식단어의 추가 및 변경이 자유로우며, 추가 또는 변경된 회사명칭을 운용자의 개입 없이 자동적으로 시스템에 반영될 수 있다. 본 서비스의 개발과정에서 인식대상단어를 결정하는데 발생된 문제점과 인식단어의 변경방법 및 적용후의 효과 등을 살펴보았다.

  • PDF

정규화신뢰도 기반 가변어휘 고립단어 인식기의 거절기능 성능 분석 (Rejection Performance Analysis in Vocabulary Independent Speech Recognition Based on Normalized Confidence Measure)

  • 최승호
    • 한국음향학회지
    • /
    • 제25권2호
    • /
    • pp.96-100
    • /
    • 2006
  • 고립단어 인식기의 오 인식 단어를 거절하기 위한 방법으로 정규화 신뢰도가 제안되어 논문 [1-2]에서 성공적으로 적용된 바 있다. 그러나 정규화 신뢰도의 성능 측정을 위해 고정된 단어 셌을 대상으로 실험을 하였다. 본 논문에서는 정규화 신뢰도를 가변어휘 음성인식 영역에 적용하여 신뢰도의 거절성능을 밝히고 특히, 벡터양자화기를 이용하여 미 출현 트라이 폰의 문제를 극복하는 방법을 제안한다. 이때 정규화 신뢰도는 트라이 폰 신뢰도들의 통계적 특징(평균과 표준편차)을 사용한다. 가변어휘 인식실험 결과음소 단위의 정규화방법이 트라이 폰 기반 정규화방법에 비하여 우수한 성능을 보였으며 이러한 결과는 논문 [1-2]의 결과와는 상이한 것으로 트라이 폰 기반 정규화 방법이 미 출현 트라이 폰에 대하여 강인하지 못하다는 점을 시사하고 있다. 따라서 정규화 신뢰도가 음소 또는 트라이 폰에 상관없이 기준 신뢰도인 RLTC 신뢰도 [3]에 비하여 우수한 성능을 보였으며 가변어휘 인식에서도 동작함을 확인 할 수 있었다.

k-clustering 부공간 기법과 판별 공통벡터를 이용한 고립단어 인식 (Isolated Word Recognition Using k-clustering Subspace Method and Discriminant Common Vector)

  • 남명우
    • 대한전자공학회논문지TE
    • /
    • 제42권1호
    • /
    • pp.13-20
    • /
    • 2005
  • 본 논문에서는 M. Bilginer 등이 제안한 CVEM(common vector extraction method)을 이용하여 한국어 화자독립 고립단어 인식실험을 수행하였다. CVEM은 학습용 음성신호들로부터 공통된 특징의 추출이 비교적 간단하고, 많은 계산 량을 필요로 하지 않을 뿐만 아니라 높은 인식 결과를 보여주는 알고리즘이다. 그러나 학습 음성의 개수를 일정 한도 이상으로 늘릴 수 없고, 추출된 공통벡터들 간의 구별정보(discriminant information)를 가지고 있지 않다는 문제점을 가지고 있다. 임의의 음성군으로부터 최적의 공통벡터를 추출하기 위해서는 다양한 음성들을 학습에 사용해야만 하는데 CVEM은 학습용 음성 개수에 제한이 있으므로 지속적인 인식률 향상을 기대하기 어렵다. 또한 공통벡터들 간의 구별정보 부재는 단어 결정에 있어서 치명적인 오류의 원인이 될 수 있다. 본 논문에서는 CVEM이 가지고 있는 이러한 문제점들을 보완하면서 인식률을 향상시킬 수 있는 새로운 방법인 KSCM(k-clustering subspace method)과 DCVEM(discriminant common vector extraction method)을 제안하였고 이 방법을 사용하여 고립단어를 인식하였다. 그리고 제안한 방법들의 우수성을 입증하기 위해 ETRI에서 제작한 음성 데이터베이스를 사용, 다양한 방법으로 실험을 수행하였다. 실험 결과 기존 방법의 문제점들을 모두 극복할 수 있었을 뿐 아니라 기존에 비해 계산량의 큰 증가 없이 향상된 결과를 얻을 수 있었다.

DAB용 음성 인터페이스 기술연구 (A study on speech interface technology for DAB)

  • 최정규;김규홍;김원철;한민수
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 1999년도 학술대회
    • /
    • pp.193-196
    • /
    • 1999
  • 본 논문에서는 수년 내에 실용화될 것으로 예상되는 DAB (Digital Audio Broadcasting)에 필요한 음성 인터페이스 기술에 대한 기본연구 결과를 소개한다. 연구의 시작 단계이므로 적용 분야는 고속도로 상에서의 교통정보 안내 시스템으로 제한하였다. 즉 목표시스템은 고속도로 상의 출발지와 목적지를 고립단어로 입력하면 시스템이 이를 인식한 후 미리 저장되어 있는 교통 정보 안내 text중 해당 구간에 대한 정보를 추출하여 음성어로 사용자에게 들려 주는 것이다. 현재의 연구 결과는 상기 시스템 중 음성인식 기능은 구현이 완료되었으며 교통 정보 안내는 아직은 문장으로 보여주는 수준이다. 향후 이를 편집 합성기를 이용하여 음성어로 들려 주는 연구를 금년 말까지 개발하여 전체 시스템에 대한 초벌 구현을 완료할 예 정 이 다. 논문에서 소개될 내용은 전체 시스템 개념, 고립단어 인식 기술, 표본화 주파수 및 양자화 bit수에 따른 인식율 변화, 최종 시스템 구현을 위한 향후 계획 등이다.

  • PDF

차량용 항법장치에서의 관심지 인식을 위한 다단계 음성 처리 시스템 (Multi-layer Speech Processing System for Point-Of-Interest Recognition in the Car Navigation System)

  • 방기덕;강철호
    • 한국멀티미디어학회논문지
    • /
    • 제12권1호
    • /
    • pp.16-25
    • /
    • 2009
  • 안전성을 최우선시 해야 하는 자동차 환경에서 관심지 (POI, Point-Of-Interest) 도메인을 대상으로 하는 대용량 고려 단어 인식 시스템은 최적의 인간-기계 상호접속(HMI, Human-Machine Interface) 기술을 요구하고 있다. 하지만, 매우 제한된 연산처리 능력과 메모리를 가지는 텔레매틱스 단말기에서 10만 단어 이상을 일반적인 음성인식 방식으로 처리하기는 불가능하다. 따라서 본 논문에서는 텔레매틱스 단말기의 관심지 인식을 위하여 다단계 구조의 대용량 고립단어 인식 시스템을 제안하였다. 이 관심지 인식 시스템의 성능향상을 위해 음소별 가우시안 혼합모델(GMM, Gaussian Mixture Model)을 사용한 음소 인식기와 음소별 거리 행렬(PDM, Phoneme-distance Matric) 레빈쉬타인(Levenshtein) 거리를 제안하였다. 제안한 방법은 낮은 처리속도와 적은 양의 메모리를 가지는 텔레매틱스 단말기에서도 대용량 고립단어에 대하여 우수한 인식 성능을 나타내었다. 본 논문에서 제안한 다단계 인식 시스템을 사용하였을 경우 실내에서 최대 94.8%, 자동차환경에서는 최대 92.4%의 인식 성능을 얻을 수 있었다.

  • PDF

Keyword spotting에서의 후처리 과정에 관한 연구 (A Study on the Postprocessing In Keyword Spotting)

  • 송화전
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1994년도 제11회 음성통신 및 신호처리 워크샵 논문집 (SCAS 11권 1호)
    • /
    • pp.249-252
    • /
    • 1994
  • Keyword spotting 이란 음성인식의 한 분야로서 컴퓨터가 사람의 음성을 입력받아 이 음성에 미리 정해진 특정단어 또는복수개의 단어들 중 어느 것이 포함되어 있는지의 여부를 찾아내고 이 단어를 식별해 내는 작업을 의미한다. 이러한 keyword spotting 시스템의 인식 오류들을 감소시키는 방법의 하나로 keyword spotting 시스템에 후처리 과정을 둠으로써 잘못 검출된 keyword 들을 제거시키는 방법이 사용될 수 있다. 본 논문에서는 keyword로 검출된 영역에 대한 keyword 모델의 likeihood와 그 여역에 대한 filler 모델의 likelihood의 ratio 와 second best keyword 의 likelihood 그리고, 끝점존재 영역의 구간 길이등 여러 가지 정보를 이용한 후처리과정을 검토하고 인식실험을 통해 이들의 성능을 비교하였다. 6개의 부서명을 keyword로 하는 불특정 화자 keyword spotting 실험을 수행한 결과 baseline 시스템의 경우 고립단어 및 문장 형태의 음성에 대해 95.0%의 keyword 인식률을 얻었으며, 본 논문에서 검토된 네 가지 후처리 방법에 의해 keyword rejection ratio를 0%에서 5%까지 변화시켜 나갈 경우 최저 95.3%에서 최고 97.1%까지 keyword 인식률이 향상된 결과를 얻었다. 특히 성능과 계산량을 종합적으로 고려할 때 끝점 존재 영역의 구간 길이 정보를 이용한 방법이 가장 우수하였다.

  • PDF