• 제목/요약/키워드: 고립단어인식

검색결과 109건 처리시간 0.024초

한국어 고립단어인식을 위한 고속 알고리즘 (Fast Algorithm for Recognition of Korean Isolated Words)

  • 남명우;박규홍;정상국;노승용
    • 한국음향학회지
    • /
    • 제20권1호
    • /
    • pp.50-55
    • /
    • 2001
  • 본 논문에서는 청각모델을 이용하여 음성신호로부터 추출한 특징벡터를 2차원 DCT (discrete cosine transform)방법을 사용하여 가공한 후, 새로운 거리측정 방법에 적용하여 한국어 고립단어 인식 실험을 행하였다. 고립단어 인식은 기존에 많은 방법들이 제안되어졌으나, 본 논문에서 제안한 방법은 고립단어 인식을 위한 특징 파라미터로 2차원 DCT 계수를 사용한 것으로 구현이 간단하며, 간단한 계산식으로 인하여 빠른 인식 시간을 가지는 장점이 있다. 제안한 방식의 타당성 검토를 위하여, 고립단어 인식에서 좋은 인식결과를 나타내는 DTW (Dynamic Time Warping)방법을 사용하여 인식률을 비교하였다[5][6]. 실험결과 제안한 방식은 DTW를 사용한 인식방법에 비하여 화자종속 고립단어 인식에서는 거의 유사한 인식결과를, 화자독립 고립단어 인식에서는 더 높은 인식결과를 얻을 수 있었다. 또한, DTW에 비해 패턴비교를 위한 계산시간에 있어서는 200배 이상의 감소효과를 볼 수 있었다. 제안된 방법은 비교 방법에 비하여 잡음환경에서도 강한 특성을 보였다.

  • PDF

유성/무성/묵음 정보론 이용한 동적 시간 정합 알고리즘 개선 (Improvement of Dynamic Time Warping Algorithm by Using Voice/Unvoiced/Silence Information)

  • 최민석;한현배;한민수
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1999년도 학술발표대회 논문집 제18권 1호
    • /
    • pp.40-43
    • /
    • 1999
  • 본 연구에서는 고립단어 인식시스템에 사용되고 있는 DTW(DynamicTimeWarping) 알고리즘의 계산량을 줄일 수 있는 방법을 제안한다. 일반적으로 고립단어 인식시 가장 인식률이 좋은 알고리즘은 DW라고 알려져 있으나, 인식대상어휘가 늘어나면 계산량이 비례해서 늘어나고 인식률이 저하되는 단점이 있으므로 일반적으로 200단어 이하의 어휘에만 사용되고 있다. 따라서 대상어휘를 감소시켜 계산량을 줄이기 위해 본 논문에서는 유성/무성/묵음 (V/U/S) 정보를 이용하여 코드워드를 구성하고 같은 코드워드에 해당되는 단어들을 추출해이들 만을 비교대상 어휘로 제한하므로서 DW 알고리즘을 적용할 대상 어휘수를 줄이는 방법을 사용하여 계산 속도를 향상시켰다 또한 입력 단어와 대상 단어와의 누적거리 계산 시 끝점 정보 뿐 만 아니라 유성/무성/묵음 경계 정보를 이용하여 piecewise DTW를 구현함으로서 탐색 영역을 축소함으로써 추가적인 계산량 감소가 가능하다. 따라서 상기 기법들을 이용하면 PC상에서도 DTW를 이용한 대어휘 고립단어 음성 인식기의 구현이 가능할 것이다.

  • PDF

가변 어휘 인식 모델을 이용한 한국어 방송 뉴스 음성의 인식 (Automatic Recognition of Korean Broadcast News Using Flexible Vocabulary Recognition Models)

  • 유하진
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 제15회 음성통신 및 신호처리 워크샵(KSCSP 98 15권1호)
    • /
    • pp.70-73
    • /
    • 1998
  • 본 논문에서는 한국어 방송 뉴스 인식 시스템에 관하여 기술한다. 인식 실험 과정에서는 실제로 방송된 음성을 인식하였으나, 인식을 위한 음향 모델은 본 연구소에서 갭라한 고립단어 인식용 가변 어휘 인식모델을 이용하였다. 가변 어휘 인식기는 방송 음성의 연속 문장을 이용하지 않고, 음향학적으로 고르게 분포된 고립 단어를 이용하여 학습되었다. 본 연구에서는 한국어의 특성상 문장이 영어권과 같이 단어 단위가 아닌 어절로 나누어 지는 점을 고려하여, 다양한 형태의 사전 표제어를 대상으로 실험하였다. 또한 탐색과정의 초기단계에 장거리 언어모델을 사용함으로써 인식 오류를 줄일 수 있었다.

  • PDF

LPC cepstrum 과 집단화를 이용한 한국어 고립단어 인식에 관한 연구 (The study on Korean isolated-word recognition using LPC cepstrum and clustering)

  • 김진영
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1987년도 학술발표회 논문집
    • /
    • pp.70-74
    • /
    • 1987
  • 본 논문은 화자독립 고립단어 인식에 있어서 LP 모델의 문제점과 그 해결 방안으로서 cepstrum 영역에 있어서 lifter를 이용한 해결에 대해서 고찰하였다. 한편, 각 인식 단어의 기준 패턴을 구하기 위한 방법으로서 집단화의 방법에 대해 논하였다. 집단화의 방법으로서는 UWA 방법과 K-iteration 방법을 변형시킨 KMA 방법을 제시 비교하였다. 인식 실험결과 정현파 lifter와 KMA의 집단화 방법을 사용하였을 때 95%의 최고 인식률을 보였다.

  • PDF

가변어휘 음성인식기 구현에 관한 연구 (A Study on the Implementatin of Vocalbulary Independent Korean Speech Recognizer)

  • 황병한
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 학술발표대회 논문집 제5권
    • /
    • pp.60-63
    • /
    • 1998
  • 본 논문에서는 사용자가 별도의 훈련과정 없이 인식대상 어휘를 추가 및 변경이 가능한 가변어휘 인식시스템에 관하여 기술한다. 가변어휘 음성인식에서는 미리 구성된 음소모델을 토대로 인식대상 어휘가 결정되명 발음사전에 의거하여 이들 어휘에 해당하는 음소모델을 연결함으로써 단어모델을 만든다. 사용된 음소모델은 현재 음소의 앞뒤의 음소 context를 고려한 문맥종속형(Context-Dependent)음소모델인 triphone을 사용하였고, 연속확률분포를 가지는 Hidden Markov Model(HMM)기반의 고립단어인식 시스템을 구현하였다. 비교를 위해 문맥 독립형 음소모델인 monophone으로 인식실험을 병행하였다. 개발된 시스템은 음성특징벡터로 MFCC(Mel Frequency Cepstrum Coefficient)를 사용하였으며, test 환경에서 나타나지 않은 unseen triphone 문제를 해결하기 위하여 state-tying 방법중 음성학적 지식에 기반을 둔 tree-based clustering 기법을 도입하였다. 음소모델 훈련에는 ETRI에서 구축한 POW (Phonetically Optimized Words) 음성 데이터베이스(DB)[1]를 사용하였고, 어휘독립인식실험에는 POW DB와 관련없는 22개의 부서명을 50명이 발음한 총 1.100개의 고립단어 부서 DB[2]를 사용하였다. 인식실험결과 문맥독립형 음소모델이 88.6%를 보인데 비해 문맥종속형 음소모델은 96.2%의 더 나은 성능을 보였다.

  • PDF

최대 사후 추정 화자 적응을 이용한 가변어휘 고립단어 음성인식기의 사무실 환경에서의 성능 평가 (Performance Evaluation of Variable-Vocabulary Isolated Word Speech Recognizers with Maximum a Posteriori (MAP) Estimation-Based Speaker Adaptation in an Office Environment)

  • 권오욱
    • 한국음향학회지
    • /
    • 제17권2호
    • /
    • pp.84-89
    • /
    • 1998
  • 본 논문에서는 임의의 단어를 인식하기 위하여 음성학적으로 최적화된 (phonetically-optimized word) 음성 데이터베이스를 사용하여 훈련된 가변어휘 고립단위 음 성인식기의 실제 인식기 사용 환경에서의 성능을 평가하였다. 이를 위하여, 훈련 데이터베이 스에서와 상이한 환경에서 수집된 음성학적으로 균형 잡힌(phonetically-balanced word) 고 립 단어 음성을 테스트 데이터로 사용하였다. 테스트 데이터는 일반적인 사무실에서 작동하 는 노트북 PC에서 내장 마이크를 사용하여 녹음되었다. 이렇게 녹음된 음성을 사용하여 고 립단어 인식기의 인식률을 측정하였다. 이 인식기는 최대 사후(maximum a posteriori) 추정 알고리듬을 사용하여 화자의 변화에 적응하였다. 컴퓨터 모의실험 결과에 의하면 화자 적응 을 하지 않은 기본 시스템은 깨끗한 음성에 대하여 81.3%에서 사무실 환경 음성에 대하여 69.8%로 인식률이 저하되었다. 사무실 환경 음성에 대하여, 비교사 점진(unsupervised incremental) 모드에서 최대 사후 추정 화자 적응 알고리듬을 적용하였을 경우에는 화자적 응을 하지 않은 경우에 비하여 9%의 에러를 감소시키며, 50단어의 적응 단어를 사용하여 교사 묶음(supervised batch) 모드에서 최대 사후 추정 화자 적응 알고리듬을 적용하였을 경우에는 16%의 에러를 감소시켰다.

  • PDF

고립단어 인식 시스템에서의 거절기능 구현 (An Implementation of Rejection Capabilities in the Isolated Word Recognition System)

  • 김동화;김형순;김영호
    • 한국음향학회지
    • /
    • 제16권6호
    • /
    • pp.106-109
    • /
    • 1997
  • 고립단어 음성인식 시스템이 실용적이 되려면 인식 대상 이외의 단어를 거절할 수 있는 기능이 요구된다. 본 논문에서는 집단화된 음소 모델과 likelihood ratio에 의한 후처리 방법을 사용하여 거절기능을 구현하는 방법을 제안하였다. 기본적인 음성인식 시스템은 단어 단위 연속 HMM을 사용하였고, 6개의 집단화된 음소 모델들은 음성학적으로 균형잡힌 음성 데이터베이스를 이용하여 훈련된 45개의 문맥독립 음소 모델들로부터 통계적 방법에 의하여 생성되었다. 22개의 부서 명칭을 대상으로 한 화자독립 고립단어 인식시스템에서 거절성능을 시험하여 본 결과, 가장 높은 확률값과 두 번째 높은 확률값을 가지는 후보단어들 간의 차이값에 의하여 거절기능을 수행하는 기존의 후처리 방법보다 성능이 향상됨을 알 수 있었다. 또한 이 집단화된 음소모델은 인식 대상 어휘가 다른 고립단어 인식 시스템에도 재훈련 없이 그대로 사용될 수 있다.

  • PDF

퍼지패턴매칭에 의한 음성인식에 관한 연구 (A Study on Speech Recognition Using Fuzzy Pattern Matching)

  • 이기영
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1991년도 학술발표회 논문집
    • /
    • pp.3-6
    • /
    • 1991
  • 본 연구에서는 음성의 패턴작성법을 개선하고 음성인식율을 향상시키기 위하여 퍼지패턴매칭을 개선한 뉴럴퍼지패턴매칭에(a neural-fuzzy pattern matching)의해 특정화자 고립단어인식을 수행하였다. 이 방법에서는 신경회로망의 연상기억에 의한 사상에 의해 패턴을 작성하여 주파수변동을 흡수하고 표준패턴고 선형매칭에 의해 유사도를 측정하여 인식하므로써 시간변동의 문제를 보완하였다. 또한, 이 방법에서 사용하는 특징피라미터는 2진화 스펙트럽이며, 유사도는 논리연산에 의해 측정되기 때문에 종래의 왜곡척도를 이용한 DTW 방법에 비해 기억용량과 계산량이 매우 작다. 이 방법의 인식성능을 평가하기 위하여 남녀가 발성한 28개의 도시명을 대상으로 인식실험을 수행한 결과, 신경회로망을 이용하지 않은 퍼지패턴매칭보다 오인식을 감소시켰으며, 뉴럴-퍼지 패턴매칭에 의한 특정화자 고립단어인식의 우수성을 확인하였다.

  • PDF

코드북과 VQ 최적화에 의한 음소/고립단어 인식률 분석 (Analysis of Phoneme/Isolated Word Recognition Rate Using Codebook and VQ Optimization)

  • 안홍진;주상현;진원;김기두
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 1999년도 하계종합학술대회 논문집
    • /
    • pp.675-678
    • /
    • 1999
  • 본 논문에서는 음소별 코드북 개수의 선택과 벡터 양자화에 따른 음소 인식률과 고립단어 인식률에 대하여 다룬다. 음성모델은 이산 확률 밀도를 갖는 DHMM(Discrete Hidden Markov Model)을 사용하였으며, 코드북 생성과 벡터 양자화 알고리즘으로는 K-means 알고리즘과 LBG(Linde, Buzo, Gray) 알고리즘을 사용하였다 음소별 코드북 개수와 벡터 양자화를 최적화함으로써 음소 인식률을 향상시킬 수 있으며, 그 결과 안정된 고립단어 인식률을 얻을 수 있다.

  • PDF

고립단어 인식을 위한 빠른 전처리기의 구현 (Implementation of A Fast Preprocessor for Isolated Word Recognition)

  • 안영목
    • 한국음향학회지
    • /
    • 제16권1호
    • /
    • pp.96-99
    • /
    • 1997
  • 본 논문에서는 고립단어 인식을 위한 빠른 전처리기를 소개한다. 제안하는 전처리기는 적은 계산량으로 후보 단어를 추출한다. 본 전처리기에서는 계산량을 줄이기 위해서 벡터 양자화 대신에 특징 정렬 알고리즘을 사용하였다. 이 전처리기의 유효성을 보이기 위해서 준연속 은닉 마코프 모델을 기반으로 한 음성 인식기와 벡터 양자화를 기반으로 한 전처리기에 대해서 화자독립 고립단어 인식에 대한 성능을 비교했다. 실험에 사용한 음성 데이터는 남성 호자 40명이 발성한 244 단어이며, 40명의 화자 중에서 20명은 전처리기의 훈련용으로 사용했으며 나머지 20명은 평가용으로 사용하였다. 실험의 결과, 음성 데이터에 대해서 90%의 감축을 조건에서 제안한 전처리기는 99.9%의 정확성을 보였다.

  • PDF