• 제목/요약/키워드: Continuous Speech Recognition

검색결과 224건 처리시간 0.027초

음성인식 기반 응급상황관제 (Emergency dispatching based on automatic speech recognition)

  • 이규환;정지오;신대진;정민화;강경희;장윤희;장경호
    • 말소리와 음성과학
    • /
    • 제8권2호
    • /
    • pp.31-39
    • /
    • 2016
  • In emergency dispatching at 119 Command & Dispatch Center, some inconsistencies between the 'standard emergency aid system' and 'dispatch protocol,' which are both mandatory to follow, cause inefficiency in the dispatcher's performance. If an emergency dispatch system uses automatic speech recognition (ASR) to process the dispatcher's protocol speech during the case registration, it instantly extracts and provides the required information specified in the 'standard emergency aid system,' making the rescue command more efficient. For this purpose, we have developed a Korean large vocabulary continuous speech recognition system for 400,000 words to be used for the emergency dispatch system. The 400,000 words include vocabulary from news, SNS, blogs and emergency rescue domains. Acoustic model is constructed by using 1,300 hours of telephone call (8 kHz) speech, whereas language model is constructed by using 13 GB text corpus. From the transcribed corpus of 6,600 real telephone calls, call logs with emergency rescue command class and identified major symptom are extracted in connection with the rescue activity log and National Emergency Department Information System (NEDIS). ASR is applied to emergency dispatcher's repetition utterances about the patient information. Based on the Levenshtein distance between the ASR result and the template information, the emergency patient information is extracted. Experimental results show that 9.15% Word Error Rate of the speech recognition performance and 95.8% of emergency response detection performance are obtained for the emergency dispatch system.

음성인식 기능을 가진 주소입력 시스템의 개발과 평가 (Development and Evaluation of an Address Input System Employing Speech Recognition)

  • 김득수;황철준;정현열
    • 한국음향학회지
    • /
    • 제18권2호
    • /
    • pp.3-10
    • /
    • 1999
  • 본 논문은 음성인식 기술을 사용자 인터페이스로 하여 국내 행정 단위 시(도), 구(군), 동(읍,면), 번지로 구성되는 주소를 인식의 대상으로 하는 주소 입력 시스템 구축에 대하여 기술한다. 본 시스템은 사운드카드가 장착된 개인용 컴퓨터상의 윈도우 95환경에서 동작하며, 음성인식부는 인식의 기본단위로 유사음소단위(Phoneme Like Units: PLUs)를 이용하여 CHMM(Continuous Hidden Markov Model) 음소모델을 작성하고, 주소인식을 위해서 주소명의 특징을 고려하여 이에 적합한 유한상태 오토마타(Finite State Automata)를 구성하여 OPDP(One Pass Dynamic Programming)법으로 인식을 수행하였다. 실용성있는 시스템 성능을 얻기 위하여 마이크, 환경잡음 및 화자의 변화 등의 사용환경변화에 대해 최대사후확률추정법(Maximum A Posteriori Probability Estimation: MAP)으로 적응화시켜 인식률의 향상을 도모하였고, 개인용 컴퓨터상에서의 인식속도를 향상시키기 위하여 가변프루닝 문턱치를 이용한 고속화 기법을 제안하였다. 평가결과, 화자적응화 후의 성인 남자 3인에 대한 100개의 연결주소명의 연결단어 인식률은 평균 96.0%이상, 인식속도는 발성완료후 약 2초 이내로 인식이 완료되어 본 시스템의 유효성을 확인할 수 있었다.

  • PDF

확률 발음사전을 이용한 대어휘 연속음성인식 (Stochastic Pronunciation Lexicon Modeling for Large Vocabulary Continous Speech Recognition)

  • 윤성진;최환진;오영환
    • 한국음향학회지
    • /
    • 제16권2호
    • /
    • pp.49-57
    • /
    • 1997
  • 본 논문에서는 대어휘 연속음성인식을 위한 확률 발음사전 모델에 대해서 제안하였다. 확률 발음 사전은 HMM과 같이 단위음소 상태의 Markov chain으로 이루어져 있으며, 각 음소 상태들은 음소들에 대한 확률 분포 함수로 표현된다. 확률 발음 사전의 생성은 음성자료와 음소 모델을 이용하여 음소 단위의 분할과 인식을 통해서 자동으로 생성되게 된다. 제안된 확률 발음 사전은 단어내 변이와 단어간 변이를 모두 효과적으로 표현할 수 있었으며, 인식 모델과 인식기의 특성을 반영함으로써 전체 인식 시스템의 성능을 보다 높일 수 있었다. 3000 단어 연속음성인식 실험 결과 확률 발음 사전을 사용함으로써 표준 발음 표기를 사용하는 인식 시스템에 비해 단어 오류율은 23.6%, 문장 오류율은 10% 정도를 감소시킬 수 있었다.

  • PDF

Recurrent Neural Network with Backpropagation Through Time Learning Algorithm for Arabic Phoneme Recognition

  • Ismail, Saliza;Ahmad, Abdul Manan
    • 제어로봇시스템학회:학술대회논문집
    • /
    • 제어로봇시스템학회 2004년도 ICCAS
    • /
    • pp.1033-1036
    • /
    • 2004
  • The study on speech recognition and understanding has been done for many years. In this paper, we propose a new type of recurrent neural network architecture for speech recognition, in which each output unit is connected to itself and is also fully connected to other output units and all hidden units [1]. Besides that, we also proposed the new architecture and the learning algorithm of recurrent neural network such as Backpropagation Through Time (BPTT, which well-suited. The aim of the study was to observe the difference of Arabic's alphabet like "alif" until "ya". The purpose of this research is to upgrade the people's knowledge and understanding on Arabic's alphabet or word by using Recurrent Neural Network (RNN) and Backpropagation Through Time (BPTT) learning algorithm. 4 speakers (a mixture of male and female) are trained in quiet environment. Neural network is well-known as a technique that has the ability to classified nonlinear problem. Today, lots of researches have been done in applying Neural Network towards the solution of speech recognition [2] such as Arabic. The Arabic language offers a number of challenges for speech recognition [3]. Even through positive results have been obtained from the continuous study, research on minimizing the error rate is still gaining lots attention. This research utilizes Recurrent Neural Network, one of Neural Network technique to observe the difference of alphabet "alif" until "ya".

  • PDF

고립단어 인식을 위한 빠른 전처리기의 구현 (Implementation of A Fast Preprocessor for Isolated Word Recognition)

  • 안영목
    • 한국음향학회지
    • /
    • 제16권1호
    • /
    • pp.96-99
    • /
    • 1997
  • 본 논문에서는 고립단어 인식을 위한 빠른 전처리기를 소개한다. 제안하는 전처리기는 적은 계산량으로 후보 단어를 추출한다. 본 전처리기에서는 계산량을 줄이기 위해서 벡터 양자화 대신에 특징 정렬 알고리즘을 사용하였다. 이 전처리기의 유효성을 보이기 위해서 준연속 은닉 마코프 모델을 기반으로 한 음성 인식기와 벡터 양자화를 기반으로 한 전처리기에 대해서 화자독립 고립단어 인식에 대한 성능을 비교했다. 실험에 사용한 음성 데이터는 남성 호자 40명이 발성한 244 단어이며, 40명의 화자 중에서 20명은 전처리기의 훈련용으로 사용했으며 나머지 20명은 평가용으로 사용하였다. 실험의 결과, 음성 데이터에 대해서 90%의 감축을 조건에서 제안한 전처리기는 99.9%의 정확성을 보였다.

  • PDF

자동차 제어용 음성 인식시스템 구현 (An Implementation of Speech Recognition System for Car's Control)

  • 이광석;김현덕
    • 한국정보통신학회논문지
    • /
    • 제5권3호
    • /
    • pp.451-458
    • /
    • 2001
  • 본 연구는 자동차내의 각종 제어장치들을 음성으로 실시간 제어하기 위한 음성제어 시스템을 제안하고 실험적으로 검증하였다. 실시간 제어음성 인식시스템은 8bit-l0MHz로 A/D변환된 음성 데이터를 실시간으로 시작점과 끝점을 검출한 후, One Pass DP법으로 인식하였으며 그 결과를 모니터에 문장으로 출력하며 제어용 인터페이스에 제어데이터를 보내도록 구성하였다. HMM모델은 자동차내의 장치들을 제어하기 위한 제어음성 및 숫자음들로 구성되는 연속음성을 학습 및 모델링 하였다. 단어.제어문들의 인식률은 평균 97.3%, 숫자음의 경우는 평균 96.3% 정도의 인식률을 얻을 수 있었다.

  • PDF

Noise Elimination Using Improved MFCC and Gaussian Noise Deviation Estimation

  • Sang-Yeob, Oh
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권1호
    • /
    • pp.87-92
    • /
    • 2023
  • 음성 인식 시스템의 지속적인 발전으로 음성에 대한 인식율은 급속도로 발전되었지만 사용 환경에서의 잡음과 여러 음성이 혼합되어 발생하는 잡음으로 정확한 음성을 인식할 수 없는 단점을 가진다. 환경 잡음이 있는 음성을 처리할 때 음성 인식률을 높이기 위해서는 잡음을 제거해야 하며, 기존의 HMM, CHMM, GMM, 그리고 AI 모델이 적용된 DNN에서도 예상치 못한 잡음이 발생하거나 기본적으로 디지털 신호에 양자화 잡음이 추가되면 소스 신호가 변경되거나 손상되어 인식률이 저하된다. 이를 해결하기 위해 각 음성 프레임에 대한 음성 신호의 특징을 효율적으로 추출하기 위해 MFCC를 개선하여 처리하였으며, 음성 신호에 대한 잡음을 제거하기 위해 가우시안 모델을 적용한 잡음 편차 추정을 이용한 잡음 제거 방법을 개선하여 적용하였다. 제안된 모델에 대한 성능 평가는 음성에 대한 정확성 평가를 위해 교차 상관 계수를 사용하여 처리하였으며, 제안하는 방법의 인식률을 평가한 결과 이들에 대한 상관 계수에 대한 평균값 차이는 0.53 dB 개선된 것을 확인하였다.

음소 질의어 집합 생성 알고리즘 (Phonetic Question Set Generation Algorithm)

  • 김성아;육동석;권오일
    • 한국음향학회지
    • /
    • 제23권2호
    • /
    • pp.173-179
    • /
    • 2004
  • 음소 질의어 집합은 문맥 속에서 비슷한 조음 효과를 보이는 음소들을 분류해 놓은 것으로서, 음성 인식 시스템 학습 시 결정트리를 기반으로 HMM (hidden Markov model)의 상태들을 클러스터링할 때 사용된다. 현재까지의 음소 질의어 집합은 대부분 음성학자나 언어학자들에 의해 수작업으로 제시되어 왔는데, 이러한 지식 기반음소 질의어들은 언어 또는 유사음소 단위 (PLU: phone like unit)에 종속될 뿐 아니라 생성된 클러스터 내의 동질성을 저하시킬 수 있다는 단점이 있다. 본 논문에서는 이와 같은 문제점들을 해결하기 위해 음성 데이터를 사용하여 측정한 음소들 사이의 유사도를 기반으로 언어나 유사음소단위에 상관없이 자동으로 음소 질의어 집합을 생성하는 알고리즘을 제안한다. 실험결과, 제안한 방법으로 생성된 음소 질의어들을 사용한 인식기의 에러율이 약 14.3%감소하여 데이터 기반의 음소 질의어 집합이 상태 클러스터링에 효율적임을 관측하였다.

화자 독립 음성 인식을 위한 반연속 HMM과 RBF의 혼합 구조에 관한 연구 (A Study on Hybrid Structure of Semi-Continuous HMM and RBF for Speaker Independent Speech Recognition)

  • 문연주;전선도;강철호
    • 한국음향학회지
    • /
    • 제18권8호
    • /
    • pp.94-99
    • /
    • 1999
  • 성 인식 알고리즘에서 높은 인식률을 보이는 방법은 hidden Markov mode1(HMM)과 신경망의 혼합 형태이다. 이것은 통계적인 모델과 신경망 모델의 장점을 혼용하는 방법이다. 본 연구에서 제안하는 인식 알고리듬은 반연속 HMM과 radial basis function(RBF)의 새로운 형태의 혼합 구조로써 반연속 HMM 파라미터 중에서 관측 확률을 결정하는 가중치(혼합확률밀도함수계수)확률을 Baum-Welch 추정 이후 RBF로로써 재 추정하는 인식 모델을 제안한다. 제안한 방법은 RBF의 은닉층(hidden layer)의 기본 함수(basis function)와 반연속 HMM의 확률 밀도 함수의 유사함을 고려한 것으로 RBF의 학습 및 추정된 가중치로써 보다 음성 파형을 분별력 있게 구분하고자 하는 것이다. 모의 실험 결과는 반연속 HM만을 사용 할 때 보다 제안한 반연속 HMM/RBF 혼합 구조가 비 학습 화자에 대한 인식률을 개선함으로써 단순히 반연속 HMM만을 사용하는 것 보다 훨씬 분별력이 높은 방법임을 보여준다.

  • PDF

신경 회로망을 이용한 연속 음성에서의 keyword spotting 인식 방식에 관한 연구 (A study on the Method of the Keyword Spotting Recognition in the Continuous speech using Neural Network)

  • 양진우;김순협
    • 한국음향학회지
    • /
    • 제15권4호
    • /
    • pp.43-49
    • /
    • 1996
  • 본 논문은 keyword spotting 기술을 이용한 247개의 DDD 지역명을 인식 대상으로 하여 화자 독립의 한국어 연속 음성인식을 위한 시스템을 제안하였다. 적용된 인식 알고리즘은 음성에서 시간축의 변화와 스펙트럼의 왜곡을 흡수할 수 있는 모델로 DP와 MLP로 구성된 동적 프로그래밍 신경회로망(DPNN)을 사용하였다. 이와 같은 실험을 위해 단어 모델을 만들고 이에 대한 단어 모델을 keyword 모델과 non-keyword 모델로 구분하여 성능을 향상시킬 수 있도록 하였다. 또한 잘못된 결과를 출력시키지 않기 위해서 후처리 과정을 두고 실험을 하였다. 실험결과, 단독어에 대한 화자 종속 실험은 93.45%의 결과를 보였고, 단독어에 대한 화자 독립 실험은 84.05%의 실험결과를 보였으며, 가장 중요한 간단한 대화체 문장의 keyword spotting 실험은 화자 종속으로 77.34%의 결과를 보였으며, 화자 독립 실험은 70.63%의 결과를 얻었다.

  • PDF