• 제목/요약/키워드: Automatic Speech Recognition

검색결과 213건 처리시간 0.027초

Development of an Optimized Feature Extraction Algorithm for Throat Signal Analysis

  • Jung, Young-Giu;Han, Mun-Sung;Lee, Sang-Jo
    • ETRI Journal
    • /
    • 제29권3호
    • /
    • pp.292-299
    • /
    • 2007
  • In this paper, we present a speech recognition system using a throat microphone. The use of this kind of microphone minimizes the impact of environmental noise. Due to the absence of high frequencies and the partial loss of formant frequencies, previous systems using throat microphones have shown a lower recognition rate than systems which use standard microphones. To develop a high performance automatic speech recognition (ASR) system using only a throat microphone, we propose two methods. First, based on Korean phonological feature theory and a detailed throat signal analysis, we show that it is possible to develop an ASR system using only a throat microphone, and propose conditions of the feature extraction algorithm. Second, we optimize the zero-crossing with peak amplitude (ZCPA) algorithm to guarantee the high performance of the ASR system using only a throat microphone. For ZCPA optimization, we propose an intensification of the formant frequencies and a selection of cochlear filters. Experimental results show that this system yields a performance improvement of about 4% and a reduction in time complexity of 25% when compared to the performance of a standard ZCPA algorithm on throat microphone signals.

  • PDF

Convolutional Neural Networks for Character-level Classification

  • Ko, Dae-Gun;Song, Su-Han;Kang, Ki-Min;Han, Seong-Wook
    • IEIE Transactions on Smart Processing and Computing
    • /
    • 제6권1호
    • /
    • pp.53-59
    • /
    • 2017
  • Optical character recognition (OCR) automatically recognizes text in an image. OCR is still a challenging problem in computer vision. A successful solution to OCR has important device applications, such as text-to-speech conversion and automatic document classification. In this work, we analyze character recognition performance using the current state-of-the-art deep-learning structures. One is the AlexNet structure, another is the LeNet structure, and the other one is the SPNet structure. For this, we have built our own dataset that contains digits and upper- and lower-case characters. We experiment in the presence of salt-and-pepper noise or Gaussian noise, and report the performance comparison in terms of recognition error. Experimental results indicate by five-fold cross-validation that the SPNet structure (our approach) outperforms AlexNet and LeNet in recognition error.

New Postprocessing Methods for Rejectin Out-of-Vocabulary Words

  • Song, Myung-Gyu
    • The Journal of the Acoustical Society of Korea
    • /
    • 제16권3E호
    • /
    • pp.19-23
    • /
    • 1997
  • The goal of postprocessing in automatic speech recognition is to improve recognition performance by utterance verification at the output of recognition stage. It is focused on the effective rejection of out-of vocabulary words based on the confidence score of hypothesized candidate word. We present two methods for computing confidence scores. Both methods are based on the distance between each observation vector and the representative code vector, which is defined by the most likely code vector at each state. While the first method employs simple time normalization, the second one uses a normalization technique based on the concept of on-line garbage mode[1]. According to the speaker independent isolated words recognition experiment with discrete density HMM, the second method outperforms both the first one and conventional likelihood ratio scoring method[2].

  • PDF

대어휘 연속음성 인식을 위한 결합형태소 자동생성 (Automatic Generation of Concatenate Morphemes for Korean LVCSR)

  • 박영희;정민화
    • 한국음향학회지
    • /
    • 제21권4호
    • /
    • pp.407-414
    • /
    • 2002
  • 본 논문에서는 형태소를 인식 단위로 하는 한국어 연속음성 인식의 성능 개선을 위해 결합형태소를 자동으로 생성하는 방법을 제시한다. 학습코퍼스의 54%를 차지하고 오인식의 주요인이 되는 단음절 형태소를 감소시켜서 인식 성능을 높이는 것을 목적으로 한다. 품사의 접속 규칙을 이용한 기존의 지식기반의 형태소 결합방법은 접속 규칙의 생성이 어렵고, 학습 코퍼스에 나타난 출현 빈도를 반영하지 못하여 저빈도 결합형태소를 다수 생성하는 경향을 보였다. 본 논문에서 제시하는 방법은 학습데이터의 통계정보를 이용하여 결합형태소를 자동 생성한다. 결합할 형태소 쌍 선정을 위한 평가척도로는 형태소 쌍의 빈도, 상호정보, 유니그램 로그 유도값(unigram log likelihood)을 이용하였고 여기에 한국어의 특성 반영을 위해 단음절 형태소 제약과 형태소 결합길이를 제한하는 두개의 제약사항을 추가하였다. 학습에 사용된 텍스트 코퍼스는 방송뉴스와 신문으로 구성된 7백만 형태소이고, 최빈도 2만 형태소 다중 발음사전을 사용하였다. 세가지 평가척도 중 빈도를 이용한 것의 성능이 가장 좋았고 여기에 제약조건을 반영하여 성능을 더 개선할 수 있었다. 특히 최대 결합 길이를 3으로 할 때의 성능이 가장 우수하여 언어모델 혼잡도는 117.9에서 97.3으로 18%감소했으며, 형태소 에러율 (MER: Morpheme error rate)은 21.3%에서 17.6%로 감소하였다. 이때 단음절 형태소는 54%에서 30%로 24%가 감소하였다.

음성 인식을 이용한 자동 교환 시스템 구현 (An Implementation of the Automatic Switching System using Speech Recognition)

  • 함정표;김현아;박익현
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2000년도 제13회 신호처리 합동 학술대회 논문집
    • /
    • pp.935-938
    • /
    • 2000
  • 본 논문에서는 음성 인식을 이용하여 전화를 교환해주는 자동 교환 시스템을 구현하고, 성능을 평가하였다. 구현된 시스템에는 필수적인 음성인식 이외에도 DSP 진단 기능, 인식 대상 어휘의 추가 및 변경기능, 음성 수집 기능 등이 구현 되었다. SCHMM (Semi-Continuous Hidden Markov Model)을 이용한 전화망에서의 화자 독립 고립 단어 가변 어휘 인식을 대상으로 하였으며, 실시간 구현을 위하여 Texas Instrument 사의 TMS320C32를 사용하였다〔6〕. 인식 어휘는 부서명 및 인명이고 1300여 단어일 때, 인식 성능은 91.5%이다.

  • PDF

전투기 음성인식제어 기술에 관한 연구 (Study on Automatic Speech Recognition In Fighter Avionics)

  • 김성우;장한진;박재성
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2007년도 제38회 하계학술대회
    • /
    • pp.1866-1867
    • /
    • 2007
  • 본 논문에서는 전투기 조종석에서의 음성인식 기술 적용과 관련하여 전투기 음성인식 시스템의 개요, 역사, 구성 및 실제 사용되고 있는 음성명령어(Command Syntax)에 대하여 알아보고, 전투기에 적용되고 있는 음성인식 시스템의 발전 추세를 분석한다.

  • PDF

터보회전기기의 진동모니터링 및 진단을 위한 이산 은닉 마르코프 모델에 관한 연구 (A Study on Discrete Hidden Markov Model for Vibration Monitoring and Diagnosis of Turbo Machinery)

  • 이종민;황요하;송창섭
    • 한국유체기계학회 논문집
    • /
    • 제7권2호
    • /
    • pp.41-49
    • /
    • 2004
  • Condition monitoring is very important in turbo machinery because single failure could cause critical damages to its plant. So, automatic fault recognition has been one of the main research topics in condition monitoring area. We have used a relatively new fault recognition method, Hidden Markov Model(HMM), for mechanical system. It has been widely used in speech recognition, however, its application to fault recognition of mechanical signal has been very limited despite its good potential. In this paper, discrete HMM(DHMM) was used to recognize the faults of rotor system to study its fault recognition ability. We set up a rotor kit under unbalance and oil whirl conditions and sampled vibration signals of two failure conditions. DHMMS of each failure condition were trained using sampled signals. Next, we changed the setup and the rotating speed of the rotor kit. We sampled vibration signals and each DHMM was applied to these sampled data. It was found that DHMMs trained by data of one rotating speed have shown good fault recognition ability in spite of lack of training data, but DHMMs trained by data of four different rotating speeds have shown better robustness.

음성인식에 기초한 치매환자 노인을 위한 대화시스템 (Dialog System based on Speech Recognition for the Elderly with Dementia)

  • Kim, Sung-Il;Kim, Byoung-Chul
    • 한국정보통신학회논문지
    • /
    • 제6권6호
    • /
    • pp.923-930
    • /
    • 2002
  • 본 연구는 치매노인환자의 생활의 질을 향상시키기 위한 대화시스템의 개발에 목표를 둔다. 제안된 시스템은 주로 세 가지 모듈, 즉, 음성인식, 시간테이블에 의해 구분된 대화 데이터베이스의 자동검색, 그리고 간호사의 녹음음성으로 이루어진 맞장구 등의 긍정적인 대답, 등으로 구성되어 있다. 첫 단계로서, 치매환자가 간호시설에서 자주 발화하는 대화의 내용을 조사하였다. 다음으로, 환자들의 요구를 충족시키기 위해 그들의 발화 음성을 자동인식 하도록 구성하였다. 여기서 시스템의 응답은 전문 간호사의 녹음음성으로 설계되었다. 시스템의 평가를 위해서 시스템이 도입되었을 때와 되지 않았을 때의 비교연구를 실시하였고, 치료 전문가(occupational therapist)들이 비디오 촬영을 통해서 남성 대상자의 반응을 평가하였다. 평가 견과는 치매환자의 요구를 충족시키는데 있어서 대화 시스템이 전문간호사들보다 더욱 답적이었다는 것을 보여준다. 게다가 제안된 시스템은 상호 대화에 있어서 간호사들보다 환자가 더 많이 말하도록 유도함을 알 수 있었다.

한국어 연속음성 인식을 위한 발음열 자동 생성 (Automatic Generation of Pronunciation Variants for Korean Continuous Speech Recognition)

  • 이경님;전재훈;정민화
    • 한국음향학회지
    • /
    • 제20권2호
    • /
    • pp.35-43
    • /
    • 2001
  • 음성 인식이나 음성 합성시 필요한 발음열을 수작업으로 작성할 경우 작성자의 음운변화 현상에 대한 전문적 언어지식을 비롯하여 많은 시간과 노력이 요구되며 일관성을 유지하기도 쉽지 않다. 또한 한국어의 음운 변화 현상은 단일 형태소의 내부와 복합어에서 결합된 형태소의 경계점, 여러 형태소가 결합해서 한 어절을 이룰 경우 그 어절 내부의 형태소의 경계점, 여러 어절이 한 어절을 이룰 때 구성 어절의 경계점에서 서로 다른 적용 양상을 보인다. 본 논문에서는 이러한 문제를 해결하기 위해서 형태음운론적 분석에 기반하여 문자열을 자동으로 발음열로 변환하는 발음 생성 시스템을 제안하였다. 이 시스템은 한국어에서 빈번하게 발생하는 음운변화 현상의 분석을 통해 정의된 음소 변동 규칙과 변이음 규칙을 다단계로 적용하여 가능한 모든 발음열을 생성한다. 각 음운변화 규칙을 포함하는 대표적인 언절 리스트를 이용하여 구성된 시스템의 안정성을 검증하였고, 발음사전 구성과 학습용 발음열의 유용성을 인식 실험을 통해 평가하였다. 그 결과 표제어 사이의 음운변화 현상을 반영한 발음사전의 경우 5-6% 정도 나은 단어 인식률을 얻었으며, 생성된 발음열을 학습에 사용한 경우에서도 향상된 결과를 얻을 수 있었다.

  • PDF

딥러닝을 활용한 한국어 스피치 애니메이션 생성에 관한 고찰 (A Study on Korean Speech Animation Generation Employing Deep Learning)

  • 강석찬;김동주
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권10호
    • /
    • pp.461-470
    • /
    • 2023
  • 딥러닝을 활용한 스피치 애니메이션 생성은 영어를 중심으로 활발하게 연구되어왔지만, 한국어에 관해서는 사례가 없었다. 이에, 본 논문은 최초로 지도 학습 딥러닝을 한국어 스피치 애니메이션 생성에 활용해 본다. 이 과정에서, 딥러닝이 스피치 애니메이션 연구를 그 지배적 기술인 음성 인식 연구로 귀결시킬 수 있는 중요한 효과를 발견하게 되어, 이 효과를 한국어 스피치 애니메이션 생성에 최대한 활용하는 방법을 고찰한다. 이 효과는 연구의 최우선 목표를 명확하게 하여, 근래에 들어 활발하지 않은 한국어 스피치 애니메이션 연구를 효과적이고 효율적으로 재활성화하는데 기여할 수 있다. 본 논문은 다음 과정들을 수행한다: (i) 블렌드쉐입 애니메이션 기술을 선택하며, (ii) 딥러닝 모델을 음성 인식 모듈과 표정 코딩 모듈의 주종 관계 파이프라인으로 구현하고, (iii) 한국어 스피치 모션 캡처 dataset을 제작하며, (iv) 두 대조용 딥러닝 모델들을 준비하고 (한 모델은 영어 음성 인식 모듈을 채택하고, 다른 모델은 한국어 음성 인식 모듈을 채택하며, 두 모델이 동일한 기본 구조의 표정 코딩 모듈을 채택한다), (v) 두 모델의 표정 코딩 모듈을 음성 인식 모듈에 종속되게 학습시킨다. 유저 스터디 결과는, 한국어 음성 인식 모듈을 채택하여 표정 코딩 모듈을 종속적으로 학습시킨 모델 (4.2/5.0 점 획득)이, 영어 음성 인식 모듈을 채택하여 표정 코딩 모듈을 종속적으로 학습시킨 모델 (2.7/5.0 점 획득)에 비해 결정적으로 더 자연스러운 한국어 스피치 애니메이션을 생성함을 보여 주었다. 이 결과는 한국어 스피치 애니메이션의 품질이 한국어 음성 인식의 정확성으로 귀결됨을 보여 줌으로써 상기의 효과를 확인해준다.