오차 역전파 알고리즘을 갖는 MLP를 이용한 한국 지명 인식에 대한 연구

A Study on the Spoken Korean Citynames Using Multi-Layered Perceptron of Back-Propagation Algorithm

  • 송도선 (중경공업전문대학교 전자과) ;
  • 이재건 (전자통신 연구소 이동통신 기술 연구단) ;
  • 김석동 (호서대학교 전자계산학과) ;
  • 이행세 (아주대학교 전자공학과)
  • 발행 : 1994.12.01

초록

이 논문은 오차역전달(error back-propagation) 알고리듬을 갖는 다층구조 퍼셉트런(Multi-Layered Perceptron)을 사용하여 우리말 단어음성을 화자종속으로 기계 인식하는 실험에 관한 연구 결과다. 대상단어는 시외 자동전화 지역번호표에서 임의로 선택한 50개 지역명이며, 이 중 43개는 2음절로 구성되어있고 나머지 7개는 3음절이다. 단어를 음소나 음절별로 분리(segmentation)하지 않고, 단어의 각 부분에서 골고루 추출된 특징성분을 신경망에 입력하는 방법을 사용했다. 그렇게 함으로써 발음지속시간에 관계없는 결과를 얻을 수 있으며, 이 때 사용된 특징 성분은 선형예측분석으로 구해진 PARCOR계수다. 전체학습과 구분학습의 비교, 프레임 갯수와 PARCOR차수에 대한 인식률의 의존도, 중간층 뉴런의 갯수에 대한 인식률의 변동, 그리고 출력층 뉴런의 구성 방법에 따른 비교 등 4가지 실험을 통하여 가장 최량의 조건을 찾아보고자 하였다. 이 연구를 발전시킨다면 실시간의 화자독립 소규모어휘 음성인식이 가능해질 것으로 보인다.

This paper is about an experiment of speaker-independent automatic Korean spoken words recognition using Multi-Layered Perceptron and Error Back-propagation algorithm. The object words are 50 citynames of D.D.D local numbers. 43 of those are 2 syllables and the rest 7 are 3 syllables. The words were not segmented into syllables or phonemes, and some feature components extracted from the words in equal gap were applied to the neural network. That led independent result on the speech duration, and the PARCOR coefficients calculated from the frames using linear predictive analysis were employed as feature components. This paper tried to find out the optimum conditions through 4 differerent experiments which are comparison between total and pre-classified training, dependency of recognition rate on the number of frames and PAROCR order, recognition change due to the number of neurons in the hidden layer, and the comparison of the output pattern composition method of output neurons. As a result, the recognition rate of $89.6\%$ is obtaimed through the research.

키워드