K-SLM Toolkit을 이용한 한국어의 통계적 언어 모델링 비교

Comparative Analysis of Statistical Language Modeling for Korean using K-SLM Toolkits

  • 이진석 (포항공과대학교 컴퓨터공학과 자연언어 처리 연구실) ;
  • 박재득 (한국 전자 통신 연구원 지식 정보 연구부 언어 이해 연구팀) ;
  • 이근배 (포항공과대학교 컴퓨터공학과 자연언어 처리 연구실)
  • Lee, Jin-Seok (Natural Language Processing Lab., Dept. of Computer Science & Engineering POSTECH) ;
  • Park, Jay-Duke (Language Understanding Lab., Knowledge Technology Research Department, ETRI) ;
  • Lee, Geun-Bae (Natural Language Processing Lab., Dept. of Computer Science & Engineering POSTECH)
  • 발행 : 1999.10.08

초록

통계적 언어 모델은 자연어 처리의 다양한 분야에서 시스템의 정확도를 높이고 수행 시간을 줄여줄 수 있는 중요한 지식원이므로 언어 모델의 성능은 자연어 처리 시스템, 특히 음성 인식 시스템의 성능에 직접적인 영향을 준다. 본 논문에서는 한국어를 위한 통계적 언어 모델을 구축하기 위한 다양한 언어 모델 실험을 제시하고 각 언어 모델들 간의 성능 비교를 통하여 통계적 언어 모델의 표준을 제시한다. 또한 형태소 및 어절 단위의 고 빈도 어휘만을 범용 언어 모델에 적용할 때의 적용률을 통하여 언어 모델 구축시 어휘 사전 크기 결정을 위한 기초적 자료를 제시한다. 본 연구는 음성 인식용 통계적 언어 모델의 성능을 판단하는 데 앞으로 큰 도움을 줄 수 있을 것이다.

키워드