Language Identification using Genetic Algorithms

유전자 알고리즘을 이용한 언어식별

  • 전화성 (한국과학기술원 전산학과) ;
  • 정성원 (한국과학기술원 전산학과) ;
  • 장길진 (한국과학기술원 전산학과) ;
  • 오영환 (한국과학기술원 전산학과)
  • Published : 2000.04.01

Abstract

본 논문에서는 통계적인 언어 모델을 이용하여 한국어, 중국어, 스페인어를 식별할 수 있는 언어식별기를 구현하고, 유전자 알고리즘을 이용하여 그 성능을 향상시키는 방법에 대하여 연구를 수행하였다. 언어 모델은 통계적 모델의 하나인 바이그랜(bigram)을 이용하였고, 유전자 알고리즘으로 각 바이그램에 최적의 가중치를 주는 방법을 제안하였다. 유전자 코드는 두 가지 방법으로 평가하였으며, 각각의 성능을 경험적(heuristic)으로 주는 가중치와 비교평가하였다.

Keywords