Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))
- 2011.10a
- /
- Pages.55-60
- /
- 2011
- /
- 2005-3053(pISSN)
An Improving Method of Efficiency for Word Clustering Based on Language Model
언어모델 기반 단어 클러스터링 알고리즘의 효율성 향상 기법
- Park, Sang-Woo (Computer & Telecommunications Eng. Div. Yonsei University) ;
- Kim, Youngtae (Computer & Telecommunications Eng. Div. Yonsei University) ;
- Kang, Dong-Min (Computer & Telecommunications Eng. Div. Yonsei University) ;
- Ra, Dongyul (Computer & Telecommunications Eng. Div. Yonsei University)
- Published : 2011.10.06
Abstract
단어 클러스터링 (word clustering) 또는 군집화는 자연어처리에서 데이터 부족 문제로 인하여 단어 간의 의미관계와 관련된 정보를 사용하기 어렵게 만드는 문제에 대처할 수 있는 중요한 기술이다. 단어 클러스터링과 관련하여 알려진 가장 대표적인 기법으로는 클래스-기반 n-gram 언어모델의 개발을 위하여 제안된 Brown 단어 클러스터링 기법이다. 그러나 Brown 클러스터링 기법을 이용하는데 있어서 부딪치는 가장 큰 문제점은 시간과 공간적인 면에서 자원 소요량이 너무 방대하다는 점이다. 본 연구는 이 클러스터링 기법의 효율성을 개선하는 실험을 수행하였다. 실험 결과 가장 단순한(naive) 접근에 비하여 약 7.9배 이상의 속도 향상을 이룰 수 있음을 관찰하였다.