한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리) (Annual Conference on Human and Language Technology)
- 한국정보과학회언어공학연구회 2006년도 제18회 한글 및 한국어 정보처리 학술대회
- /
- Pages.125-132
- /
- 2006
- /
- 2005-3053(pISSN)
자기 조직화 n-gram모델을 이용한 자동 띄어쓰기
Self-Organizing n-gram Model for Automatic Word Spacing
- Tae, Yoon-Shik (Dept. of Computer Engineering, Kyungpook National University) ;
-
Park, Seong-Bae
(Dept. of Computer Engineering, Kyungpook National University) ;
-
Lee, Sang-Jo
(Dept. of Computer Engineering, Kyungpook National University) ;
-
Park, Se-Young
(Dept. of Computer Engineering, Kyungpook National University)
- 발행 : 2006.10.13
초록
한국어의 자연어처리 및 정보검색분야에서 자동 띄어쓰기는 매우 중요한 문제이다. 신문기사에서조차 잘못된 띄어쓰기를 발견할 수 있을 정도로 띄어쓰기가 어려운 경우가 많다. 본 논문에서는 자기 조직화 n-gram모델을 이용해 자동 띄어쓰기의 정확도를 높이는 방법을 제안한다. 본 논문에서 제안하는 방법은 문맥의 길이를 바꿀 수 있는 가변길이 n-gram모델을 기본으로 하여 모델이 자동으로 문맥의 길이를 결정하도록 한 것으로, 일반적인 n-gram모델에 비해 더욱 높은 성능을 얻을 수 있다. 자기조직화 n-gram모델은 최적의 문맥의 길이를 찾기 위해 문맥의 길이를 늘였을 때 나타나는 확률분포와 문맥의 길이를 늘이지 않았을 태의 확률분포를 비교하여 그 차이가 크다면 문맥의 길이를 늘이고, 그렇지 않다면 문맥의 길이를 자동으로 줄인다. 즉, 더 많은 정보가 필요한 경우는 데이터의 차원을 높여 정확도를 올리며, 이로 인해 증가된 계산량은 필요 없는 데이터의 양을 줄임으로써 줄일 수 있다. 본 논문에서는 실험을 통해 n-gram모델의 자기 조직화 구조가 기본적인 모델보다 성능이 뛰어나다는 것을 확인하였다.
키워드