Self-Organizing n-gram Model for Automatic Word Spacing

Tae, Yoon-Shik;Park, Seong-Bae;Lee, Sang-Jo;Park, Se-Young;

한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리) (Annual Conference on Human and Language Technology)

한국정보과학회언어공학연구회 2006년도 제18회 한글 및 한국어 정보처리 학술대회
/
Pages.125-132
/
2006
/
2005-3053(pISSN)

한국정보과학회 언어공학연구회 (Human and Language Technology)

자기 조직화 n-gram모델을 이용한 자동 띄어쓰기

Self-Organizing n-gram Model for Automatic Word Spacing

태윤식 (경북대학교 컴퓨터공학과) ;
박성배 (경북대학교 컴퓨터공학과) ;
이상조 (경북대학교 컴퓨터공학과) ;
박세영 (경북대학교 컴퓨터공학과)

Tae, Yoon-Shik (Dept. of Computer Engineering, Kyungpook National University) ;
Park, Seong-Bae (Dept. of Computer Engineering, Kyungpook National University) ;
Lee, Sang-Jo (Dept. of Computer Engineering, Kyungpook National University) ;
Park, Se-Young (Dept. of Computer Engineering, Kyungpook National University)

발행 : 2006.10.13

PDF

PDF 다운로드

⟨ 이전 논문 다음 논문 ⟩

초록

한국어의 자연어처리 및 정보검색분야에서 자동 띄어쓰기는 매우 중요한 문제이다. 신문기사에서조차 잘못된 띄어쓰기를 발견할 수 있을 정도로 띄어쓰기가 어려운 경우가 많다. 본 논문에서는 자기 조직화 n-gram모델을 이용해 자동 띄어쓰기의 정확도를 높이는 방법을 제안한다. 본 논문에서 제안하는 방법은 문맥의 길이를 바꿀 수 있는 가변길이 n-gram모델을 기본으로 하여 모델이 자동으로 문맥의 길이를 결정하도록 한 것으로, 일반적인 n-gram모델에 비해 더욱 높은 성능을 얻을 수 있다. 자기조직화 n-gram모델은 최적의 문맥의 길이를 찾기 위해 문맥의 길이를 늘였을 때 나타나는 확률분포와 문맥의 길이를 늘이지 않았을 태의 확률분포를 비교하여 그 차이가 크다면 문맥의 길이를 늘이고, 그렇지 않다면 문맥의 길이를 자동으로 줄인다. 즉, 더 많은 정보가 필요한 경우는 데이터의 차원을 높여 정확도를 올리며, 이로 인해 증가된 계산량은 필요 없는 데이터의 양을 줄임으로써 줄일 수 있다. 본 논문에서는 실험을 통해 n-gram모델의 자기 조직화 구조가 기본적인 모델보다 성능이 뛰어나다는 것을 확인하였다.

한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리) (Annual Conference on Human and Language Technology)

자기 조직화 n-gram모델을 이용한 자동 띄어쓰기

Self-Organizing n-gram Model for Automatic Word Spacing

초록

키워드

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)