Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))
- 2011.10a
- /
- Pages.90-93
- /
- 2011
- /
- 2005-3053(pISSN)
Korean Composed Noun Phrase Chunking Using CRF
CRF를 이용한 한국어 문장의 복합명사 상당어구 묶음
- Park, Byul (Department of Computer Science and Engineering, Sogang University) ;
- Seon, Choong-Nyoung (Department of Computer Science and Engineering, Sogang University) ;
- Seo, Jung-Yun (Department of Computer Science and Interdisciplinary Program of Integrated Biotechnology, Sogang Univeristy)
- Published : 2011.10.06
Abstract
구분분석은 문장을 분석하여 문장의 구문 구조를 밝히는 작업으로, 문장이 길어질수록 문장의 중의성이 높아져 구문분석 복잡도를 증사시키고 성능이 떨어진다. 구문분석의 복잡도를 감소시키기 위한 방법 중 하나로 구묶음을 하는데 본 논문에서는 하나의 명사처럼 쓰일 수 있는 둘 이상의 연속된 명사, 대명사, 수사, 숫자와 이를 수식하는 관형사, 접두사 및 접미사를 묶어서 복합명사 상당어구라고 정의하고 복합명사 상당어구 인식 시스템을 제안한다. 본 논문은 복합명사 상당어구 인식을 기계학습을 이용한 태그 부착 문제로 간주하였다. 문장 내 띄어쓰기, 어절의 어휘 정보, 어절 내 형태소들의 품사 정보와 품사-어휘 정보를 함께 자질로 사용하였다. 실험을 위하여 세종 구문분석 말뭉치 7만여 문장을 학습과 평가에 사용했으며, 실험결과는 95.97%의 정확률과 95.11%의 재현율, 95.54%의