Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))
- 2012.10a
- /
- Pages.126-131
- /
- 2012
- /
- 2005-3053(pISSN)
TagBench: a Tool for Building Large Corpora
TagBench: 대용량 말뭉치 구축을 위한 언어 정보 부착 도구
- Seo, Hyeong-Won (Department of Computer Engineering, Korea Maritime University) ;
- Choi, Myung-Kil (Department of Computer Engineering, Korea Maritime University) ;
- Nam, Yoo-Rim (Department of Computer Engineering, Korea Maritime University) ;
- Kwon, Hong-Beok (Department of Computer Engineering, Korea Maritime University) ;
- Kim, Jae-Hoon (Department of Computer Engineering, Korea Maritime University)
- 서형원 (한국해양대학교 컴퓨터공학과) ;
- 최명길 (한국해양대학교 컴퓨터공학과) ;
- 남유림 (한국해양대학교 컴퓨터공학과) ;
- 권홍석 (한국해양대학교 컴퓨터공학과) ;
- 김재훈 (한국해양대학교 컴퓨터공학과)
- Published : 2012.10.06
Abstract
본 논문은 자연언어처리에 필요한 여러 언어 정보를 구축하기 위한 도구를 설계하고 구현하였다. 본 논문에서 제안한 부착 도구는 기본적으로 형태소, 구묶음, 기반구의 품사 정보를 부착하고 추가적으로 명사에 대해서는 각 요소의 의미정보를 부착한다. 또한 형태소와 구묶음의 경우에는 사전형 정보를 부착함으로써 사전 구축 등 보다 폭넓게 사용될 수 있도록 하였다. 언어정보 부착에 있어서 가장 어려운 점은 어떻게 여러 작업자들이 일관성을 유지하느냐이다. 이를 위해 본 논문에서는 각 작업자들이 다른 작업자들의 부착 결과를 쉽게 참조하여 보다 손쉽게 수정할 수 있도록 설계되었다. 또한 기존에 잘못 부착된 정보를 발견하면 이를 쉽게 고칠 수 있도록 하였으며 또한 유사한 오류를 검색할 수 있도록 하여 쉽게 수정할 수 있도록 하였다.