한국정보처리학회:학술대회논문집 (Proceedings of the Korea Information Processing Society Conference)
- 한국정보처리학회 2005년도 춘계학술발표대회
- /
- Pages.741-744
- /
- 2005
- /
- 2005-0011(pISSN)
- /
- 2671-7298(eISSN)
PPeditor: 한국어 의존구조 말뭉치 구축 도구
PPeditor: A Corpus Annotation Tool for Korean Dependency Structures
- Park, Eun-Jin (Department. of Computer Engineering, Korea Maritime University) ;
- Kim, Jae-Hoon (Department. of Computer Engineering, Korea Maritime University) ;
- Kim, Kang-Min (Department. of Computer Engineering, Korea Maritime University) ;
- Kim, Chang-Hyun (Electronics and Telecommunications Research Institute)
- 발행 : 2005.05.13
초록
효과적인 언어처리 시스템을 개발하기 위해서는 언어정보가 부착된 대량의 말뭉치가 필요하다. 그러나, 대량의 말뭉치를 구축하기 위해서는 많은 시간과 노력이 필요하다. 이와 같은 시간과 노력을 절약하기 위해서 일반적으로 말뭉치 구축 도구를 사용한다. 본 논문에서는 한국어 의존구조 말뭉치를 구축하기 위한 도구를 설계하고 구현하였다. 본 논문에서 개발된 구축 도구는 여러 가지 특징을 가지고 있다. 1) 특정 응용분야에 관계없이 두루 사용할 수 있다. 2) 분석 단계와 분석 오류를 연계하여 작업의 집중도를 높였다. 3) 가능한 한 오류는 축적되지 않도록 하여 구축된 말뭉치의 질을 크게 개선할 수 있었다. 4) 구축된 정보는 서로 공유할 수 있도록 하여 작업의 일관성을 극대화하였다. 5) 초보자로 사용자가 쉽게 도구를 사용할 수 있도록 인터페이스를 설계하였다. 본 논문에서 개발된 구축 도구를 이용하여 8 명의 연구원이 약 2 개월 (하루에 평균 4 시간)에 걸쳐서 10,000 문장의 의존구조 말뭉치를 구축할 수 있었다. 구축된 말뭉치에는 형태소 정보, 구묶음 정보, 의존구조 정보가 부착되어 있다.
키워드