PPeditor: 한국어 의존구조 말뭉치 구축 도구

PPeditor: A Corpus Annotation Tool for Korean Dependency Structures

  • 박은진 (한국해양대학교 컴퓨터공학과) ;
  • 김재훈 (한국해양대학교 컴퓨터공학과) ;
  • 김강민 (한국해양대학교 컴퓨터공학과) ;
  • 김창현 (한국전자통신연구원)
  • Park, Eun-Jin (Department. of Computer Engineering, Korea Maritime University) ;
  • Kim, Jae-Hoon (Department. of Computer Engineering, Korea Maritime University) ;
  • Kim, Kang-Min (Department. of Computer Engineering, Korea Maritime University) ;
  • Kim, Chang-Hyun (Electronics and Telecommunications Research Institute)
  • 발행 : 2005.05.13

초록

효과적인 언어처리 시스템을 개발하기 위해서는 언어정보가 부착된 대량의 말뭉치가 필요하다. 그러나, 대량의 말뭉치를 구축하기 위해서는 많은 시간과 노력이 필요하다. 이와 같은 시간과 노력을 절약하기 위해서 일반적으로 말뭉치 구축 도구를 사용한다. 본 논문에서는 한국어 의존구조 말뭉치를 구축하기 위한 도구를 설계하고 구현하였다. 본 논문에서 개발된 구축 도구는 여러 가지 특징을 가지고 있다. 1) 특정 응용분야에 관계없이 두루 사용할 수 있다. 2) 분석 단계와 분석 오류를 연계하여 작업의 집중도를 높였다. 3) 가능한 한 오류는 축적되지 않도록 하여 구축된 말뭉치의 질을 크게 개선할 수 있었다. 4) 구축된 정보는 서로 공유할 수 있도록 하여 작업의 일관성을 극대화하였다. 5) 초보자로 사용자가 쉽게 도구를 사용할 수 있도록 인터페이스를 설계하였다. 본 논문에서 개발된 구축 도구를 이용하여 8 명의 연구원이 약 2 개월 (하루에 평균 4 시간)에 걸쳐서 10,000 문장의 의존구조 말뭉치를 구축할 수 있었다. 구축된 말뭉치에는 형태소 정보, 구묶음 정보, 의존구조 정보가 부착되어 있다.

키워드