Verification of POS tagged Corpus

품사 표지 부착 말뭉치 검증

  • Published : 2005.10.21

Abstract

본 논문에서는 자연어 처리 연구에서 이용되는 품사 표지 부착 말뭉치의 오류 검증 방안에 대해 제안한다. 현재까지의 품사 표지 부착 말뭉치들은 정제보다는 구축에 중점을 두고 있으며, 기존의 오류 검출과 정정 방안에 관련된 연구들은 기 구축된 말뭉치를 대상으로 한 것이 아니라, 품사 표지 부착 시스템의 후 처리에 집중하고 있다. 형태소 분석기나 품사 표지 부착 시스템의 학습에 이용되는 품사 표지 부착 말뭉치가 오류 검증 단계를 거친다면 이 시스템들은 좀 더 높은 신뢰성을 가지게 될 것이다. 본 논문에서는 품사 표지부착 말뭉치 검증을 위한 어절 분할 오류, 철자 오류, 표지 부착 오류, 형식 오류, 일관성 오류의 5가지 오류 유형과 검증 방안을 제안한다. 또한 제안한 방법에 따라 세종 계획의 형태소 분석 말뭉치의 오류를 검증해 보았으며, 그 결과 말뭉치 오류 정제가 말뭉치의 신뢰도를 향상시킬 수 있음을 보인다.

Keywords