형태소 어휘 문맥에 기반한 태깅 오류 정정

Tagging Error Correction Using Lexical Morpheme Context

  • 김영길 (언어처리연구팀, 음성/언어정보연구센터, 한국전자통신연구원) ;
  • 양성일 (언어처리연구팀, 음성/언어정보연구센터, 한국전자통신연구원) ;
  • 홍문표 (언어처리연구팀, 음성/언어정보연구센터, 한국전자통신연구원) ;
  • 박상규 (언어처리연구팀, 음성/언어정보연구센터, 한국전자통신연구원)
  • Kim, Young-Kil (NLP Team, Speech/Language Technology Research Center, ETRI) ;
  • Yang, Sung-Il (NLP Team, Speech/Language Technology Research Center, ETRI) ;
  • Hong, Mun-Pyo (NLP Team, Speech/Language Technology Research Center, ETRI) ;
  • Park, Sang-Kyu (NLP Team, Speech/Language Technology Research Center, ETRI)
  • 발행 : 2003.10.10

초록

본 논문에서는 형태소 분석 대상 어절의 좌우 어절내의 대표 형태소 어휘 문맥 정보에 기반한 형태소 오류 정정 방안을 제안한다. 현재까지 주변의 품사열 문맥 정보에만 의존하는 기존의 품사 태깅 모델과 달리 주변 어휘를 반영할 수 있는 좌우 어절 문맥을 이용해 형태소 태거의 성능을 향상시킬 수 있는 방법들이 제시되었다. 그러나 이러한 어절 문맥에 의한 지속적인 성능 향상을 위해서는 대량의 품사 태킹 문맥 정보를 필요로 한다. 따라서 본 논문에서는 이러한 자료 부족 문제를 해결하기 위하여 기존의 분석 대상 어절 좌우의 어절 단위의 어휘 문맥 정보가 아닌 좌우 어절내의 대표 형태소 단위의 형태소 어휘 문맥을 이용한 품사 태깅 오류 정정 방안을 제안한다. 실험을 통해, 형태소 어휘 단위의 문맥 정보의 적용성(Coverage)의 높고 기존의 품사 문맥 정보 기반의 형태소 분석기의 태깅 오류를 정정하여 그 정확성을 크게 향상시킬 수 있음을 보인다.

키워드