LGG-based Phrase-Pattern Dictionaries of Non-Standard Tokens that contain Bound Nouns in Social Media Texts

SNS 텍스트의 비정규토큰 분석 성능 향상을 위한 의존명사 내포 어형의 LGG 기반 패턴문법 사전

  • Choi, Seong-Yong (DICORA, Department of Linguistics and Cognitive Science, Hankuk University of Foreign Studies) ;
  • Shin, Dong-Hyok (DICORA, Department of Linguistics and Cognitive Science, Hankuk University of Foreign Studies) ;
  • Hwang, Chang-Hoe (DICORA, Department of Linguistics and Cognitive Science, Hankuk University of Foreign Studies) ;
  • Yoo, Gwang-Hoon (DICORA, Department of Linguistics and Cognitive Science, Hankuk University of Foreign Studies) ;
  • Nam, Jee-Sun (DICORA, Department of Linguistics and Cognitive Science, Hankuk University of Foreign Studies)
  • 최성용 (한국외국어대학교 언어어인지과학과, 디지털언어지식콘텐츠연구센터(DICORA)) ;
  • 신동혁 (한국외국어대학교 언어어인지과학과, 디지털언어지식콘텐츠연구센터(DICORA)) ;
  • 황창회 (한국외국어대학교 언어어인지과학과, 디지털언어지식콘텐츠연구센터(DICORA)) ;
  • 유광훈 (한국외국어대학교 언어어인지과학과, 디지털언어지식콘텐츠연구센터(DICORA)) ;
  • 남지순 (한국외국어대학교 언어어인지과학과, 디지털언어지식콘텐츠연구센터(DICORA))
  • Published : 2018.10.12

Abstract

본 연구는 SNS 텍스트에서 형태소 분석기로 분석되지 않는 비정규토큰 유형 중 고빈도로 나타나는 의존명사 내포 어형의 형태소를 인식할 수 있는 LGG 기반 패턴문법 사전 구축과 그 성능을 평가하는 것을 목표로 한다. SNS 텍스트에서는 기존의 정형화된 텍스트와 달리, 띄어쓰기 오류로 인한 미분석어가 매우 높은 빈도로 나타나는데, 특히 의존명사를 포함한 유형이 20% 이상을 차지하며 가장 빈번한 것으로 나타났다. 이에 본 연구에서는 의존명사를 내포한 비정규토큰의 띄어쓰기 오류 문제를 효과적으로 처리하기 위해, 부분 문법 그래프(Local Grammar Graph: LGG) 프레임에 기반한 패턴문법 사전을 구축하였다. 이를 SNS 코퍼스에 적용하여 성능을 평가한 결과, 정확률 91.28%, 재현율 89%, 조화 평균 90.13%의 성능을 통해 본 연구의 접근 방법론의 유용성과 구축 자원의 실효성을 입증하였다.

Keywords