Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))
- 2018.10a
- /
- Pages.394-399
- /
- 2018
- /
- 2005-3053(pISSN)
LGG-based Phrase-Pattern Dictionaries of Non-Standard Tokens that contain Bound Nouns in Social Media Texts
SNS 텍스트의 비정규토큰 분석 성능 향상을 위한 의존명사 내포 어형의 LGG 기반 패턴문법 사전
- Choi, Seong-Yong (DICORA, Department of Linguistics and Cognitive Science, Hankuk University of Foreign Studies) ;
- Shin, Dong-Hyok (DICORA, Department of Linguistics and Cognitive Science, Hankuk University of Foreign Studies) ;
- Hwang, Chang-Hoe (DICORA, Department of Linguistics and Cognitive Science, Hankuk University of Foreign Studies) ;
- Yoo, Gwang-Hoon (DICORA, Department of Linguistics and Cognitive Science, Hankuk University of Foreign Studies) ;
- Nam, Jee-Sun (DICORA, Department of Linguistics and Cognitive Science, Hankuk University of Foreign Studies)
- 최성용 (한국외국어대학교 언어어인지과학과, 디지털언어지식콘텐츠연구센터(DICORA)) ;
- 신동혁 (한국외국어대학교 언어어인지과학과, 디지털언어지식콘텐츠연구센터(DICORA)) ;
- 황창회 (한국외국어대학교 언어어인지과학과, 디지털언어지식콘텐츠연구센터(DICORA)) ;
- 유광훈 (한국외국어대학교 언어어인지과학과, 디지털언어지식콘텐츠연구센터(DICORA)) ;
- 남지순 (한국외국어대학교 언어어인지과학과, 디지털언어지식콘텐츠연구센터(DICORA))
- Published : 2018.10.12
Abstract
본 연구는 SNS 텍스트에서 형태소 분석기로 분석되지 않는 비정규토큰 유형 중 고빈도로 나타나는 의존명사 내포 어형의 형태소를 인식할 수 있는 LGG 기반 패턴문법 사전 구축과 그 성능을 평가하는 것을 목표로 한다. SNS 텍스트에서는 기존의 정형화된 텍스트와 달리, 띄어쓰기 오류로 인한 미분석어가 매우 높은 빈도로 나타나는데, 특히 의존명사를 포함한 유형이 20% 이상을 차지하며 가장 빈번한 것으로 나타났다. 이에 본 연구에서는 의존명사를 내포한 비정규토큰의 띄어쓰기 오류 문제를 효과적으로 처리하기 위해, 부분 문법 그래프(Local Grammar Graph: LGG) 프레임에 기반한 패턴문법 사전을 구축하였다. 이를 SNS 코퍼스에 적용하여 성능을 평가한 결과, 정확률 91.28%, 재현율 89%, 조화 평균 90.13%의 성능을 통해 본 연구의 접근 방법론의 유용성과 구축 자원의 실효성을 입증하였다.