Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))
- 2020.10a
- /
- Pages.512-517
- /
- 2020
- /
- 2005-3053(pISSN)
Study on Making Chunking Dataset for Keyword Extraction and its Improvement Methods
키워드 추출용 구묶음 데이터 구축 및 개선 방법 연구
- Lee, Minho (NCSOFT NLP Center) ;
- Choi, Maengsik (NCSOFT NLP Center) ;
- Kim, Jeongah (NCSOFT NLP Center) ;
- Lee, Chunghee (NCSOFT NLP Center) ;
- Kim, Bohui (NCSOFT NLP Center) ;
- Oh, Hyo-Jung (Jeonbuk National University) ;
- Lee, Yeonsoo (NCSOFT NLP Center)
- 이민호 (엔씨소프트 NLP Center) ;
- 최맹식 (엔씨소프트 NLP Center) ;
- 김정아 (엔씨소프트 NLP Center) ;
- 이충희 (엔씨소프트 NLP Center) ;
- 김보희 (엔씨소프트 NLP Center) ;
- 오효정 (전북대학교) ;
- 이연수 (엔씨소프트 NLP Center)
- Published : 2020.10.14
Abstract
구묶음은 문장을 겹치지 않는 문장 구성 성분으로 나누는 과정으로, 구묶음 방법에 따라 구문분석, 관계 추출 등 다양한 하위 태스크에 사용할 수 있다. 본 논문에서는 문장의 키워드를 추출하기 위한 구묶음 방식을 제안하고, 키워드 단위 구묶음 데이터를 구축하기 위한 가이드라인을 제작하였다. 해당 가이드라인을 적용하여 구축한 데이터와 BERT 기반의 모델을 이용하여 학습 및 평가를 통해 구축된 데이터의 품질을 측정하여 78점의 F1점수를 얻었다. 이후 패턴 통일, 형태소 표시 여부 등 다양한 개선 방법의 적용 및 재실험을 통해 가이드라인의 개선 방향을 제시한다.