Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))
- 2020.10a
- /
- Pages.486-490
- /
- 2020
- /
- 2005-3053(pISSN)
RoBERTa-catseqE: Neural keyphrase Extraction with Entity linking using RoBERTa
RoBERTa-catSeqE: 개체 연결을 이용한 RoBERTa기반 키워드 추출
- Lee, Jeong-Doo (Jeonbuk National University, Cognitive Computing Lab) ;
- Na, Seung-Hoon (Jeonbuk National University, Cognitive Computing Lab)
- Published : 2020.10.14
Abstract
키워드 구문 추출(Keyphrase extraction)은 각 문서에서 내용과 주제를 포괄하는 핵심 단어 또는 구문을 추출하는 것을 말한다. 이는 뉴스나 논문에서 중요한 정보를 추출하는 데 매우 중요한 역할을 한다. 본 논문에서는 기존 catSeq 모델에 한국어로 학습한 RoBERTa 언어 모델을 적용하고 개체 연결 정보를 활용해 기존 키워드 생성 디코더와 개체 연결된 단어의 키워드 여부 분류 디코더, 즉 듀얼 디코더를 사용하는 모델을 제안하고 직접 구축한 한국어 키워드 추출 데이터에 대한 각 모델의 성능을 비교한다.