SERADE: Section Representation Aggregation Retrieval for Long Document Ranking

Hye-In Jung;Hyun-Kyu Jeon;Ji-Yoon Kim;Chan-Hyeong Lee;Bong-Su Kim;

한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리) (Annual Conference on Human and Language Technology)

한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
/
Pages.135-140
/
2022
/
2005-3053(pISSN)

한국정보과학회 언어공학연구회 (Human and Language Technology)

SERADE : 섹션 표현 기반 문서 임베딩 모델을 활용한 긴 문서 검색 성능 개선

SERADE: Section Representation Aggregation Retrieval for Long Document Ranking

정혜인 (와이즈넛) ;
전현규 (와이즈넛) ;
김지윤 (와이즈넛) ;
이찬형 (와이즈넛) ;
김봉수 (와이즈넛)

Hye-In Jung (Wisenut Inc.) ;
Hyun-Kyu Jeon (Wisenut Inc.) ;
Ji-Yoon Kim (Wisenut Inc.) ;
Chan-Hyeong Lee (Wisenut Inc.) ;
Bong-Su Kim (Wisenut Inc.)

발행 : 2022.10.18

PDF

PDF 다운로드

⟨ 이전 논문 다음 논문 ⟩

초록

최근 Document Retrieval을 비롯한 대부분의 자연어처리 분야에서는 BERT와 같이 self-attention을 기반으로 한 사전훈련 모델을 활용하여 SOTA(state-of-the-art)를 이루고 있다. 그러나 self-attention 메커니즘은 입력 텍스트 길이의 제곱에 비례하여 계산 복잡도가 증가하기 때문에, 해당 모델들은 선천적으로 입력 텍스트의 길이가 제한되는 한계점을 지닌다. Document Retrieval 분야에서는, 문서를 특정 토큰 길이 단위의 문단으로 나누어 각 문단의 유사 점수 또는 표현 벡터를 추출한 후 집계함으로서 길이 제한 문제를 해결하는 방법론이 하나의 주류를 이루고 있다. 그러나 논문, 특허와 같이 섹션 형식(초록, 결론 등)을 갖는 문서의 경우, 섹션 유형에 따라 고유한 정보 특성을 지닌다. 따라서 문서를 단순히 특정 길이의 문단으로 나누어 학습하는 PARADE와 같은 기존 방법론은 각 섹션이 지닌 특성을 반영하지 못한다는 한계점을 지닌다. 본 논문에서는 섹션 유형에 대한 정보를 포함하는 문단 표현을 학습한 후, 트랜스포머 인코더를 사용하여 집계함으로서, 결과적으로 섹션의 특징과 상호 정보를 학습할 수 있도록 하는 SERADE 모델을 제안하고자 한다. 실험 결과, PARADE-Transformer 모델과 비교하여 평균 3.8%의 성능 향상을 기록하였다.

키워드

과제정보

이 논문은 2019년도 정부(행정안전부)의 재원으로 국립재난안전연구원의 지원을 받아 수행된 연구임(No.1315001260,생활안전 예방서비스를 위한 지능형 플랫폼 기술개발)

한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리) (Annual Conference on Human and Language Technology)

SERADE : 섹션 표현 기반 문서 임베딩 모델을 활용한 긴 문서 검색 성능 개선

SERADE: Section Representation Aggregation Retrieval for Long Document Ranking

초록

키워드

과제정보

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)