Cross-document Relation Extraction using Bridging Context Identification

중간 문맥 식별 및 검색을 활용한 문서간 관계 추출

  • Junyoung Son (Department of Computer Science and Engineering, Korea University) ;
  • Jinsung Kim (Department of Computer Science and Engineering, Korea University) ;
  • Jungwoo Lim (Department of Computer Science and Engineering, Korea University) ;
  • Yoonna Jang (Department of Computer Science and Engineering, Korea University) ;
  • Aram So (Human-inspired AI Research) ;
  • Heuiseok Lim (Department of Computer Science and Engineering, Korea University)
  • 손준영 (고려대학교 컴퓨터학과) ;
  • 김진성 (고려대학교 컴퓨터학과) ;
  • 임정우 (고려대학교 컴퓨터학과) ;
  • 장윤나 (고려대학교 컴퓨터학과) ;
  • 소아람 (Human-inspired AI 연구소) ;
  • 임희석 (고려대학교 컴퓨터학과)
  • Published : 2023.10.12

Abstract

관계 추출은 질의응답이나 대화 시스템의 기반이 되는 지식을 구추하기 위한 작업으로, 정보 추출의 기초가 되는 기술이기도 하다. 최근 실세계 지식의 희소한 형태를 구현한 문서간 관계 추출 데이터셋이 제안되어, 여러 문서를 통해 분산되어 언급된 두 개체 사이의 관계 추론을 수행 및 평가할 수 있게 되었다. 이 작업에서 추론의 대상이 되는 개체쌍은 한 문서 안에 동시에 언급되지 않기 때문에 여러 문서에 언급된 중간 개체를 통하여 직/간접적으로 추론해야 하나, 원시 텍스트에서 이러한 정보를 수집하는 작업은 쉽지 않다. 따라서, 본 연구에서는 개체의 동시발생빈도에 기반하여 중간 개체의 중요도를 정량화하고, 이 중요도에 기반화여 중요한 문맥을 식별하는 방법론을 제안한다. 제안하는 방법론은 기존의 두 문서로 구성된 추론 경로를 식별된 중간 개체를 활용하여 확장하여, 관계 추론 모델의 수정 없이 추가된 문맥만을 활용하여 문서간 관계 추출 시스템의 성능을 개선할 수 있었다.

Keywords

Acknowledgement

본 연구는 과학기술정보통신부 및 정보통신기술기획평가원의 대학ICT연구센터지원사업의 연구결과로 수행되었음(IITP-2022-2018-0-01405). 이 논문은 2021년도 정부(교육부)의 재원으로 한국연구재단의 지원을 받아 수행된 기초연구사업임(NRF-2021R1A6A1A03045425). 이 논문은 2022년도 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원의 지원을 받아 수행된 연구임 (No. 2022-0-00369, (4세부) 전문지식대상 판단결과의 이유/근거를 설명가능한 전문가 의사결정 지원 인공지능 기술개발).