Korean Information Summary System for National R&D Projcet Information Summary

국가R&D과제정보 요약을 위한 한국어 정보요약 시스템

  • Lee, Jong-Won (Korea Institute of Science and Technology Information) ;
  • Kim, Tae-Hyun (Korea Institute of Science and Technology Information) ;
  • Shin, Dong-Gu (Korea Institute of Science and Technology Information) ;
  • Jo, Woo-Seung (Korea Institute of Science and Technology Information)
  • 이종원 (한국과학기술정보연구원) ;
  • 김태현 (한국과학기술정보연구원) ;
  • 신동구 (한국과학기술정보연구원) ;
  • 조우승 (한국과학기술정보연구원)
  • Published : 2022.10.03

Abstract

The National Science and Technology Knowledge Information Service (NTIS) provides information on national R&D projects. Project information consists of meta-information such as 'project name', 'project performance institution', 'research manager name', and text explaining projects such as 'research goal', 'research content', and 'expected effect'. There is a problem that it takes a lot of time to find the desired project information by checking all of the "research goals" or "research contents" in the list of results of searching for 1 million project information. To solve this problem, this paper proposes a project information summary system that summarizes the parts consisting of long texts within the national R&D project information. By analyzing the linguistic characteristics of the Korean language, a preprocessor was built and a project information summary model based on natural language processing technology was developed to process preprocessed text information. Through this, project information composed of long sentences is provided in a compressed and summarized form, which will help users to easily and quickly infer the overall content with the summary information alone.

국가과학기술지식정보서비스(이하 NTIS)에서는 국가R&D과제정보를 제공하고 있다. 과제정보는 '과제명', '과제수행기관', '연구책임자명' 등의 메타정보와 '연구목표', '연구내용', '기대효과'와 같은 과제를 설명하는 텍스트들로 구성되어있다. 과제정보 100만건을 대상으로 검색한 결과목록에서 '연구목표' 나 '연구내용' 등을 모두 확인하여 원하는 과제정보를 찾기 위해서는 많은 시간이 필요하다는 문제가 있다. 이러한 문제점을 해소하기 위해, 본 논문에서는 국가R&D 과제정보 내에서 장문의 텍스트로 구성된 부분을 요약하는 과제정보 요약 시스템을 제안하고자 한다. 한국어의 언어학적 특징을 분석하여 전처리기를 구축하고 전처리된 텍스트 정보를 처리하기 위한 자연어 처리 기술 기반 과제정보 요약 모델을 개발하였다. 이를 통해 장문으로 구성된 과제정보를 압축 및 요약된 형태로 제공하여, 이용자들이 요약정보만으로도 전반적인 내용을 쉽고 빠르게 유추하는 데 도움이 될 것이다.

Keywords

Acknowledgement

이 논문은 2022년도 한국과학기술정보연구원(KISTI) 주요사업 과제(NTIS 과제고유번호 1711173845) 지원에 의함.