• 제목/요약/키워드: 참고문헌 추출

검색결과 53건 처리시간 0.024초

Bidirectional GRU-GRU CRF 기반 참고문헌 메타데이터 인식 (Bidirectional GRU-GRU CRF based Citation Metadata Recognition)

  • 김선우;지선영;설재욱;정희석;최성필
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.461-464
    • /
    • 2018
  • 최근 학술문헌이 급격하게 증가함에 따라, 학술문헌간의 연결성 및 메타데이터 추출 등의 핵심 자원으로서 활용할 수 있는 참고문헌에 대한 활용 연구가 진행되고 있다. 본 연구에서는 국내 학술지의 참고문헌이 가진 각 메타데이터를 자동적으로 인식하여 추출할 수 있는 참고문헌 메타데이터 인식에 대하여, 연속적 레이블링 방법론을 기반으로 접근한다. 심층학습 기술 중 연속적 레이블링에 우수한 성능을 보이고 있는 Bidirectional GRU-GRU CRF 모델을 기반으로 참고문헌 메타데이터 인식에 적용하였으며, 2010년 이후의 10종의 학술지내의 144,786건의 논문을 활용하여 추출한 169,668건의 참고문헌을 가공하여 실험하였다. 실험 결과, 실험집합에 대하여 F1 점수 97.21%의 우수한 성능을 보였다.

  • PDF

딥러닝 언어 모델을 이용한 연구보고서의 참고문헌 자동추출 연구 (Automatic Extraction of References for Research Reports using Deep Learning Language Model)

  • 한유경;최원석;이민철
    • 정보관리학회지
    • /
    • 제40권2호
    • /
    • pp.115-135
    • /
    • 2023
  • 본 연구는 단행본, 학술지, 보고서 등 다양한 종류의 발간물로 구성된 연구보고서의 참고문헌 데이터베이스를 효율적으로 구축하기 위한 것으로 딥러닝 언어 모델을 이용하여 참고문헌의 자동추출 성능을 비교 분석하고자 한다. 연구보고서는 학술지와는 다르게 기관마다 양식이 상이하여 참고문헌 자동추출에 어려움이 있다. 본 연구에서는 참고문헌 자동추출에 널리 사용되는 연구인 메타데이터 추출과 더불어 참고문헌과 참고문헌이 아닌 문구가 섞여 있는 환경에서 참고문헌만을 분리해내는 원문 분리 연구를 통해 이 문제를 해결하였다. 자동 추출 모델을 구축하기 위해 특정 연구기관의 연구보고서 내 참고문헌셋, 학술지 유형의 참고문헌셋, 학술지 참고문헌과 비참고문헌 문구를 병합한 데이터셋을 구성했고, 딥러닝 언어 모델인 RoBERTa+CRF와 ChatGPT를 학습시켜 메타데이터 추출과 자료유형 구분 및 원문 분리 성능을 측정하였다. 그 결과 F1-score 기준 메타데이터 추출 최대 95.41%, 자료유형 구분 및 원문 분리 최대 98.91% 성능을 달성하는 등 유의미한 결과를 얻었다. 이를 통해 비참고문헌 문구가 포함된 연구보고서의 참고문헌 추출에 대한 딥러닝 언어 모델과 데이터셋 유형별 참고문헌 구축 방향을 제안하였다.

학술논문 내에서 참고문헌 정보가 포함된 서지 메타데이터 자동 생성 연구 (Automatic Generation of Bibliographic Metadata with Reference Information for Academic Journals)

  • 정선기;신현호;지선영;최성필
    • 한국문헌정보학회지
    • /
    • 제56권3호
    • /
    • pp.241-264
    • /
    • 2022
  • 서지정보는 연구 주제의 최신 동향의 인지와 유용성을 검증하는 데에 참고할 수 있다. 즉, 각자 연구자들이 필요로 하는 문헌에 신속하게 접근하기 위해서는 학술논문에서 저자 정보, 요약, 초록, 참고문헌 등을 쉬운 방법으로 파악해야 한다. 그러나, 현재 출판되는 PDF 형식의 전자 학술논문은 출판 주체별로 고유한 양식을 띄고 있어서, 몇몇 특징에 의한 규칙 기반 추출법으로는 수많은 문헌에서 목표 정보를 추출하여 요약된 서지사항으로 자동 생성하기 어렵다. 이에 본 연구는 학술논문 서지사항 자동 생성에 있어서 양식의 다양성으로 인한 메타데이터 자동 추출의 난점을 극복할 방법을 제안한다. 제안하는 모델은 서지사항이 주로 기술되는 학술논문의 첫 페이지에서 목표 영역과 본문의 시작점을 구분할 수 있는 심층신경망 기반 모델과 앞의 모델로 추출된 서지사항을 상세한 메타데이터로 분류하고 재생성하는 규칙 기반 모델로 구성된다. 제안하는 모델은 참고문헌 요약정보를 생성하는 모델도 포함하는데, 본문의 말미와 참고문헌 시작점의 분리, 그리고 개별 참고문헌 추출을 규칙 기반 방법으로 진행하고, 추출한 각개 참고문헌의 서지정보를 분류하는 데에 심층신경망을 이용하도록 구성하였다. 추가로, 논문 자체의 서지정보를 전후처리 없이 추출/생성하는 모델의 가능성을 확인하기 위하여 참고문헌 영역까지 아우르는 모델을 구축하여 비교 실험을 진행하였다. 실험 결과 본 논문에서 제안하는 방식이 서지정보를 전후처리 하지 않고 진행한 비교 실험에 비하여 더 높은 성능을 보였다.

사전학습 된 언어 모델 기반의 양방향 게이트 순환 유닛 모델과 조건부 랜덤 필드 모델을 이용한 참고문헌 메타데이터 인식 연구 (A Study on Recognition of Citation Metadata using Bidirectional GRU-CRF Model based on Pre-trained Language Model)

  • 지선영;최성필
    • 정보관리학회지
    • /
    • 제38권1호
    • /
    • pp.221-242
    • /
    • 2021
  • 본 연구에서는 사전학습 된 언어 모델을 기반으로 양방향 게이트 순환 유닛 모델과 조건부 랜덤 필드 모델을 활용하여 참고문헌을 구성하는 메타데이터를 자동으로 인식하기 위한 연구를 진행하였다. 실험 집단은 2018년에 발행된 학술지 40종을 대상으로 수집한 PDF 형식의 학술문헌 53,562건을 규칙 기반으로 분석하여 추출한 참고문헌 161,315개이다. 실험 집합을 구축하기 위하여 PDF 형식의 학술 문헌에서 참고문헌을 분석하여 참고문헌의 메타데이터를 자동으로 추출하는 연구를 함께 진행하였다. 본 연구를 통하여 가장 높은 성능을 나타낸 언어 모델을 파악하였으며 해당 모델을 대상으로 추가 실험을 진행하여 학습 집합의 규모에 따른 인식 성능을 비교하고 마지막으로 메타데이터별 성능을 확인하였다.

XML 데이터 처리 기반의 참고문헌 지원 시스템의 설계 및 구현 (A Design and Implementation for a Bibliography Support System with XML Data Processing)

  • 신행자
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 봄 학술발표논문집 Vol.27 No.1 (B)
    • /
    • pp.726-728
    • /
    • 2000
  • 본 논문에서는 최근 인터넷 상에서 표준 공통 포맷으로 대두되고 있는 XML을 이용하여 웹 기반 원격 교육 시스템에서 강의 내용에 참조도리 참고문헌 지원 시스템을 설계하고 구현하였다. Three-tier 환경에서 구현한 이 시스템은 middle-tier인 웹 서버에서 데이터베이스에 저장된 참고문헌을 XML 데이터로 변환하여 효과적으로 처리함으로써 서버의 부하를 감소시키며 이것은 성능 향상으로 이어져 학습자에게 더 나은 속도로 원격 교육의 참고문헌 정보서비스를 제공할 수 있다. 또한 동적으로 서버와 상호작용 가능하도록 학습자가 c마고 문헌의 유익함 정도를 매긴 등급 점수 계산에 직접 참여시켜 그 결과를 볼 수 있도록 하여 학습 의욕을 더욱 고취시킬 수 있다. 앞으로 웹기반 원격교육의 참고문헌 지원 시스템은 세계 각 대학이나 연구소에 분산되어 있는 여러 데이터 소스로부터 필요한 정보만을 실시간으로 추출하여 수집, 통합, 통계 처리할 수 있도록 확장될 수 있을 것이다.

  • PDF

자동 인용 색인 구축을 위한 템플릿을 적용한 인용 레코드 추출 (Citation Record Extraction Using Template For Construction of Automatic Citation Index)

  • 구희관;황미녕;홍순찬;정한민
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(A)
    • /
    • pp.188-190
    • /
    • 2012
  • 인용 레코드 추출은 인용 색인 구축의 모든 프로세스 입력으로 사용되기 때문에 이후의 과정에 미칠 수 있는 부작용을 고려해서 최대한 정확한 정보가 추출되어야 한다. 본 논문에서는 수집한 논문의 참고문헌 영역을 인식하고 이를 참고문헌 영역 내의 특징들을 이용하여 인용 레코드를 추출하는 템플릿 기반 인용 레코드 추출을 제안한다. 제안된 추출 방법은 기존 방법보다 18% 성능이 증가했으며 전체 인용 레코드에 대한 추출성능은 0.98(F1)의 성능을 보인다. 이는 향후 논문 저장소에서 논문을 대상으로 영역 인식을 통한 정보 추출에 유용하게 활용될 수 있으리라 기대된다.

참조연계 서비스 구현을 위한 참고문헌 식별자 매칭 시스템 (The Reference Identifier Matching System for Developing Reference Linking Service)

  • 이용식;이상기
    • 정보관리연구
    • /
    • 제41권3호
    • /
    • pp.191-209
    • /
    • 2010
  • 서로 다른 정보자원 간의 연결을 의미하는 참조연계 서비스를 위해서는 참고문헌 데이터베이스 구축과 식별자 매칭 작업이 필요하다. CrossRef, PubMed, Web Of Science 등의 많은 해외 기관들은 Inera의 eXstyles, Parity Computings의 Reference Extractor 등의 자동화 도구들을 이용하여 DOI, PMID 등의 식별자를 기반으로 하는 참조연계 체제를 구축하였다. 국내에서도 한국과학기술정보연구원, 한국연구재단 등의 여러 기관에서 참고문헌 데이터베이스를 구축하고 있다. 그러나 각 단체별로 채택하고 있는 다양한 참고문헌 기술 형식 때문에 망라적인 데이터베이스 구축은 많은 어려움에 직면해 있다. 이에 참고문헌을 자동으로 파싱하여 메타데이터를 추출하고, DOI, PMID, KOI의 식별자를 매칭하는 Citation Matcher 시스템을 개발하여 참고문헌 데이터베이스 구축의 효율성을 향상시키고자 한다.

학술논문의 참고문헌 자동매핑 방법에 관한 연구 (Study on Automatic Mapping Method for Reference of Scholarly Papers)

  • 한정민;장현철;김진현;예상준;김상균;김철;송미영
    • 정보관리연구
    • /
    • 제41권3호
    • /
    • pp.155-173
    • /
    • 2010
  • 학문의 발전과 주제의 다양화로 인하여 각계의 연구자들은 자신에게 필요한 정보를 정확하게 찾을 필요성이 커지고 있다. 그리하여 본 논문에서는 효율적인 참고문헌 추출 방법으로 중복된 참고문헌을 비교 분석하여 자동으로 매핑해주는 시스템을 구축하고, 한의학 사전을 통한 한자의 오타를 교정할 수 있는 방법을 연구하였다. 이러한 방법을 적용함으로써 참고문헌의 중복입력과 한자오류를 개선할 수 있었다.

학위논문의 전문색인시스템 설계 (A Study on the Design of a Full-Text Indexing System for Thesis)

  • 추윤미
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 1996년도 제3회 학술대회 논문집
    • /
    • pp.57-60
    • /
    • 1996
  • 전문데이터베이스는 원문의 접근가능성과 전문탐색의 장점으로 인해 최근 급속하게 발전하고 있다. 그러나 이제까지 대부분의 전문데이터베이스는 문헌의 구조를 고려하지 않고 본문의 문자열에서 자동추출한 색인어를 대상으로 비통제탐색방법을 사용하여 왔으므로 효율적이고 다양한 검색방법을 적용하기 어려웠다. 본 연구에서는 SGML을 이용하여 문헌을 구조화하고 이를 이용한 색인시스템을 설계함으로써, 문헌구조를 이용한 다양한 검색이 가능하도록 하였다. 이를 위해 논문을 대상으로 하여 문헌의 구조를 분석하고, 주요 문헌요소인 초록, 목차, 본문, 참고문헌의 특성을 색인에 반영하였다. 색인시스템은 문헌요소를 태그와 텍스트데이터로 분석하여 색인하는 일차색인과, 일차색인에 의해 만들어진 문헌요소테이블과 내용데이터파일을 이용하여 주요 문헌요소를 색인한 이차색인으로 구성된다.

  • PDF

인용 정보를 고려한 미발견 공공 지식 추출: Swanson의 ABC 모델 재현 및 확장 (Detection of Hidden Knowledge Using a Citation-Based Approach Based on Swanson's ABC Model)

  • 함정은;송민
    • 정보관리학회지
    • /
    • 제32권2호
    • /
    • pp.87-103
    • /
    • 2015
  • 많은 연구들 가운데 살펴볼 가치가 있는 대상을 찾아 제시해주는 문헌기반 발견의 접근법은 연구자들에게 매우 유용할 것이다. 문헌기반 발견 연구의 대표 이론인 Swanson의 ABC 모델은 기존에 검증되지 않은 개체들의 관계를 연구할 것을 제안해 준다. 본 연구는 Swanson의 ABC 모델에 인용 정보를 고려하여 유의한 관계에 있는 개체들을 더 효율적으로 찾아내고자 하였다. 수집 논문들의 참고문헌 목록에서 인용 정보를 확인하고 논문의 표제와 초록을 대상으로 텍스트 마이닝 기법으로 중요한 단어들을 추출하였다. Swanson의 연구들 중 어유와 레이노드 질병 및 증상의 관계를 재현하였으며 기존의 접근법으로 확인되는 개체들과 어떤 차이가 있는지 분석하였다.