• 제목/요약/키워드: reference metadata recognition

검색결과 4건 처리시간 0.022초

사전학습 된 언어 모델 기반의 양방향 게이트 순환 유닛 모델과 조건부 랜덤 필드 모델을 이용한 참고문헌 메타데이터 인식 연구 (A Study on Recognition of Citation Metadata using Bidirectional GRU-CRF Model based on Pre-trained Language Model)

  • 지선영;최성필
    • 정보관리학회지
    • /
    • 제38권1호
    • /
    • pp.221-242
    • /
    • 2021
  • 본 연구에서는 사전학습 된 언어 모델을 기반으로 양방향 게이트 순환 유닛 모델과 조건부 랜덤 필드 모델을 활용하여 참고문헌을 구성하는 메타데이터를 자동으로 인식하기 위한 연구를 진행하였다. 실험 집단은 2018년에 발행된 학술지 40종을 대상으로 수집한 PDF 형식의 학술문헌 53,562건을 규칙 기반으로 분석하여 추출한 참고문헌 161,315개이다. 실험 집합을 구축하기 위하여 PDF 형식의 학술 문헌에서 참고문헌을 분석하여 참고문헌의 메타데이터를 자동으로 추출하는 연구를 함께 진행하였다. 본 연구를 통하여 가장 높은 성능을 나타낸 언어 모델을 파악하였으며 해당 모델을 대상으로 추가 실험을 진행하여 학습 집합의 규모에 따른 인식 성능을 비교하고 마지막으로 메타데이터별 성능을 확인하였다.

딥러닝 언어 모델을 이용한 연구보고서의 참고문헌 자동추출 연구 (Automatic Extraction of References for Research Reports using Deep Learning Language Model)

  • 한유경;최원석;이민철
    • 정보관리학회지
    • /
    • 제40권2호
    • /
    • pp.115-135
    • /
    • 2023
  • 본 연구는 단행본, 학술지, 보고서 등 다양한 종류의 발간물로 구성된 연구보고서의 참고문헌 데이터베이스를 효율적으로 구축하기 위한 것으로 딥러닝 언어 모델을 이용하여 참고문헌의 자동추출 성능을 비교 분석하고자 한다. 연구보고서는 학술지와는 다르게 기관마다 양식이 상이하여 참고문헌 자동추출에 어려움이 있다. 본 연구에서는 참고문헌 자동추출에 널리 사용되는 연구인 메타데이터 추출과 더불어 참고문헌과 참고문헌이 아닌 문구가 섞여 있는 환경에서 참고문헌만을 분리해내는 원문 분리 연구를 통해 이 문제를 해결하였다. 자동 추출 모델을 구축하기 위해 특정 연구기관의 연구보고서 내 참고문헌셋, 학술지 유형의 참고문헌셋, 학술지 참고문헌과 비참고문헌 문구를 병합한 데이터셋을 구성했고, 딥러닝 언어 모델인 RoBERTa+CRF와 ChatGPT를 학습시켜 메타데이터 추출과 자료유형 구분 및 원문 분리 성능을 측정하였다. 그 결과 F1-score 기준 메타데이터 추출 최대 95.41%, 자료유형 구분 및 원문 분리 최대 98.91% 성능을 달성하는 등 유의미한 결과를 얻었다. 이를 통해 비참고문헌 문구가 포함된 연구보고서의 참고문헌 추출에 대한 딥러닝 언어 모델과 데이터셋 유형별 참고문헌 구축 방향을 제안하였다.

시각예술기록정보 관리를 위한 데이터모델 설계 KS X ISO 23081 다중 엔티티 모델의 적용을 중심으로 (A study on Multiple Entity Data Model Design for Visual-Arts Archives and Information Management in the case of the KS X ISO 23081 Multiple Entity Model)

  • 황진현;임진희
    • 기록학연구
    • /
    • 제33호
    • /
    • pp.155-206
    • /
    • 2012
  • 1999년 "공공기관의기록물관리에관한법률"이 제정되고 난 후 10년이 지난 현재, 기록관리에 대한 관심은 공공분야에서 문화예술분야로 점차 넓어지고 있다. 그러나 아직까지 문화예술분야 기록의 중요성에 대한 인식이 부족하여 정보의 산재, 기록의 유실 등이 빈번하게 일어나고 있다. 하나의 예로, 국내의 많은 문화재는 정확한 매매계약이나 증여증서가 없어 이를 추적하기가 매우 어려운 현실이고, 이러한 문화예술 창작품은 도굴이나 비공개 경매, 공식적이지 않은 유통경로를 통해 떠돌아다니고 있다. 문화예술 창작품은 그 나라의 문화수준을 반영하기에, 유통경로를 아는 것은 그 나라의 문화수준을 가늠하는 척도가 된다고 할 수 있다. 본 연구는 이러한 문제점에서 출발하였다. 경제의 성장과 문화예술에 대한 관심의 증대로 시각예술작품에 대한 중요성 인식이나 가치를 인정하는 사회가 되었으나, 작품에 대한 미적가치만을 앞세우는 작품만능주의 팽배로 시각예술작품의 맥락을 보여주거나 사회와의 소통 과정에서 생산된 기록정보들은 도외시 되었다. 문화예술 선진국에 비하여 국내에서는 유명 작가에 관한 기록, 작품에 녹아 있는 철학 담론에 대한 기록정보들은 흔히 찾아볼 수 없다. 작품을 전시하고 난 후 생산된 기록정보 또한 전시에 앞서 홍보자료나 참고자료로만 이용될 뿐 이를 남기려는 노력은 부족하다. 이에 시각예술기록정보에 대한 중요성을 인식하고, 후대에 예술사적 가치뿐만 아니라 역사적 가치를 전해주기 위해 체계적인 관리가 필요하다고 판단하였다. 최근 시각예술작품이나 시각예술기록정보가 전자적으로 생산된 것이 아니라 하더라도, 작품이나 기록에 대한 관리는 모두 기관의 시스템에서 이루어지고 있기 때문에 메타데이터는 체계적 관리의 필수적인 방안이라 할 수 있다. 본 연구에서는 시각예술기록정보의 특성을 반영한 다중 엔티티 데이터모델 설계로 시각예술기록을 체계적으로 관리하려 하였다. 메타데이터는 기록이 입수되는 시점부터 관리, 보존 및 활용되는 기록의 모든 과정에서 필요로 한다. 시각예술기록은 객체, 행위주체, 업무, 규정 등과 유기적인 관계를 가질 때 그 가치가 풍부해지진다. 시각예술기록정보 관리를 위한 다양한 맥락정보는 다양한 엔티티들과 함께 관계를 맺는 다중 엔티티 모델로 설계되어야 관리의 효율성이 높아지고, 기록정보에 대한 설명성 또한 높아진다. 때문에 이들을 각자 독립적인 엔티티로 설계하고, 이들의 관계를 지정해주는 방식으로 데이터모델을 설계하여 체계적으로 시각예술기록정보를 관리할 수 있는 방안을 마련하고자 하였다.

신뢰성있는 딥러닝 기반 분석 모델을 참조하기 위한 딥러닝 기술 언어 (Deep Learning Description Language for Referring to Analysis Model Based on Trusted Deep Learning)

  • 문종혁;김도형;최종선;최재영
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제10권4호
    • /
    • pp.133-142
    • /
    • 2021
  • 최근 딥러닝은 하드웨어 성능이 향상됨에 따라 자연어 처리, 영상 인식 등의 다양한 기술에 접목되어 활용되고 있다. 이러한 기술들을 활용해 지능형 교통 시스템(ITS), 스마트홈, 헬스케어 등의 산업분야에서 데이터를 분석하여 고속도로 속도위반 차량 검출, 에너지 사용량 제어, 응급상황 등과 같은 고품질의 서비스를 제공하며, 고품질의 서비스를 제공하기 위해서는 정확도가 향상된 딥러닝 모델이 적용되어야 한다. 이를 위해 서비스 환경의 데이터를 분석하기 위한 딥러닝 모델을 개발할 때, 개발자는 신뢰성이 검증된 최신의 딥러닝 모델을 적용할 수 있어야 한다. 이는 개발자가 참조하는 딥러닝 모델에 적용된 학습 데이터셋의 정확도를 측정하여 검증할 수 있다. 이러한 검증을 위해서 개발자는 학습 데이터셋, 딥러닝의 계층구조 및 개발 환경 등과 같은 내용을 포함하는 딥러닝 모델을 문서화하여 적용하기 위한 구조적인 정보가 필요하다. 본 논문에서는 신뢰성있는 딥러닝 기반 데이터 분석 모델을 참조하기 위한 딥러닝 기술 언어를 제안한다. 제안하는 기술 언어는 신뢰성 있는 딥러닝 모델을 개발하는데 필요한 학습데이터셋, 개발 환경 및 설정 등의 정보와 더불어 딥러닝 모델의 계층구조를 표현할 수 있다. 제안하는 딥러닝 기술 언어를 이용하여 개발자는 지능형 교통 시스템에서 참조하는 분석 모델의 정확도를 검증할 수 있다. 실험에서는 제안하는 언어의 유효성을 검증하기 위해, 번호판 인식 모델을 중심으로 딥러닝 기술 문서의 적용과정을 보인다.