• Title/Summary/Keyword: Extraction Metadata

Search Result 41, Processing Time 0.022 seconds

딥러닝 언어 모델을 이용한 연구보고서의 참고문헌 자동추출 연구 (Automatic Extraction of References for Research Reports using Deep Learning Language Model)

  • 한유경;최원석;이민철
    • 정보관리학회지
    • /
    • 제40권2호
    • /
    • pp.115-135
    • /
    • 2023
  • 본 연구는 단행본, 학술지, 보고서 등 다양한 종류의 발간물로 구성된 연구보고서의 참고문헌 데이터베이스를 효율적으로 구축하기 위한 것으로 딥러닝 언어 모델을 이용하여 참고문헌의 자동추출 성능을 비교 분석하고자 한다. 연구보고서는 학술지와는 다르게 기관마다 양식이 상이하여 참고문헌 자동추출에 어려움이 있다. 본 연구에서는 참고문헌 자동추출에 널리 사용되는 연구인 메타데이터 추출과 더불어 참고문헌과 참고문헌이 아닌 문구가 섞여 있는 환경에서 참고문헌만을 분리해내는 원문 분리 연구를 통해 이 문제를 해결하였다. 자동 추출 모델을 구축하기 위해 특정 연구기관의 연구보고서 내 참고문헌셋, 학술지 유형의 참고문헌셋, 학술지 참고문헌과 비참고문헌 문구를 병합한 데이터셋을 구성했고, 딥러닝 언어 모델인 RoBERTa+CRF와 ChatGPT를 학습시켜 메타데이터 추출과 자료유형 구분 및 원문 분리 성능을 측정하였다. 그 결과 F1-score 기준 메타데이터 추출 최대 95.41%, 자료유형 구분 및 원문 분리 최대 98.91% 성능을 달성하는 등 유의미한 결과를 얻었다. 이를 통해 비참고문헌 문구가 포함된 연구보고서의 참고문헌 추출에 대한 딥러닝 언어 모델과 데이터셋 유형별 참고문헌 구축 방향을 제안하였다.

챗GPT를 활용한 기록관리 메타데이터 추출 사례연구 (A Case Study on Metadata Extractionfor Records Management Using ChatGPT)

  • 김민지;강성희;이해영
    • 한국기록관리학회지
    • /
    • 제24권2호
    • /
    • pp.89-112
    • /
    • 2024
  • 기록관리에서 메타데이터는 기록을 구성하는 필수 요소 중 하나로 기록물을 적절하게 관리하고 이해하도록 하는데 매우 중요한 역할을 한다. 기록관리 업무에서 메타데이터 요소들의 자동 부여가 불가능할 경우에는 기록전문가가 메타데이터 값을 직접 입력해야 한다. 이러한 업무의 불편함을 개선하기 위해 본 연구에서는 신기술인 챗GPT를 활용하여 기록관리 메타데이터 요소의 추출 방안을 제시하고자 하였다. 챗GPT 기술을 활용하기 위해 파이썬 프로그램과 랭체인 라이브러리를 이용하여 PDF 문서를 제시하고 질문을 통해 기록물의 메타데이터를 추출해보았고, 챗GPT 온라인 서비스를 통해 여러 건의 PDF 문서를 첨부하여 기록물의 메타데이터 요소를 추출해보았다. 그 결과 챗GPT-3.5 turbo를 사용한 랭체인에서는 보안상으로는 안전한 추출 방법이긴 하나 메타데이터의 정확한 요소를 얻기에는 다소 한계가 있었고, 챗GPT-4 온라인 서비스에서는 보안상 중요 문서를 첨부할 수 없지만 비교적 정확한 결과를 추출하였다. 이를 통해 기록관리에서의 메타데이터 추출을 위한 챗GPT 기술 활용의 가능성을 타진할 수 있었고, 챗GPT 관련 기술의 발달에 따라 좀 더 안전하고 정확한 결과 추출이 가능해질 것이다. 이러한 챗GPT의 장점을 활용함으로써 기록관에서 기록 및 메타데이터의 관리적 측면에서 업무의 효율성 및 생산성을 증대시키는데 도움을 줄 수 있을 것이라 기대한다.

ChatGPT가 자동 생성한 더블린 코어 메타데이터의 품질 평가: 국내 도서를 대상으로 (Quality Evaluation of Automatically Generated Metadata Using ChatGPT: Focusing on Dublin Core for Korean Monographs)

  • 김선욱;이혜경;이용구
    • 정보관리학회지
    • /
    • 제40권2호
    • /
    • pp.183-209
    • /
    • 2023
  • 이 연구의 목적은 ChatGPT가 도서의 표지, 표제지, 판권기 데이터를 활용하여 생성한 더블린코어의 품질 평가를 통하여 ChatGPT의 메타데이터의 생성 능력과 그 가능성을 확인하는 데 있다. 이를 위하여 90건의 도서의 표지, 표제지와 판권기 데이터를 수집하여 ChatGPT에 입력하고 더블린 코어를 생성하게 하였으며, 산출물에 대해 완전성과 정확성 척도로 성능을 파악하였다. 그 결과, 전체 데이터에 있어 완전성은 0.87, 정확성은 0.71로 준수한 수준이었다. 요소별로 성능을 보면 Title, Creator, Publisher, Date, Identifier, Right, Language 요소가 다른 요소에 비해 상대적으로 높은 성능을 보였다. Subject와 Description 요소는 완전성과 정확성에 대해 다소 낮은 성능을 보였으나, 이들 요소에서 ChatGPT의 장점으로 알려진 생성 능력을 확인할 수 있었다. 한편, DDC 주류인 사회과학과 기술과학 분야에서 Contributor 요소의 정확성이 다소 낮았는데, 이는 ChatGPT의 책임표시사항 추출 오류 및 데이터 자체에서 메타데이터 요소용 서지 기술 내용의 누락, ChatGPT가 지닌 영어 위주의 학습데이터 구성등에 따른 것으로 판단하였다.

연구데이터 관리를 위한 온톨로지 설계에 대한 연구 (A Study on Ontology Design for Research Data Management)

  • 박옥남
    • 한국기록관리학회지
    • /
    • 제18권1호
    • /
    • pp.101-127
    • /
    • 2018
  • 연구데이터의 연구의 정확성이나 신뢰성 확보를 위한 정보적 가치, 연구의 재현 또는 검증, 재사용 가능성을 연구데이터에 대한 체계적 관리가 강조되고 있다. 표준 메타데이터는 연구데이터 생산, 관리, 구조화, 기탁된 데이터 추출에 핵심 역할을 수행할 것이다. 연구데이터는 연구, 연구데이터, 데이터셋, 파일 등 다양한 계층적 관계를 가지고 있으며, 인용 및 연구성과 등의 엔터티와 연계되어 있다. 이에 본 연구에서는 연구데이터 관리를 위한 온톨로지 모델을 제시하고자 한다. NTIS 사례를 제시하여 연구의 적용가능성을 제시하였다. 이를 위해 기존 연구데이터 관련 선행연구, 메타데이터 표준의 분석, 연구데이터 리포지터리 사례조사를 실시하였다.

MobileNetV3 전이학습 기반 스포츠 비디오 클립 추출 구현 (Implementation of Sports Video Clip Extraction Based on MobileNetV3 Transfer Learning)

  • 위리
    • 한국전자통신학회논문지
    • /
    • 제17권5호
    • /
    • pp.897-904
    • /
    • 2022
  • 스포츠 영상은 중요한 정보 자원에 속하여 있고 정확다가 높게 스포츠 영상 속에 유효 클립을 추출할 수 있어서 코치를 잘 보조하여 영상에서 선수들의 동작을 분석하며 사용자가 더 직관적으로 선수들의 타격 자세를 감상할 수 있다. 현재 스포츠 영상 클립 추출된 결과가 주관이 뚜렷하고 업무량이 많고 저효율 등 결함에 대해 MobileNetV3을 기반으로 스포츠 비디오 클립 분류 방법을 제시하였고 사용자의 시간이 절약하게 한다. 실험이 추출된 유효 클립에 대한 유효성 평가를 진행했으며 추출된 클립에서 유효적인 비율은 97.0%로 자지해서 유효 클립이 추출된 결과는 양호를 밝히는 동시 후속 배드민턴 동작의 원본 영상 데이터 집합의 구성을 위한 기초를 다진다.

리듬정보를 이용한 악보생성 시스템 구현 (Implementation of Musical Note Generation System using Rhythm Information)

  • 소두석;최재원;이종혁
    • 한국정보통신학회논문지
    • /
    • 제7권6호
    • /
    • pp.1210-1216
    • /
    • 2003
  • 본 논문에서는 기존의 오디오검색 관련 시스템의 텍스트 정보기반의 음악 검색의 한계를 극복하기 위해 사용자가 입력한 음악데이터에서 리듬정보를 추출해 내어 데이터 베이스 내의 음악 정보 검색이 가능하게 하는 내용기반 검색 시스템의 일종인 리듬 추출 시스템을 제안하였다. 본 논문에서는 음악정보에서 리듬의 특징 정보를 추출하여 특정 파라미터를 생성하고 신경회로망을 사용하여 악기 인식을 통한 악보생성 시뮬레이션을 하였다.

비지도 학습 기반 초개인화 추천 서비스를 위한 메타데이터 추출의 중요성 고찰 (Consideration upon Importance of Metadata Extraction for a Hyper-Personalized Recommender System on Unsupervised Learning)

  • 백주련;고광호
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2022년도 제65차 동계학술대회논문집 30권1호
    • /
    • pp.19-22
    • /
    • 2022
  • 서비스 관점에서 구축되는 추천 시스템의 성능은 얼마나 효율적인 추천 모델을 적용하여 심층적으로 설계되었는가에 좌우된다고도 볼 수 있다. 특히, 추천 시스템의 초개인화는 세계적인 추세로 1~2년 전부터 구글, 아마존, 알리바바 등의 데이터 플랫폼 강자들이 경쟁적으로 딥 러닝 기반의 알고리즘을 개발, 자신들의 추천 서비스에 적용하고 있다. 본 연구는 갈수록 고도화되는 추천 시스템으로 인해 발생하는 여러 문제들 중 사용자 또는 서비스 정보가 부족하여 계속적으로 발생하고 있는 Cold-start 문제와 추천할 서비스와 사용자는 지속적으로 늘어나지만 실제로 사용자가 소비하게 되는 서비스의 비율은 현저하게 감소하는 데이터 희소성 문제 (Sparsity Problem)에 대한 솔루션을 모색하는 알고리즘 관점에서 연구하고자 한다. 본 논문은 첫 단계로, 적용하는 메타데이터에 따라 추천 결과의 정확성이 얼마나 차이가 나는지를 보이고 딥러닝 비지도학습 방식을 메타데이터 선정 및 추출에 적용하여 실시간으로 변화하는 소비자의 실제 생활 패턴 및 니즈를 예측해야 하는 필요성에 대해서 기술하고자 한다.

  • PDF

이동객체의 메타데이터 필터링을 이용한 관심객체 추출 시스템 설계 (The Design of Object-of-Interest Extraction System Utilizing Metadata Filtering from Moving Object)

  • 김태우;김형헌;김평강
    • 정보과학회 논문지
    • /
    • 제43권12호
    • /
    • pp.1351-1355
    • /
    • 2016
  • 매년 증가하는 CCTV와 이를 효율적으로 관제하기 위한 지능형 영상 시스템에 대한 수요가 계속적으로 증가하고 있다. 그럼에도 불구하고 기존 영상분석엔진은 구동을 위해 매우 높은 사양을 요구할 뿐만 아니라 정확한 탐지율도 담보하지 못하는 실정이다. 본 논문에서는 가벼운 영상 분석기법을 적용해 이동 객체의 위치, 크기, 영상 내 존재 시간과 같은 기본적인 메타를 생성하고 이에 대한 데이터 분석을 통해 관심 객체를 찾아내는 연구를 수행하였다. 그 결과, 가벼운 영상분석 알고리즘 결과의 심층적인 데이터 분석을 통해 가벼운 알고리즘이 수반하는 상당량의 노이즈를 제거하고 관심 객체를 효과적으로 추출할 수 있음을 확인하였다. 본 연구 결과는 향후 지능형 기반 능동적 관제시스템 개발에 기여할 것으로 기대한다.

수산과학 빅데이터 플랫폼 구축과 메타 데이터 관리방안 (Fishery R&D Big Data Platform and Metadata Management Strategy)

  • 김재성;최영진;한명수;황재동;조완섭
    • 한국빅데이터학회지
    • /
    • 제4권2호
    • /
    • pp.93-103
    • /
    • 2019
  • 본 논문에서는 수산과학 R&D 정보의 빅데이터 플랫폼 구축과 메타 데이터 관리기법에 관해 소개한다. 빅데이터 플랫폼에서는 다양한 유형의 수산과학 R&D 정보를 수집하여 통합 연계하고, 이를 데이터 레이크 형태로 구축하는 방안을 제시한다. 수산과학 분야에서 수집, 축적되고 있는 기존의 데이터와 함께 위성영상 데이터, 연구보고서 등 비정형 빅데이터까지 수집하여 다양한 분석을 지원하는 빅데이터 플랫폼의 구축방안을 제시한다. 다음으로 데이터 추출과 전처리 및 저장 과정에서 메타 데이터를 수집하고 관리함으로써 수산과학 빅데이터의 체계적인 관리가 가능하도록 한다. 빅데이터 플랫폼 구축과 함께 메타 데이터를 표준양식으로 구축함으로써 데이터의 수집, 저장, 활용 및 유통 등 데이터 수명주기 전반에 걸쳐 체계적이고도 지속적인 빅데이터 관리 방안을 제시하는데 의의가 있다.

  • PDF