• Title/Summary/Keyword: 메타데이터 추출

검색결과 259건 처리시간 0.036초

전자기록물의 메타데이터 추출 및 비교 검증 기술 연구 (Extracting and Validating Metadata in Electronic Records)

  • 최주호;이재영
    • 한국기록관리학회지
    • /
    • 제12권1호
    • /
    • pp.7-32
    • /
    • 2012
  • 전자기록물의 이관할 때, 전자기록물의 필수 메타데이터의 검증과 실제 문서에 있는 메타데이터를 이용한 검증도 중요하다. 본 연구에서는 전자기록물에 포함된 다양한 형식의 전자파일 중에서 본문파일에서 메타데이터를 추출하고 항목별로 분류한 후 이관되는 메타데이터 항목과 비교 검증을 위한 기술 개발을 연구하였다. 해외에서 개발된 추출 도구와 달리 국내 전자결재 형식을 감안하여 첨부된 본문파일에서 메타데이터를 추출하는 기술을 개발하였으며, 기록물 문서 메타항목에 저장된 원 메타데이터와 추출 메타데이터간 비교 검증을 수행하는 도구를 개발하였다.

Bidirectional GRU-GRU CRF 기반 참고문헌 메타데이터 인식 (Bidirectional GRU-GRU CRF based Citation Metadata Recognition)

  • 김선우;지선영;설재욱;정희석;최성필
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.461-464
    • /
    • 2018
  • 최근 학술문헌이 급격하게 증가함에 따라, 학술문헌간의 연결성 및 메타데이터 추출 등의 핵심 자원으로서 활용할 수 있는 참고문헌에 대한 활용 연구가 진행되고 있다. 본 연구에서는 국내 학술지의 참고문헌이 가진 각 메타데이터를 자동적으로 인식하여 추출할 수 있는 참고문헌 메타데이터 인식에 대하여, 연속적 레이블링 방법론을 기반으로 접근한다. 심층학습 기술 중 연속적 레이블링에 우수한 성능을 보이고 있는 Bidirectional GRU-GRU CRF 모델을 기반으로 참고문헌 메타데이터 인식에 적용하였으며, 2010년 이후의 10종의 학술지내의 144,786건의 논문을 활용하여 추출한 169,668건의 참고문헌을 가공하여 실험하였다. 실험 결과, 실험집합에 대하여 F1 점수 97.21%의 우수한 성능을 보였다.

  • PDF

챗GPT를 활용한 기록관리 메타데이터 추출 사례연구 (A Case Study on Metadata Extractionfor Records Management Using ChatGPT)

  • 김민지;강성희;이해영
    • 한국기록관리학회지
    • /
    • 제24권2호
    • /
    • pp.89-112
    • /
    • 2024
  • 기록관리에서 메타데이터는 기록을 구성하는 필수 요소 중 하나로 기록물을 적절하게 관리하고 이해하도록 하는데 매우 중요한 역할을 한다. 기록관리 업무에서 메타데이터 요소들의 자동 부여가 불가능할 경우에는 기록전문가가 메타데이터 값을 직접 입력해야 한다. 이러한 업무의 불편함을 개선하기 위해 본 연구에서는 신기술인 챗GPT를 활용하여 기록관리 메타데이터 요소의 추출 방안을 제시하고자 하였다. 챗GPT 기술을 활용하기 위해 파이썬 프로그램과 랭체인 라이브러리를 이용하여 PDF 문서를 제시하고 질문을 통해 기록물의 메타데이터를 추출해보았고, 챗GPT 온라인 서비스를 통해 여러 건의 PDF 문서를 첨부하여 기록물의 메타데이터 요소를 추출해보았다. 그 결과 챗GPT-3.5 turbo를 사용한 랭체인에서는 보안상으로는 안전한 추출 방법이긴 하나 메타데이터의 정확한 요소를 얻기에는 다소 한계가 있었고, 챗GPT-4 온라인 서비스에서는 보안상 중요 문서를 첨부할 수 없지만 비교적 정확한 결과를 추출하였다. 이를 통해 기록관리에서의 메타데이터 추출을 위한 챗GPT 기술 활용의 가능성을 타진할 수 있었고, 챗GPT 관련 기술의 발달에 따라 좀 더 안전하고 정확한 결과 추출이 가능해질 것이다. 이러한 챗GPT의 장점을 활용함으로써 기록관에서 기록 및 메타데이터의 관리적 측면에서 업무의 효율성 및 생산성을 증대시키는데 도움을 줄 수 있을 것이라 기대한다.

데이터웨어하우스 성장에 따른 개선된 메타프로세스 구현 (Enhanced Meta Process Implementation For Growing Data Warehouse)

  • 이동원;문승진
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2000년도 제13회 춘계학술대회 및 임시총회 학술발표 논문집
    • /
    • pp.7-9
    • /
    • 2000
  • 데이터 웨어하우스는 기업의 의사 결정 과정을 향상시킬 수 있게 하는 정보기술이다. 대표적인 정의로는 '기업의 의사결정 과정을 지원하기 위한 주제 중심적이고 통합적이며 시간성을 가지는 비휘발성 자료의 집합 '이다.[1] 즉, 기업들이 보유하고 있는 분산된 대량의 데이터를 추출, 변환, 통합하여 요약된 읽기 전용의 데이터베이스로 구축함으로써, 경영분석이나 기업내의 의사 결정 지원 자료로 주로 활용된다. 데이터 웨어하우스의 경우, 일반사용자는 웨어하우스내에 저장된 데이터를 직접 이용하는 경우가 대부분이다. 따라서, 데이터의 구조와 의미에 대한 일반 사용자의 이해가 필요하게 되었다. 즉, 데이터의 추출 및 정제규칙, 데이터의 통합규칙, 요약알고리즘, 데이터 처리스케쥴 등을 알아야만 한다. 메타데이터는 최소한의 데이터 구조, 데이터의 요약에 사용된 알고리즘, 운영 데이터베이스와 데이터 웨어하우스사이의 대응관계와 같은 정보를 포함하여야 한다.[3] 여기서 변환프로세스에 대한 정보를 데이터의 형식에 대한 정보와 일반적인 데이터들과 차별화하여 메타프로세스라 한다.[5] 메타프로세스는 데이터를 변환하여 데이터 웨어하우스에 적재하는 과정에서 생성되는 메타데이터의 일부로써 데이터 웨어하우스에 통합된 자료들이 어떤 변환과정을 거쳐 생성된 자료인지를 알려주는 변환프로세스에 관한 정보를 제공한다. 본 연구에서는 대부분의 데이터 웨어하우스에서 구현되고 있는 메타데이터들은 데이터 항목의 속성정보를 위주로 한 것이며, 변환 프로세스와 관련된 데이터 관리가 미약하다. 따라서, 데이터 웨어하우스의 메타데이터 중 메타프로세스 정보의 추출 및 관리 시스템을 제안하는 것이다.

  • PDF

온톨로지 기반 개인 미디어 메타데이터 자동 생성 (Ontology-based Metadata Automated Generation for Personal Media)

  • 최정화;서희철;박영택
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 가을 학술발표논문집 Vol.33 No.2 (B)
    • /
    • pp.340-345
    • /
    • 2006
  • 개인 디지털 콘텐츠 증가에 따른 개인 미디어의 관리를 위해 대량의 메타데이터를 자동으로 생성하는 연구가 반드시 필요하다. 본 논문에서는 온톨로지 기반의 추론을 이용하여 개인 미디어 메타데이터를 자동으로 생성하는 방법을 제안한다. 제안한 방법은 부족한 정보로부터 적합한 의미를 추출하여 메타데이터를 자동 생성하므로 콘텐츠관리의 어려운 문제점을 해결한다. 본 논문에서 제안하는 방법을 사용자가 메모를 부착하기만 하면, 온톨로지 기반 추론을 통해 메타데이터를 자동 생성하는 방법으로 다음과 같은 세가지 기술과 특징을 갖는다. 첫째, 개인 미디어 온톨로지를 정의한다. 둘째, 미디어 메타데이터 표준을 정의한다. 미디어의 종류가 다르더라도 정의한 표준의 키워드만 추출할 수 있다면 미디어의 통합관리가 가능하다. 셋째, 메타데이터 자동 생성 기술을 연구한다. 단순히 온톨로지에 정의된 키워드의 의미만을 보지 않고, 온톨로지 기반의 추론엔진을 이용하여 사용자를 중심으로 관련 키워드의 관계를 고려한 메타데이터 생성의 정확성을 높인다. 이러한 기술을 기반으로 시맨틱 검색도 가능하며, 기존의 메타데이터 저작도구와 비교하여 보다 정확한 메타데이터 자동생성과 검색이 가능하다.

  • PDF

DBMS의 웹서비스를 이용한 학습객체 메타데이터 추출 및 통합에 관한 연구 (A Study on the Extraction and Integration of Learning Object Meta-data using Web Service of Databases)

  • 최현종
    • 정보교육학회논문지
    • /
    • 제7권2호
    • /
    • pp.199-206
    • /
    • 2003
  • XML은 데이터 관리와 표현의 유연성으로 인해 웹의 새로운 개발 도구로 자리를 잡아가고 있으며, 컴퓨터 교육에서는 학습객체라는 많은 웹 컨텐츠들을 통합하는 도구로도 사용되고 있다. 하지만 학습객체를 통합하고 관리하는 온라인 학습 시스템을 구현하기에 앞서, 구현 시스템에서 학습객체를 처리하기 위한 메타데이터를 어떻게 저장하고 추출 및 통합하느냐의 연구가 선행되어져야 한다. 따라서 본 연구에서는 3-tier 방식의 온라인 학습 시스템과 메타데이터가 저장된 데이터베이스 서버를 구현할 때 필요한 메타데이터 추출방법의 하나로 DBMS의 웹서비스를 이용하는 방법을 제안하고자 한다. 제안된 방법의 효율성 측정을 위해 MS SQL Server 2000과 Oracle 9i를 대상으로 30여개의 샘플 메타데이터를 저장하고, 이를 추출하는 응답시간을 측정해 보았다. 이 방법을 사용하기 위해서는 추출된 메타데이터를 DOM/SAX 와 같은 XML 처리 파서가 필요하지만, 측정된 결과 비교적 빠른 응답시간을 보여 데이터베이스에 저장된 메타데이터를 추출하고 통합하는 한 방법으로 충분히 사용할 수 있다는 결과를 얻었다.

  • PDF

이메일에 포함된 감성정보 관련 메타데이터 추출에 관한 연구 (Recognizing Emotional Content of Emails as a byproduct of Natural Language Processing-based Metadata Extraction)

  • 백우진
    • 정보관리학회지
    • /
    • 제23권2호
    • /
    • pp.167-183
    • /
    • 2006
  • 본 연구는 이메일에 나타난 감성정보 메타데이터 추출에 있어 자연언어처리에 기반한 방식을 적용하였다. 투자분석가와 고객 사이에 주고받은 이메일을 통하여 개인화 정보를 추출하였다. 개인화란 이용자에게 개인적으로 의미 있는 방식으로 콘텐츠를 제공함으로써 온라인 상에서 관계를 생성하고, 성장시키고, 지속시키는 것을 의미한다. 전자상거래나 온라인 상의 비즈니스 경우, 본 연구는 대량의 정보에서 개인에게 의미 있는 정보를 선별하여 개인화 서비스에 활용할 수 있도록, 이메일이나 토론게시판 게시물, 채팅기록 등의 텍스트를 자연언어처리 기법에 의하여 자동적으로 메타데이터를 추출할 수 있는 시스템을 구현하였다. 구현된 시스템은 온라인 비즈니스와 같이 커뮤니케이션이 중요하고, 상호 교환되는 메시지의 의도나 상대방의 감정을 파악하는 것이 중요한 경우에 그러한 감성정보 관련 메타데이터를 자동으로 추출하는 시도를 했다는 점에서 연구의 가치를 찾을 수 있다.

XML기반 디자인패턴클래스의 메타데이터 연구 (A Study of Design Pattern Class's Metadata based XML)

  • 이돈양;송영재
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2004년도 춘계학술발표대회
    • /
    • pp.217-220
    • /
    • 2004
  • 클래스정보에 대한 속성의 추출 및 분류에서 주로 추출된 클래스의 정보가 단지 원시코드의 코멘트에서 추출되었기 때문에 클래스에 대한 정확한 기능 및 용도에 대한 Document가 부족하여 실제로 이용자가 최적의 부분을 추출하기가 어려웠다. 이러한 것들을 향상시키기 위하여 본 연구에서는 객체에 대한 클래스뿐만 아니라 패턴모델의 설계에서도 객체지향모델링 방법을 이용하여 메타모델과 메타데이터를 설계하였다. 그리고 XMI 메타모델로 정의된 디자인패턴의 세부적인 클래스의 메타데이터의 생성에 중점을 두었으며, 마크업언어로 XML-스키마 형식을 이용하여 심플타입(simple type)과 콤플렉스타입(complex type)으로 분류하였다. 그 결과 메타데이터 엘리먼트 단위영역별로 마크업언어를 생성하여 소프트웨어 설계에서 효과적인 재사용을 할 수 있었다.

  • PDF

공간정보 표준 메타데이터 추출 및 변환 프로그램 개발 (Program Development for Automatic Extraction and Transformation of Standard Metadata of Geo-spatial Data)

  • 한선묵;이기원
    • 대한원격탐사학회지
    • /
    • 제26권5호
    • /
    • pp.549-559
    • /
    • 2010
  • 공간정보 시스템의 구축과 운영에서 메타데이터는 핵심 요소 중의 하나이다. 따라서 국내외 표준화 기구나 단체에서 현실적인 수요를 반영한 다양한 메타데이터를 개발 공표하고 있다. 그리나 국제 표준이나 국가 표준 등이 많은 항목으로 구성되어 있고 메타데이터 서버를 구축하는 경우에는 XML 형식으로 저장, 관리할 필요가 있기 때문에 실무 응용 시스템에서는 표준 형식을 따르기 보다는 운영 기관별로 별도의 메타데이터 사양을 설정하여 사용하는 경우가 많다. 따라서 본 연구에서는 국제 표준인 ISO/TC 19115와 TIAS.KO-10.0139와 TTAS.IS-19115와 같은 단체 메타데이터 표준으로 손쉽게 입력할 수 있도록 직접 공간자료 포맷으로부터 메타데이터 항목과 요소를 추출하여 직접 XML로 저장할 수 있는 프로그램을 개발하였다. 본 프로그램에서 공간영상정보에 대한 자료 포맷의 경우에는 ISO/TC 19115-2 메타데이터 표준 사양으로 추출, 저장할 수 있도록 하였다. 한편 메타데이터 표준간의 항목이나 요소들이 일부 상이하기 때문에 메타데이터 추출 가능과 함께 메타데이터 간의 변환 기능을 개발하여 메타데이터의 상호 운영이 가능하도록 하였다. 본 연구에서는 활용도가 높은 자료 포맷을 대상으로 하였으나 기타 자료 포맷이나 기관별 메타데이터 사양을 처리할 수 있는 확장 기능 구현을 통하여 메타데이터 표준의 활용도를 증가시킬 수 있을 것으로 기대한다.

영상의 효과음을 통한 분위기 메타데이터 추출 (Extractiong mood metadata through sound effects of video)

  • 유연휘;박효경;용성중;이서영;문일영
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2022년도 춘계학술대회
    • /
    • pp.453-455
    • /
    • 2022
  • 메타데이터는 데이터에 대한 속성이나 특징을 설명하는 구조화된 데이터를 말한다. 그중에서 비디오 메타데이터는 정확한 콘텐츠 기반 검색을 위해 비디오를 구성하는 정보에서 추출한 데이터를 의미한다. 최근 영상 콘텐츠를 이용하는 사용자들이 늘어나면서 자연스럽게 OTT 제공 업체들 역시 늘어나고 있으며, OTT 제공 업체에서 많은 양의 영상 콘텐츠를 개인 사용자에게 추천 또는 알맞은 검색을 위해 메타데이터의 역할이 중요해지고 있다. 본 논문에서는 영상의 효과음을 통해 분위기 속성에 대한 메타데이터를 자동으로 추출하는 방법에 관해 연구를 진행하였다. 영상의 효과음에 대한 분류와 분위기 속성에 대한 메타데이터 생성을 위해 분위기에 대한 용어사전을 구축하고 지도학습을 통해 정보를 추출하는 방법을 제안하고자 한다.

  • PDF