• Title/Summary/Keyword: 메타데이터 추출

Search Result 259, Processing Time 0.036 seconds

Extracting and Validating Metadata in Electronic Records (전자기록물의 메타데이터 추출 및 비교 검증 기술 연구)

  • Choi, Joo Ho;Lee, Jae Young
    • Journal of Korean Society of Archives and Records Management
    • /
    • v.12 no.1
    • /
    • pp.7-32
    • /
    • 2012
  • When migrate electronic records, the validation of the required metadata in electronic records and verified with the metadata in the document are also important. This paper presents a method and implements a tool to extract data from files in various formats and use them to validate metadata associated with the files in electronic records. Compared to other metadata extraction tools, especially developed in foreign countries, the standard form of documents used in Korean government is taken into account and metadata is extracted from the content of files. The tool compares the extracted data to encapsulated metadata for validation.

Bidirectional GRU-GRU CRF based Citation Metadata Recognition (Bidirectional GRU-GRU CRF 기반 참고문헌 메타데이터 인식)

  • Kim, Seon-wu;Ji, Seon-young;Seol, Jae-wook;Jeong, Hee-seok;Choi, Sung-pil
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.461-464
    • /
    • 2018
  • 최근 학술문헌이 급격하게 증가함에 따라, 학술문헌간의 연결성 및 메타데이터 추출 등의 핵심 자원으로서 활용할 수 있는 참고문헌에 대한 활용 연구가 진행되고 있다. 본 연구에서는 국내 학술지의 참고문헌이 가진 각 메타데이터를 자동적으로 인식하여 추출할 수 있는 참고문헌 메타데이터 인식에 대하여, 연속적 레이블링 방법론을 기반으로 접근한다. 심층학습 기술 중 연속적 레이블링에 우수한 성능을 보이고 있는 Bidirectional GRU-GRU CRF 모델을 기반으로 참고문헌 메타데이터 인식에 적용하였으며, 2010년 이후의 10종의 학술지내의 144,786건의 논문을 활용하여 추출한 169,668건의 참고문헌을 가공하여 실험하였다. 실험 결과, 실험집합에 대하여 F1 점수 97.21%의 우수한 성능을 보였다.

  • PDF

A Case Study on Metadata Extractionfor Records Management Using ChatGPT (챗GPT를 활용한 기록관리 메타데이터 추출 사례연구)

  • Minji Kim;Sunghee Kang;Hae-young Rieh
    • Journal of Korean Society of Archives and Records Management
    • /
    • v.24 no.2
    • /
    • pp.89-112
    • /
    • 2024
  • Metadata is a crucial component of record management, playing a vital role in properly managing and understanding the record. In cases where automatic metadata assignment is not feasible, manual input by records professionals becomes necessary. This study aims to alleviate the challenges associated with manual entry by proposing a method that harnesses ChatGPT technology for extracting records management metadata elements. To employ ChatGPT technology, a Python program utilizing the LangChain library was developed. This program was designed to analyze PDF documents and extract metadata from records through questions, both with a locally installed instance of ChatGPT and the ChatGPT online service. Multiple PDF documents were subjected to this process to test the effectiveness of metadata extraction. The results revealed that while using LangChain with ChatGPT-3.5 turbo provided a secure environment, it exhibited some limitations in accurately retrieving metadata elements. Conversely, the ChatGPT-4 online service yielded relatively accurate results despite being unable to handle sensitive documents for security reasons. This exploration underscores the potential of utilizing ChatGPT technology to extract metadata in records management. With advancements in ChatGPT-related technologies, safer and more accurate results are expected to be achieved. Leveraging these advantages can significantly enhance the efficiency and productivity of tasks associated with managing records and metadata in archives.

Enhanced Meta Process Implementation For Growing Data Warehouse (데이터웨어하우스 성장에 따른 개선된 메타프로세스 구현)

  • Lee, Dong-Won;Moon, Seung-Jin
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2000.04a
    • /
    • pp.7-9
    • /
    • 2000
  • 데이터 웨어하우스는 기업의 의사 결정 과정을 향상시킬 수 있게 하는 정보기술이다. 대표적인 정의로는 '기업의 의사결정 과정을 지원하기 위한 주제 중심적이고 통합적이며 시간성을 가지는 비휘발성 자료의 집합 '이다.[1] 즉, 기업들이 보유하고 있는 분산된 대량의 데이터를 추출, 변환, 통합하여 요약된 읽기 전용의 데이터베이스로 구축함으로써, 경영분석이나 기업내의 의사 결정 지원 자료로 주로 활용된다. 데이터 웨어하우스의 경우, 일반사용자는 웨어하우스내에 저장된 데이터를 직접 이용하는 경우가 대부분이다. 따라서, 데이터의 구조와 의미에 대한 일반 사용자의 이해가 필요하게 되었다. 즉, 데이터의 추출 및 정제규칙, 데이터의 통합규칙, 요약알고리즘, 데이터 처리스케쥴 등을 알아야만 한다. 메타데이터는 최소한의 데이터 구조, 데이터의 요약에 사용된 알고리즘, 운영 데이터베이스와 데이터 웨어하우스사이의 대응관계와 같은 정보를 포함하여야 한다.[3] 여기서 변환프로세스에 대한 정보를 데이터의 형식에 대한 정보와 일반적인 데이터들과 차별화하여 메타프로세스라 한다.[5] 메타프로세스는 데이터를 변환하여 데이터 웨어하우스에 적재하는 과정에서 생성되는 메타데이터의 일부로써 데이터 웨어하우스에 통합된 자료들이 어떤 변환과정을 거쳐 생성된 자료인지를 알려주는 변환프로세스에 관한 정보를 제공한다. 본 연구에서는 대부분의 데이터 웨어하우스에서 구현되고 있는 메타데이터들은 데이터 항목의 속성정보를 위주로 한 것이며, 변환 프로세스와 관련된 데이터 관리가 미약하다. 따라서, 데이터 웨어하우스의 메타데이터 중 메타프로세스 정보의 추출 및 관리 시스템을 제안하는 것이다.

  • PDF

Ontology-based Metadata Automated Generation for Personal Media (온톨로지 기반 개인 미디어 메타데이터 자동 생성)

  • Choi, Jung-Hwa;Seo, Hee-Cheol;Park, Young-Tack
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.10b
    • /
    • pp.340-345
    • /
    • 2006
  • 개인 디지털 콘텐츠 증가에 따른 개인 미디어의 관리를 위해 대량의 메타데이터를 자동으로 생성하는 연구가 반드시 필요하다. 본 논문에서는 온톨로지 기반의 추론을 이용하여 개인 미디어 메타데이터를 자동으로 생성하는 방법을 제안한다. 제안한 방법은 부족한 정보로부터 적합한 의미를 추출하여 메타데이터를 자동 생성하므로 콘텐츠관리의 어려운 문제점을 해결한다. 본 논문에서 제안하는 방법을 사용자가 메모를 부착하기만 하면, 온톨로지 기반 추론을 통해 메타데이터를 자동 생성하는 방법으로 다음과 같은 세가지 기술과 특징을 갖는다. 첫째, 개인 미디어 온톨로지를 정의한다. 둘째, 미디어 메타데이터 표준을 정의한다. 미디어의 종류가 다르더라도 정의한 표준의 키워드만 추출할 수 있다면 미디어의 통합관리가 가능하다. 셋째, 메타데이터 자동 생성 기술을 연구한다. 단순히 온톨로지에 정의된 키워드의 의미만을 보지 않고, 온톨로지 기반의 추론엔진을 이용하여 사용자를 중심으로 관련 키워드의 관계를 고려한 메타데이터 생성의 정확성을 높인다. 이러한 기술을 기반으로 시맨틱 검색도 가능하며, 기존의 메타데이터 저작도구와 비교하여 보다 정확한 메타데이터 자동생성과 검색이 가능하다.

  • PDF

A Study on the Extraction and Integration of Learning Object Meta-data using Web Service of Databases (DBMS의 웹서비스를 이용한 학습객체 메타데이터 추출 및 통합에 관한 연구)

  • Choe, Hyun-Jong
    • Journal of The Korean Association of Information Education
    • /
    • v.7 no.2
    • /
    • pp.199-206
    • /
    • 2003
  • XML is becoming a new developing tool of web technology because of its ability of data management and flexibility in data presentation. So it's well researched that the reusability and integration with learning objects such as text, image, sound, video and plug-in programs of web contents in computer education. But the research for storing, extracting and integrating metadata about learning object was needed prior to implementing online learning system to integrate and manage it. Therefore this study propose a new method of using web service of DBMS for extracting learning object's metadata in database server which located in 3-tier system. To evaluate the efficiency of proposed method, The test server and two DBMSs(MS SQL Server 2000 and Oracle 9i) which have 30 metadata was implemented and the response time of it was measured. The response time of it was short, but in order to using this method the additional programming with SAX/DOM was necessary.

  • PDF

Recognizing Emotional Content of Emails as a byproduct of Natural Language Processing-based Metadata Extraction (이메일에 포함된 감성정보 관련 메타데이터 추출에 관한 연구)

  • Paik, Woo-Jin
    • Journal of the Korean Society for information Management
    • /
    • v.23 no.2
    • /
    • pp.167-183
    • /
    • 2006
  • This paper describes a metadata extraction technique based on natural language processing (NLP) which extracts personalized information from email communications between financial analysts and their clients. Personalized means connecting users with content in a personally meaningful way to create, grow, and retain online relationships. Personalization often results in the creation of user profiles that store individuals' preferences regarding goods or services offered by various e-commerce merchants. We developed an automatic metadata extraction system designed to process textual data such as emails, discussion group postings, or chat group transcriptions. The focus of this paper is the recognition of emotional contents such as mood and urgency, which are embedded in the business communications, as metadata.

A Study of Design Pattern Class's Metadata based XML (XML기반 디자인패턴클래스의 메타데이터 연구)

  • Lee, Don-Yang;Song, Young-Jae
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2004.05a
    • /
    • pp.217-220
    • /
    • 2004
  • 클래스정보에 대한 속성의 추출 및 분류에서 주로 추출된 클래스의 정보가 단지 원시코드의 코멘트에서 추출되었기 때문에 클래스에 대한 정확한 기능 및 용도에 대한 Document가 부족하여 실제로 이용자가 최적의 부분을 추출하기가 어려웠다. 이러한 것들을 향상시키기 위하여 본 연구에서는 객체에 대한 클래스뿐만 아니라 패턴모델의 설계에서도 객체지향모델링 방법을 이용하여 메타모델과 메타데이터를 설계하였다. 그리고 XMI 메타모델로 정의된 디자인패턴의 세부적인 클래스의 메타데이터의 생성에 중점을 두었으며, 마크업언어로 XML-스키마 형식을 이용하여 심플타입(simple type)과 콤플렉스타입(complex type)으로 분류하였다. 그 결과 메타데이터 엘리먼트 단위영역별로 마크업언어를 생성하여 소프트웨어 설계에서 효과적인 재사용을 할 수 있었다.

  • PDF

Program Development for Automatic Extraction and Transformation of Standard Metadata of Geo-spatial Data (공간정보 표준 메타데이터 추출 및 변환 프로그램 개발)

  • Han, Sun-Mook;Lee, Ki-Won
    • Korean Journal of Remote Sensing
    • /
    • v.26 no.5
    • /
    • pp.549-559
    • /
    • 2010
  • In geo-spatial information system building and operation, metadata is one of the crucial factors. Therefore, international and domestic organizations or associations for standardization have developed and distributed geo-based standard metadata to meet public demands. However, because metadata is composed of complicated elements and needs XML storage and management, individual organization which implement and operate practical application system is inclined to define and use its own metadata specifications. In this study, metadata extraction program, that metadata elements are directly extracted from geo-based file formats was developed to easily utilize standard metadata such as ISO/TC 19115, TTAS.KO-10.0139 and TTAS.IS-19115, and those elements are processed into XML. Furthermore, geo-based images sets are applied to another metadata of ISO/TC 19115-2. As well, metadata transformation is needed due to inconsistent or non-corresponding definition among standard metadata; in this program, transformation modules are also implemented to interoperable uses between standard metadata specifications. Widely used data formats are dealt with in this program, but extension for other formats and other metadata specifications is possible, and it is expected that availability of standard metadata is increased, through this kind of development.

Extractiong mood metadata through sound effects of video (영상의 효과음을 통한 분위기 메타데이터 추출)

  • You, Yeon-Hwi;Park, Hyo-Gyeong;Yong, Sung-Jung;Lee, Seo-Young;Moon, Il-Young
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2022.05a
    • /
    • pp.453-455
    • /
    • 2022
  • Metadata is data that explains attributes and features to the data as structured data. Among them, video metadata refers to data extracted from information constituting the video for accurate content-based search. Recently, as the number of users using video content increases, the number of OTT providers is also increasing, and the role of metadata is becoming more important for OTT providers to recommend a large amount of video content to individual users or to search appropriately. In this paper, a study was conducted on a method of automatically extracting metadata for mood attributes through sound effects of images. In order to classify the sound effect of the video and generate metadata about the attributes of the mood, I would like to propose a method of establishing a terminology dictionary for the mood and extracting information through supervised learning.

  • PDF