• 제목/요약/키워드: metadata for archives

검색결과 107건 처리시간 0.022초

자연어 처리의 개체명 인식을 통한 기록집합체의 메타데이터 추출 방안 (A method for metadata extraction from a collection of records using Named Entity Recognition in Natural Language Processing)

  • 송치호
    • 한국기록관리학회지
    • /
    • 제24권2호
    • /
    • pp.65-88
    • /
    • 2024
  • 본 연구는 인공지능의 하위분야인 자연어 처리(NLP)의 개체명 인식(NER)을 통하여 기록에 내재된 메타데이터 값과 기술 정보를 추출하는 방안에 대한 시험적 연구이다. 연구 대상은 1960~1970년대에 생산된 구로공단 수기 기록물(약 1,200 쪽, 8만여 단어)을 대상으로 하였다. 디지털화를 포함하는 전처리 과정과 함께 기록 텍스트에 대해서 구글의 BERT 언어모델에 기반하여 구현되어 공개된 언어 API를 사용하여 개체명을 인식하였다. 그 결과로 구로공단의 과거 기록에 포함된 173개의 인명과 314개의 조직 및 기관 개체명을 추출할 수 있었고, 이는 기록의 내용에 대한 직접적인 검색어로 사용될 수 있다고 기대된다. 그리고 자연어 처리의 이론적 방법론을 반·비정형의 텍스트로 이루어진 실제 기록물에 적용할 때 발생하는 문제점을 파악하여 해결 방안과 고려해야 할 시사점을 제시했다.

기록물용 KORMARC 데이터필드 개발을 위한 메타데이터 요소에 관한 연구 (The Study on the Metadata Elements to Develop KORMARC Datafield for Archives)

  • 박진희
    • 정보관리학회지
    • /
    • 제22권3호
    • /
    • pp.351-378
    • /
    • 2005
  • 본 연구는 기존의 도서관정보시스템에서 기록물을 검색 이용할 수 있도록 기록물용 KORMARC 데이터필드 개발을 위한 메타데이터 요소를 설정하였다. 본 연구의 결과를 요약하면 다음과 같다. 첫째, 본 연구에서는 ISAD(G)2에서 제시하고 있는 7개 영역 외에 보존영역(conservation area)과 물리적 기술영역(physical description area)을 추가하였다. 그리고 ISAD(G)2는 26가지 요소만을 제시하고 있어 상세수준의 기술요소를 필요로 하는 기관에서는 불충분하다는 선행연구에서 제시된 문제점을 보완하기 위해 분석결과를 토대로 영역별 하위요소를 종합하여 선정하였다. 둘째 우리나라 기록물의 특수성을 기술요소에 반영하기 위해 사무관리규정시행규칙과 전자정부 구현을 위한 행정업무 등의 전자화 촉진에 관한 법률에서 제시하고 있는 종이 공문서 및 전자문서 서식의 분석을 통해 선정한 기록물 기술요소를 추가하였다. 또한 공공기관의 기록물 관리에 관한 법률 시행령에서 규정하고 있는 공개여부 및 등급, 공개일자, 공개범위, 보존기간, 보존등급, 보존가치, 기록물의 상태기술 요소를 추가하였다. 셋째, 기록물 관리를 위해 512 생산일자 관련주기(creation dates note)와 555 검색보조도구주기(finding aids note), 583 작업현황 주기(action note), 584 추가주기(accumulation note) 데이터필드를 새롭게 설정하였다. 또한 245 표제저자 사항(title statement), 300 물리적 기술(physical description), 306 재생/연주시간(playing time), 506 접근제한주기(restriction on access note), 534 원본주기(origin version note), 535 원본/사본의 소장처주기(location of originals/duplicates note) 540 이용과 복제제한에 관한 주기(terms governing use and reproduction notes), 541 직접적 출처주기(immediate source of acquisition note), 545 행정연혁/개인이력주기(biographical or historical note), 581 출판주기(publication note), 850 소장처(holding institution) 데이터필드의 식별기호를 재구성, 추가하였다.

다크 아카이브 운영 효율화를 위한 정보패키지 구축 (Construction of Information Packages for the Operational Efficiency of Dark Archives)

  • 박효은;이승민
    • 한국문헌정보학회지
    • /
    • 제54권4호
    • /
    • pp.261-281
    • /
    • 2020
  • 다크 아카이브를 통해 다양한 유형의 전자기록물을 장기적으로 보존하는 활동은 그 중요성이 점차 증대하고 있으나, 현재 다크 아카이브에서는 전자기록물 장기보존을 위한 최적화된 정보패키지 구조가 마련되어 있지 않다. 이에 본 연구에서는 다크 아카이브의 핵심적인 프로세스를 중심으로 OAIS 참조모델 정보패키지를 재구성하여 4개의 카테고리를 제안하였다. 각 카테고리의 세부 기술항목은 OAIS 참조모델, ISO 23081, 기록관리 메타데이터 표준, ISAD(G), ISAAR(CPF), ISDF, ISDIAH를 기반으로 총 4개의 상위요소와 27개의 하위요소로 구성하였다. 이는 다크 아카이빙에 최적화된 정보패키지 구성의 기반으로 활용될 수 있으며, 전자기록물의 장기 보존을 보다 효율적으로 지원할 수 있을 것으로 기대된다.

차세대 기록물 기술표준에 관한 연구 - ICA EGAD의 Record In Context를 중심으로 - (Analyzing the Next-generation Archival Description Standard: "Record in Context" of ICA EGAD)

  • 박지영
    • 한국기록관리학회지
    • /
    • 제16권1호
    • /
    • pp.223-245
    • /
    • 2016
  • ICA의 CBPS에서는 지난 20여년간 ISAD(G)와 ISAAR(CPF)와 같은 기록물 기술표준을 개발해 왔다. 그리고 최근에 ICA는 새로운 조직인 EGAD를 구성하여 기존의 기록물 기술표준을 통합하고 있다. EGAD가 개발 중인 기술표준의 명칭은 'Record in Context'(RIC)이며, 개념모형과 온톨로지로 구성된다. 그런데 EGAD는 RIC의 개발을 위해 ICA의 기존 기록물 기술표준뿐 아니라, 호주나 스페인, 핀란드에서 최근에 개정된 기록물 기술표준과 박물관 및 도서관 분야의 협력을 통해 개발된 FRBRoo도 참고하였다. 이에 본 연구에서는 국제적인 기록물 기술표준의 개정 동향을 살펴보고, 이와 같은 동향이 국내의 기록물 기술표준의 발전에 주는 시사점을 도출하였다. 기록물의 기술표준은 표준화된 기술요소의 정확한 입력지침을 넘어서, 상위의 개념틀을 제공하고, 이를 바탕으로 유연한 기록물 기술과 데이터 공유가 용이한 온톨로지를 제공하기 위해 개선되고 있었다. 앞으로는 국내의 기록물 기술표준도 정보환경의 변화를 수용하고, 문화유산관리기관 간의 협력을 증진시킬 수 있는 방향으로 발전해야 할 것이다.

미디어 아카이브 구축을 위한 등장인물, 사물 메타데이터 생성 시스템 구현 (Implementation of Character and Object Metadata Generation System for Media Archive Construction)

  • 조성만;이승주;이재현;박구만
    • 방송공학회논문지
    • /
    • 제24권6호
    • /
    • pp.1076-1084
    • /
    • 2019
  • 본 논문에서는 딥러닝을 적용하여 미디어 내의 등장인물 및 사물을 인식, 메타데이터를 추출하고 이를 통해 아카이브를 구축하는 시스템을 개발하였다. 방송 분야에서 비디오, 오디오, 이미지, 텍스트 등의 멀티미디어 자료들을 디지털 컨텐츠로 전환하기 시작한지는 오래 되었지만, 아직 구축해야 할 자료들은 방대하게 남아있다. 따라서 딥러닝 기반의 메타데이터 생성 시스템을 구현하여 미디어 아카이브 구축에 소모되는 시간과 비용을 절약 할 수 있도록 하였다. 전체 시스템은 학습용 데이터 생성 모듈, 사물 인식 모듈, 등장인물 인식 모듈, API 서버의 네 가지 요소로 구성되어 있다. 미디어 내에서 등장인물 및 사물을 인식하여 메타데이터로 추출할 수 있도록 딥러닝 기술로 사물 인식 모듈, 얼굴 인식 모듈을 구현하였다. 딥러닝 신경망을 학습시키기 위한 데이터를 구축하기 용이하도록 학습용 데이터 생성 모듈을 별도로 설계하였으며 얼굴 인식, 사물 인식의 기능은 API 서버 형태로 구성하였다. 1500명의 인물, 80종의 사물 데이터를 사용하여 신경망을 학습시켰으며 등장인물 테스트 데이터에서 98%, 사물 데이터에서 42%의 정확도를 확인하였다.

전자의무기록 관리시스템 관련 기록관리 메타데이터 요소들에 대한 의무기록 관리자의 중요도 평가 연구 (A Study on the Importance of the Assessment of Records Management Metadata Elements Related to the Electronic Medical Records Management System for Medical Records Managers)

  • 이은미;김명;임진희
    • 한국기록관리학회지
    • /
    • 제13권3호
    • /
    • pp.151-171
    • /
    • 2013
  • 본 연구는 서울 시내 5개 대학병원의 의무기록 관리자들이 생각하는 전자의무기록시스템 구현 시 기록관리 메타데이터 표준 요소의 중요도를 설문조사하였다. SPSS 20.0(ver)을 이용하여 중요도 점수는 5점 척도의 평균으로 도출하여 순위를 정하였고 응답자 특성에 따른 중요도 차이를 분석하였다. 90%의 응답자가 국가기록원에서 기록관리 메타데이터 표준을 고시하고 있음을 모르고 있었다. 가장 중요도가 높은 요소는 '비밀등급 설정' 이었으며 '의무기록 접근행위종류', '내부직원 권한 설정', '의무기록 이용접근자' 요소가 그 다음 순위를 보여 기록정보보호 측면에서의 관리 기능 강화를 필요로 함을 알 수 있다. 개인 프라이버시 보호를 위하여 '외부공개'는 중요도가 낮은 관리요소로 평가되었으나, 전자의무기록 도입 7년 이상인 기관의 관리자들은 7년 미만의 관리자 보다 유의하게 이 세 가지 요소의 중요도를 높게 평가하였다. 이는 정보 축적에 따라 의학연구, 의학교육 등에서의 정보 이용에 대한 관리 기준과 시스템상의 적용이 필요함을 보여준다.

민간뀇공동체 아카이브 네트워크 구축을 위한 기술정보 공유 방향 연구 (A Study on Sharing Descriptive Information for Establishing Private and Community Archive Network)

  • 현문수
    • 한국기록관리학회지
    • /
    • 제13권3호
    • /
    • pp.127-150
    • /
    • 2013
  • 일상 아카이브와 공동체 아카이브에 대한 관심이 소규모 민간 아카이브 설립으로 이어지고 있다. 이들 민간 아카이브의 소재를 확인하고 자원을 공유할 수 있는 장을 만들 수 있다면 다양한 현재상을 남길 수 있을 것이다. 이 연구는 국내 소규모 민간 아카이브의 컬렉션 기술정보를 공유하고 통합 이용하기 위한 기초 작업으로서 기술정보 공유 방향을 제안하고자 한다. 국내 수집형 민간 아카이브의 소장물 기술 현황을 파악하고, 해외 아카이브 네트워크와 게이트웨이에서의 기술요소 공유사례를 분석하여 향후 국내 민간 공동체 아카이브 네트워크 구축을 위해 필요한 기술요소 공유 체계 마련에 바탕을 제공할 목적 하에 연구를 진행하였다.

시청각(사진/동영상) 기록물 관리를 위한 시스템 구축과 운영 사례 연구 (A Case Study of the Audio-Visual Archives System Development and Management)

  • 신동헌;정세영;김선현
    • 한국기록관리학회지
    • /
    • 제9권1호
    • /
    • pp.33-50
    • /
    • 2009
  • 국방과학연구소에서는 보유하고 있는 아날로그 형태 시청각 기록물을 디지털 변환을 통하여 이용자의 접근 용이성을 확보하고 시스템을 통한 보다 체계적인 관리를 위해 "영상기록관리시스템"을 구축하고 운영 중에 있다. 본 연구는 이에 대한 전체 구축 과정과 실제 운영 사항에 관한 내용을 담고 있는 것으로, 시청각 기록물의 디지털 변환을 통한 DB 구축과 이용자의 직접적인 검색 활용을 통하여 기록물에 대한 보존과 활용에 대한 실제 사례를 기술하고 있다. 구체적으로는 이미지와 동영상 데이터를 관리하고 활용하기 위한 시스템 개발요구사항 분석에서부터 아날로그형 자료의 디지털 변환을 통한 DB 구축 시 표준 업무절차 구현, 품질 기준 설정, 메타데이터 항목 설정 등에 관한 내용을 포함하고 있다. 또한, 실제로 시청각 기록물 관리를 위한 시스템을 운영함으로써 얻을 수 있는 시스템 효과 분석을 통하여 시청각 기록물 관리 시스템 구축의 필요성에 대해서도 언급하고 있다.

자동수집 기반 재난안전 기록정보자원 아카이브 설계 및 구축전략 (Design and Construction Strategy for Disaster and Safety Record Information Resources Archives Based on Automatic Acquisition)

  • 한희정;강주연;김용;오효정
    • 한국기록관리학회지
    • /
    • 제17권4호
    • /
    • pp.127-154
    • /
    • 2017
  • 최근 전 세계적으로 대형 복합 재난이 빈번하게 발생할 뿐 아니라 매해 반복되고 있다. 이에 따라 과거의 정리된 재난과 관련한 원시자료 및 가공정보에 대한 체계적인 관리와 활용에 대한 필요성이 증대되고 있다. 이에 본 연구는 범정부 차원에서 재난안전 기록정보자원을 종합적으로 제공하여 재난안전정보의 허브(Hub)로서 중추적 역할을 수행할 수 있는 자동수집 기반의 재난안전 기록정보자원 아카이브 구축 전략을 제안하고자 한다. 이를 위해 국내 외 재난아카이브 사례를 분석하여 재난안전 기록정보자원 아카이브 구축 시 고려할 사항들을 도출하였으며, 1) 재난안전 기록정보자원 전수조사, 2) 자동화 가능성 분석, 3) 아카이빙 대상 선별, 4) 메타데이터 자동수집에 이르는 4단계 구축전략을 제안하였다. 본 연구에서 제안하는 아카이브의 구축은 산발적으로 존재하는 정보의 통합관리와 정보의 공유 및 활용을 촉진하게 될 것이다.

일본군 '위안부' 지식그래프: 파편화된 디지털 기록의 연결 (A Knowledge Graph on Japanese "Comfort Women": Interlinking Fragmented Digital Archival Resources)

  • 박하람;김학래
    • 한국기록관리학회지
    • /
    • 제21권3호
    • /
    • pp.61-78
    • /
    • 2021
  • 일본군 '위안부'에 대한 기록은 민간 기관에서 개별적으로 관리하고 있다. 일부 기록은 디지털 아카이브로 구축되어 온라인으로 접근할 수 있다. 그러나, 디지털 아카이브의 기록은 기관에 따라 메타데이터의 구성과 표현 방식이 다르다. 한편, 기록 사이의 관계를 정의할 수 있는 체계가 미흡하기 때문에, 현재 구축된 일본군 '위안부' 기록은 서로 연결되지 않고 파편적인 형식으로 남아있다. 본 연구는 일본군 '위안부' 디지털 기록을 연계하기 위한 지식 모델을 제안하고, 분산화된 디지털 아카이브의 기록을 통합하여 일본군 '위안부' 지식그래프를 구축한다. 일본군 '위안부' 디지털 아카이브의 메타데이터를 분석하여 공통 요소를 도출하고, 표준 어휘를 적용하여 디지털 기록의 다양한 개체와 개체 사이의 관계를 의미적으로 표현한다. 특히, 흩어져 있는 기록을 연계하고 검색하기 위해 수집한 데이터의 정제가 이루어지고, 외부데이터를 활용하여 기록의 맥락 정보를 강화하고 있다. 구축된 지식그래프의 검증은 분산된 기록의 탐색 여부를 측정하는 질의를 통해 수행된다. 검증 결과, 지식그래프는 흩어져 있는 기록을 연계하여 검색할 수 있고, 외부데이터로부터의 강화로 기록의 맥락 정보를 풍부하게 제공하며, 의미 기반의 검색을 통해 사용자의 의도에 맞춘 정확한 검색이 가능하다.