DOI QR코드

DOI QR Code

A Study on Converting bibliographic data of public libraries expressed in KORMARC into BIBFARME

  • 투고 : 2021.08.11
  • 심사 : 2021.11.23
  • 발행 : 2021.11.30

초록

도서관 계에서 기계 가독 목록 형식(MARC)에 대한 대안으로 주목받고 있는 BIBFRAME은 기존 데이터와의 호환성을 유지하면서 오픈 웹 환경에서 새로운 서지기술 데이터모델을 제시한다. MARC의 한국형 데이터 모델인 KORMARC 레코드의 BIBFRAME 변환을 위해, 서울시 노원구립도서관의 최신 서지 데이터 5,000개를 분석하여 25개의 핵심 필드를 추출한다. 핵심 필드들을 MARC 21의 호환성 여부에 따라 세 가지 유형으로 분류하고, 각 유형별 변환 기법을 정의한다. 또한 오픈소스 기반의 변환기를 구현하여 KORMARC to BIBFRAME 변환 작업을 수행한다. 본 연구는 KORMARC to BIBFRAME 변환에 대한 기초연구로써, 실제 사용되는 최신 KORMARC 정보를 분석하여 변환 규칙을 정의하고, BIBFRAME 변환을 시도했다는 점에 의의가 있다.

BIBFRAME, which is attracting attention as an alternative to the machine-readable catalog format (MARC) in the library world, presents a new bibliographic data model in the open web environment while maintaining compatibility with existing data. To convert KORMARC(Korean data model of MARC) records into BIBFRAME, we extract 25 key fields by analyzing the latest 5,000 bibliographic data from Nowon-gu Library in Seoul. The extracted core fields are classified into three types according to the compatibility of MARC 21, and define conversion rules for each type. In addition, implement an open source-based converter to perform KORMARC to BIBFRAME conversion. As a basic study on KORMARC to BIBFRAME conversion, this study is meaningful in that it analyzes the latest KORMARC information actually used, defines conversion rules, and attempts BIBFRAME conversion.

키워드

I. Introduction

도서관에서 사용하는 서지 데이터는 종이카드에 수기로 작성하여 목록함에 배열 후 사용하는 형태에서부터 시작되었다. 이러한 형태는 신간 정보를 추가하고 폐기 도서 정보를 삭제하는 방식에 있어서 책자 형태보다 가제 성이 좋아 두루 사용되었다.

이후 웹 생태계의 발전으로 정보의 대량화와 신속성이 요구되면서 도서관 서지 데이터에 대한 새로운 처리방식이 필요하게 되었다. 이러한 요구에 부응하기 위해 컴퓨터의 신속하고 정확한 데이터 처리 능력을 이용하여 전통적인 편목 업무를 보다 효율적으로 처리하고자 미국 의회 도서관에서 MARC(Machine Readable Cataloging)를 1960년대에 개발했으며, 이를 자동화 목록법 또는 기계 가독 목록 법이라 한다. 오늘날 국내외 도서관마다 수십만, 수백만 건의 목록 레코드가 MARC 형식으로 저장되어 데이터베이스의 역할을 하고 있으며, 도서관 간 정보 공유의 측면에서도 MARC 형식은 여전히 중요한 수단이 되고 있다. 국내 대부분의 도서관에서 기본적으로 목록 기술 규칙을 비롯하여 이를 구조화하기 위한 MARC 형식을 사용하고 있다[1][2].

MARC의 등장으로 도서관의 서지 데이터 활용에 많은 영향을 주었지만, 오늘날의 정보환경에서는 공유와 연계를 중심으로 많은 변화가 일어나고 있어 새로운 구조의 서지정보 기술방식이 요구되고 있다. 이에 도서관들은 MARC 형식의 서지 데이터나 전거데이터를 링크드 데이터로 변환하여 서비스하고 있다[2]. 예컨대 LC(Library of Congress, 미국 국회도서관)는 LDS(Linked Data Service)를 통해 LC가 작성한 전거데이터를 제공한다. 또한 영국 국립도서관은 ‘Linked Open BNB’에서 영국의 전국 서지 약 280만건을 제공하고, 프랑스 국립도서관은 전용 Open Data 포털 사이트 ‘data.bnf.fr’을 통해 서지 데이터와 전거데이터, 전자도서관 Gallica의 메타 데이터를 제공한다. 이외에도 독일과 스페인 국립 도서관도 기존목록 데이터를 LOD로 변환하여 제공한다.

도서관의 또 다른 움직임은 목록 업무에 사용되는 데이터 모델로 RDF(Resource Description Framework) 기반의 Linked Data 를 사용하는 것이다. LC가 2012년 발표한 BIBFRAME (Bibliographic Framework)은 MARC 21을 대체하는 데이터 포맷의 일종이지만, 그 데이터 모델의 기반은 Linked Data를 채용하고 있다. BIBFRAME은기존의 MARC 레코드와의 호환성을 유지하면서 MARC 를대체할 수 있는 새로운 서지기술을 위한 데이터모델을 제시하며, 서지 정보의 기술 표준을 링크드 데이터 모델로 확장함으로써, 도서관 내부뿐만 아니라 오픈 웹 환경에 서서지 정보를 다방면으로 활용하기 위한 것이다[5].

국내에서는 BIBFRAME 적용을 위한 다양한 선행 연구들이 진행되었다. 해외의 BIBFRAME 적용 및 변환사례연구와 MARC21 과의 매핑 관련 기초연구 등이 있으며 BIBFRAME 적용을 위한 다양한 제안을 하였다. 미국에서는 미국 의회 도서관(LC)에서 제공하는 ‘MARC 21 to BIBFRAME conversion Tools’를 활용하여 실제 MARC 21 서지 데이터를 변환한 사례가 있다[10][13]. 아직 국내에서는 실제 변환 시도가 없어 국내 연구자들도 KORMARC 서지 데이터에 대한 BIBFRAME 매핑 및 변환 시도가 필요하다는 후속 연구의 필요성을 강조하였다 [8][9]. 이에 본 연구에서는 실제 사용 중인 KORMARC 서지정보를 분석하여 주요 필드 분석을 진행하고 추출된 필드를 기준으로 MARC 21 및 BIBFRAME 2.0 변환 명세를 참고하여 KORMARC 서지 데이터의 변환 기법을 정의한다. 또한 미국 의회도서관에서 제공하는 오픈소스를 활용하여 KORMARC 서지 데이터에 대한 BIBFRAME 2.0 변환을 수행하고자 한다. 본 연구는 BIBFRAME 간의 매핑 가능성을 도출하고 공공도서관의 서지정보를 BIBFRAM에적용시킬 수 있는 기초 연구 자료로 활용될 수 있다.

II. Preliminaries

1. The evolution of bibliographic data

오늘날 모든 도서관에서 MARC를 이용한 자료처리가 일반화되어 있지만 미국 의회 도서관에서 처음 도서관의 전통적인 검색 수단인 목록을 컴퓨터로 처리하려는 시도를 할 때만 해도 크게 주목받지 못했다. 그렇지만 미국 의회 도서관에서 1950년대 초부터 자신의 도서관 업무를 자동화하기 위한 위원회를 구성하고 업무개발을 위한 타당성을 검토하기 시작하였으며, 길버트 킹(G.M. King)을 중심으로 구성된 조사반의 권고에 따라 1960년 초부터 가능성 검토와 함께 개발 계획을 수립한 후, 1965년 MARC 1 을 완성하게 됨으로써 전 세계의 도서관에 혁명적인 변화를 이끌기 시작했다. 수정 보완한 MARC 2가 1968년 제정되었는데, 이는 미국의 국가적인 표준인 USMARC Format for Bibliographic Data뿐만 아니라 세계 각국의 MARC 개발의 시초가 되었다. 캐나다의 CANMARC, 호주의 Australian MARC, 영국의 UK MARC, 독일의 MAB, 중국의 Chinese MARC, 일본의 JapanMARC, 우리나라의 KORMARC 등이 개발되었고, MARC 레코드의 국제적인 교환을 위하여 국제 도서관 협회 연맹은 UNIMARC를 제정하게 되었다[7]. 이후 인터넷의 확산과 디지털 자원의 서지 기술에 대한 다양한 요구를 수용하기 위해 미국 의회 도서관과 캐나다 국립도서관은 1999년 공동으로 USMARC 를 개정하여 오늘날의 MARC 21을 제정하게 되었다[6].

한국 문헌 자동화 목록 형식(이하 KORMARC)은 KORean MAchine Readable Cataloging의 약어로 ‘코마크’라고 부른다. KORMARC는 모든 유형의 자료에 대한서지 정보를 교환하는 것으로 도서관 시스템이 달라도 레코드 호환이 될 수 있도록 필요한 명세(specification)를 제공한다. 또한 KORMARC 형식은 국내뿐 아니라 전 세계도서관과의 서지 데이터 공유 및 교환을 위해 USMARC를 기본으로 작성되었으며 MARC 21과 높은 호환성을 갖고 있다. KORMARC는 도서관의 전통적인 카드 목록과 동일하게 기술부, 표목부, 분류기호, 청구기호로 구성되어 있으며, 국제표준자료번호 등 부가적인 정보를 수록할 수 있다. KORMARC는 한국산업표준(KS)으로 국가기술표준원이 운영하는 산업표준심의회의 승인을 받아 최종적으로 결정되며, ISO 2709(문헌정보: 정보교환형식)를 따르고 있다[3][16].

2. BIBFRAME-related studies

기존의 MARC 레코드를 BIBFRAME으로 변환하기 위해서는 공식적인 변환 명세가 필요하다. 따라서 LC에서 2017년 발표한 ‘MARC 21과 BIBFRAME 2.0과의 변환 명세’를 살펴봄으로, BIBFRAME 2.0에 대한 이해를 높이고, KORMARC 레코드 변환을 위한 시사점을 도출할 필요가 있다. 국내 관련 연구에서는 BIBFRAME 2.0에서 핵심 개체로서 표현형 개체의 추가 혹은 표현형의 명확한 기술 방안의 필요성을 제기하였으며[9], 자료유형별 다양한 기술요소를 BIBFRAME과 매핑하여 BIBFRAME에서 RDA 요소의 반영 여부를 파악하고, BIBFRAME 속성, 클래스 어휘의 개발을 제안하였다[8]. 또 다른 연구에서는 BIBFRAME 적용성을 향상시키기 위한 방안으로 BIBFRAME의 기술 수준 구분을 제안하였다. ISBD 2011 통합판의 서지 영역을 기준으로 핵심, 표준, 상세 수준의 3단계로 구분하였으며, RDF/RDFS 구문을 적용하여 구분한 기술 수준을 의미적으로 구현하였다[4].

관련 연구를 살펴보면 국내 서지 데이터에 BIBFRAME 적용을 위한 다양한 이론적, 기술적 연구가 진행 중임을 알 수 있지만 실제로 이용자들이 가장 많이 접하는 공공도서관의 서지 데이터 적용에 관한 연구는 부족한 실정이다. 따라서 본 연구에서는 공공도서관의 서지 데이터 분석을 통해 유의미한 주요 핵심 필드를 추출하여 LC에서 발표한 BIBFRAME 2.0 변환 명세를 기준으로 공공도서관의 KORMARC 서지 데이터의 변환 기법을 정의한다. 또한 오픈 소스를 활용한 변환기를 설계[하여[10][11][12][13] 실제 공공도서관의 KORMARC 서지 데이터를 BIBFRAME 2.0 형식으로 변환을 수행한다.

III. Methods

1. Identification of meaningful fields (tags)

1.1 Pre-processing of data

본 연구에서는 최신 자료의 특성에 맞게 생성된 가장 최근의 서지 데이터를 분석하고, KORMARC의 주요 사용 필드를 추출하여 BIBFRMAE 2.0 변환 여부를 살펴보고자 한다. 서울시 공공도서관 평균 장서 보유량(2019년 기준 101,477권)보다 월등히 높은 노원구립도서관(2019년 기준 219,465권)의 데이터 중 2020년 12월까지 입수된 최신 도서 5,000권의 KORMARC 데이터를 도서 관리 시스템에서 수집하여 연구 기초자료 분석에 활용하였다[14].

KORMARC의 서지 레코드는 리더, 디렉터리, 가변 길이 필드, 세 개의 주요 구성요소로 되어 있다. KORMARC 데이터의 원본은 Fig. 1와 같이 리더, 디렉터리, 기변 길이 필드가 연속으로 나열되어 있다. 본 연구에서는 KORMARC 필드 사용 빈도 분석을 위한 전 처리 작업으로 기존 필드를 XML데이터로 변환 후 Python 언어를 이용하여(Fig. 2.) 필드별 사용빈도 분석을 진행하였다.

CPTSCQ_2021_v26n11_139_f0001.png 이미지

Fig. 1. KORMARC Data / XML Data

CPTSCQ_2021_v26n11_139_f0002.png 이미지

Fig. 2. Data Field Emergence Frequency Analysis Code

1.2 Analyzing frequency of use of fields

노원구립도서관 KORMARC 서지 데이터 분석 결과, 총 230개의 KORMARC Data Feild 필드 중, 단행본 서지 데이터에서 사용되는 주요 필드는 25개로 나타났다. 추출된 25개의 필드는 Table. 1과 같다.

Table 1. Extracted meaningful KORMARC fields

CPTSCQ_2021_v26n11_139_t0001.png 이미지

그 중, 020 필드는 중복사용이 가능하므로 출현 빈도가 121.34.% 였으며, 100%인 필드는 049, 056, 090, 245, 260, 300, 950 총 7개이다. 100% 미만 ~ 90% 이상 범위의 출현 빈도로 나타난 필드는 653, 100 총 2개이며, 90% 미만 ~ 50% 이상 범위의 출현 빈도로 나타난 필드는 507, 700, 500, 740 총 4개이다. 50% 미만 ~ 10% 이상 범위의 출현 빈도로 나타난 필드는 041, 440, 504, 023, 250 총 5 개 이며, 10% 미만 ~ 1% 이상 범위의 출현 빈도로 나타난 필드는 900, 525, 940, 949, 110, 710 총 6개이다.

출현 빈도가 90% 이상인 필드는 도서 검색 및 자료 이용 시 필수적인 데이터라 할 수 있으며, 국내 공공 도서관의 서지 데이터를 BIBFRAME으로 전환 시 변환 기술 방법을 우선적으로 고려하여 적용시킬 필요가 있다.

2. Conversion to BIBFRAME

2.1 Classification of Fields for Mapping

BIBFRAME 2.0은 공식적으로 MARC 21에 대한 BIBFRAME 변환 명세만 존재한다. 따라서 KORMARC에 대한 BIBFRAME 변환 절차를 진행하기 위해 본 연구에서는 KORMARC의 특성을 이용하여 단계적 Mapping 절차를 진행한다.

MARC 21을 기반으로 개발된 KORMARC는 로컬데이터를 기술하는 필드 이외에 다른 필드들은 MARC 21과 상당히 유사하다. 따라서 KORMARC 사용 빈도 분석에서 추출된 필드들을 우선적으로 MARC 21의 필드들과 호환성 여부를 검토하며 이를 세 가지로 분류한다. 첫째, 완벽하게 호환이 되는 경우 ‘Conversion’으로 구분하며 이는 KORMARC의 서지 데이터를 BIBFRAME으로 즉시 변환할 수 있는 수준이다. 둘째, KORMARC에서는 사용하지만 MARC 21에서 존재하지 않는 필드를 구분한다. 필드 데이터의 변환이 가능하도록 국가서지 LOD를 활용하여 재정의 하며, ‘Substitution’으로 구분한다.

마지막으로 KORMARC에서만 사용하거나 MARC 21에서도 사용하지만, 변환 명세가 존재하지 않는 필드는 ‘No attempt to convert’로 구분하고 마찬가지로 국가서지 LOD를 활용하여 변환 가능 하도록 재 정의한다. 주요 사용 필드의 분류 결과는 Table. 2 와 같다.

Table 2. KORMARC Field Classification

CPTSCQ_2021_v26n11_139_t0002.png 이미지

2.2 Defining Mapping Rules

KORMARC에서 Control Fields를 제외한 Data Fields 186개 중, 공공도서관 단행본에 주로 사용되는 필드는 25 개였으며, 앞서 3분류로 정의한 필드의 매핑 분석 결과는 다음과 같다.

Conversion 분류 Fig. 3의 020 필드는 I–identifiedBy–Isbn의 형태로 기술할 수 있다. 041 필드의 본문 언어 ($a)는 W–language–Language–rdf:value URI 형태로, 원저작의 언어($h)는 W–language–Language–rdf:URI “original” 형태로 기술할 수 있다.

CPTSCQ_2021_v26n11_139_f0003.png 이미지

Fig. 3. 020/041 Mapping

Fig. 4의 100 필드는 W–contribution–Contribution–agent–Agent–bflc:name00MarcKey, 110 필드는 W–contribution–Contribution–agent–Agent–bflc: name10MarcKey, 245 필드는 I–title–Title–mainTitle–literal 형태로, 책임표시사항은 I–responsibility Statement–literal 형태로 기술 가능하다.

CPTSCQ_2021_v26n11_139_f0004.png 이미지

Fig. 4. 100/110/245 Mapping

Fig. 5의 250 필드는 I–editionStatemen, 260 필드는 I–provisionActivity–Publication–Place–Place–rdfs: label, 발행처는 I–provisionActivity–Publication-agent–Agent–rdfs:label, 발행년은 I–provisionActivity–Publication-date–literal 형태로 변환이 가능하다. 300 필드는 I–extent–Extent–rdfs:label 형태로, 기타 물리적 특성은 I–note–Note–rdfs:label 형태로 기술한다. 크기는 I–dimensions–literal 형태로 기술한다.

CPTSCQ_2021_v26n11_139_f0005.png 이미지

Fig. 5. 250/260/300 Mapping

Fig. 6의 500 필드는 I–note–Note–rdfs:label 형태로, 504 필드의 서지 주기 사항은 BIBFRAME 변환명세에 따라 W–supplementaryContent–SupplementaryContent–rdfs:label 형태로 기술한다. 525 필드는 부록 관련 주기 필드이며, W–supplementaryContent–Supplementary Content 형태로 기술하며, 653 필드는 W–bf:subject–rdfs:label 형태로 기술한다.

CPTSCQ_2021_v26n11_139_f0006.png 이미지

Fig. 6. 500/504/653 Mapping

CPTSCQ_2021_v26n11_139_f0007.png 이미지

Fig. 7. 700/710/740 Mapping

700 필드는 W–contribution–Contribution–agent–Agent–bflc:name00MarcKey 형식으로 변환이 가능하다. 710 필드는 W–contribution–Contribution–agent–Agent–bflc:name10MarcKey, 740 필드는 I–title–Title–subtitle–literal 형식으로 변환한다.

Substitution 분류 Fig. 8의 023 필드는 KORMARC에서만 사용하는 필드로써 국립중앙도서관에서 부여하는 출판 예정 도서목록(CIP)에 대한 정보를 기술하는 필드이다. BIBFRAME 변환 명세가 존재하지 않아 023 필드를 변환하기 위해서는 기술할 수 있는 LOD 정보가 필요하다. 따라서 본 연구에서는 국립중앙도서관에서 제공하는 국가서지 LOD[15][16][17] 데이터 셋을 이용하여 BIBFRAME으로 변환을 시도한다. 국가서지 LOD의 Class & Property URI 체계는 ‘http://lod.nl.go.kr/ontology/’ 이며, KORMARC의 각 필드에 따라 사용하는 어휘를 제공하고 있다[18]. 따라서 KORMARC에서만 사용 중인 CIP 번호를 국가서지 LOD의 어휘로 대체하여 변환하면 W–Document–cip-rdf:value 형태로 기술한다.

CPTSCQ_2021_v26n11_139_f0008.png 이미지

Fig. 8. 023/056/440 Mapping

056 필드는 한국십진분류기호(KDC)를 기술하는 필드로, MARC 21에서는 사용하지 않는다. 본 연구에서는 마찬가지로 국가서지 LOD를 활용하여 056 필드의 KDC 정보도 기술할 수 있도록 코드를 수정하고 BIBFRAME으로변환을 시도한다. 056 필드의 한국십진분류기호(KDC)는 BIBFRAME에서 W–classification–kdc–kdcn 형식으로 기술 가능하며, 도서 기호는 –itemNumberOfKDC, 판 표시는 -editionOfKDC–rdfs:label 형식으로 기술한다.

440 필드는 총서 사항과 총서 표제의 부출 표목이 같은 경우에 총서 사항을 기술한다. MARC 21에서는 2008년 이후 사용하지 않고, 490 필드나 830 필드에 기술하고 있다. BIBFRAME 변환 명세에 따라 총서 표제는 W–title–Title–bflc:title40MarcKey 형태로 기술하며, 총서 번호는 serisesStatement 형식을 인스턴스에 추가하여 기술한다.

Fig. 9의 9xx로 시작하는 필드는 기관의 독자적인 정보를 기술하기 위해 이용하는 로컬 필드로, MARC 21에서는 사용하지 않아 BIBFRAME 변환 명세가 존재하지 않는다. 그러나 KORMARC에서는 로컬 필드에 대한 대응 필드를 제시하고 있으며 이를 적용하여 900 필드는 700 필드로, 940 필드는 740 필드로, 949 필드는 440 필드로, 950 필드는 020 필드의 입수조건으로 대체 가능하다. 이에 따라 900 필드는 W–contribution–Contribution–agent–Agent–bflc:name00MarcKey 형식으로 변환이 가능하며, 940 필드는 I–title–Title–subtitle–literal 형식으로, 949 필드는 W–title–Title–bflc:title40MarcKey 형태로 기술 가능하다. 950 필드의 가격정보는 I–acquisitionTerms–literal 형태로 변환한다.

CPTSCQ_2021_v26n11_139_f0009.png 이미지

Fig. 9. 900/940/949/950 Mapping

No attmpt convert 분류 Fig. 10의 049 필드는 각 로컬도서관에서 도서관 부호와 소장 자료의 등록번호, 권. 연차기호, 복본 기호, 별치 기호 등을 기술하는 필드이다. 049 필드는 KORMARC에서만 사용하고 있고 MARC 21에서는 정의되어 있지 않다. 따라서 BIBFRAME 변환 명세를 제공하고 있지 않아 BIBFRAME으로의 변환이 어렵지만, 049 필드는 공공 도서관 서지 데이터에서 출현 빈도가 100% 인 매우 중요한 데이터이므로 BIBFRAME 명세에서 공식적으로 기술 방법을 정의해 줄 필요가 있다. 이에 본 연구에서는 국가서지 LOD를 활용하여 변환을 시도한다. 국가서지 LOD를 활용하여 049 필드의 소장 사항 정보도 기술할 수 있도록 코드를 수정하고 BIBFRAME으로 변환을 시도한다. 049 필드의 소장기관 부호, 등록번호, 권․연차기호, 복본 기호, 별치기호는 BIBFRAME에서 W–OfflineMeterial–Book–localHolding 형식으로 각각 기술한다.

CPTSCQ_2021_v26n11_139_f0010.png 이미지

Fig. 10. 049/090/507 Mapping

090 필드는 국립중앙도서관(052 필드)이나 미국 의회 도서관(050 필드)을 제외한 각 도서관 자관 청구기호를 기술하는 필드이다. 090 필드는 MARC 21에서 사용하지 않고 있지만, 로컬에서만 필요한 서지정보이기 때문에 마찬가지로 BIBFRAME 명세가 존재하지 않는다. 090 필드도 출현 빈도가 100%로 매우 높아 BIBFRAME 도입 시 해당 변환명세가 필요하다. 따라서 090 필드도 국가서지 LOD를 활용하여 자관 청구기호 정보를 기술할 수 있도록 코드를 수정하고 BIBFRAME으로 변환을 시도한다. 090필드의 소장기관부호, 등록번호, 권․연차기호, 복본기호, 별치기호는 049 필드와 마찬가지로 BIBFRAME에서 W–OfflineMeterial–Book–localHolding 형식으로 각각 기술 가능하다.

507 필드는 그래픽 자료의 축척 주기를 기술하는 필드인데, 노원구립도서관의 분석 데이터에는 필드의 정의와 의미가 다른 정보가 입력되어 있었다. MARC 작업 과정 확인 결과, 납품업체에서 사용하는 MARC 생성 프로그램이 통합 서지용 MARC로 변경되기 전 단행본용 MARC로 세팅되어 있어 단행본용 MARC 정보인 507 원서 주기 필드의 정보를 기록한 것으로 확인되었다. 실제 기록된 단행본용 KORMARC 507 필드의 데이터는 원서 주기(원서 원어 표기, 저자 원어 표기 등)이며 이는 현재 사용하고 있는 통합 서지용 KORMARC의 필드로 변경하여 사용 가능하다. 원서 원어 표기는 246필드로, 저자 원어 표기는 700 필드로 기술 가능하다. 따라서 MARC 21의 246/700 필드를 기준으로 BIBFRAME 변환 명세에 따라 246 필드는 I–title–VariantTitle–mainTitle-literal 형식으로 표현한다. 700 필드는 개인명이 부출 표목으로 채택된 경우에 사용하며 변환 명세에 따라 W–contribution–Contribution–agent–Agent–bflc:name00MarcKey 형식으로 변환 가능하다.

3. Applying the BIBFRAME converter

본 연구에서 제안한 변환 규칙 정의를 검증하기 위해 ‘marc2bibframe2’오픈소스 기반의 변환기를 구현하여 실험을 진행한다. 이를 위해 변환에 사용될 KORMARC 서지 데이터 중 적절한 샘플 데이터를 선정한다. 선정된 데이터는 국․내외 도서관에서 폭넓게 서지정보를 얻을 수 있는 인기도서 ‘샬롯의 거미줄(Charlotte’s web)’이다.

Table 3.의 주요 출력 결과를 살펴보면 023 필드의 CIP 정보는 BIBFRAME 명세서에는 기술되어 있지 않지만, 본연구에서 제안하는 국가서지 LOD를 활용한 변환 기법을 적용하여 BIBFRAME으로 정상 변환된 것을 확인할 수 있다. 또한 056 필드의 한국십진분류기호(KDC)정보는 MARC 21 기반의 BIBFRAME에서는 나타낼 수 없으므로, 본 연구에서 오픈소스의 코드를 수정하여 해당 정보가 출력될 수 있도록 하였다. 049 필드는 분석결과에서 확인할 수 있듯이 출현 빈도가 100%인 매우 중요한 데이터이지만 BIBFRAME에서는 변환명세가 없기 때문에 변환이 불가능하다. 따라서 본 연구에서 제안한 국가서지 LOD를 활용한 변환 기법을 이용하여 정상 변환이 가능하도록 구현하였다. 기타 필드들은 MARC 21과 KORMARC 필드의 호환성에 문제가 없기 때문에 BIBFRAME 변환기를 이용하여 정상 출력 되었음을 확인할 수 있다.

Table 3. KORMARC to BIBFRAME 2.0 Conversion

CPTSCQ_2021_v26n11_139_t0003.png 이미지

본 연구에서 제안한 변환 기법에 따라 KORMARC 샘플서지 데이터를 기반으로 진행한 실험 결과는 Table. 4와 같다. 주요 서지 데이터로 추출한 25개의 필드 중 900 필드는 700 필드로, 940 필드는 740 필드로, 949 필드는 440 필드로, 950 필드는 020 필드의 입수 조건으로 변환되어 실제 수정 사용된 필드는 21개이다. 본 연구에서 주요 필드로 추출한 25개 모두 정상적으로 BIBFRAME 변환이 완료되었음을 확인할 수 있다.

Table 4. Results of converting KORMARC data using the study method

CPTSCQ_2021_v26n11_139_t0004.png 이미지

IV. Conclusions

정보환경의 급진적인 발전에 따라 도서관 계에서도 기계 가독 목록 형식에 대한 변화가 가속화되고 있다. 이에 대한 대안으로 개발되고 있는 BIBFRAME은 폐쇄적인 도서관 서지정보에 대한 공유 및 활용을 자유롭게 할 수 있으며 링크드 데이터로 인해 도서관의 서지 데이터 정보를 더욱 확장할 수 있도록 지원한다. BIBFRAME을 국내 서지 데이터에 적용하기 위해 분석에 활용한 서지 데이터는 2019년 전국 도서관 통계를 참고하여 가장 이용률이 많은 서울시 공공 도서관 중, 장서 보유량이 평균치 이상으로 높은 노원구립도서관의 최신 서지 데이터 5,000개를 이용했다. 분석결과, 방대한 양의 서지 정보 변환 기법 중 25 개의 핵심 필드를 도출하여 변환 규칙을 명세하였다.

실제로 사용하는 최신 KORMARC 서지 데이터 분석을 통해 도출한 변환 규칙을 오픈 소스 기반의 변환기 프로그램을 활용하여 KORMARC 전용 변환기를 만들고 국내 최초로 BIBFRAME 변환을 시도했다는 점에 의의가 있으며, KORMARC 데이터 필드의 BIBFRAME 변환 적용 가능성을 확인하였다. KORMARC 서지 데이터의 BIBFRAME 변환을 위해서는 9xx 필드의 로컬 표목 사용을 최소화할 필요가 있으며, KORMARC 데이터 필드의 필드 번호 오기로 인한 변환 오류를 방지해야 한다.

BIBFRMAE 2.0의 실제 적용을 위해서는 본 연구에서 추출한 25개의 필드 외에 100여 개가 넘는 데이터 필드에 대한 추가 변환 연구가 필요하며, BIBFRAME 2.0의 공식적인 변환 명세가 없는 로컬 데이터에 대한 연구도 필요하다. 앞으로 BIBFRAME 2.0 자동 변환을 위한 데이터베이스 모델링 및 웹에서 구동하는 변환기에 대한 연구를 후속 연구로 진행하고자 한다.

참고문헌

  1. Kyung-ho Lee, and Jung-hyun Kim, "Data Listing Method: Focusing on KORMARC and MARC 21," Daegu: Taeilsa, pp, 186-398, 2016.
  2. Sung-Sook Lee, and Ji-won Lee, "Study on Conversion between MARC 21 and BIBFRAME 2.0," Journal of Social Science, 29(3), pp, 73-93, Jul 2018. https://doi.org/10.16881/jss.2018.07.29.3.73
  3. https://librarian.nl.go.kr/LI/contents/L10101000000.do
  4. Mihwa Lee, "A Study on the Considerations in Constructing BIBFRAME by Analyzing BIBFRAME 2.0," Journal of Korean Library and Information Science Society, 48(4), pp, 107-127, Dec 2017. https://doi.org/10.16981/kliss.48.4.201712.107
  5. Suin Yim, and Seungmin Lee, "A Study on the Separation of Descriptive Levels for Enhancing the Applicability of BIBFRAME," JOURNAL OF THE KOREAN SOCIETY FOR LIBRARY AND INFORMATION SCIENCE, 54(3), pp, 165-186, Aug 2020. https://doi.org/10.4275/KSLIS.2020.54.3.165
  6. Tae-soo Kim, "Understanding the list," Seoul: Korea Library Association, pp, 165-201, 2008.
  7. Jung-hyun Kim, "The actuality of the list organization," Daegu: Taeilsa, pp, 73-108, 2018.
  8. Mihwa Lee, "Analyzing BIBFRAME Cases for the Development of BIBFRAME Application Plans in Korea," Journal of Korean Library and Information Science Society, 49(2), pp, 59-78, Jun 2018. https://doi.org/10.16981/KLISS.49.2.201806.59
  9. Hye-won Lee, "A Study on Acceptance of BIBFRAME 2.0 for Sharing and Utilization of Bibliographic Data," Korean Library And Information Science Society Summer Conference, 75-90, (), May 2018.
  10. Xu, Amanda,Hess, Kirk,Akerman, Laura, "From MARC to BIBFRAME 2.0: Crosswalks," Cataloging & classification quarterly, 56(2-3), pp, 224-250, 2018. https://doi.org/10.1080/01639374.2017.1388326
  11. Steele, Thomas D, "What comes next: understanding BIBFRAME," Library hi tech, 37(3), pp, 513-524, 2019 https://doi.org/10.1108/lht-06-2018-0085
  12. Zapounidou, Sofia,Sfakakis, Michalis,Papatheodorou, Christos, "Mapping Derivative Relationships from RDA to BIBFRAME 2," Cataloging & classification quarterly, 57(5), pp, 278-308, 2019. https://doi.org/10.1080/01639374.2019.1650152
  13. Samples, Jacquie,Bigelow, Ian, "MARC to BIBFRAME : Converting the PCC to Linked Data," Cataloging & classification quarterly, 58(3-4), pp, 403-417, 2020. https://doi.org/10.1080/01639374.2020.1751764
  14. https://www.libsta.go.kr
  15. http://www.lod.go..kr
  16. Jee-Hyun Rho, "The Current State and Challenges of Linked Data in Library Cataloging," Journal of Korean Library and Information Science Society, 50(3), pp, 71-95, Sep 2019. https://doi.org/10.16981/kliss.50.3.201909.71
  17. Ok Nam Park, and Jung Sun Oh, "Deployment of BIBFRAME as a New Bibliographic Framework in Linked Data," Journal of the Korean Biblia Society for Library and Information Science, 25(4), pp, 235-263, Nov 2014 https://doi.org/10.14699/KBIBLIA.2014.25.4.235