• 제목/요약/키워드: 표제 분류

검색결과 17건 처리시간 0.03초

공공도서관 도서 분류를 위한 머신러닝 적용 가능성 연구 - 사회과학과 예술분야를 중심으로 - (A Study on Applicability of Machine Learning for Book Classification of Public Libraries: Focusing on Social Science and Arts)

  • 곽철완
    • 한국비블리아학회지
    • /
    • 제32권1호
    • /
    • pp.133-150
    • /
    • 2021
  • 이 연구의 목적은 공공도서관의 도서 분류를 위해 표제를 대상으로 머신러닝 기법의 적용 가능성을 조사하는데 있다. 데이터 분석은 아나콘다 플랫폼의 쥬피터 노트북을 통하여 파이썬의 싸이킷런 라이브러리를 이용하였다. 한글 형태소 분석을 위해 KoNLPy 분석기와 Okt 클래스를 사용하였다. 분석 대상은 공공도서관의 KORMARC 레코드에서 추출된 2,000건의 표제 필드와 KDC 분류기호(300대와 600대)이었다. 6가지 머신러닝 모델을 이용하여 데이터를 분석한 결과, 도서 분류에 머신러닝 적용 가능성이 있다고 판단되었다. 사용된 모델 중 표제 분류의 정확도는 신경망 모델이 가장 높았다. 표제 분류의 정확도 향상을 위해 도서 표제에 대한 조사와 표제의 토큰화 및 불용어에 대한 연구 필요성을 제안하였다.

백과사전 데이타베이스를 위한 색인시스템 설계 (The Design of Index System for Encyclopedia Database)

  • 추윤미;최석두
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 1994년도 제1회 학술대회 논문집
    • /
    • pp.37-40
    • /
    • 1994
  • 백과사전 데이타베이스의 효과적인 검색을 위한 색인시스템을 설계하였다. 여기에서는 항목에 대한 각종 속성정보와 본문정보를 모두 포함한 색인표제어파일을 작성하고, 각 항목에 대한 참조항목을 별도로 두지 않고 시소러스파일의 BT, NT, RT, UF를 사용하여 그 항목과 연관된 항목을 참조하도록 한다. 시소러스파일은 각 색인표제어에 부여한 주제분류기호(DDC, 또는 KDC)의 계층구조를 이용하여 자동생성한 후 색인자의 수작업을 거쳐 작성된다. 이 색인시스템을 통해 백과사전에 포함되어 있는 모든 정보를 이용한 다양한 접근이 가능하며 시소러스를 사용하여 관련항목을 브라우징을 할 수 있어 포괄적인 검색이 가능하다.

  • PDF

한국어 형용사 의미계층의 전산적 추출 (The Computational Extraction of Semantic Hierarchies for Korean Adjectives)

  • 송상헌;최재웅
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2006년도 제18회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.109-116
    • /
    • 2006
  • 자연 언어의 각 어휘는 서로 관계를 가지고 계층적 입체적 모델로 존재한다. 이러한 전제에서 출발한 연구 가운데 대표적인 것이 의미 계층이다. 본고에서는 한국어 형용사의 의미 계층을 추출하는 것을 목표로 하여, 형식적 객관적 방법론을 정립하고, 결과를 비교적 신속하고 정확하게 이끌어 낼 수 있는 전산적 처리 도입하였다. 우선 전체 구축에 필요한 절차를 세우고 각 단계에서 필요한 방법과 휴리스틱을 정리하였다. 이를 바탕으로 사전 뜻풀이말을 이용하여 반자동으로 작업하였으며, 일부 코퍼스를 활용하였다 최종 알고리즘으로는 Top-Down 방식을 택하였다. 이렇게 추출된 한국어 형용사 의미 계층은 226개의 최상위어에서 시작하여 총 3,792개의 표제어를 망라한다. 또한 수직적 계열 관계만을 명시했을 경우 나타날 수 있는 한계를 보완하기 위해, 동의어 반의어와 같은 수평적 의미 관계와 공기 명사와 같은 결합 관계 등을 함께 기술하였다. 한편 표제항을 뜻풀이말의 공기 명사를 이용하여 의미별로 분류하고 각 분류마다 별도의 의미 계층을 수립하였다.

  • PDF

DB강좌(1) - 메타데이터의 개요

  • 안계성
    • 디지털콘텐츠
    • /
    • 9호통권64호
    • /
    • pp.63-69
    • /
    • 1998
  • 메타데이터는 일반적으로 데이터에 관한 데이터로서 자원의 속성을 기술하는 데이터를 의미한다. 표제, 저자, 주제명 분류 기호 등이 포함되는 기존 도서관의 목록 레코드, 초록, 색인에 의해 생성된 데이터베이스 레코드는 이러한 의미에서 메타데이터라고 할 수 있다.

  • PDF

NIE를 위한 교육 정보 수집 에이전트의 설계 및 구현 (Design and Implementation of Educational Newspaper Information Gathering Agent for NIE)

  • 이철환;한선관
    • 컴퓨터교육학회논문지
    • /
    • 제3권1호
    • /
    • pp.169-176
    • /
    • 2000
  • 본 논문은 NIE교육을 위하여 웹에서 분산된 교육적인 신문 정보들을 수집하여 교사와 학습자에게 제공하기 위한 ENIG Agent에 관한 연구이다. ENIG Agent는 교육적인 신문 정보를 학습자에게 실시간으로 제공하기 위하여 해당 교육 신문 사이트 기사의 표제들을 취득한다. 최적화된 표제의 추출은 교육용 신문 사이트의 전처리 과정과 잡음 제거 작업 및 패턴 매칭을 통하여 이루어진다. 얻어진 교육용 신문 표제 정보는 NIE를 위하여 학습자에게 웹브라우저를 통해 제시된다. 얻어진 자료의 활용도를 높이기 위해 지능적인 학습 기능과 시각적인 분류 기술을 이용한다. 실험을 통하여 본 연구에서 설계 구현된 ENIG 에이전트의 효율성을 살펴보았다.

  • PDF

식물학문헌을 위한 자동분류시스템의 개발 (Developing an Automatic Classification System for Botanical Literatures)

  • 김정현;이경호
    • 한국도서관정보학회지
    • /
    • 제32권4호
    • /
    • pp.99-117
    • /
    • 2001
  • 본 연구는 분류자동화를 위해 이미 연구된 바 있는 농학 및 의학분야의 AutoBC 시스템에 대한 계속적인 연구의 일환으로 식물학분야의 문헌에 대해 분류자동화가 가능한지의 여부를 CC의 원리를 응용하여 실험 및 검증한 것이다. 분류자동화를 위한 데이터베이스는 원통형과 행렬식의 원리에 의해 설계되었으며, 문헌의 표제나 키워드를 입력하여 자동적인 주제인지 및 분류기호가 생성될 수 있는 윈도우용 자동분류시스템을 새로이 개발하여 실험하였다.

  • PDF

화상 정보의 DB 구축과 검색 요소

  • 안용남
    • 정보관리학회지
    • /
    • 제8권2호
    • /
    • pp.108-124
    • /
    • 1991
  • 정보량이 많은 사진과 같은 화상 정보는 대용량을 갖고 있는 광 디스크에 축적시켜 DB를 구축하고 이는 컴퓨터를 이용해 고속 검색할 수 있다. 사진 DB 구축은 사진의 양, 구 축 목적, 이용 대상, 활용 방법 등에 따라 방법을 달리할 수 있으며 이의 검색 요소에는 촬 영 행위, 촬영 조건, 표제, 주제의 4가지 요소가 있고 그 중 가장 중요시되는 주제 요소에는 감각 정보, 주제 분류, 키워드가 있다.

  • PDF

유사문헌집단에서 적합/부적합정보의 유용성에 관한 연구 (A Study on the Utility of Relevance/Non-relevance Information in Homogeneous Documents)

  • 문성빈
    • 정보관리학회지
    • /
    • 제32권3호
    • /
    • pp.277-293
    • /
    • 2015
  • 본 논문에서는 문헌의 적합성수준을 적합성정도에 따라 4그룹(부적합한, 조금 적합한, 적합한, 매우 적합한)으로 나눈 후 서로 다른 심사자가 적합성 판정을 내린 4개의 적합성 판정세트(A, B, C, D)에서 "조금 적합한" 문헌을 부적합문헌으로 분류했을 때와 적합문헌으로 분류하였을 때에, 초록/표제 시스템과 전문검색시스템에서 적합성피드백으로 인한 검색효율성의 증진은 어느 쪽이 더 혜택을 받게 되는 지를 연구하였다. "조금 적합한" 문헌을 적합문헌으로 포함시켰을 때 초록/표제시스템이 전문검색시스템보다 모든 적합성판정세트에서 검색효율성의 증가율이 높았고, 반면에 전문검색시스템에서는 "조금 적합한" 문헌을 적합문헌그룹에서 제외시켰을 때 검색효율성의 증가율이 일관성 있게 높아지는 것을 발견하였다. 이는 전문검색시스템에서는 적합문헌으로 포함된 "조금 적합한" 문헌으로부터 얻어지는 적합성피드백 정보는 잡음의 역할을 하게 되어 검색효율성의 증진에 도움이 안 되고 있음을 암시하고 있다. 특히, 매우 동질적인 문헌을 색인 및 검색대상으로 하고 있는 전문검색시스템에서는 잡음에 의해 초래되는 낮은 정확률을 개선하는 정교한 검색기법에 대한 연구가 지속되어야만 한다.

1948년에 출간된 조복성의 곤충 관련 저작에 관한 연구 - 『곤충이야기』와 『곤충기』를 중심으로 - (A Study on Jo Bok-seong's Insect-related Books Published in 1948: Focused on Story of Insects and About Insects)

  • 진나영
    • 한국문헌정보학회지
    • /
    • 제53권2호
    • /
    • pp.267-294
    • /
    • 2019
  • 본 연구는 1948년에 발행된 생물학자 조복성의 저작인 "곤충이야기"와 "곤충기"를 대상으로 형태 및 체제, 내용분석을 통해 두 저작의 특징과 구성 및 내용에 대해 심도 있게 살펴보았다. 을유문화사의 병설단체인 아협에서 발행한 "곤충이야기"는 A5판의 국판(菊版), 을유문화사에서 발행한 "곤충기"는 A6판 문고판으로 출간되었다. 또한 "곤충이야기"는 앞표지-표제지-머리말-차례-본문-판권기-광고-뒤표지로, "곤충기"는 앞표지-표제지-목차-서언-본문-판권기-을유문고 발간사(發刊辭)-광고-뒤표지의 체제로 구성되었다. 두 저작의 내용을 통해 주요 독자층은 "곤충이야기"의 경우 어린이 및 소학생, "곤충기"는 대학생 및 청년으로 밝혀졌다. 또한 "곤충이야기"에서는 65종 곤충을 조복성이 설정한 11개의 류(類), "곤충기"는 약 56종의 곤충에 대해 9개의 류(類)의 분류체계에 따라 설명했다. 두 저작에 수록된 곤충의 수와 분류체계의 명칭은 서로 달랐으나 "곤충이야기"의 분류체계 대부분이 "곤충기"의 것에 수용됨을 확인했다.

온톨로지 기반의 태그 정보 검색 (Tag Information Search based on Ontoloty)

  • 한기동;이창훈
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2008년도 추계학술발표대회
    • /
    • pp.757-759
    • /
    • 2008
  • 기존의 웹 서비스가 수동적이고, 단방향 통신을 축으로 뒀다면 현재의 웹 서비스는 점차 능동적이고 변화되었으며, 양방향 통신 환경을 지향하게 되었다. 이러한 웹 서비스 변화의 흐름을 일컬어 웹 2.0이라 한다. 웹 2.0 세대를 살아가는 사용자들은 기존과 다른 다양한 정보의 홍수에 노출되게 되었다. 이들은 일방적이고, 제한적인 정보를 얻는 기존 환경에서 탈피, 스스로 가치 있는 정보를 생산해 내기 시작했고, 이렇게 생산된 정보는 인터넷을 통해 다른 사용자와 교류하며 더욱 가치 있는 정보를 창출해 나가고 있다. 이런 발전 과정에서 지속적으로 더욱 더 커져가는 정보를 더 빠르고 정확하게 공유하는 기술이 필요하게 되었고, 현재 이런 필요성을 충족시키는데 유용한 기술의 한 갈래로 나온 것이 태그와 시맨틱 웹으로 대표되는 온톨로지 이다. 태그는 정보의 주제나 표제를 나타내는 단어를 해당 컨텐츠 정보를 제공하는 사이트에서 정보 분류 단위로 사용, 이를 통한 더 빠른 정보 공유를 할 수 있게 되었다. 시맨틱 웹은 현재의 인터넷과 같은 다양한 리소스에 대한 정보와 자원 사이의 관계-의미 정보를 기계(컴퓨터)가 처리할 수 있는 온톨로지 형태로 표현하고, 이를 자동화된 기계(컴퓨터)가 처리하도록 하는 기술이다. 이 논문에서는 웹 2.0의 대표기술이라 할 수 있는 온톨로지 기법을 이용, 기존 태그의 정보 분류 효율을 높이기 위한 태그와 태그의 의미관계 형성을 제안하였다.