• 제목/요약/키워드: 문헌 분류

검색결과 1,231건 처리시간 0.029초

문헌빈도와 장서빈도를 이용한 kNN 분류기의 자질선정에 관한 연구 (A Study on Feature Selection for kNN Classifier using Document Frequency and Collection Frequency)

  • 이용구
    • 한국도서관정보학회지
    • /
    • 제44권1호
    • /
    • pp.27-47
    • /
    • 2013
  • 이 연구에서는 자동 색인을 통해 쉽게 얻을 수 있는 자질의 문헌빈도와 장서빈도를 이용하여 자동분류에서 자질 선정 기법을 kNN 분류기에 적용하였을 때, 어떠한 분류성능을 보이는지 알아보고자 하였다. 실험집단으로 한국일보-20000(HKIB-20000)의 일부를 이용하였다. 실험 결과 첫째, 장서빈도를 이용하여 고빈도 자질을 선정하고 저빈도 자질을 제거한 자질선정 방법이 문헌빈도보다 더 좋은 성능을 가져오는 것으로 나타났다. 둘째, 문헌빈도와 장서빈도 모두 저빈도 자질을 우선으로 선정하는 방법은 좋은 분류성능을 가져오지 못했다. 셋째, 장서빈도와 같은 단순빈도에서 자질 선정 구간을 조정하는 것이 문헌빈도와 장서빈도의 조합보다 더 좋은 성능을 가져오는 것으로 나타났다.

농학분야의 문헌분류 체계에 관한 연구 (A Study on the Classification of Agriculture)

  • 김정현;이명규
    • 한국도서관정보학회지
    • /
    • 제34권1호
    • /
    • pp.239-260
    • /
    • 2003
  • 이 연구는 농학분야의 정보자료를 효율적으로 관리하기 위한 새로운 문헌분류표의 모형을 제시하기 위하여 시도된 것이다. 이를 위해 먼저 농학분야의 학문적 정의와 범위, 체계에 대하여 고찰하였고, 현재 사용되고 있는 KDC, DDC, UDC, NDC 등의 문헌분류법에서 농학분야 주제를 전개하고 있는 강목표에 대하여 비교 분석하였고 NAL의 AGRICOLA SCC를 살펴보았다. 그리고 이를 토대로 농학분야의 새로운 문헌분류표의 강목을 설정하여 전개하였다. 새로운 강목분류표의 전개는 농업과 관련한 인문사회학, 식물관련 농업, 동물관련 농업, 인간과의 관계성, 농업관련 보조분야 순으로 전개하였고, 강목표는 23개의 항목으로 설정되었다.

  • PDF

한국십진분류법과 듀이십진분류법에 나타난 주기의 다양성에 관한 비교 연구 (A Comparative Study of Notes in KDC and DDC)

  • 정연경
    • 한국비블리아학회지
    • /
    • 제19권2호
    • /
    • pp.129-146
    • /
    • 2008
  • 문헌분류표에서 주기는 분류기호의 생성과 합성에 있어서 필수적인 도구이다. 본 연구는 문헌분류표에서 사용되고 있는 다양한 주기의 유형을 살펴보고 한국십진분류법의 주기와 비교함으로써 보다 나은 주기를 개발하고 좀 더 적합한 분류 기호를 부여할 수 있도록 하였다. 이를 위해 듀이십진분류법에서 사용되고 있는 주기의 유형을 살펴보고 한국십진분류법에서 사용되고 있는 주기를 듀이십진분류법의 주기와 비교 분석하였다. 이를 바탕으로 한국십진분류법에 추가적으로 필요한 주기와 다양한 형식을 제시하였다.

바이오 문헌에서의 단백질, 유전자 객체 인식을 위한 특징 추출 (Feature Selection for Bio Named Entity Recognition from Biological Literature)

  • 김태욱;이미정;;류근호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(C)
    • /
    • pp.166-168
    • /
    • 2012
  • 바이오 문헌으로부터의 의미 있는 객체 추출 및 상호작용 관계 추출은 수 많은 바이오 문헌으로부터 유용한 정보를 얻기 위한 필수적인 과정이다. 특히 문헌으로부터 유전자 또는 단백질 이름과 같은 바이오 객체를 정확하게 인지하는 것은 새로운 객체인식의 어려움과 객체를 찾기 위한 특징 패턴의 다양성으로 인해 도전적인 과제로 남아있다. 본 논문에서는 전처리 과정을 거친 문헌 데이터로부터 12개의 의미 있는 속성들을 선택하였다. 선택된 속성에 데이터마이닝 기법중 하나인 속성 추출 기법을 적용하여 객체를 분류하는데 있어 의미 있는 속성들을 추출하였다. 특징 추출 방법과 분류 알고리즘이 분류 성능에 미치는 영향을 평가하기 위해 각 방법의 정확도를 사용하여 분류 성능을 비교였으며, Gain Ratio Attribute Evaluation과 Symmetrical Uncertainty Attribute Evaluation 기법에 의해 추출된 속성이 가장 정확한 분류 성능을 보여주었다.

주제어기반 분류의 특성 분석 - 범주화 및 분류체계의 측면을 중심으로 - (An Analysis of the Characteristics of the Subject-based Classification System)

  • 백지원
    • 한국문헌정보학회지
    • /
    • 제47권1호
    • /
    • pp.57-79
    • /
    • 2013
  • 본 연구는 전통적인 문헌분류와 주제어기반 분류(Subject-Based Classification: SBC)의 상대적인 비교를 통하여 SBC 체계가 범주화 및 분류체계의 측면에서 갖는 특성을 분석함으로써 SBC의 정체성을 명확히 정립하는 데 목적이 있다. 분석을 위하여 12종의 실제 SBC 체계를 수집하여 그 체계의 전반 및 특성을 개괄하고, 범주화의 관점과 내용, 그리고 분류의 이론적 측면에서 DDC와 상대적인 방식으로 분석하였다. 분석의 결과 SBC 체계는 분류의 관점의 차이에서 비롯되는 범주화의 내용과 구조적인 측면에서 DDC와 큰 차이가 있으며, 분류체계로서의 요건이 적용되는 정도와 방식에 있어서도 기존의 문헌분류체계와 상반된 특성이 명확하게 드러남을 파악할 수 있었다. 따라서 향후 이러한 SBC의 특성을 고려한 분류론적 논의와 이론 개발이 필요함을 밝혔다.

문헌범주화에서 학습문헌수 최적화에 관한 연구 (Optimization of Number of Training Documents in Text Categorization)

  • 심경
    • 정보관리학회지
    • /
    • 제23권4호
    • /
    • pp.277-294
    • /
    • 2006
  • 본 연구는 실재 시스템 환경에서 문헌 분류를 위해 범주화 기법을 적용할 경우, 범주화 성능이 어느 정도이며, 적정한 문헌범주화 성능의 달성을 위하여 분류기 학습에 필요한 범주당 가장 이상적인 학습문헌집합의 규모는 무엇인가를 파악하기 위하여 kNN 분류기를 사용하여 실험하였다. 실험문헌집단으로15만 여건의 실제 서비스되는 데이터베이스에서 2,556건 이상의 문헌을 가진 8개 범주를 선정하였다. 이들을 대상으로 범주당 학습문헌수 20개(Tr-20)에서 2,000개(Tr-2000)까지 단계별로 증가시키며 8개 학습문헌집합 규모를 갖도록 하위문헌집단을 구성한 후, 학습문헌집합 규모에 따른 하위문헌집단 간 범주화 성능을 비교하였다. 8개 하위문헌집단의 거시평균 성능은 $F_1$ 값 30%로 선행연구에서 발견된 kNN 분류기의 일반적인 성능에 미치지 못하는 낮은 성능을 보였다. 실험을 수행한 8개 대상문헌집단 중 학습문헌수가 100개인 Tr-100 문헌집단이 $F_1$값 31%로 비용대 효과면에서 분류기 학습에 필요한 최적정의 실험문헌집합수로 판단되었다. 또한, 실험문헌집단에 부여된 주제범주 정확도를 수작업 재분류를 통하여 확인한 후, 이들의 범주별 범주화 성능과 관련성을 기반으로 위 결론의 신빙성을 높였다.

기술용어 분산표현을 활용한 특허문헌 분류에 관한 연구 (A Study on Patent Literature Classification Using Distributed Representation of Technical Terms)

  • 최윤수;최성필
    • 한국문헌정보학회지
    • /
    • 제53권2호
    • /
    • pp.179-199
    • /
    • 2019
  • 본 연구의 목적은 특허 문헌 분류에 가장 적합한 방법론을 발견하기 위하여 다양한 자질 추출 방법과 기계학습 및 딥러닝 모델을 살펴보고 실험을 통해 최적의 성능을 제공하는 방법론을 분석하는데 있다. 자질 추출 방법으로는 전통적인 BoW 방법과 분산표현 방식인 워드 임베딩 벡터를 비교 실험하고, 문헌 집합 구축 방식으로는 형태소 분석과 멀티그램을 이용하는 방식을 비교 검토하였다. 또한 전통적인 기계학습 모델과 딥러닝 모델을 이용하여 분류 성능을 검증하였다. 실험 결과, 분산표현 방법과 형태소 분석을 이용한 자질추출 방법을 기반으로 딥러닝 모델을 적용하였을 경우에 분류 성능이 가장 우수한 것으로 판명되었으며 섹션, 클래스, 서브클래스 분류 실험에서 전통적인 기계학습 방법에 비해 각각 5.71%, 18.84%, 21.53% 우수한 분류 성능을 보여주었다.

지적학의 학문분류체계에 관한 연구 (A Study on Knowledge Classification of Cadastral Science)

  • 권기원;김비연
    • 한국문헌정보학회지
    • /
    • 제40권1호
    • /
    • pp.39-57
    • /
    • 2006
  • 한국학술진흥재단의 연구분야분류표에 의하면 지적학은 지역개발의 중분류아래 소분류항목으로 배정되어 있어 독립된 학문분야로 인정받지 못하고 있다. 따라서 이 연구의 목적은 현행 지적학 학문분류체계의 문제점을 찾아내고 개선방안을 제시하는데 있다 이를 위해 지적학의 학문적 정의와 연구대상 지적학 관련의 학문적 성과, 지적학 교육제도와 교과목의 현황과 특징을 분석하였으며, 학문분류체계와 문헌분류에서의 분류현황을 살펴보았다. 그 결과 지적학을 복합학의 대분류영역에 배정하여 중분류로 상향 이동시키고 소분류와 세분류 항목을 설정하여 지적학의 학문분류체계를 개선할 수 있는 것으로 나타났다.

범주와 문헌분류표의 주류와의 상관성 연구 (A Relation Study on Category and Main class of Classification System)

  • 조윤정;남태우
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2003년도 제10회 학술대회 논문집
    • /
    • pp.117-125
    • /
    • 2003
  • 본 연구는 범주와 현대의 주요 문헌분류표의 주류선정에 있어서의 상관성에 대해 규명해보고자 한다. 이를 위해 먼저, 범주의 유래와 의미를 알아보고 철학적 관점, 논리학적 관점, 문헌정보학 관점에서 범주가 어떤 기능을 하고 어떠한 유형이 있는지 논하였다. 다음으로 문헌분류의 주류선정이 어떻게 이루어지고, 범주가 어떻게 적용되었는지 그 상관성에 대해서 분석하였다.

  • PDF

식물학문헌을 위한 자동분류시스템의 개발 (Developing an Automatic Classification System for Botanical Literatures)

  • 김정현;이경호
    • 한국도서관정보학회지
    • /
    • 제32권4호
    • /
    • pp.99-117
    • /
    • 2001
  • 본 연구는 분류자동화를 위해 이미 연구된 바 있는 농학 및 의학분야의 AutoBC 시스템에 대한 계속적인 연구의 일환으로 식물학분야의 문헌에 대해 분류자동화가 가능한지의 여부를 CC의 원리를 응용하여 실험 및 검증한 것이다. 분류자동화를 위한 데이터베이스는 원통형과 행렬식의 원리에 의해 설계되었으며, 문헌의 표제나 키워드를 입력하여 자동적인 주제인지 및 분류기호가 생성될 수 있는 윈도우용 자동분류시스템을 새로이 개발하여 실험하였다.

  • PDF