• Title/Summary/Keyword: 자동 문서분류기법

Search Result 111, Processing Time 0.026 seconds

Automatic Document Categorization Using K-Nearest Neighbor Algorithm and Object-Oriented Thesaurus (K-NN과 객체 지향 시소러스를 이용한 웹 문서 자동 분류)

  • 방선이;양재동
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10b
    • /
    • pp.145-147
    • /
    • 2001
  • 문서 자동 분류에는 통계적인 기법과 machine learning 기법의 맡은 알고리즘들이 이용되고 있다. 통계적인 기법 알고리즘을 이용한 문서 분류는 높은 성능을 보이지만 분류할 카테고리가 둘 이상인 경우가 빈번할 경우에는 정확률이 급격히 저하되는 단점이 있다. 본 논문에서는 K-NN알고리즘을 이용하여 일차적인 문서 분류를 수행한 후 특정 카테고리로 분류하기에 애매모호한 경우가 생길 경우 시소러스의 일반화 관계와 연관화 관계를 이용하여 모호성을 줄임으로써 문서 자동 분류의 성능을 높이기 위한 새 기법을 제안한다.

  • PDF

The selection of Best suited Automatic Web Document Classification Based on Intranet (인트라넷 기반의 최적의 웹문서 자동 분류기법 선정)

  • 김국희;윤희병
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2004.10a
    • /
    • pp.423-426
    • /
    • 2004
  • 인트라넷에서는 증가하는 웹문서의 검색을 목적으로 웹 검색엔진의 도입이 활발히 진행 중이며 대부분 찾아야할 키워드를 알고 접근하는 검색엔진 형태이다. 그러나 사용자가 무엇을 찾아야 하는지 모르는 경우 웹문서 분류체계는 효율적인 방법을 제시할 수 있다. 일부 구축되어 있는 분류체계는 수작업에 의한 분류로 인해 증가하는 웹문서의 양에 효율적으로 대처하기 곤란하므로 자동분류기법을 활용한 분류가 더 효율적일 것이다. 본 논문에서는 국방인트라넷의 수작업으로 구축된 분류체계를 대상으로 용어 가중치를 계산하는 방법을 달리하여 다양한 분류기법을 적용하여 성능을 비교평가하고 웹문서 자동분류시스템에 적용하여 분류성능의 향상을 도모하고자 한다.

  • PDF

An Automatic Text Classification Model using Association Rules (데이타마이닝 기법을 이용한 문서 자동 분류 모델)

  • 김영인;이진용;문현정;우용태
    • Proceedings of the Korea Database Society Conference
    • /
    • 2000.11a
    • /
    • pp.101-108
    • /
    • 2000
  • 기업에서 보유한 전문 지식 정보가 급속도로 증가함에 따라 대량의 문서에 저장된 지식 정보를 효과적으로 탐색하여 기업 경영에 활용하기 위한 지식경영시스템 도입이 확산되고 있다. 이러한 지식경영시스템에서 핵심적인 구성 요소는 전문 분야의 지식 정보를 체계적으로 분류하고 효율적으로 검색하기 위한 지식 탐사 기법이다. 본 논문에서는 데이타마이닝 기법을 이용하여 문서를 자동적으로 분류하기 위한 새로운 모델을 제안하였다. 연관 규칙 탐사 알고리즘을 이용하여 학습용 문서 집합으로부터 세부 분야를 대표하는 색인어 집합을 구성하였다. 세부 분야별 색인어 집합에 대하여 전체 문서에 대한 비중에 따라 가중치 배열을 구성하여 문서를 자동으로 분류하기 위한 기준으로 삼았다. 임의의 문서를 자동적으로 분류하는 실험을 통하여 제안된 방법의 효율성을 검정하였다.

  • PDF

Automatic Text Categorization Using Text Summarization Techniques (문서 요약 기법을 이용한 자동 문서 범주화)

  • Park, Jin-Woo;Ko, Young-Joong;Seo, Jung-Yun
    • Annual Conference on Human and Language Technology
    • /
    • 2001.10d
    • /
    • pp.138-145
    • /
    • 2001
  • 자동 문서 범주화란 문서의 내용에 기반하여 미리 정의되어 있는 범주에 문서를 자동으로 분류하는 작업이다. 문서 분류를 위해서는 문서들을 가장 잘 표현할 수 있는 자질들을 정하고, 이러한 자질들을 통해 분류할 문서를 표현해야 한다. 기존의 연구들은 문장간의 구분 없이, 문서 전체에 나타난 각 자질의 빈도수를 이용하여 문서를 표현 한다. 그러나 하나의 문서 내에서도 중요한 문장과 그렇지 못한 문장의 구분이 있으며, 이러한 문장 중요도의 차이는 각각의 문장에 나타나는 자질의 중요도에도 영향을 미친다. 본 논문에서는 문서에서 사용되는 중요 문장 추출 기법을 문서 분류에 적용하여, 문서 내에 나타나는 각 문장들의 문장 중요도를 계산하고 문서의 내용을 잘 나타내는 문장들과 그렇지 못한 문장들을 구분하여 각 문장에서 출현하는 자질들의 가중치를 다르게 부여하여 문서를 표현한다. 이렇게 문장들의 중요도를 고려하여 문서를 표현한 기법의 성능을 평가하기 위해서 뉴스 그룹 데이터를 구축하고 실험하였으며 좋은 성능을 얻을 수 있었다.

  • PDF

A Fast Text Classifier with feature Value Voting and Document-Side Feature Selection (자질값투표 기법과 문서측 자질 선정을 이용한 고속 문서 분류기)

  • Lee, Jae-Yun
    • Proceedings of the Korean Society for Information Management Conference
    • /
    • 2005.08a
    • /
    • pp.71-78
    • /
    • 2005
  • 빠르면서도 정확한 문서 자동분류를 위해서 자질값투표 기법과 문서측 자질선정 방식의 결합을 제안하였다. 자질값은 미리 학습된 분류자질과 분류범주간의 연관성을 뜻하는 것으로서, 자질값투표 기법은 분류대상 문서에 나타난 자질들의 자질값을 후보범주마다 합산하여 가장 높은 범주로 분류하는 것이다. 문서측 자질선정은 일반적인 분류자질선정과 달리 학습집단이 아닌 분류대상 문서의 자질 중 일부만을 선택하여 분류에 이용하는 방식이다. 이들을 결합하여 사용한 결과 실험환경에서는 나이브베이즈 분류기만큼 간단하고 빠르면서 SVM 분류기보다 좋은 성능을 보였다.

  • PDF

Machine Learning Technique for Automatic Precedent Categorization (자동 판례분류를 위한 기계학습기법)

  • Jang, Gyun-Tak
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2007.05a
    • /
    • pp.574-576
    • /
    • 2007
  • 판례 자동분류 시스템은 일반적인 문서 자동분류 시스템과 기본적인 동작방법은 동일하다. 본 논문에서는 노동법에 관련된 판례를 대상으로 지지벡터기계(SVM), 단일 의사결정나무, 복수 의사결정나무, 신경망 기법 등을 사용하여 문서의 자동 분류 실험을 수행하고, 판례분류에 가장 적합한 기계학습기법이 무엇인지를 실험해 보았다. 실험 결과 복수 의사결정나무가 93%로 가장 높은 정확도를 나타내었다.

  • PDF

Improving the Performance of a Fast Text Classifier with Document-side Feature Selection (문서측 자질선정을 이용한 고속 문서분류기의 성능향상에 관한 연구)

  • Lee, Jae-Yun
    • Journal of Information Management
    • /
    • v.36 no.4
    • /
    • pp.51-69
    • /
    • 2005
  • High-speed classification method becomes an important research issue in text categorization systems. A fast text categorization technique, named feature value voting, is introduced recently on the text categorization problems. But the classification accuracy of this technique is not good as its classification speed. We present a novel approach for feature selection, named document-side feature selection, and apply it to feature value voting method. In this approach, there is no feature selection process in learning phase; but realtime feature selection is executed in classification phase. Our results show that feature value voting with document-side feature selection can allow fast and accurate text classification system, which seems to be competitive in classification performance with Support Vector Machines, the state-of-the-art text categorization algorithms.

An Automatic Text Categorization Theories and Techniques for Text Management (문서관리를 위한 자동문서범주화에 대한 이론 및 기법)

  • Ko, Young-Joong;Seo, Jung-Yun
    • Journal of Information Management
    • /
    • v.33 no.2
    • /
    • pp.19-32
    • /
    • 2002
  • With the growth of the digital library and the use of Internet, the amount of online text information has increased rapidly. The need for efficient data management and retrieval techniques has also become greater. An automatic text categorization system assigns text documents to predefined categories. The system allows to reduce the manual labor for text categorization. In order to classify text documents, the good features from the documents should be selected and the documents are indexed with the features. In this paper, each steps of text categorization and several techniques used in each step are introduced.

A Feature Selection Technique for an Efficient Document Automatic Classification (효율적인 문서 자동 분류를 위한 대표 색인어 추출 기법)

  • 김지숙;문현정;김영지;우용태
    • Proceedings of the Korea Database Society Conference
    • /
    • 2001.06a
    • /
    • pp.295-302
    • /
    • 2001
  • 최근 대량의 텍스트 문서로부터 의미 있는 패턴이나 연관 규칙을 발견하기 위한 텍스트마이닝 기법에 대한 연구가 활발히 전개되고 있다. 하지만 비정형 텍스트 문서로부터 추출된 용어의 수는 불규칙적이고 일반적인 용어가 많이 추출되는 관계로 기존의 연관 규칙 탐사 방법을 사용하게 되면 무의미한 연관 규칙이 대량으로 생성되어 지식 정보를 효과적으로 검색하기 어렵다. 본 논문에서는 연관 규칙 탐사 기법을 이용하여 비감독학습 기법에 의해 대량의 문서를 효율적으로 분류하기 위한 대표 색인어 추출 기법을 제안하였다. 컴퓨터 분야의 논문을 대상으로 각 분야별 대표 색인어를 추출하여 유사한 문서끼리 분류하는 실험을 통해 제안된 방법의 효율성을 보였다.

  • PDF

An Automatic Document Classification with Bayesian Learning (베이지안 학습을 이용한 문서의 자동분류)

  • Kim, Jin-Sang;Shin, Yang-Kyu
    • Journal of the Korean Data and Information Science Society
    • /
    • v.11 no.1
    • /
    • pp.19-30
    • /
    • 2000
  • As the number of online documents increases enormously with the expansion of information technology, the importance of automatic document classification is greatly enlarged. In this paper, an automatic document classification method is investigated and applied to UseNet 20 newsgroup articles to test its efficacy. The classification system uses Naive Bayes classification algorithm and the experimental result shows that a randomly selected newsgroup arcicle can be classified into its own category over 77% accuracy.

  • PDF