• 제목/요약/키워드: Term weighting

검색결과 110건 처리시간 0.027초

자동 문서분류에서의 정규화 용어빈도 가중치방법 (Normalized Term Frequency Weighting Method in Automatic Text Categorization)

  • 김수진;박혁로
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2003년도 컴퓨터소사이어티 추계학술대회논문집
    • /
    • pp.255-258
    • /
    • 2003
  • This paper defines Normalized Term Frequency Weighting method for automatic text categorization by using Box-Cox, and then it applies automatic text categorization. Box-Cox transformation is statistical transformation method which makes normalized data. This paper applies that and suggests new term frequency weighting method. Because Normalized Term Frequency is different from every term compared by existing term frequency weighting method, it is general method more than fixed weighting method such as log or root. Normalized term frequency weighting method's reasonability has been proved though experiments, used 8000 newspapers divided in 4 groups, which resulted high categorization correctness in all cases.

  • PDF

An Investigation of Automatic Term Weighting Techniques

  • Kim, Hyun-Hee
    • 정보관리학회지
    • /
    • 제1권1호
    • /
    • pp.43-62
    • /
    • 1984
  • 본(本) 연구는 두 개의 중요한 목적(目的)들을 가지고 있다. 첫째 목적(目的)은 새로운 단어(單語) 가중기법(加重技法)을 고안하는 것이다. 두번째 목적(目的)은 제안된 단어(單語) 가중기법(加重技法)과 다른 네개의 단어(單語) 가중기법(加重技法)들의 문헌검색결과들을 평가하는 것이다. 본 연구에서 실행된 실험결과는 비교적 간단한 스파크 죤스(Sparck Jones)의 역문헌빈도 가중기법(加重技法)과 제안된 단어(單語) 가중기법(加重技法)의 검색결과들이 더 복잡한 계산을 요하는 다른 세개의 단어(單語) 가중기법(加重技法)들의 검색결과들보다 더 나았다.

  • PDF

Robust Algorithms for Combining Multiple Term Weighting Vectors for Document Classification

  • Kim, Minyoung
    • International Journal of Fuzzy Logic and Intelligent Systems
    • /
    • 제16권2호
    • /
    • pp.81-86
    • /
    • 2016
  • Term weighting is a popular technique that effectively weighs the term features to improve accuracy in document classification. While several successful term weighting algorithms have been suggested, none of them appears to perform well consistently across different data domains. In this paper we propose several reasonable methods to combine different term weight vectors to yield a robust document classifier that performs consistently well on diverse datasets. Specifically we suggest two approaches: i) learning a single weight vector that lies in a convex hull of the base vectors while minimizing the class prediction loss, and ii) a mini-max classifier that aims for robustness of the individual weight vectors by minimizing the loss of the worst-performing strategy among the base vectors. We provide efficient solution methods for these optimization problems. The effectiveness and robustness of the proposed approaches are demonstrated on several benchmark document datasets, significantly outperforming the existing term weighting methods.

의사연관피드백과 용어 가중치에 의한 문서요약 (Document Summarization using Pseudo Relevance Feedback and Term Weighting)

  • 김철원;박선
    • 한국정보통신학회논문지
    • /
    • 제16권3호
    • /
    • pp.533-540
    • /
    • 2012
  • 본 논문은 의사연관피드백과 의미특징기반의 용어 가중치에 의한 문서요약 방법을 제안한다. 제안된 방법은 의사연관피드백을 이용하여 사용자의 간섭을 최소화 시키며, 의미특징으로부터 유도된 용어의 가중치는 문장집합의 내부 특징을 잘 나타나기 때문에 문서요약의 질을 향상할 수 있다. 또한 가중치가 부여된 의미특징과 확장된 질의를 이용하여서 사용자의 요구사항과 제안방법의 요약결과 사이의 의미적 차이를 감소시킨다. 실험결과 제안방법이 용어의 가중치를 부여하지 않은 방법에 비해서 좋은 성능을 보인다.

용어 가중치에 의한 문서요약 (Document Summarization using Term Weighting)

  • 박선;김철원
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2012년도 추계학술대회
    • /
    • pp.704-706
    • /
    • 2012
  • 본 논문은 용어 가중치에 의한 문서요약 방법을 제안한다. 제안된 방법은 의사연관피드백을 이용하여 사용자의 간섭을 최소화 시키며, 의미특징으로부터 유도된 용어의 가중치는 문장집합의 내부 특징을 잘 나타나기 때문에 문서요약의 질을 향상할 수 있다.

  • PDF

An Optimal Weighting Method in Supervised Learning of Linguistic Model for Text Classification

  • Mikawa, Kenta;Ishida, Takashi;Goto, Masayuki
    • Industrial Engineering and Management Systems
    • /
    • 제11권1호
    • /
    • pp.87-93
    • /
    • 2012
  • This paper discusses a new weighting method for text analyzing from the view point of supervised learning. The term frequency and inverse term frequency measure (tf-idf measure) is famous weighting method for information retrieval, and this method can be used for text analyzing either. However, it is an experimental weighting method for information retrieval whose effectiveness is not clarified from the theoretical viewpoints. Therefore, other effective weighting measure may be obtained for document classification problems. In this study, we propose the optimal weighting method for document classification problems from the view point of supervised learning. The proposed measure is more suitable for the text classification problem as used training data than the tf-idf measure. The effectiveness of our proposal is clarified by simulation experiments for the text classification problems of newspaper article and the customer review which is posted on the web site.

다양한 어휘 가중치를 이용한 블로그 포스트의 자동 분류 (Automatic Classification of Blog Posts using Various Term Weighting)

  • 김수아;조희선;이현아
    • Journal of Advanced Marine Engineering and Technology
    • /
    • 제39권1호
    • /
    • pp.58-62
    • /
    • 2015
  • 대부분의 블로그 사이트에서는 미리 정의된 분류 체계에 따른 내용 기반 분류 환경을 제공하고 있으나, 작성된 포스트의 분류를 수동으로 선택해야하는 번거로움 때문에 대부분의 블로거들은 포스트에 대한 분류를 입력하지 않고 있다. 본 논문에서는 블로그 포스트의 자동 분류를 위해 블로그 사이트에서 분류별 문서를 수집하고 수집된 분류별 문서의 어휘빈도와 문서빈도, 분류별 빈도 등의 다양한 어휘 가중치 조합하여 블로그 포스트의 특성에 적합한 가중치 방식을 찾고자 한다. 실험에서는 본 논문에서 제안한 TF-CTF-IECDF를 어휘 가중치로 사용한 분류 모델이 77.02%의 분류 정확률을 보였다.

Issues and Empirical Results for Improving Text Classification

  • Ko, Young-Joong;Seo, Jung-Yun
    • Journal of Computing Science and Engineering
    • /
    • 제5권2호
    • /
    • pp.150-160
    • /
    • 2011
  • Automatic text classification has a long history and many studies have been conducted in this field. In particular, many machine learning algorithms and information retrieval techniques have been applied to text classification tasks. Even though much technical progress has been made in text classification, there is still room for improvement in text classification. In this paper, we will discuss remaining issues in improving text classification. In this paper, three improvement issues are presented including automatic training data generation, noisy data treatment and term weighting and indexing, and four actual studies and their empirical results for those issues are introduced. First, the semi-supervised learning technique is applied to text classification to efficiently create training data. For effective noisy data treatment, a noisy data reduction method and a robust text classifier from noisy data are developed as a solution. Finally, the term weighting and indexing technique is revised by reflecting the importance of sentences into term weight calculation using summarization techniques.

의미특징 기반의 용어 가중치 재산정을 이용한 문서군집의 성능 향상 (Enhancing Document Clustering Using Term Re-weighting Based on Semantic Features)

  • 박선;김경준;김경호;이성로
    • 한국정보통신학회논문지
    • /
    • 제17권2호
    • /
    • pp.347-354
    • /
    • 2013
  • 본 논문은 확장된 용어를 기반으로 용어의 가중치를 재산정하여 문서군집의 성능을 향상시키는 방법을 제안한다. 제안된 방법은 의미특징을 이용하여 군집문서의 중요 용어를 추출하고, 워드넷을 이용하여 용어를 확장함으로서 문서의 주제를 잘 나타낼 수 있다. 또한 확장된 용어를 기반으로 하여 용어의 가중치를 재산정함으로써 문서군집의 성능을 높일 수 있다. 실험결과 제안방법을 적용한 문서군집방법이 적용하지 않은 문서군집 방법에 비해서 좋은 성능을 보인다.

문서 분류를 위한 용어 가중치 기법 비교 (Comparison of term weighting schemes for document classification)

  • 정호영;신상민;최용석
    • 응용통계연구
    • /
    • 제32권2호
    • /
    • pp.265-276
    • /
    • 2019
  • 문서-용어 빈도행렬은 텍스트 마이닝에서 분석하고자 하는 개체 정보를 가지고 있는 일반적인 자료 형태이다. 본 연구에서 문서 분류를 위해 문서-용어 빈도행렬에 적용되는 기존의 용어 가중치인 TF-IDF를 소개한다. 추가하여 최근에 알려진 용어 가중치인 TF-IDF-ICSDF와 TF-IGM의 정의와 장단점을 소개하고 비교한다. 또한 문서 분류 분석의 질을 높이기 위해 핵심어를 추출하는 방법을 제시하고자 한다. 추출된 핵심어를 바탕으로 문서 분류에 있어서 가장 많이 활용된 기계학습 알고리즘 중에서 서포트 벡터 머신을 이용하였다. 본 연구에서 소개한 용어 가중치들의 성능을 비교하기 위하여 정확률, 재현율, F1-점수와 같은 성능 지표들을 이용하였다. 그 결과 TF-IGM 방법이 모두 높은 성능 지표를 보였고, 텍스트를 분류하는데 있어 최적화 된 방법으로 나타났다.