• Title/Summary/Keyword: 문서클러스터링

Search Result 167, Processing Time 0.026 seconds

K-means Clustering Method according to Documentation Numbers (문서 수에 따른 가중치를 적용한 K-means 문서 클러스터링)

  • 조시성;안동언;정성종;이신원
    • Proceedings of the IEEK Conference
    • /
    • 2003.07d
    • /
    • pp.1557-1560
    • /
    • 2003
  • 본 논문에서는 이 문서 클러스터링 방법 중 계층적 방법인 Kmeans 클러스터링 알고리즘을 이용하여 문서를 클러스터링 하고자 한다. 기존의 Kmeans 클러스터링 알고리즘은 문서의 수가 많을 경우 하나의 클러스터링에 너무 많은 문서들이 할당되는 문제점이 있다. 이 치우침을 완화하고자 각 클러스터링에 할당된 문서 수에 따라서 문서에 가중치를 부여한 후 다시 클러스터링을 하는 방법을 제안하였다. 실험 결과는 정확률, 재현율을 결합한 조화 평균(F-measure)을 사용하여 평가하였으며 기존 알고리즘보다 9%이상의 성능 향상을 나타냈다.

  • PDF

Hierarchical Overlapping Document Clustering for Efficient Categorization of Semantic Information (의미정보의 효율적인 분류를 위한 계층적 중복 문서 클러스터링)

  • 강동혁;주길홍;이원석
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10a
    • /
    • pp.175-177
    • /
    • 2001
  • 기존의 문서 클러스터링 알고리즘은 모든 문서가 각각 하나의 클러스터에만 할당되도록 설계되어 문서에 여러 개의 주제가 포함되어 있을지라도 문서는 유사도 비교에 의해 오직 하나의 플러스터에 포함된다는 단점이 있다. 본 연구에서는 이러한 문서 플러스터링 방법의 한계를 파악하기 위해 문서가 여러 개의 클러스터에 포함될 수 있는 계층적 중복 문서 클러스터링을 제안한다. 또한, 문서 클러스터링의 정확도를 높이기 위해서 불용어 제거 알고리즘을 이용해 불용어를 제거하여 클러스터링에 사용되는 키워드를 선별하고, 단어가중치 산출을 위한 TF*NHDF 공식을 제안한다.

  • PDF

K-means Clustering Method according to Documentation Numbers (문서 수에 따른 가중치를 적용한 K-means 문서 클러스터링)

  • Cho, Cea-Sung;An, Dong-Un;Jeong, Sung-Jong;Lee, Shin-Won
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2003.05a
    • /
    • pp.345-348
    • /
    • 2003
  • 본 논문에서는 이 문서 클러스터링 방법 중 계층적 방법인 Kmeans 클러스터링 알고리즘을 이용하여 문서를 클러스터링 하고자 한다 기존의 Kmeans 클러스터링 알고리즘은 문서의 수가 많을 경우 하나의 클러스터링에 너무 많은 문서들이 할당되는 문제점이 있다. 이 치우침을 완화하고자 각 클러스터링에 할당된 문서 수에 따라서 문서에 가중치를 부여한 후 다시 클러스터링을 하는 방법을 제안하였다. 실험 결과는 정확률, 재현율을 결합한 조화 평균(F-measure)를 사용하여 평가하였으며 기존 알고리즘보다 9%이상의 성능 향상을 나타냈다.

  • PDF

Document clustering based on summarized document using K-means algorithm (요약 문서 기반 문서 클러스터링)

  • Oh, Hyung-Jin;Ko, Ji-Hyun;An, Dong-Un;Chung, Sung-Jong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2002.04a
    • /
    • pp.589-592
    • /
    • 2002
  • 정보검색 시스템에서 문서 클러스터링 기법은 사용자 질의에 대하여 검색된 문서를 문서간의 관련도에 따라 클러스터로 구성하고 사용자에게 검색 결과로 보여주는 것이다. 본 논문에서는 사용자의 질의에 대하여 검색된 문서를 자동 문서 요약기를 통해 얻은 요약 문서와 문서 전문을 문서들간의 유사도를 기반으로 동적으로 클러스터링 한다. 구현한 시스템의 클러스터링 효과를 검증한 결과 검색된 문서 전문을 클러스터링 한 방식에 비해 요약 문서를 클러스터링 한 방식이 정확률 측면에서 더 나은 성능을 보였다.

  • PDF

Keyword-based Document C lustering Algorithm (주제어 기반 문서 클러스터링 알고리즘)

  • 장성호;강승식
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.04b
    • /
    • pp.469-471
    • /
    • 2002
  • 높은 연관성을 갖는 문서들을 서로 집단화시키는 문서 클러스터링은 문서와 문서간의 연관성을 확인할 수 있는 문서의 주제어 추출이 중요한 문제이며 일반적인 정보검색 시스템에서 사용하는 출현빈도에 의한 주제어 추출은 성능 향상에 한계가 있다. 또한, 문서 클러스터링은 문서를 집단화시키기 위해 문서간 연관성을 확인하기 위해 유사도 계산에 따른 시간과 공간을 많이 소비하는 문제를 가지고 있다. 본 논문에서는 주제어 추출 기법을 적용하여 주제어 연관성에 의해 문서들을 집단화시키는 새로운 방법의 문서 클러스터링 알고리즘을 제안한다.

  • PDF

An Effective Incremental Text Clustering Method for the Large Document Database (대용량 문서 데이터베이스를 위한 효율적인 점진적 문서 클러스터링 기법)

  • Kang, Dong-Hyuk;Joo, Kil-Hong;Lee, Won-Suk
    • The KIPS Transactions:PartD
    • /
    • v.10D no.1
    • /
    • pp.57-66
    • /
    • 2003
  • With the development of the internet and computer, the amount of information through the internet is increasing rapidly and it is managed in document form. For this reason, the research into the method to manage for a large amount of document in an effective way is necessary. The document clustering is integrated documents to subject by classifying a set of documents through their similarity among them. Accordingly, the document clustering can be used in exploring and searching a document and it can increased accuracy of search. This paper proposes an efficient incremental cluttering method for a set of documents increase gradually. The incremental document clustering algorithm assigns a set of new documents to the legacy clusters which have been identified in advance. In addition, to improve the correctness of the clustering, removing the stop words can be proposed and the weight of the word can be calculated by the proposed TF$\times$NIDF function.

A Clustering Technique using Common Structures of XML Documents (XML 문서의 공통 구조를 이용한 클러스터링 기법)

  • Hwang, Jeong-Hee;Ryu, Keun-Ho
    • Journal of KIISE:Databases
    • /
    • v.32 no.6
    • /
    • pp.650-661
    • /
    • 2005
  • As the Internet is growing, the use of XML which is a standard of semi-structured document is increasing. Therefore, there are on going works about integration and retrieval of XML documents. However, the basis of efficient integration and retrieval of documents is to cluster XML documents with similar structure. The conventional XML clustering approaches use the hierarchical clustering algorithm that produces the demanded number of clusters through repeated merge, but it have some problems that it is difficult to compute the similarity between XML documents and it costs much time to compare similarity repeatedly. In order to address this problem, we use clustering algorithm for transactional data that is scale for large size of data. In this paper we use common structures from XML documents that don't have DTD or schema. In order to use common structures of XML document, we extract representative structures by decomposing the structure from a tree model expressing the XML document, and we perform clustering with the extracted structure. Besides, we show efficiency of proposed method by comparing and analyzing with the previous method.

Document Clustering using Generic Algorithm and Cluster Measurement (클러스터 측정과 유전자 알고리즘을 이용한 문서 클러스터링)

  • Choi, Lim Cheon;Park, Soon Cheol
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2010.11a
    • /
    • pp.490-493
    • /
    • 2010
  • 본 논문에서는 클러스터 측정(Cluster Measurement)과 유전자 알고리즘을 이용한 문서 클러스링 알고리즘을 제안한다. 유전자 알고리즘의 요소를 클러스터링에 대입하고 클러스터 측정을 적합도 함수에 대입하여 문서 클러스터링을 구현하였다. 성능 평가를 위하여 한국일보-20000/한국일보-40075 문서범주화 실험문서집합의 데이터 셋을 이용하였다. 클러스터링 성능 평가 결과 AS Index가 DB Index, RS Index 보다 좋은 성능을 보여준다. 또한 제안한 알고리즘이 K-means 클러스터링 알고리즘에 비교해 안정적으로 좋은 성능을 보여준다.

Clustering and Association Rule Mining of Transactions using Large Items (주요 항목 집합을 이용한 문서 클러스터링 및 연관 탐사 기법)

  • 서성보;김선철;이준욱;류근호
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.04b
    • /
    • pp.169-171
    • /
    • 2000
  • 현재 광범위한 웹 문서를 검색하기 위해서 많은 사용자들이 여러 종류의 검색엔진을 사용하고 있다. 하지만 대부분의 사용자는 검색엔진에 의해 검색된 문서의 순서화가 된 긴 리스트의 검색 문서들과 이들이 갖는 낮은 신뢰도에 대해 검색된 문서 중에 자신이 원하는 타당한 문서를 검색하는 불편함이 있어 왔다. 정보 검색에서 문서의 클러스터링은 검색된 결과를 재구성하는 효율적이고 선택적인 방법이다. 이 연구에서는 문서를 트랜잭션 관점에서 해석하여 하나의 클러스터에 대해 유사성을 측정하기 이해 주요항목과 비 주요항목으로 구분하여 각 트랜잭션의 최소 비용 계산을 통해 자동화된 문서 클러스터링 기법을 제안한다. 또한 클러스터링 단계에서 주요 항목간의 연관 규칙을 생성하기 위하여 문서 클러스터링을 위한 디스크 엑세스 동안 키워드간의 연관성을 찾을 수 있는 효율적인 검색 기법을 제시한다.

  • PDF

Clustering Method Using the Union Information of Term Frequency and Link in Hypertext (웹 문서의 단어정보와 링크정보 결합을 이용한 클러스터링 기법)

  • Lee, Won-Hee;Lee, Kyo-Woon;Park, Heum;Kim, Young-Ki;Kwon, Hyuck-Chul
    • Annual Conference on Human and Language Technology
    • /
    • 2003.10d
    • /
    • pp.101-107
    • /
    • 2003
  • 최근의 웹 문서는 텍스트 위주의 구성이 아닌 이미지, 사운드, 동영상 등의 다양한 타입으로 구성되는 추세이다. 이에 따라 단순히 웹 문서 내의 단어 정보추출 만으로는 좋은 성능의 클러스터링을 기대하기 어렵다. 본 논문은 전통적인 문서 클러스터링 기법인 단어기반 클러스터링 기법의 취약점을 제시하고, 웹 문서간의 링크구조정보 중 동시인용 정보를 이용하여 웹 문서 클러스터링 성능향상의 가능성을 보이고자 한다. 실험에서는 네이버디렉토리 중 '자연과학' 범주에 포함된 문서를 대상으로 위의 두 가지 방식과 이 두 가지를 혼합한 단어-링크 혼합 클러스터링을 통해 기존의 방식보다 더 낳은 성능을 얻을 수 있었다.

  • PDF