• 제목/요약/키워드: Document Clustering Method

검색결과 131건 처리시간 0.025초

Dynamic Text Categorizing Method using Text Mining and Association Rule

  • Kim, Young-Wook;Kim, Ki-Hyun;Lee, Hong-Chul
    • 한국컴퓨터정보학회논문지
    • /
    • 제23권10호
    • /
    • pp.103-109
    • /
    • 2018
  • In this paper, we propose a dynamic document classification method which breaks away from existing document classification method with artificial categorization rules focusing on suppliers and has changing categorization rules according to users' needs or social trends. The core of this dynamic document classification method lies in the fact that it creates classification criteria real-time by using topic modeling techniques without standardized category rules, which does not force users to use unnecessary frames. In addition, it can also search the details through the relevance analysis by calculating the relationship between the words that is difficult to grasp by word frequency alone. Rather than for logical and systematic documents, this method proposed can be used more effectively for situation analysis and retrieving information of unstructured data which do not fit the category of existing classification such as VOC (Voice Of Customer), SNS and customer reviews of Internet shopping malls and it can react to users' needs flexibly. In addition, it has no process of selecting the classification rules by the suppliers and in case there is a misclassification, it requires no manual work, which reduces unnecessary workload.

Apriori알고리즘에 의한 연관 단어 지식 베이스에 기반한 가중치가 부여된 베이지만 자동 문서 분류 (Weighted Bayesian Automatic Document Categorization Based on Association Word Knowledge Base by Apriori Algorithm)

  • 고수정;이정현
    • 한국멀티미디어학회논문지
    • /
    • 제4권2호
    • /
    • pp.171-181
    • /
    • 2001
  • 기존의 베이지만 문서 분류를 위한 단어 군집 방법은 많은 시간과 노력을 요구하며, 단어 간의 의미 관계를 정확하게 반영하지 못하는 문제점이 있다. 본 논문에서는 마이닝 기법으로 구축된 연관 단어 지식 베이스를 기반으로 하는 베이지안 문서 분류 방법을 제안한다. 제안된 베이지안 문서 분류 방법은 문서를 분류하기 전에 훈련 문서를 사용하여 가중치가 부여된 연관 단어 지 식 베이스를 구축한다. 그 다음으로, 베이지안 확률을 이용하는 분류자는 구축된 연관 단어 지식 베이스를 기반으로 문서를 클래스별로 분류한다. 제안된 방법의 성능을 평가하기 위해, 상호 정보 계산에 의한 단어 사전을 이유한 가중치가 부여된 베이지안 문서 분류 방법, 가중치가 부여된 베이지안 분류 방법, 기존의 단순 베이지안 분류 방법과 비교하였다. 그 결과, 연관 단어 지식 베이스에 기반한 가중치가 부여된 베이지안 분류 방법이 상호 정보에 의한 단어 사진을 이용하는 가중치가 부여된 베이지안 분류 방법보다는 0.87%, 가중치가 부여된 베이지안 분류 방법보다는 2.77%, 단순 베이지안 방법보다는 5.97% 높은 성능 차이를 보였다.

  • PDF

비트벡터에 기반한 XML 문서 군집화 기법 (XML Documents Clustering Technique Based on Bit Vector)

  • 김우생
    • 전자공학회논문지CI
    • /
    • 제47권5호
    • /
    • pp.10-16
    • /
    • 2010
  • XML은 점점 데이터 교환과 정보 관리에서 중요하게 여겨진다. 따라서 XML 문서들을 접근, 질의, 저장하는 효율적인 방법들을 개발하기 위한 많은 노력이 진행되고 있다. 본 논문은 XML 문서들을 효율적으로 군집화 하는 새로운 기법을 제안한다. XML 문서를 군집화하기 위해 문서를 대표하는 비트 벡터를 제안한다. 두 XML 문서의 유사도는 대응하는 두 비트 벡터간의 bit-wise AND 연산에 의해서 측정된다. 실험 결과 XML 문서의 특징으로 비트 벡터가 사용되었을 때 군집화가 제대로 그리고 효율적으로 형성됨을 알 수 있다.

Link와 Clustering을 이용한 적극적 문서 수집 기법 (Greedy Document Gathering Method Using Links and Clustering)

  • 김원우;변영태
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2001년도 춘계정기학술대회
    • /
    • pp.393-398
    • /
    • 2001
  • 특정 영역에 대해 사용자에게 관련 정보를 제공해 주는 서비스를 하는 정보 에이전트를 개발 중이다. 정보 에이전트는 사용자 질의 처리를 달은 Agent Manager와 지식베이스를 관리하는 KB Manager, 그리고 Web으로부터 해당 영역의 관련 문서를 끌어오는 Web Manager로 구성되어 있다. Web Manager는 방문할 URL을 수집하고, 이들 문서에 대한 관련 평가와 Indexing을 수행한다. Web Manager는 검색 엔진을 이용하거나, 방문한 문서의 link를 이용하여 URL을 수집하는데 이러한 URL수집기법은 많은 관련 문서를 놓치는 문제점이 있다. 이 문제점을 해결하기 위해서 해당 영역과 관련된 Site들을 대상으로 Link를 이용해 문서들을 모아와, 문서들을 TAG들의 패턴으로 얻어낸 문서 형식을 이용해 Clustering하며 관련 문서들의 Group을 찾아내는 적극적 문서 수집 기법을 제안한다. 실험 결과, Link와 Clustering을 이용할 경우 기존보다 효과적으로 관련 문서를 많이 수집할 수 있음을 알 수 있다.

  • PDF

XML 문서의 클러스터링 기법을 이용한 스케치맵 시스템 (Sketch Map System using Clustering Method of XML Documents)

  • 김정숙;이야리;홍경표
    • 한국콘텐츠학회논문지
    • /
    • 제9권12호
    • /
    • pp.19-30
    • /
    • 2009
  • 최근 각광을 받고 있는 지도(이하 맵)를 활용한 서비스는 맵에 접근한 후 인터페이스를 통해 다양한 매쉬업 형태의 결과를 제공하는 방식이다. 이러한 서비스는 사용자에게 정확한 정보를 제공할 수는 있지만 맵의 재활용은 어렵다. 본 논문의 스케치맵 시스템은 기존의 대형 맵 시스템과는 달리 목적에 부합하는 특정 지점과 경로를 XML 문서로 표현한다. 또한, 스케치맵 간에 클러스터링 방법을 사용함으로써 맵에서 표현되는 지점을 최적의 내용으로 갱신한다. 그 결과로서, 목적지점에 대한 경로를 간단하게 약도로 표현하기 위해 설계된 맵 서비스 시스템이다. 본 시스템은 스케치 맵의 XML 문서 입력에 대하여 스케치맵 생성기에서 분석 분할 클러스터링의 과정을 통해 유효한 형태의 스케치맵을 생성한다. 스케치맵의 분할 및 병합을 위한 질의처리 방법으로는 LCS(Longest Common Subsequence) 알고리즘을 사용하였다. 또한, 본 스케치맵 시스템에 대한 기대효과를 시뮬레이션으로 제시하여 정보와 지식을 공유하는 보이는 맵들이 모여 거대한 맵을 형성함으로서 새로운 검색 포털로서의 역할을 수행할 수 있음을 보인다.

군집 중심 기반 문헌 검색 결과의 시각화 (Visualization Method of Document Retrieval Result based on Centers of Clusters)

  • 지태창;이현진;이일병
    • 한국콘텐츠학회논문지
    • /
    • 제7권5호
    • /
    • pp.16-26
    • /
    • 2007
  • 기존의 문헌검색시스템은 검색 결과를 시각화하기 어렵기 때문에 문헌 제목과 검색어가 존재하는 부분에 대한 요약문을 보여주는 형태가 대부분이다. 이러한 방식은 문헌 검색 결과가 많은 경우 한 번에 문헌들을 살펴보는데 어려움이 있고, 문헌들간의 연관성을 알아보기 어렵다. 따라서, 본 논문에서는 웹 환경에 적합하도록 실시간으로 문헌 검색 결과를 시각화하는 방법을 제안하였다. 이를 위하여, 군집의 중심을 다차원 척도에 의해 저 차원 평면에 투사하는 단계와 오비탈 모형에 기반하여 개별 문헌들을 군집 중심을 기준으로 저 차원 평면에 표현하는 2단계 시각화 알고리즘을 제안하여, 문헌 군집의 관계를 쉽게 알아보고 개별 문헌들 사이의 유사성을 쉽게 확인할 수 있도록 하였다. 벤치마크 데이터와 실 데이터에 적용하여 실험하였으며, 실시간으로 검색 결과를 시각화 할 수 있다는 것을 실험을 통해 확인할 수 있었다.

역사적 기록 문서에서 효율적인 유사도 및 클러스터링 측정에 관한 연구 (A Study on the efficiency of similarity and clustering measure in Historical Writing Document)

  • 한광덕
    • 한국컴퓨터정보학회논문지
    • /
    • 제7권4호
    • /
    • pp.94-101
    • /
    • 2002
  • Web상에 있는 문서들이 다양하고, 복잡 그리고 대형화함에 따라 문서의 표현과 전달체계에서도 많은 변화가 요구되고 있다. 조선왕조실록문서(Annal of The chosun Dynasty)는 역사적 사실을 연구하는데 중요한 문서이고, CD-ROM으로도 출판되었다. 그러나 문서의 접근 방법에 대해 검색의 단순성 그리고 내용 기반(content-based)으로 구성되었기 때문에 문서의 구성요소들 간의 사건연관 (event-relationship)를 엮어주는 데는 어려운 점이 많다. 따라서 본 논문에서는 조선왕조실록 문서들간의 효율적이고, 적절한 유사성 및 클러스터링 방법을 실험하여 문서들간의 사건연관을 찾아내도록 연구했다. 연구 방법으로는 조선왕조실록 문서들간의 유사도 방법들을 시뮬레이션하여 역사적 기록문서에 가장 적합한 유사도 방법을 찾아내고, 유사도 확률에 따라 그 문서들을 클러스터링 하였다. 평가결과 클러스터링을 한 문서들을 실제 확인해본 결과 사실과 거의 같다는 것이 증명되었다.

  • PDF

연관규칙을 이용한 뉴스기사의 계층적 자동분류기법 (Hierarchical Automatic Classification of News Articles based on Association Rules)

  • 주길홍;신은영;이주일;이원석
    • 한국멀티미디어학회논문지
    • /
    • 제14권6호
    • /
    • pp.730-741
    • /
    • 2011
  • 인터넷과 컴퓨터 기술이 발전함에 따라 정보의 양이 폭발적으로 증가하였으며 사용자의 다양한 요구가 생겨나게 되었다. 이로 인해 대용량의 문서를 효과적으로 분류하기 위한 다양한 방법의 연구가 필요하게 되었다. 기존의 문서 범주화는 분서의 분류를 위해 연관된 문서의 키워드를 중심으로 하는 방법을 사용하였다. 그러나 본 논문에서는 연관규칙을 이용하여 범주 내의 문서들 간에 연관성 있는 키워드들의 집합을 추출하고 각 범주 별로 의미적으로 대표성을 가진 키워드들로 분류 규칙을 생성한다. 또한 효율적인 키워드 생성을 위한 데이터 전처리 방안을 제시하고, 새로운 문서 범주를 예측한다. 프로파일의 분류성능을 높이기 위한 분류함수를 설계하고 실험을 통하여 성능을 측정한다. 마지막으로 평면적인 범주 구조에서 확장하여 계층적인 분류체계 구조에서도 적용할 수 있는 자동분류 방안을 제시한다.

High-Speed Self-Organzing Map for Document Clustering

  • Rojanavasu, Ponthap;Pinngern, Ouen
    • 제어로봇시스템학회:학술대회논문집
    • /
    • 제어로봇시스템학회 2003년도 ICCAS
    • /
    • pp.1056-1059
    • /
    • 2003
  • Self-Oranizing Map(SOM) is an unsupervised neural network providing cluster analysis of high dimensional input data. The output from the SOM is represented in map that help us to explore data. The weak point of conventional SOM is when the map is large, it take a long time to train the data. The computing time is known to be O(MN) for trainning to find the winning node (M,N are the number of nodes in width and height of the map). This paper presents a new method to reduce the computing time by creating new map. Each node in a new map is the centroid of nodes' group that are in the original map. After create a new map, we find the winning node of this map, then find the winning node in original map only in nodes that are represented by the winning node from the new map. This new method is called "High Speed Self-Oranizing Map"(HS-SOM). Our experiment use HS-SOM to cluster documents and compare with SOM. The results from the experiment shows that HS-SOM can reduce computing time by 30%-50% over conventional SOM.

  • PDF

유전자 알고리즘을 통한 XML 군집화 방법 (XML Clustering Technique by Genetic Algorithm)

  • 김우생
    • 전자공학회논문지CI
    • /
    • 제49권3호
    • /
    • pp.1-7
    • /
    • 2012
  • 최근 들어 인터넷에서 많이 사용되는XML 문서들을 효율적으로 접근, 질의, 관리하는 방법들이 연구되고 있다. 본 논문은 XML 문서들을 효율적으로 군집화 하는 새로운 기법을 제안한다. XML 문서의 원소는 대응하는 트리의 노드에 대응하며, 문서에서 내포 관계는 트리의 부모와 자식 노드간의 관계에 대응한다. 따라서 유사한 XML 문서들은 대응하는 트리들에서 노드의 이름과 레벨 등이 유사하다. 이러한 성질을 유전 알고리즘의 평가 함수로 만들어 군집화를 시도하였다. 실험 결과를 통하여 제안하는 기법이 기존 방법들보다 좋은 결과를 얻을 수 있음을 보였다.