• 제목/요약/키워드: Document Clustering Method

검색결과 131건 처리시간 0.028초

온라인 문서 군집화에서 군집 수 결정 방법 (Determining the number of Clusters in On-Line Document Clustering Algorithm)

  • 지태창;이현진;이일병
    • 정보처리학회논문지B
    • /
    • 제14B권7호
    • /
    • pp.513-522
    • /
    • 2007
  • 군집화는 주어진 데이터를 분할하여 데이터 속에 숨겨져 있는 의미를 자동으로 발견하는 방법으로, 사람이 일일이 살펴보기 어려운 데이터를 분석해서 비슷한 성향을 가진 데이터들끼리 모은 여러 개의 군집들을 만들어 낸다. 온라인 문서 군집화는 검색 엔진을 통해 검색된 문서들을 대상으로 군집화를 실행하여 유사한 특성의 문서들을 묶어서 보여줌으로써 사용자의 검색 환경의 편의성을 증진시키는 것이 목적이다. 문서군집화는 사람의 개입이 없이 자동으로 이루어져야 하고, 군집화 결과에 영향을 미치는 군집의 개수 선정도 자동으로 이루어져야 한다. 또한, 온라인 시스템에서는 빠른 응답 시간을 보장하는 것이 중요하다. 본 논문에서는 기하학적인 정보를 이용하여 군집의 수를 결정하는 방법을 제안한다. 제안하는 방법은 군집의 중심을 저차원 평면에 사상하는 것과 사상된 군집 중심의 거리 정보를 이용하여 군집들을 병합하는 두 단계로 이루어져 있다. 제안하는 방법을 실데이터에 적용하여 실험한 결과 군집화 성능이 향상되고, 처리 시간도 온라인 환경에 적합한 것을 확인 할 수 있었다.

K-Means 알고리즘을 이용한 계층적 클러스터링에서 클러스터 계층 깊이와 초기값 선정 (Selection of Cluster Hierarchy Depth and Initial Centroids in Hierarchical Clustering using K-Means Algorithm)

  • 이신원;안동언;정성종
    • 정보관리학회지
    • /
    • 제21권4호
    • /
    • pp.173-185
    • /
    • 2004
  • 정보통신의 기술이 발달하면서 정보의 양이 많아지고 사용자의 질의에 대한 검색 결과 리스트도 많이 추출되므로 빠르고 고품질의 문서 클러스터링 알고리즘이 중요한 역할을 하고 있다. 많은 논문들이 계층적 클러스터링 방법을 이용하여 좋은 성능을 보이지만 시간이 많이 소요된다. 반면 K-means 알고리즘은 시간 복잡도를 줄일 수 있는 방법이다. 본 논문에서는 계층적 클러스터링 시스템인 콘도르(Condor) 시스템에서 간단하고 고품질이며 효율적으로 정보 검색 할 수 있도록 구현하였다. 이 시스템은 K-Means Algorithm을 이용하였으며 클러스터 계층 깊이와 초기값을 조절하여 $88\%$의 정확율을 보였다.

단어빈도와 동시링크의 결합을 통한 웹 문서 클러스터링 성능 향상에 관한 연구 (Clustering of Web Document Exploiting with the Union of Term frequency and Co-link in Hypertext)

  • 이교운;이원희;박흠;김영기;권혁철
    • 한국도서관정보학회지
    • /
    • 제34권3호
    • /
    • pp.211-229
    • /
    • 2003
  • 이 연구에서는 웹 문서가 갖고 있는 특성, 특히 웹 문서에 포함된 단어 수가 클러스터링 성능에 결정적인 영향을 미친다는 전제 하에, 웹 문서에 포함된 단어 수와 클러스터링 성능과의 관계를 밝힌 다음, 이 부분을 웹 문서의 동시인용 빈도를 이용해 보완할 수 있는 알고리즘을 제시한다. 이 연구에서는 네이버 디렉터리 중 '자연과학' 법주에 포함된 1,449개의 웹 문서를 대상으로 단어기반 클러스터링과 링크기반 클러스터링, 그리고 단어-링크 혼합 클러스터링 기법으로 클러스터링 해 보았으며, 그 결과를 네이버 디렉터리에 초기 할당된 법주와 비교해 보았다.

  • PDF

의미 벡터 확장을 통한 유전자 클러스터링 (Genetic Clustering with Semantic Vector Expansion)

  • 쏭웨이;박순철
    • 한국콘텐츠학회논문지
    • /
    • 제9권3호
    • /
    • pp.1-8
    • /
    • 2009
  • 본 논문에서는 퍼지 논리 기반의 유전자 알고리즘(GA)과 의미 벡터 확장 기술을 이용한 문서 클러스터링 시스템을 제안한다. GA에 관련된 여러 논문에서 이미 알려졌듯이 GA알고리즘의 성공 여부는 군체의 다양성과 수렴하는 능력에 따라 결정된다. 이러한 두 인자 사이의 영향력을 조절하기 위하여 우리는 퍼지 논리 기반의 연산자를 사용한다. 전통적인 문서 클러스터링 알고리즘에서 문서를 나타내기 위한 가장 일반적이고 직선적인 방법은 벡터 공간 모델이다. 그러나 이 방법은 다차원 특징 공간의 원인이 될 뿐만 아니라, 클러스터링의 정확성에 영향을 미칠 수 있는, 단어 간의 의미상 관계성을 무시한다. 본 논문에서는 LSA를 사용하여 문서를 관련되는 의미상의 벡터 개념으로 확장시킨다. 또한 이것은 벡터의 크기를 크게 줄일 수 있다. 본 논문에서 제안한 클러스터링 알고리즘을 테스트하기 위하여 20개의 뉴스 그룹과 로이터 데이터를 사용했다. 제안된 방법은 문서를 표현하는 다양한 환경에서 일반적인 GA보다 더 나은 결과를 보여준다.

중복을 허용한 계층적 클러스터링에 의한 복합 개념 탐지 방법 (Hierarchical Overlapping Clustering to Detect Complex Concepts)

  • 홍수정;최중민
    • 지능정보연구
    • /
    • 제17권1호
    • /
    • pp.111-125
    • /
    • 2011
  • 클러스터링(Clustering)은 유사한 문서나 데이터를 묶어 군집화해주는 프로세스이다. 클러스터링은 문서들을 대표하는 개념별로 그룹화함으로써 사용자가 자신이 원하는 주제의 문서를 찾기 위해 모든 문서를 검사할 필요가 없도록 도와준다. 이를 위해 유사한 문서를 찾아 그룹화하고, 이 그룹의 대표되는 개념을 도출하여 표현해주는 기법이 요구된다. 이 상황에서 문제점으로 대두되는 것이 복합 개념(Complex Concept)의 탐지이다. 복합 개념은 서로 다른 개념의 여러 클러스터에 속하는 중복 개념이다. 기존의 클러스터링 방법으로는 문서를 클러스터링할 때 동일한 레벨에 있는 서로 다른 개념의 클러스터에 속하는 중복된 복합 개념의 클러스터를 찾아서 표현할 수가 없었고, 또한 복합 개념과 각 단순 개념(Simple Concept) 사이의 의미적 계층 관계를 제대로 검증하기가 어려웠다. 본 논문에서는 기존 클러스터링 방법의 문제점을 해결하여 복합 개념을 쉽게 찾아 표현하는 방법을 제안한다. 기존의 계층적 클러스터링 알고리즘을 변형하여 동일 레벨에서 중복을 허용하는 계층적 클러스터링(Hierarchical Overlapping Clustering, HOC) 알고리즘을 개발하였다. HOC 알고리즘은 문서를 클러스터링하여 그 결과를 트리가 아닌 개념 중복이 가능한 Lattice 계층 구조로 표현함으로써 이를 통해 여러 개념이 중복된 복합 개념을 탐지할 수 있었다. HOC 알고리즘을 이용해 생성된 각 클러스터의 개념이 제대로 된 의미적인 계층 관계로 표현되었는지는 특징 선택(Feature Selection) 방법을 적용하여 검증하였다.

K-means 알고리즘을 이용한 계층적 클러스터링에서의 클러스터 계층 깊이 선택 (Selection of Cluster Hierarchy Depth in Hierarchical Clustering using K-Means Algorithm)

  • 이원휘;이신원;정성종;안동언
    • 대한전자공학회논문지SD
    • /
    • 제45권2호
    • /
    • pp.150-156
    • /
    • 2008
  • 정보통신의 기술이 발달하면서 정보의 양이 많아지고 사용자의 질의에 대한 검색 결과 리스트도 많이 추출되므로 빠르고 고품질의 문서 클러스터링 알고리즘이 중요한 역할을 하고 있다. 많은 논문들이 계층적 클러스터링 방법을 이용하여 좋은 성능을 보이지만 시간이 많이 소요된다. 반면 K-means 알고리즘은 시간 복잡도를 줄일 수 있는 방법이다. 본 논문에서는 계층적 클러스터링 시스템인 콘도르(Condor) 시스템에서 K-Means 알고리즘을 이용하여 효율적으로 정보 검색을 하고 검색결과를 계층적으로 볼 수 있도록 구현하였다. 이 시스템은 K-Means Algorithm을 이용하였으며 클러스터 계층 깊이와 초기값을 조절하여 더 나은 성능을 보임을 알 수 있다.

대표 경로에 기반한 XML 문서의 계층 군집화 기법 (A Hierarchical Clustering Technique of XML Documents based on Representative Path)

  • 김우생
    • 인터넷정보학회논문지
    • /
    • 제10권3호
    • /
    • pp.141-150
    • /
    • 2009
  • XML은 데이터 교환과 정보 관리에 점차 중요해지고 있다. 근래에 XML 문서들에 대한 접근, 질의, 저장을 위한 효율적인 기법들을 개발하기 위해 많은 노력들이 이루어지고 있다. 이 논문에서 우리는 XML 문서들을 효율적으로 군집화하는 새로운 방법을 제안한다. XML 문서의 특징을 위해 XML 문서의 구조와 내용을 대표할 수 있는 새로운 대표 경로, 즉 가상 경로가 제안된다. XML 문서들을 군집화하기 위해 잘 알려진 계층 군집화 기법들을 대표 경로들에 적용하기 위한 방법도 제안된다. 실험을 통해 XML 문서의 특징으로 가상 경로를 사용했을 때 실제적인 군집들이 촘촘한 형상으로 잘 형성됨을 알 수 있다.

  • PDF

단어의 공기정보를 이용한 클러스터 기반 다중문서 요약 (Multi-document Summarization Based on Cluster using Term Co-occurrence)

  • 이일주;김민구
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제33권2호
    • /
    • pp.243-251
    • /
    • 2006
  • 대표문장 추출에 의한 다중문서 요약에서는 비슷한 정보가 여러 문서에서 반복적으로 나타나는 정보의 중복문제에 대해 문장의 유사성과 차이점을 고려하여 이를 해결할 수 있는 효율적인 방법이 필요하다. 본 논문에서는 단어의 공기정보에 의한 관련단어 클러스터링 기법을 이용하여 문장의 중복성을 제거하고 중요문장을 추출하는 다중문서 요약을 제안한다. 관련단어 클러스터링 기법에서는 각 단어들은 서로 독립적으로 존재하는 것이 아니라 서로 간에 의미적으로 연관되어 있다고 보며 주제별 문장클러스터단위의 단어 연관성(cohesion)을 이용한다. 평가용 실험문서인 DUC(Document Understanding Conferences) 데이타를 이용하여 실험한 결과 본 논문에서 제안한 문장클러스터단위의 단어 공기정보를 이용한 방법이 단순 통계정보와 문서단위 단어 공기정보, 문장단위 단어 공기정보에 의한 다중문서 요약에 비해 좋은 결과를 보였다.

문장군집의 응집도와 의미특징을 이용한 포괄적 문서요약 (Generic Document Summarization using Coherence of Sentence Cluster and Semantic Feature)

  • 박선;이연우;심천식;이성로
    • 한국정보통신학회논문지
    • /
    • 제16권12호
    • /
    • pp.2607-2613
    • /
    • 2012
  • 지식 기반의 포괄적 문서요약은 문장집합의 구성이 요약 결과에 영향을 받는다. 이러한 문제를 해결하기 위해서 본 논문은 의미특징에 의한 군집과 문장군집의 응집도를 이용하여 포괄적 문서요약을 하는 새로운 방법을 제안한다. 제안 방법은 비음수행렬분해에서 유도되는 의미특징을 이용하여 문장을 군집하고, 문서의 내부구조를 잘 표현하는 문장군집들로 문서의 주제 그룹을 분류할 수 있다. 또한 문장군집의 응집도와 재군집에 의한 군집의 정재를 이용하여 중요한 문장을 추출함으로써 요약의 질을 향상시킬 수 있다. 실험결과 제안방법은 다른 포괄적 문서요약 방법에 비하여 좋은 성능을 보인다.

Stiefel 다양체에서 곱셈의 업데이트를 이용한 비음수 행렬의 직교 분해 (Orthogonal Nonnegative Matrix Factorization: Multiplicative Updates on Stiefel Manifolds)

  • 유지호;최승진
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제36권5호
    • /
    • pp.347-352
    • /
    • 2009
  • 주어진 비음수 데이터를 두 개의 비음수 행렬의 곱의 형태로 표현하는 비음수 행렬 분해(Nonnegative Matrix Factorization)는 비음수 데이터의 다변량 분석에서 폭넓게 사용되고 있는 방법이다. 비음수 행렬 분해는 집단화(Clustering), 특히 문서의 집단화에서 유용하게 쓰일 수 있다. 본 논문에서는 주어진 문서들로부터 구성된 단어-문서 행렬을 두 개의 비음수 행렬의 곱으로 분해할 때, 그 중 하나의 행렬에 직교 제한을 주는 비음수 행렬의 직교 분해(Orthogonal Nonnegative Matrix Factorization) 방법을 다룬다. 현존하는 비음수 행렬의 직교 분해 방법은 직교 제한과 관련된 항을 더해주는 방식을 사용하지만, 여기서는 Stiefel 다양체 위에서의 실제 기울기를 직접 구하여 곱셈의 업데이트 알고리즘을 유도하였다. 다양한 문서 데이터에 대한 실험을 통해 새롭게 유도된 비음수 행렬의 직교 분해 방법이 기존의 비음수 행렬 분해나 기존의 비음수 행렬의 직교 분해보다 문서 집단화에서 우수한 성능을 나타냄을 보였다.