• 제목/요약/키워드: Document Clustering Method

검색결과 131건 처리시간 0.024초

클러스터의 주요항목 가중치 기반 XML 문서 클러스터링 (Clustering XML Documents Considering The Weight of Large Items in Clusters)

  • 황정희
    • 정보처리학회논문지D
    • /
    • 제14D권1호
    • /
    • pp.1-8
    • /
    • 2007
  • 발달된 인터넷 환경과 데이터 교환 표준 언어로서 확정되고 있는 XML을 기반으로 하여 대량의 웹 문서들이 생산되면서 정보 추출의 대상은 자연스럽게 웹 문서로 이동하게 되었다. 이에 따라 급속히 증가하고 있는 XML 문서에 대한 구조, 통합 및 검색을 위한 연구들이 있다. 이 논문에서는 XML 문서들에 대한 질의 처리, 검색 등을 효율적으로 처리하기 위한 기반으로써 빈발구조 중심의 XML 문서를 클러스터링 하는 방법을 제안한다. 첫째 XML 문서를 트리 구조로 표현하여 분리하고 분리된 구조들을 대상으로 빈발하게 발생하는 구조들을 추출한다. 둘째 각 XML 문서에서 추출된 빈발 구조들을 트랜잭션의 항목으로 취급하여 클러스터링을 수행한다. 클러스터링을 수행할 때 각 클러스터의 생성 및 생성된 전체 클러스터의 응집도를 함께 고려하는 주요항목 가중치를 이용한다. 셋째 기존연구와의 비교 실험을 통해 제안하는 방법의 우수성을 증명한다.

계층적 문서 클러스터링을 이용한 실세계 질의 메일의 자동 분류 (Automatic Categorization of Real World FAQs Using Hierarchical Document Clustering)

  • 류중원;조성배
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2001년도 춘계학술대회 학술발표 논문집
    • /
    • pp.187-190
    • /
    • 2001
  • Due to the recent proliferation of the internet, it is broadly granted that the necessity of the automatic document categorization has been on the rise. Since it is a heavy time-consuming work and takes too much manpower to process and classify manually, we need a system that categorizes them automatically as their contents. In this paper, we propose the automatic E-mail response system that is based on 2 hierarchical document clustering methods. One is to get the final result from the classifier trained seperatly within each class, after clustering the whole documents into 3 groups so that the first classifier categorize the input documents as the corresponding group. The other method is that the system classifies the most distinct classes first as their similarity, successively. Neural networks have been adopted as classifiers, we have used dendrograms to show the hierarchical aspect of similarities between classes. The comparison among the performances of hierarchical and non-hierarchical classifiers tells us clustering methods have provided the classification efficiency.

  • PDF

문서 군집화의 정확률 향상을 위한 범용어 수집과 문서 재분류 알고리즘 (Gathering Common-word and Document Reclassification to improve Accuracy of Document Clustering)

  • 신준철;옥철영;이응봉
    • 정보처리학회논문지B
    • /
    • 제19B권1호
    • /
    • pp.53-62
    • /
    • 2012
  • 정보검색에서 많은 검색 결과 문서들을 효율적으로 다루기 위해 군집화 기술을 사용하고 있지만, 대체로 군집화의 정확률은 일부 영역에서만 요구 사항을 만족시키고 있다. 본 논문에서는 검색 결과 문서들의 군집화 정확률을 향상시키기 위한 두 가지 방법을 제안한다. 첫째는 군집화 과정에서 흔히 쓰이지만 낮은 가중치를 가진 범용어를 정의하고, 검색 결과들을 비교하여 범용어를 자동 수집하고 그의 가중치를 계산하는 방법을 제안한다. 실험 결과 불용어에 비해 범용어를 사용했을 때 군집화 오류의 34%가 개선되었다. 둘째는 집단평균연결 방식의 군집화 알고리즘으로 일차 군집들을 생성 후, 문서와 군집 간의 유사도를 측정하여 가장 유사도가 높은 군집으로 문서를 재분류하는 알고리즘을 제안한다. 네이버 지식인 카테고리를 이용한 군집 결과의 비교 실험을 통해 일차 군집보다 재분류된 군집의 정확률이 1.81% 향상되는 것을 확인하였다.

문서 내용의 계층화를 이용한 문서 비교 방법 (Document Clustering Methods using Hierarchy of Document Contents)

  • 황명권;배용근;김판구
    • 한국정보통신학회논문지
    • /
    • 제10권12호
    • /
    • pp.2335-2342
    • /
    • 2006
  • 웹의 비약적인 성장으로 웹에는 무수한 정보를 축적하고 있으며, 특히 텍스트 문서는 인간에 의해 가장 쉽게 그리고 많이 이용되는 형식이라 하겠다. 텍스트 문서의 효율적 검색을 위해 많은 연구가 이루어졌으며, 확률을 이용한 방법, 통계적인 기법을 이용한 방법, 벡터 유사도를 이용한 방법, 베이지안 자동문서 분류 방법 등이 제안되었다. 그러나 이러한 기존의 방법들은 문서의 특징을 정확하게 반영할 수 없고, 의미적 검색이 이루어지지 않는 단점을 가지고 있다 이에 본 논문은 문서를 미리 분류하는 기존의 방법을 개선하기 위해, 유사한 문서를 의미적으로 찾아내기 위한 새로운 문서 분류의 척도를 제안하며 이를 적용하는 방법을 제시한다. 본 방법은 문서의 내용을 의미적인 계층으로 표현하고 중요 도메인에 가중치를 두며, 문서들간의 도메인 가중치와 도메인 내의 개념 일치도를 이용하여 유사도를 구한다.

계층적 결합형 문서 클러스터링 시스템과 복합명사 색인방법과의 연관관계 연구 (The Experimental Study on the Relationship between Hierarchical Agglomerative Clustering and Compound Nouns Indexing)

  • 조현양;최성필
    • 한국문헌정보학회지
    • /
    • 제38권4호
    • /
    • pp.179-192
    • /
    • 2004
  • 본 논문에서는 복합명사에 대한 색인 방법을 다각적으로 적용하여 계층적 결합 문서 클러스터링 시스템의 결과를 분석한다. 우선 한글 색인 엔진과 HAC(Hierarchical Agglomerative Clustering) 엔진에 대해서 설명하고 한글 색인 엔진에서 제공되는 3가지 복합명사 분석 모드에 대해서 기술한다. 또한 구현된 클러스터링 엔진의 특징과 속도 향상을 위한 기법 등을 예시한다. 실험에서는 3가지 복합명사 색인 방법을 기준으로 문서 클러스터링을 수행하고, 실험 결과에 대한 분석에서 복합명사에 대한 색인 방법이 문서 클러스터링의 결과에 직접적인 영향을 준다는 것을 보여준다.

효율적인 문서검색을 위한 레벨별 불용어 제거에 기반한 문서 클러스터링 (Document Clustering based on Level-wise Stop-word Removing for an Efficient Document Searching)

  • 주길홍;이원석
    • 컴퓨터교육학회논문지
    • /
    • 제11권3호
    • /
    • pp.67-80
    • /
    • 2008
  • 오늘날 여러 문서 범주화 방법들은 문서 클러스터링 알고리즘을 통하여 의미적으로 비슷한 내용의 문서들을 클러스터로 표현한 후 클러스터링 과정에서의 결합관계를 통해 범주화하는 자동화된 방법과 미리 정의된 분류 기준에 의해 수작업으로 문서를 분류하는 방법으로 구분되어 진다. 자동화된 방법은 속도는 빠르나 의미적으로 낮은 정확성을 가지며, 수작업에 의한 분류 방법은 처리 시간과 비용이 크게 증가하는 단점이 있다. 이러한 단점들을 극복하기 위하여 본 논문에서는 각 문서가 속하는 도메인의 불용어 제거를 기반으로 하여 문서 클러스터링을 수행하여 의미적으로 명확한 클러스터를 빠르게 생성한다. 클러스터의 정확성을 높이기 위하여 생성된 클러스터에 대해 레벨 순서에 따른 불용어 제거와 문서 클러스터링 과정을 반복적으로 적용하여 카테고리 트리를 생성하고, 이를 통해 문서집합간의 상하위 관계를 표현하는 자동화된 문서 범주화 방법을 제안한다.

  • PDF

복합 문서의 의미적 분해를 통한 다중 벡터 문서 임베딩 방법론 (Multi-Vector Document Embedding Using Semantic Decomposition of Complex Documents)

  • 박종인;김남규
    • 지능정보연구
    • /
    • 제25권3호
    • /
    • pp.19-41
    • /
    • 2019
  • 텍스트 데이터에 대한 다양한 분석을 위해 최근 비정형 텍스트 데이터를 구조화하는 방안에 대한 연구가 활발하게 이루어지고 있다. doc2Vec으로 대표되는 기존 문서 임베딩 방법은 문서가 포함한 모든 단어를 사용하여 벡터를 만들기 때문에, 문서 벡터가 핵심 단어뿐 아니라 주변 단어의 영향도 함께 받는다는 한계가 있다. 또한 기존 문서 임베딩 방법은 하나의 문서가 하나의 벡터로 표현되기 때문에, 다양한 주제를 복합적으로 갖는 복합 문서를 정확하게 사상하기 어렵다는 한계를 갖는다. 본 논문에서는 기존의 문서 임베딩이 갖는 이러한 두 가지 한계를 극복하기 위해 다중 벡터 문서 임베딩 방법론을 새롭게 제안한다. 구체적으로 제안 방법론은 전체 단어가 아닌 핵심 단어만 이용하여 문서를 벡터화하고, 문서가 포함하는 다양한 주제를 분해하여 하나의 문서를 여러 벡터의 집합으로 표현한다. KISS에서 수집한 총 3,147개의 논문에 대한 실험을 통해 복합 문서를 단일 벡터로 표현하는 경우의 벡터 왜곡 현상을 확인하였으며, 복합 문서를 의미적으로 분해하여 다중 벡터로 나타내는 제안 방법론에 의해 이러한 왜곡 현상을 보정하고 각 문서를 더욱 정확하게 임베딩할 수 있음을 확인하였다.

계층적 클러스터링에서 분류 계층 깊이에 관한 연구 (A Study on Cluster Hierarchy Depth in Hierarchical Clustering)

  • 김해남;이신원;안동언;정성종
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2004년도 춘계학술발표대회
    • /
    • pp.673-676
    • /
    • 2004
  • Fast and high-quality document clustering algorithms play an important role in providing data exploration by organizing large amounts of information into a small number of meaningful clusters. In particular, hierarchical clustering provide a view of the data at different levels, making the large document collections are adapted to people's instinctive and interested requires. Many papers have shown that the hierarchical clustering method takes good-performance, but is limited because of its quadratic time complexity. In contrast, K-means has a time complexity that is linear in the number of documents, but is thought to produce inferior clusters. Think of the factor of simpleness, high-quality and high-efficiency, we combine the two approaches providing a new system named CONDOR system [10] with hierarchical structure based on document clustering using K-means algorithm to "get the best of both worlds". The performance of CONDOR system is compared with the VIVISIMO hierarchical clustering system [9], and performance is analyzed on feature words selection of specific topics and the optimum hierarchy depth.

  • PDF

순수 내장형 XML 데이터베이스 기반의 MPEG-7 문서 관리 시스템의 설계 및 구현 (Design and Implementation of MPEG-7 Document Management System Based on Native Embedded XML Database)

  • 안병태;강병수;조건화;강현석
    • 한국멀티미디어학회논문지
    • /
    • 제10권2호
    • /
    • pp.170-178
    • /
    • 2007
  • 모바일 환경의 제한된 자원하에서 MPEG-7 데이터의 관리를 위해 내장형 데이터베이스 기술을 사용할 수 있다. 이 때 XML 문서 클러스터링 방법들을 이용할 수 있겠으나 보다 효율성을 높이기 위해 MPEG-7 문서를 효율적으로 저장하기 위한 클러스터링 방법이 필요하다. 본 논문에서는 PDA와 같은 모바일 단말기에서 MPEG-7 문서를 효율적으로 저장할 수 있는 MPEG-7 문서 관리 시스템을 설계 및 구현하였다. 이 시스템은 MPEG-7 데이터 클러스터링 방법을 기반으로 전용 내장형 XML 데이터베이스 시스템인 버클리 DB XML을 이용하였다.

  • PDF

절차적 프로그램으로부터의 객체 추출 방법론 (A Method of Object Identification from Procedural Programs)

  • 진윤숙;마평수;신규상
    • 한국정보처리학회논문지
    • /
    • 제6권10호
    • /
    • pp.2693-2706
    • /
    • 1999
  • Reengineering to object-oriented system is needed to maintain the system and satisfy requirements of structure change. Target systems which should be reengineered to object-oriented system are difficult to change because these systems have no design document or their design document is inconsistent of source code. Using design document to identifying objects for these systems is improper. There are several researches which identify objects through procedural source code analysis. In this paper, we propose automatic object identification method based on clustering of VTFG(Variable-Type-Function Graph) which represents relations among variables, types, and functions. VTFG includes relations among variables, types, and functions that may be basis of objects, and weights of these relations. By clustering related variables, types, and functions using their weights, our method overcomes limit of existing researches which identify too big objects or objects excluding many functions. The method proposed in this paper minimizes user's interaction through automatic object identification and make it easy to reenginner procedural system to object-oriented system.

  • PDF