• 제목/요약/키워드: 문서클러스터링

검색결과 167건 처리시간 0.025초

문서구조를 이용한 질의응답문서 클러스터링에 관한 연구 (A Study on Clustering Query-answer Documents with Structural Features)

  • 최상희
    • 한국문헌정보학회지
    • /
    • 제39권4호
    • /
    • pp.105-118
    • /
    • 2005
  • 이용자가 직접 참여하여 질의를 제공하고 응답을 하면서 공동으로 지식을 생산해내는 형태의 정보서비스는 응답된 내용이 축적되어 가면서 새로운 대용량 정보검색 분야로 성장하고 있다. 이 연구에서는 질의와 응답이 결합되어 있는 질의응답문서의 구조적 특성을 반영하여 질의응답문서의 효율적인 이용 방안을 도모하고자, 문서 구성요소인 질의제목, 질의설명, 응답내용을 기반으로 클러스터를 자동 생성하여 수작업 주제 범주와 비교한 후 각 구성요소의 주제 표현 성능을 평가하였다. 실험 결과 응답내용 클러스터링 결과가 수작업 결과와 가장 유사한 것으로 나타나 응답내용이 문서의 주제를 표현하는데 효과적인 것으로 분석되었다.

색인어 가중치 부여 방법에 따른 K-Means 문서 클러스터링의 LSI 분석 (Latent Semantic Indexing Analysis of K-Means Document Clustering for Changing Index Terms Weighting)

  • 오형진;고지현;안동언;박순철
    • 정보처리학회논문지B
    • /
    • 제10B권7호
    • /
    • pp.735-742
    • /
    • 2003
  • 정보검색 시스템에서 문서 클러스터링 기술은 사용자 질의에 대해 검색된 문서들을 문서간의 유사도를 기반으로 특정 주제에 따라 재배치하여 놓는 기술로써 사용자에게 검색의 편의성을 제공하고, 그 결과들을 시각적으로 보여줄 수 있다. 본 논문에서는 K-Means 알고리즘을 사용하여 문서를 클러스터링하며 문서를 대표하는 색인어에 가중치를 부여하는 기법에 대하여 논한다. 클러스터링 결과를 시각적으로 보여주기 위하여 문서와 클러스터 중심들을 2차원 공간으로 사상하기 위한 Latent Semantic Indexing 접근 방법을 적용하였다. 실험 결과 문서의 색인어에 대한 가중치 부여 방법을 동일하게 하거나 또는 유사한 수식을 적용한 사례보다는 로컬가중치, 글로벌가중치, 정규화 요소를 모두 부여한 사례에서 문서들이 2차원 벡터 공간에서 군집하여 분포하는 클러스터링 효과가 우수하였다. 특히 로컬 가중치와 글로벌 가중치에 logarithm을 적용하였을 때 문서 분포의 군집도는 현저하게 나타남을 알 수 있었다.

계층적 결합형 문서 클러스터링 시스템과 복합명사 색인방법과의 연관관계 연구 (The Experimental Study on the Relationship between Hierarchical Agglomerative Clustering and Compound Nouns Indexing)

  • 조현양;최성필
    • 한국문헌정보학회지
    • /
    • 제38권4호
    • /
    • pp.179-192
    • /
    • 2004
  • 본 논문에서는 복합명사에 대한 색인 방법을 다각적으로 적용하여 계층적 결합 문서 클러스터링 시스템의 결과를 분석한다. 우선 한글 색인 엔진과 HAC(Hierarchical Agglomerative Clustering) 엔진에 대해서 설명하고 한글 색인 엔진에서 제공되는 3가지 복합명사 분석 모드에 대해서 기술한다. 또한 구현된 클러스터링 엔진의 특징과 속도 향상을 위한 기법 등을 예시한다. 실험에서는 3가지 복합명사 색인 방법을 기준으로 문서 클러스터링을 수행하고, 실험 결과에 대한 분석에서 복합명사에 대한 색인 방법이 문서 클러스터링의 결과에 직접적인 영향을 준다는 것을 보여준다.

MPEG-7 데이터의 효율적인 관리를 위한 클러스터링 방법 (Clustering of MPEG-7 Data for Efficient Management)

  • 안병태;강병수;조건화;강현석
    • 한국멀티미디어학회논문지
    • /
    • 제10권1호
    • /
    • pp.1-12
    • /
    • 2007
  • 모바일 환경의 제한된 자원 하에서 멀티미디어 데이터를 이용하기 위해서는 XML로 표현되는 MPEG-7 문서의 효율적인 관리 방법이 필요하다. 이 때 XML 문서 클러스터링 방법들을 이용할 수 있겠으나 보다 효율성을 높이기 위해 MPEG-7 문서의 특성을 반영한 새로운 클러스터링 방법이 요구된다. 새로운 클러스터링은 모바일 환경에서 멀티미디어 검색시 질의 처리 속도가 향상되며 다양한 응용에 적합한 문서 저장이 가능하다. 본 논문에서는 대용량의 멀티미디어 데이터를 MPEG-7 문서로 효율적으로 관리하기 위해 MPEG-7 문서의 엘리먼트들 사이에 나타나는 의미 관련성을 이용해 저장할 수 있는 새로운 클러스터링 방법을 제안하고, 이를 기존 방법들과 비교하였다.

  • PDF

규칙기반 단어 클러스터링에 의한 문서 분류의 성능 향상 (Performance Improvement of Document Classification by Rule-based Word Clustering)

  • 현우석
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 한국컴퓨터종합학술대회 논문집 Vol.33 No.1 (B)
    • /
    • pp.196-198
    • /
    • 2006
  • 분류되지 않은 문서의 문서 분류는 현재까지 아주 중요한 문제로 대두되고 있다. 컴퓨터를 이용한 문서 검색 엔진인 Citeseer에서는 문서 인덱싱을 하기 위해서 자동문서 분류 방법을 사용하고 있다. 문서 분류는 원본 문서의 단어들을 제1의 속성 표현으로 사용한다. 그러나 이와 같은 표현은 고차원과 속성 부족을 초래하게 된다. 단어 클러스터링은 속성 차원과 속성 부족을 감소시키기 위한 효율적인 방법이며 문서 분류 성능을 향상시켜 준다. 본 연구에서는 클러스터 속성 표현을 위한 도메인 규칙기반 단어 클러스터링 방법을 사용한다. 클러스터는 다양한 도메인 데이터베이스들과 단어 철자 속성들로부터 생성되는데, 이와 같은 클러스터 속성 표현은 중요한 차원 감소뿐만 아니라 문서 헤더 라인의 평균 분류 성능에서 향상을 보여 주었고, 원본 문서 단어 기반 속성 표현과 비교해 보았을 때 도서목록 항목 추출의 정확도를 향상시켰다.

  • PDF

동시링크를 이용한 웹 문서 클러스터링 실험 (Clustering of Web Document Exploiting with the Co-link in Hypertext)

  • 김영기;이원희;권혁철
    • 한국도서관정보학회지
    • /
    • 제34권2호
    • /
    • pp.233-253
    • /
    • 2003
  • 인간은 지식의 조직을 통해 세계를 이해한다. 정보검색분야에서 연구되고 있는 정보의 조직화에는 분류와 클러스터링이라는 두 가지 유형이 있다. 분류는 미리 정의된 범주에 각 항목을 배정하는 행위인 반면, 클러스터링은 유사하거나 관련된 항목을 집단화함으로써 정보를 조직한다. 인터넷 정보자원의 조직은 웹 문서에 출현하는 단어들에서 키워드를 추출하여 역파일을 작성함으로써 검색에 활용하는 것이 일반적인 방법이다. 그러나 키워드의 출현 위치나 단어빈도를 통한 문서유사도 기법은 사용된 언어가 다르거나 대부분이 앵커텍스트만으로 구성되어 있는 대문페이지처럼 적용하기 어려운 경우가 많다. 이 연구는 계량정보학적 분석 기법 중에서 동시인용 기법을 웹 문서의 하이퍼링크에 적용하여, 웹 문서의 클러스터링 가능성을 실험한다.

  • PDF

웹 디렉토리 서비스를 위한 문서 클러스터링 (Document Clustering for Web Directory Service)

  • 이문기;권오욱;이종혁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 봄 학술발표논문집 Vol.27 No.1 (B)
    • /
    • pp.351-353
    • /
    • 2000
  • 대부분의 검색 엔진에서의 사용자의 정보 검색 요구에서 나타나는 키워드 장벽의 문제점을 해결하고 사용자의 정보 검색 과정에 도움을 주기 위해 디렉토리 서비스를 제공한다. 하지만 디렉토리 서비스에서 새로운 웹 사이트를 지속적으로 인덱스하여 하나의 주제어에 너무 많은 수의 웹 사이트가 부여되어 있으면 사용자의 검색 편의를 위해서 재분류하여 세분류할 필요가 있다. 따라서 본 논문에서는 한 주제어에 과다하게 부여된 웹 사이트들을 세분류하기 위해 기존의 문서 클러스터링 기법을 사용하여 클러스터링 할 때 생기는 문제점을 보완한 문서 클러스터링 시스템을 소개한다.

  • PDF

용어 선별 기법에 의한 유사 문서 판별 시스템 (Text Similarity Decision System by Term Selection Method)

  • 장성호;강승식
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (B)
    • /
    • pp.534-536
    • /
    • 2003
  • 대부분의 정보 검색 시스템은 문서 내어서 추출된 모든 용어를 이용해서 문서간 유사도 계산이나 문서 분류, 문서 클러스터링 등에 활용한다. 그러나 실질적으로 문서 내외 모든 용어를 추출해야만 이러한 정보 검색 시스템을 활용할 수 있는 것은 아니며, 오히려 용어 빈도수 같은 가중치가 낮은 용어를 용어 추출에서 제외시킴으로써 모든 용어 추출로 인해서 발생하는 시간과 공간을 많이 소비하는 문제를 해결할 수 있다. 또한 정확하고 자동적인 문서 분류를 위한 문서 클러스터링보다 유사 문서 검색의 활용은 검색효율의 증가를 가져 올 수 있다. 본 논문에서는 유사 문서 판별 시스템을 이용해 용어 추출의 효율성을 실험하였으며, 모든 용어를 추출한 경우보다 중요 용어만 추출한 경우에 더 좋은 성능을 보였다.

  • PDF

한글 웹 문서 클러스터링 성능향상을 위한 자질선정 기법 비교 연구 (A Comparative Study of Feature Selection Methods for Korean Web Documents Clustering)

  • 김영기
    • 한국문헌정보학회지
    • /
    • 제39권1호
    • /
    • pp.45-58
    • /
    • 2005
  • 이 연구는 한글 웹 문서를 클러스터링 하기 위한 자질 선정 방법에 대한 비교연구이다. 이 연구에는 두 개의 코퍼스가 사용되었다. 클러스터링을 위한 실험 문서는 Naver의 자연과학 범주에서, 자질 선정을 위한 학습문서는 Yahoo Korea의 같은 범주에서 수집하였다. 우선 실험 문서를 단어자질과 동시링크, 그리고 이 둘을 혼합한 방법으로 클러스터링 한 다음 그 성능을 비교하였다. 다음으로 학습문서에서 카이제곱 통계량$(X^2)$, 정보획득량(IG), 그리고 상호정보량(MI)을 이용하여 용어자질을 선정한 다음. 이를 실험문서에 적용하여 클러스터링 성능을 비교하였다. 석기에 각 범주별로 최댓값을 갖는 용어들만을 해당 범주를 대표하는 자질로 선정하는 '최댓간 자질 선정기법'을 실험적으로 도입하여 적용해 보았다. 실험 결과 사용된 자질에 따른 한글 웹 문서 클러스터링 정확률은 자연어 $ 72.3\%$, 동시링크 $74.3\%$, 단어-링크 혼합 $74.8\%$, $X^2\;79.6\%\;Max\;X^2\;83.8\%$로 나타났다. 전통적 자질 선정 기법 중에서는 $X^2$가 약간 나은 성능을 보여 주었지만 큰 차이는 발견되지 않았다. 그러나 최댓값 자질 선정기법을 적용하였을 때 클러스터링 성능은 크게 향상되었다. 이 논문에서 제안된 최댓간 자질 선정 기법은 웹 문서의 자질 공간 축소와 한글 웹 문서의 클러스터링을 위한 간단하면서도 효과적인 수단이다.

클러스터의 히스토그램을 이용한 XML 문서의 점진적 클러스터링 기법 (An Incremental Clustering Technique of XML Documents using Cluster Histograms)

  • 황정희
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제34권3호
    • /
    • pp.261-269
    • /
    • 2007
  • 이 논문에서는 XML 문서에 대한 효율적인 검색과 통합을 위한 기초연구로써 XML 문서들에 대한 구조 중심의 클러스터링 기법을 제안한다. 기존 연구에서 문서간의 구조적 유사도를 기반으로 클러스터를 형성해 가는 것과는 다르게 많은 데이타를 빠르게 처리할 수 있는 트랜잭션 데이타를 취급하는 알고리즘을 변형하여 적용한다. 각 클러스터에 포함되어 있는 항목들에 대한 누적 분포를 나타내는 히스토그램을 이용하여 전체적인 클러스터링의 응집도를 고려하는 클러스터링을 수행한다. 기존 연구와의 실험을 통해 클러스터링 처리 시간의 향상과 양질의 클러스터를 생성하는 것을 알 수 있었다.