• 제목/요약/키워드: 질의클러스터링

검색결과 154건 처리시간 0.024초

LSI를 이용한 문서 클러스터링 (The Document Clustering using LSI of IR)

  • 고지현;최영란;유준현;박순철
    • 한국산업정보학회:학술대회논문집
    • /
    • 한국산업정보학회 2002년도 춘계학술대회 논문집
    • /
    • pp.330-335
    • /
    • 2002
  • 정보검색시스템에서 가장 중요한 것은 사용자의 요구에 부합하는 결과를 도출하는 것이다. 이를 위하여 사용자의 질의와 연관된 모든 문서들을 추출하게 되는데, 이 많은 결과 문서들 중에서 사용자가 원하는 문서는 소수이고, 원하는 문서를 찾는 것도 쉽지 않다. 따라서 적절한 결과 문서를 도출하기 위하여 연관된 문서들끼리 그룹화 시키는 클러스터링 방법이 많이 이용된다. 본 논문에서는 기존의 문서내의 색인어 보다는 그 의미에 기반하여 클러스터링 하였다. 이를 위하여 LSI 모델을 적용하였고, 문서 클러스터링 방법으로 많이 사용하고 있는 K-Means 알고리즘을 이용한 클러스터링과의 차이점을 비교, 분석하였다.

  • PDF

LSI 를 이용한 가중치 변화에 따른 클러스터링 결과 분석 (The Analysis of Clustering Result with Weight Change using LSI)

  • 고지현;오형진;박순철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 춘계학술발표논문집 (하)
    • /
    • pp.1009-1012
    • /
    • 2002
  • 정보검색시스템에서 가장 중요한 것은 사용자의 요구에 부합하는 결과를 도출하는 것이다. 이를 위하여 사용자의 질의와 연관된 모든 문서들을 추출하게 되는데, 이 많은 결과 문서들 중에서 사용자가 원하는 문서는 소수이고, 원하는 문서를 찾는 것도 쉽지 않다. 따라서 적절한 결과 문서 도출을 위하여 연관된 문서들끼리 그룹화 시키는 클러스터링 방법이 많이 이용된다. 본 논문에서는 클러스터링에 영향을 끼치는 요소 중 문서별 색인어의 가중치가 클러스터링에 끼치는 영향을 알아보았다. 이를 위해 가중치의 변화에 따른 클러스터링 된 결과를 LSI 를 이용하여 도식화하고 그 결과를 분석하였다.

  • PDF

질의응답을 위한 복수문서 요약에 관한 실험적 연구 (An Experimental Study on Multi-Document Summarization for Question Answering)

  • 최상희;정영미
    • 정보관리학회지
    • /
    • 제21권3호
    • /
    • pp.289-303
    • /
    • 2004
  • 이 연구에서는 이용자가 여러 곳에 분산되어 있는 문서들을 일일이 보지 않고 하나의 요약문에서 쉽게 질의에 맞는 답을 찾을 수 있는 가장 효율적인 방안을 제시하고자 하였다. 이를 위해, 클러스터링 기법, 단락확장 기법, 두 기법의 특성을 반영한 혼합 기법 등 세 가지 복수문서 요약 기법의 성능을 평가하는 실험을 수행하였다. 요약기법 평가 기준으로는 요약 정확률과 요약문내 정보 중복도를 적용하였다. 실험결과 이용자 질의에 따라 여러 문서를 요약하는 최적 기법으로 문장검색을 기반으로 한 순차적 단락확장 기법을 제안하였다. 순차적 단락확장은 특히, 용약의 대상이 되는 문서가 대용량인 환경에서 정확한 정보를 찾아 요약문을 생성하는 성능이 가장 우수한 것으로 나타났다.

이동체를 위한 R-트리 기반 색인에서의 궤적 클러스터링 정책 (Policies of Trajectory Clustering in Index based on R-trees for Moving Objects)

  • 반재훈;김진곤;전봉기;홍봉희
    • 정보처리학회논문지D
    • /
    • 제12D권4호
    • /
    • pp.507-520
    • /
    • 2005
  • 이동체 데이터베이스를 위한 과거 궤적 색인으로 R-tree계열이 많이 사용되었다. 그러나 R-tree계열의 색인은 공간 근접성만을 고려하였기 때문에 동일 궤적을 검색을 할 때 많은 노드 접근이 필요하다. 즉 기존의 이동체 색인들은 공간 근접성과 궤적 연결성이 서로 상반된 특징을 가지므로 함께 고려하지 못했다. 이동체 색인에서 영역 질의의 성능개선을 위해서는 노드 간의 심한 중복과 사장 공간(Dead space)을 줄여야하고, 궤적 질의의 성능 개선을 위해서는 이동체의 궤적 보존이 이루어져야 한다. 이와 같은 요구 조건을 만족하기 위해, 이 논문에서는 R-tree 기반의 색인 구조에서 궤적 클러스터링 정책을 제안한다. 노드 분할 정책에서는 궤적 클러스터링을 위해서 동일 궤적을 그룹화해서 분할하는 공간 축 분할 정책과 공간 활용도를 높이는 시간 축 분할 정책을 제안한다. 또한 비단말 노드의 연결 정보를 저장하여 개선된 복합 질의 알고리즘을 제안하였다. 이 논문에서는 제안한 R-tree기반 색인 구조의 구현 및 성능 평가를 통해서 검색성능이 우수함을 보였다.

주기적 편중 분할에 의한 다차원 데이터 디클러스터링 (Declustering of High-dimensional Data by Cyclic Sliced Partitioning)

  • 김학철;김태완;이기준
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제31권6호
    • /
    • pp.596-608
    • /
    • 2004
  • 디스크 입출력 성능에 의해서 많은 영향을 받는 대용량의 데이타를 저장하고 처리하는 시스템에서 데이타를 다수의 병렬 디스크에 분산 시켜 저장한 후 질의 처리 시 디스크 접근 시간을 감소시키기 위한 노력들이 많이 행해졌다. 대부분의 이전 연구들은 데이타 공간이 정형의 그리드 형태로 분할되어 있다는 가정 하에 각 그리드 셀에 대해서 효과적으로 디스크 번호를 할당하는 알고리즘 연구에 치중하였다. 하지만, 그리드 형태의 분할은 저차원 데이타에 대해서는 효과적이지만 고차원 데이타에 대해서는 우수한 디스크 할당 알고리즘을 적용하더라도 디클러스터링에 의한 성능 향상을 이룰 수가 없다. 그 이유는 그리드 분할 방법은 데이타 분포 비율에 관계없이 전체 데이타 공간을 동일한 비율로 분할하기 때문이다. 고차원 데이타는 대부분 데이타 공간의 표면에 존재한다. 본 논문에서는 이와 같은 현상을 고려하여 데이타 표면으로부터 주기적으로 편중 분할하는 알고리즘을 이용한 새로운 디클러스터링 알고리즘을 제시한다. 다양한 실험 결과에 의하면 표면으로부터 주기적으로 편중 분할하는 방법은 차원이 증가할 수록, 또한 질의 크기가 증가할 수록 그리드 형태의 분할에 비해서 질의를 만족하는 데이타 블록의 수를 현저히 감소시킬 수 있다. 본 논문에서는 분할 결과 데이타 블록들의 배치(layout)를 이용한 디스크 번호 할당 알고리즘들을 제시하였다. 우리는 제시한 알고리즘의 성능을 보이기 위해서 다양한 차원과 디스크 수에 대해서 여러 가지 실험을 하였다. 본 연구에서 제시한 디스크 할당 알고리즘은 절대 최적의 디스크 할당 방법에 비해서 추가적인 디스크 접근 횟수가 10번을 넘지 않는다. 디클러스터링 알고리즘의 응답 시간에 대해서 그리드 분할에 대해서 가장 좋은 성능을 보이는 것으로 알려져 있는 Kronecker sequence을 이용한 디스크 할당 알고리즘과 비교하였으며 차원이 높아짐에 따라 최대 14배까지 성능이 향상된다.

교차언어 문서검색에서 중의성 해소를 위한 가중치 부여 및 질의어 구조화 방법 (Weighting and Query Structuring Scheme for Disambiguation in CLTR)

  • 정의헌;권오욱;이종혁
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2001년도 제13회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.175-182
    • /
    • 2001
  • 본 논문은 사전에 기반한 질의변환 교차언어 문서검색에서, 대역어 중의성 문제를 해결하기 위한, 질의어 가중치 부여 및 구조화 방법을 제안한다. 제안하는 방법의 질의 변환 과정은 다음의 세 단계로 이루어진다. 첫째, 대역어 클러스터링을 통해 먼저 질의어 단어의 적합한 의미를 결정짓고, 둘째, 문맥정보와 지역정보를 이용하여 후보 대역어들간의 상호관계를 분석하며, 셋째, 각 후보 대역어들을 연결하여, 후보 질의어를 만들고 각각에 가중치를 부여하여 weighted Boolean 질의어로 생성하게 된다. 이를 통해, 단순하고 경제적이지만, 높은 성능을 낼 수 있는 사전에 의한 질의변환 교차언어 문서검색 방법을 제시하고자 한다.

  • PDF

링크기반 클러스터링을 이용한 웹 문서 검색의 성능 향상에 관한 실험적 연구 (An Experimental Study on Enhancing the Retrieval Performance for the Web Documents Using Link-Based Clustering Technique)

  • 김혜진;문성빈
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2002년도 제9회학술대회 논문집
    • /
    • pp.247-252
    • /
    • 2002
  • 본 연구에서는 하이퍼텍스트나 웹 문서의 검색에서 링크로 연결된 문서들이 주제적으로 서로 관련되어 있다는 것을 기반으로 하여 링크정보를 참조한 웹 문서 클러스터링 기법을 제안하였고 이것을 이용하여 검색된 결과를 질의 근접 순위화함으로써 웹 문서 검색의 성능을 향상시키는 방안을 연구하였다. 본 연구에서 사용된 웹 문서 집단은 웹(WWW)을 통하여 직접 수집하였으며 웹 문서가 다른 웹 문서를 링크하고 있을 때를 OutLink, 다른 웹 문서로부터 링크를 받고 있을 때를 InLink로 구분하였다. 실험결과 OutLink를 참조하여 클러스터링을 수행하는 기법과 InLink를 참조하여 클러스터링을 수행하는 기법 모두 검색 성능을 향상시켰다.

  • PDF

계층적 문서 클러스터링을 이용한 실세계 질의 메일의 자동 분류 (Automatic Categorization of Real World FAQs Using Hierarchical Document Clustering)

  • 류중원;조성배
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2001년도 춘계학술대회 학술발표 논문집
    • /
    • pp.187-190
    • /
    • 2001
  • Due to the recent proliferation of the internet, it is broadly granted that the necessity of the automatic document categorization has been on the rise. Since it is a heavy time-consuming work and takes too much manpower to process and classify manually, we need a system that categorizes them automatically as their contents. In this paper, we propose the automatic E-mail response system that is based on 2 hierarchical document clustering methods. One is to get the final result from the classifier trained seperatly within each class, after clustering the whole documents into 3 groups so that the first classifier categorize the input documents as the corresponding group. The other method is that the system classifies the most distinct classes first as their similarity, successively. Neural networks have been adopted as classifiers, we have used dendrograms to show the hierarchical aspect of similarities between classes. The comparison among the performances of hierarchical and non-hierarchical classifiers tells us clustering methods have provided the classification efficiency.

  • PDF

MPEG-7 데이터의 효율적인 관리를 위한 클러스터링 방법 (Clustering of MPEG-7 Data for Efficient Management)

  • 안병태;강병수;조건화;강현석
    • 한국멀티미디어학회논문지
    • /
    • 제10권1호
    • /
    • pp.1-12
    • /
    • 2007
  • 모바일 환경의 제한된 자원 하에서 멀티미디어 데이터를 이용하기 위해서는 XML로 표현되는 MPEG-7 문서의 효율적인 관리 방법이 필요하다. 이 때 XML 문서 클러스터링 방법들을 이용할 수 있겠으나 보다 효율성을 높이기 위해 MPEG-7 문서의 특성을 반영한 새로운 클러스터링 방법이 요구된다. 새로운 클러스터링은 모바일 환경에서 멀티미디어 검색시 질의 처리 속도가 향상되며 다양한 응용에 적합한 문서 저장이 가능하다. 본 논문에서는 대용량의 멀티미디어 데이터를 MPEG-7 문서로 효율적으로 관리하기 위해 MPEG-7 문서의 엘리먼트들 사이에 나타나는 의미 관련성을 이용해 저장할 수 있는 새로운 클러스터링 방법을 제안하고, 이를 기존 방법들과 비교하였다.

  • PDF

클러스터의 주요항목 가중치 기반 XML 문서 클러스터링 (Clustering XML Documents Considering The Weight of Large Items in Clusters)

  • 황정희
    • 정보처리학회논문지D
    • /
    • 제14D권1호
    • /
    • pp.1-8
    • /
    • 2007
  • 발달된 인터넷 환경과 데이터 교환 표준 언어로서 확정되고 있는 XML을 기반으로 하여 대량의 웹 문서들이 생산되면서 정보 추출의 대상은 자연스럽게 웹 문서로 이동하게 되었다. 이에 따라 급속히 증가하고 있는 XML 문서에 대한 구조, 통합 및 검색을 위한 연구들이 있다. 이 논문에서는 XML 문서들에 대한 질의 처리, 검색 등을 효율적으로 처리하기 위한 기반으로써 빈발구조 중심의 XML 문서를 클러스터링 하는 방법을 제안한다. 첫째 XML 문서를 트리 구조로 표현하여 분리하고 분리된 구조들을 대상으로 빈발하게 발생하는 구조들을 추출한다. 둘째 각 XML 문서에서 추출된 빈발 구조들을 트랜잭션의 항목으로 취급하여 클러스터링을 수행한다. 클러스터링을 수행할 때 각 클러스터의 생성 및 생성된 전체 클러스터의 응집도를 함께 고려하는 주요항목 가중치를 이용한다. 셋째 기존연구와의 비교 실험을 통해 제안하는 방법의 우수성을 증명한다.