• Title/Summary/Keyword: 클러스터 검색

Search Result 208, Processing Time 0.022 seconds

병렬 정보 검색 시스템의 고장 포용성 향상 기법

  • 강재호;안현주;정성원;류광렬;권혁철;정상화
    • Proceedings of the Korea Inteligent Information System Society Conference
    • /
    • 2003.05a
    • /
    • pp.457-466
    • /
    • 2003
  • 인터넷과 같은 대량의 정보에 대응할 수 있는 고성능 정보검색시스템을 구축하기 위해서 지금까지는 고가의 중대형 컴퓨터를 주로 활용하여 왔으나, 최근 가격대 성능비가 높은 PC 클러스터 시스템을 활용하는 방안이 경제적인 대안으로 떠오르고 있다. PC 클러스터 시스템에서는 전체 작업을 개별 노드 즉 PC에 가능한 균등하게 분배함으로써 성능을 극대화 하고자 하는데, 하나 또는 그 이상의 노드에 문제가 발생하는 경우 전체시스템의 성능이 매우 저하되거나 정상적인 서비스를 제공하기가 어려워진다. 이러한 상황에서 고장 포용성의 달성은 1년 365일 지속적으로 운영되어야 하는 많은 응용분야에서 반드시 해결해야 하는 문제이다. 본 논문에서는 PC 클러스터를 활용한 병렬정보검색시스템에서 고장 포용성을 극대화하기 위하여 각 노드의 색인어 역파일을 이웃 노드에 효율적으로 중복하여 저장하는 방안과 이를 활용한 효과적인 병렬정보검색 방법을 제안한다. 대규모 말뭉치를 활용한 실험결과 본 논문에서 제시하는 고장 포용성 향상을 위한 색인어 역파일 중복 저장방안이 충분한 효율성과 실용성이 있음을 확인하였다.

  • PDF

Parallel Information Retrieval using Document Clustering Techniques (문서 클러스터링 기법을 활용한 병렬 정보 검색)

  • 강유경;박세진;류광렬;정상화
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1998.10a
    • /
    • pp.750-752
    • /
    • 1998
  • 본 논문은 고품질의 정보를 신속하게 제공할 수 있으며, cost-effective 한 medium-grained 병렬 정보 검색 시스템을 제시하고 있다. 본 검색 시스템은 병렬 모델의 효율을 극대화하는 방안으로 문서 라이브러리를 작은 단위의 클러스터로 세분화하고 검색 시 클러스터 단위로 프로세서에 할당될 수 있게 하여 할당될 작업의 단위를 적절히 중규모화하였을 뿐만 아니라, 각 클러스터마다 독립적인 염색인 파일을 별도로 두어 순위 부여 계산시 통신을 최소화 할 수 있도록 하였다. 또한, 기계 학습 기법을 이용하여 가능한 한 유사한 문서군이 되도록 클러스터링 함으로써 불필요한 크러스터가 검색될 가능성을 최소화하여 성능을 높였다. 본 검색 시스템은 분산메모리 MIMD 구조의 트랜스퓨터에서 구현되었으며, Connection machine에서 사용되는 Stanfill방법과의 비교 실험을 통하여 계층적인 접근법의 성능을 비교, 평가하였다. 그리고 random클러스터링 기법과 비교하여 기계학습을 통한 클러스터링 접근방법이 우수함을 보이고 있다.

  • PDF

Query Expansion based on Knowledge Extraction and Latent Dirichlet Allocation for Clinical Decision Support (의학 문서 검색을 위한 지식 추출 및 LDA 기반 질의 확장)

  • Jo, Seung-Hyeon;Lee, Kyung-Soon
    • Annual Conference on Human and Language Technology
    • /
    • 2015.10a
    • /
    • pp.31-34
    • /
    • 2015
  • 본 논문에서는 임상 의사 결정 지원을 위한 UMLS와 위키피디아를 이용하여 지식 정보를 추출하고 질의 유형 정보를 이용한 LDA 기반 질의 확장 방법을 제안한다. 질의로는 해당 환자가 겪고 있는 증상들이 주어진다. UMLS와 위키피디아를 사용하여 병명과 병과 관련된 증상, 검사 방법, 치료 방법 정보를 추출한다. UMLS와 위키피디아를 사용하여 추출한 의학 정보를 이용하여 질의와 관련된 병명을 추출한다. 질의와 관련된 병명을 이용하여 추가 증상, 검사 방법, 치료 방법 정보를 확장 질의로 선택한다. 또한, LDA를 실행한 후, Word-Topic 클러스터에서 질의와 관련된 클러스터를 추출하고 Document-Topic 클러스터에서 초기 검색 결과와 관련이 높은 클러스터를 추출한다. 추출한 Word-Topic 클러스터와 Document-Topic 클러스터 중 같은 번호를 가지고 있는 클러스터를 찾는다. 그 후, Word-Topic 클러스터에서 의학 용어를 추출하여 확장 질의로 선택한다. 제안 방법의 유효성을 검증하기 위해 TREC Clinical Decision Support(CDS) 2014 테스트 컬렉션에 대해 비교 평가한다.

  • PDF

A Re-Ranking Retrieval Model based on Two-Level Similarity Relation Matrices (2단계 유사관계 행렬을 기반으로 한 순위 재조정 검색 모델)

  • 이기영;은희주;김용성
    • Journal of KIISE:Software and Applications
    • /
    • v.31 no.11
    • /
    • pp.1519-1533
    • /
    • 2004
  • When Web-based special retrieval systems for scientific field extremely restrict the expression of user's information request, the process of the information content analysis and that of the information acquisition become inconsistent. In this paper, we apply the fuzzy retrieval model to solve the high time complexity of the retrieval system by constructing a reduced term set for the term's relatively importance degree. Furthermore, we perform a cluster retrieval to reflect the user's Query exactly through the similarity relation matrix satisfying the characteristics of the fuzzy compatibility relation. We have proven the performance of a proposed re-ranking model based on the similarity union of the fuzzy retrieval model and the document cluster retrieval model.

A Study on Region matching method for Region-based Image Retrieval (영역 기반 이미지 검색을 위한 영역 매칭 방법에 관한 연구)

  • 추연웅;최기호
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 2002.11b
    • /
    • pp.155-158
    • /
    • 2002
  • 본 논문은 영역기반의 영상 검색을 위해 향상된 영역 매칭 알고리즘을 구현하고자 한다. 최근의 Mpeg-7표준은 객체 기반의 영상처리를 특징으로 하고 있으며, 객체 기반의 영상 처리방법들에서 가장 대표적인 방법인 영역기반 검색 방법은 영역 분할과 특징 추출, 그리고 영역매칭을 통한 유사도 측정에 따른 검색으로 나뉘어 진다. 본 논문에서는 영상을 분할한 후 분할된 영역들에 대한 특징을 추출 하고, 추출된 특징들을 다차원 특징 공간에서의 클러스터로 구성한다. 그리고 구성된 클러스터들을 인접한 중심을 가진 특징 그룹화 하여 특징 그룹 중심간의 거리차를 이용하여 질의 이미지와 검색 이미지의 유사도를 측정하는 영역 매칭 방법을 제안한다.

  • PDF

A Method of Descriptor Extraction for Automatic Document Clustering (자동 문서 클러스터링을 위한 디스크립터 추출 방안)

  • Yun, Bo-Hyun;Kang, Hyun-Kyu;Ko, Hyung-Dae
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2000.04a
    • /
    • pp.230-233
    • /
    • 2000
  • 기존의 검색엔진은 검색결과를 적합도 순서로 나열하여 사용자가 원하는 문서를 찾는데 어려움이 있다. 이러한 문제의 해결책으로 검색결과 문서에 대해 자동 클러스터링을 수행하여 문서 내용이 유사한 문서가 하나의 클러스터내에 존재하도록 한다. 본 논문에서는 검색 결과 문서의 클러스터링에서 필요한 디스크립터 추출 방안을 제안한다. 각 클러스터 내에서 디스크립터를 추출하기 위해 정보검색의 색인과정에서 사용하는 용어 가중치 계산 방법을 이용한다.

  • PDF

Term Clustering and Interleaving for Parallel Information Retrieval (색인어 군집화를 이용한 효율적인 병렬정보검색시스템)

  • 강재호;양재완;정성원;류광렬;권혁철;정상화
    • Proceedings of the Korea Inteligent Information System Society Conference
    • /
    • 2002.05a
    • /
    • pp.401-409
    • /
    • 2002
  • 인터넷과 같은 대량의 정보에 대응할 수 있는 고성능 정보검색시스템을 구축하기 위해서는 지금까지 고가의 중대형 컴퓨터를 주로 활용하여 왔으나, 최근 가격대 성능비가 높은 PC 클러스터 시스템을 활용하는 방안이 경제적인 대안으로 떠오르고 있다. PC 클러스터 상에서의 병렬정보검색시스템을 효율적으로 운영하기 위해서는 사용자가 입력한 질의를 처리하는데 요구되는 개별 PC의 디스크 I/O 및 검색관련 연산을 모든 PC에 가능한 균등하게 분배할 필요가 있다. 본 논문에서는 같은 질의에 동시에 등장할 가능성이 높은 색인어들끼리 군집 화하고 생성된 군집을 활용하여 색인어들을 각 PC에 분산저장함으로써 보다 높은 수준의 병렬화를 달성할 수 있는 방안을 제시한다. 대용량 말뭉치를 활용한 실험결과 본 논문에서 제시하는 분산저장기법이 충분한 효율성을 가지고 있음을 확인하였다.

  • PDF

Implementation and Performance Analysis of a Parallel CBF Scheme under Cluster System Environment (클러스터 시스템 환경 하에서의 병렬 CBF 기법의 구현 및 성능 평가)

  • 박승봉;장재우
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10c
    • /
    • pp.250-252
    • /
    • 2002
  • 기존의 색인 기법들은 차원의 수가 증가할수록 검색 성능이 급격히 저하되는 문제를 지니고 있으며. 이를 극복하기 위하여 CBF 기법이 제안되었다. 그러나 CBF 기법은 데이터 양이 증가함에 따라 검색성능이 선형적으로 감소하는 문제가 존재한다. 이를 해결하기 위해 다수의 디스크를 수령 분할 방법을 이용하여 디클러스터링(declustering)을 하는 병렬 CBF 기법이 제안되었다. 본 논문에서는 병렬 CBF기법을 여러 대의 리눅스 컴퓨터를 이용한 클러스터 시스템 환경 하에서 구현하고, 삽입시간, 범위 질의 검색시간, k-최근접 질의 검색시간 측면에서 성능 평가를 수행한다. 아울러, 클러스터 시스템 환경 하에서의 병렬 CBF 기법을 기존 CBF 기법과 성능 비교를 수행하며, 이를 통해 병렬 CBF 기법이 기존 CBF 기법보다 우수한 검색 성능을 나타냄을 보인다.

  • PDF

Automatic Naming of Document Clusters by Using their Hierarchical Structure (계층구조를 이용한 문서 클러스터 제목의 자동생성)

  • Kim, Tae-Hyun;Myaeng, Sung-Hyon
    • Annual Conference on Human and Language Technology
    • /
    • 2001.10d
    • /
    • pp.163-170
    • /
    • 2001
  • 웹에서 정보를 찾고자 하는 사용자들을 돕기 위해서는 조직화된 방법으로 검색 결과들을 제시하는 것이 바람직하다. 이러한 목적을 위해, 문서 클러스터링 기법들이 제안되었다. 문서 클러스터링은 사용자들이 관심의 대상이 되는 문서들을 더욱 쉽게 배치할 수 있게 하고, 검색된 문서집합에 대한 개관을 손쉽게 얻을 수 있게 한다. 클러스터링 결과로 주어지는 각 클러스터의 주제를 사용자들이 빠르게 파악할 수 있게 하려면 클러스터 제목을 표현하는 문제가 중요시 된다. 본 연구에서는, 웹 디렉토리의 계층적 구조를 사용하여 자동으로 클러스터 제목을 생성하는 방법을 제안한다. 이 방법은 대상이 되는 클러스터에 있는 문서들의 내용과 부합되는 계층상의 노드를 계층구조 상에서 찾아내어, 계층구조의 루트로부터 그 노드에 이르는 경로명을 클러스터의 제목으로 사용자에게 제시하도록 한다. 본 연구에서 제안한 모델은 '야후' 디렉토리를 사용하여 실험되었다. 실험 결과, 실험대상 클러스터의 본래 제목과 정확하게 일치하는 제목을 찾을 수 있는 경우의 정확률이 57.5% 의미적으로 본래 제목에 부합되는 제목을 찾을 수 있는 경우의 정확률이 대략 90%에 이른다는 것을 알 수 있었다.

  • PDF

A Method for Precision Improvement Based on Core Query Clusters and Term Proximity (핵심질의 클러스터와 단어 근접도를 이용한 문서 검색 정확률 향상 기법)

  • Jang, Kye-Hun;Lee, Kyung-Soon
    • The KIPS Transactions:PartB
    • /
    • v.17B no.5
    • /
    • pp.399-404
    • /
    • 2010
  • In this paper, we propose a method for precision improvement based on core clusters and term proximity. The method is composed by three steps. The initial retrieval documents are clustered based on query term combination, which occurred in the document. Core clusters are selected by using proximity between query terms. Then, the documents in core clusters are reranked based on context information of query. On TREC AP test collection, experimental results in precision at the top documents(P@100) show that the proposed method improved 11.2% over the language model.