• Title/Summary/Keyword: 클러스터 검색

Search Result 208, Processing Time 0.024 seconds

VIA-Based PC Cluster System for Efficient Information Retrieval (효율적인 정보 검색을 위한 VIA 기반 PC 클러스터 시스템)

  • Kang, Na-Young;Chung, Sang-Hwa;Jang, Han-Kook
    • Journal of KIISE:Computer Systems and Theory
    • /
    • v.29 no.10
    • /
    • pp.539-549
    • /
    • 2002
  • PC cluster-based Information Retrieval (IR) systems improve their performances by parallel processing of query terms using cluster nodes. However TCP/IP based communication used to exchange data between cluster nodes prevents the performance from being improved further. The user-level communication mechanisms solve the problem by eliminating the time-consuming kernel access in exchanging data between cluster nodes. The Virtual Interface Architecture (VIA) is one of the representative user-level communication mechanisms which provide low latency and high bandwidth. In this paper, we propose a VIA-based parallel IR system on a PC cluster. The IR system is implemented using the following three communication methods: Sealable Coherent Interface (SCI) based VIA, MPI on SCI based VIA, MPI on Fast Ethernet based VIA. Through experiments, the performances of the three methods are analyzed in various aspects.

Combined Image Retrieval System using Clustering and Condensation Method (클러스터링과 차원축약 기법을 통합한 영상 검색 시스템)

  • Lee Se-Han;Cho Jungwon;Choi Byung-Uk
    • Journal of the Institute of Electronics Engineers of Korea CI
    • /
    • v.43 no.1 s.307
    • /
    • pp.53-66
    • /
    • 2006
  • This paper proposes the combined image retrieval system that gives the same relevance as exhaustive search method while its performance can be considerably improved. This system is combined with two different retrieval methods and each gives the same results that full exhaustive search method does. Both of them are two-stage method. One uses condensation of feature vectors, and the other uses binary-tree clustering. These two methods extract the candidate images that always include correct answers at the first stage, and then filter out the incorrect images at the second stage. Inasmuch as these methods use equal algorithm, they can get the same result as full exhaustive search. The first method condenses the dimension of feature vectors, and it uses these condensed feature vectors to compute similarity of query and images in database. It can be found that there is an optimal condensation ratio which minimizes the overall retrieval time. The optimal ratio is applied to first stage of this method. Binary-tree clustering method, searching with recursive 2-means clustering, classifies each cluster dynamically with the same radius. For preserving relevance, its range of query has to be compensated at first stage. After candidate clusters were selected, final results are retrieved by computing similarities again at second stage. The proposed method is combined with above two methods. Because they are not dependent on each other, combined retrieval system can make a remarkable progress in performance.

A Study on the Real-time Distributed Content-based Web Image Retrieval System using PC Cluster (PC 클러스터를 이용한 실시간 분산 웹 영상 내용기반 검색 시스템에 관한 연구)

  • 이은애;하석운
    • Journal of Korea Multimedia Society
    • /
    • v.4 no.6
    • /
    • pp.534-542
    • /
    • 2001
  • Recent content-based image retrieval systems make use of a local single server contained a limited number of images. So these systems are not satisfactory for the Web user's needs that make request for various images on the Web. A content-based image retrieval system that has regard for a great number of Web images has to stand on the basis of real-time first of all. Therefore, to implement the above system we have to resolve a problem of large waste time to take for an image collection and feature extractions. In recent, PC clusters with a load distribution are implemented for the purpose of high-performance data processing. In this paper, we decreased the whole retrieval time by distributing the tasks of image collection and feature extraction to take much time among the slave computers of the PC cluster, and so we found the possibility of the real-time processing in the retrieval of Web images.

  • PDF

Resampling Feedback Documents Using Overlapping Clusters (중첩 클러스터를 이용한 피드백 문서의 재샘플링 기법)

  • Lee, Kyung-Soon
    • The KIPS Transactions:PartB
    • /
    • v.16B no.3
    • /
    • pp.247-256
    • /
    • 2009
  • Typical pseudo-relevance feedback methods assume the top-retrieved documents are relevant and use these pseudo-relevant documents to expand terms. The initial retrieval set can, however, contain a great deal of noise. In this paper, we present a cluster-based resampling method to select better pseudo-relevant documents based on the relevance model. The main idea is to use document clusters to find dominant documents for the initial retrieval set, and to repeatedly feed the documents to emphasize the core topics of a query. Experimental results on large-scale web TREC collections show significant improvements over the relevance model. For justification of the resampling approach, we examine relevance density of feedback documents. The resampling approach shows higher relevance density than the baseline relevance model on all collections, resulting in better retrieval accuracy in pseudo-relevance feedback. This result indicates that the proposed method is effective for pseudo-relevance feedback.

Selection of Cluster Hierarchy Depth and Initial Centroids in Hierarchical Clustering using K-Means Algorithm (K-Means 알고리즘을 이용한 계층적 클러스터링에서 클러스터 계층 깊이와 초기값 선정)

  • Lee, Shin-Won;An, Dong-Un;Chong, Sung-Jong
    • Journal of the Korean Society for information Management
    • /
    • v.21 no.4 s.54
    • /
    • pp.173-185
    • /
    • 2004
  • Fast and high-quality document clustering algorithms play an important role in providing data exploration by organizing large amounts of information into a small number of meaningful clusters. Many papers have shown that the hierarchical clustering method takes good-performance, but is limited because of its quadratic time complexity. In contrast, with a large number of variables, K-means has a time complexity that is linear in the number of documents, but is thought to produce inferior clusters. In this paper, Condor system using K-Means algorithm Compares with regular method that the initial centroids have been established in advance, our method performance has been improved a lot.

Implementation of PC-Cluster System for Efficient Bioinformatics Sequence Analysis (효율적인 생물정보 서열검색을 위한 PC-클러스터 시스템 구현)

  • 공재근;좌용권;박정선;유선주;이문상
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04a
    • /
    • pp.37-39
    • /
    • 2004
  • 최근 들어 유전자 서열의 생산량 증가에 비례하여 유전자 발현 마이크로 칩과 같은 새로운 분석방법과 기술들이 도입되면서 연구자들이 매일 수천 개의 서열을 효율적으로 분석해야 할 필요성이 증대되고 있다. 이러한 생명공학분야의 급속한 발전은 대용량 유전자 서열에 대한 빠른 분석이 가능한 컴퓨팅 자원을 요구하고 있으나 IT 인프라에 대한 막대한 투지비용으로 인해 관련 연구기관에서 쉽게 이들 컴퓨팅 자원을 도입하지 못하고 있는 실정이다. 본 연구에서는 저가의 PC 서버를 고속의 네트워크로 연결한 PC 클러스터를 활용하여 시스템의 안정성과 신뢰성을 보장함과 동시에 범용성을 지닌 생물정보 서열검색 시스템을 구축하였다. 이러한 효율적인 시스템 구축을 통해 생물정보 데이터베이스로 서열 검색 시스템을 제공하고, 대용량 서열 데이터베이스의 검색 시간을 단축하였다.

  • PDF

An Implementation of the Ranking Algorithm for Web Documents based on Link Analysis (링크 분석에 기반한 웹 문서 중요도 평가 알고리즘의 구현)

  • Lim, Sung-Chae
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2010.07a
    • /
    • pp.75-78
    • /
    • 2010
  • 웹 검색에는 기존의 정보검색(Information Retrieval) 시스템에서와 다르게 문서 간 하이퍼링크 정보를 바탕으로 각 웹 문서의 고유 중요도를 추정하는 방식이 자주 이용된다. 링크 분석에 기반한 알고리즘 중 PageRank 알고리즘은 구글의 웹 검색 서비스에 적용된 것으로 알려져 있다. 이런 PageRank 알고리즘에 따라 중요도를 계산하는 경우 색인된 웹 문서수가 증가함에 따라 계산에 필요한 CPU 자원의 사용도 함께 증가하며, 문서 수가 수 억 페이지에 달하면 하나의 서버에서는 계산을 수행할 수 없다는 문제가 있다. 본 논문에서는 이런 문제점을 해소하기 위해 여러 대의 서버를 PageRank 계산 용 클러스터로 사용할 수 있는 방법을 제시한다. 제시된 방법은 고속의 LAN을 이용하여 여러 대의 서버를 연결하고 반복적인 행렬 계산을 병렬로 수행할 수 있어 계산 시간을 단축시킬 수 있다. 이런 서버 클러스터 구현을 위해 멀티 쓰레딩 프로그램이 작성되었으며, PageRank 계산에 사용되는 행렬 데이터를 적은 양의 메모리만으로 표현 가능하도록 하였다.

  • PDF

A Study of Efficient Set Detour Routing using Context-Aware Matrix (MANET에서 상황인식 매트릭스를 이용한 효율적인 우회경로설정에 관한 연구)

  • Oh, Dong-keun;Oh, Young-jun;Lee, Kang-whan
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2013.10a
    • /
    • pp.517-518
    • /
    • 2013
  • 모바일 에드 혹 네트워크(Mobile Ad hoc Network)는 이동성을 가진 노드로 구성된 네트워크로서, 통신기반 시설의 지원이 없어도 스스로 통신망을 구축하여 통신한다. 하지만 노드의 이동성으로 인한 토폴로지의 변화가 빈번하여, 라우팅 경로 재설정으로 인한 오버헤드가 생성된다. 오버헤드 생성을 줄이기 위하여 클러스터링을 이용한 연구가 진행되어 왔다. 클러스터가 형성된 MANET에서 클러스터 헤드 노드가 이동함에 따라 클러스터 영역을 벗어나게 되었을 경우, 클러스터 그룹에 속하는 멤버 노드들은 패킷을 보내지 못하며, 클러스터 헤드노드를 선출하지 못하여 사용할 수 없는 노드가 된다. 본 논문에서는 클러스터 헤드 노드가 클러스터 영역을 벗어날 경우, 클러스터 멤버노드의 상황인자 속성 벡터 정보가 유사한 클러스터 헤드노드를 이웃한 주변 클러스터 헤드로부터 검색 및 선택하여, 우회경로를 제공하는 알고리즘을 제안한다. 제안된 알고리즘에서 각 노드는 상황정보 매트릭스를 가지고 있어, 전송 커버리지 영역이 2홉 이내 반경에 있는 노드의 벡터 정보를 저장하게 된다. 클러스터 헤드 노드와의 연결이 끊어 졌을 경우, 클러스터 멤버 노드는 상황정보 매트릭스를 이용하여, 벡터정보가 유사한 클러스터 헤드 노드를 선택하여, 노드 간의 연결성 및 패킷의 전달성이 향상 된다.

  • PDF

Implementation of ″Kyonggi21Search″ combining GIS with The Web : Optimization of Index Association (웹과 GIS를 통합한 ″Kyonggi21Search″ 구현 : 색인어간 연관도 생성 및 최적화)

  • 장정훈;이룡;상임미언;권용진
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.10b
    • /
    • pp.79-81
    • /
    • 2003
  • Kyonggi21Search시스템은 GIS와 웹을 통합한 지역정보 검색 시스템이다. 웹과 GIS를 연동하여 지리정보를 검색하기 위해 웹 문서에서 지역관련 색인어를 추출하고, 색인어간의 관련성을 계산한다. "Kyonggi21Search"시스템에서는 웹 문서에 많이 나타나는 일반적인 단어보다는, 많은 문서에 나타나지 않는 지리적 문화적인 단어들 간의 관련성을 찾는 것이 더 중요한데, 본 연구에서는 단어들 간의 관련성을 찾는데 연관규칙과 연관클러스터를 이용하여 연관도를 계산한다. 그리고 이런 단어들의 관련성을 찾는데는 연관 클러스터를 이용하는 것이 더 적합하다는 것을 보여준다. 한편 웹 문서와 색인어를 이용하여 만든 행렬은 희소행렬이라는 점을 이용하여 연관 클러스터 방법의 단점인 높은 계산량을 줄이는 최적화 방법을 제안한다.

  • PDF