• 제목/요약/키워드: distributed indexing

검색결과 46건 처리시간 0.024초

디지털 도서관을 위한 분산색인 기법에 대한 연구 (A Study on Distributed Indexing Technique for Digital Library)

  • 유춘식;이종득;김용성
    • 한국정보처리학회논문지
    • /
    • 제6권2호
    • /
    • pp.315-325
    • /
    • 1999
  • Indexing techniques for distributed resources have much effect on an information service system based on distributed environment like digital library. There is a centralized indexing technique, a distributed technique, and a mixed technique for distributed indexing techniques. In this paper, we propose new distributed indexing technique using EIF(extended Inverted File) structure that mix the centralized technique and t도 distributed technique. And we propose management techniques using EIF structure and retrieval technique using EIF structure. This distributed indexing technique proposed is able to fast process retrieval request and reduce network overload and select servers relevant to query terms. This paper investigated performance of a proposed distributed indexing technique.

  • PDF

PDFindexer: Distributed PDF Indexing system using MapReduce

  • Murtazaev, JAziz;Kihm, Jang-Su;Oh, Sangyoon
    • International Journal of Internet, Broadcasting and Communication
    • /
    • 제4권1호
    • /
    • pp.13-17
    • /
    • 2012
  • Indexing allows converting raw document collection into easily searchable representation. Web searching by Google or Yahoo provides subsecond response time which is made possible by efficient indexing of web-pages over the entire Web. Indexing process gets challenging when the scale gets bigger. Parallel techniques, such as MapReduce framework can assist in efficient large-scale indexing process. In this paper we propose PDFindexer, system for indexing scientific papers in PDF using MapReduce programming model. Unlike Web search engines, our target domain is scientific papers, which has pre-defined structure, such as title, abstract, sections, references. Our proposed system enables parsing scientific papers in PDF recreating their structure and performing efficient distributed indexing with MapReduce framework in a cluster of nodes. We provide the overview of the system, their components and interactions among them. We discuss some issues related with the design of the system and usage of MapReduce in parsing and indexing of large document collection.

독립적인 벡터 근사에 의한 분산 벡터 근사 트리의 성능 강화 (Performance Enhancement of a DVA-tree by the Independent Vector Approximation)

  • 최현화;이규철
    • 정보처리학회논문지D
    • /
    • 제19D권2호
    • /
    • pp.151-160
    • /
    • 2012
  • 지금까지 제안된 분산 고차원 색인의 대부분은 균일한 분포를 가지는 데이터 집합에서 좋은 검색 성능을 나타내나, 편향되거나 클러스터를 이루는 데이터의 집합에서는 그 성능이 크게 감소된다. 본 논문은 강하게 클러스터를 이루거나 편향된 분포를 가지는 데이터 집합에 대한 분산 벡터 근사 트리의 k-최근접 검색 성능을 향상시키는 방법을 제안한다. 기본 아이디어는 전체 데이터를 클러스터링하는 상위 트리의 말단 노드가 담당하는 데이터 공간의 크기를 계산하고, 그 공간 상의 특징 벡터를 근사하는 데 사용되는 비트의 수를 달리하여 벡터 근사의 식별 능력을 보장하는 것이다. 즉, 고밀도 클러스터에는 더 많은 수의 비트를 할당하는 것이다. 우리는 합성 데이터와 실세계 데이터를 가지고 분산 hybrid spill-tree와 기존 분산 벡터 근사 트리와의 성능 비교 실험을 수행하였다. 실험 결과는 확장된 분산 벡터 근사 트리의 검색 성능이 균일하지 않은 분포의 데이터 집합에서 크게 향상되었음을 보인다.

대용량 데이터의 내용 기반 검색을 위한 분산 고차원 색인 구조 (A Distributed High Dimensional Indexing Structure for Content-based Retrieval of Large Scale Data)

  • 최현화;이미영;김영창;장재우;이규철
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제37권5호
    • /
    • pp.228-237
    • /
    • 2010
  • 고차원 데이터에 대한 다양한 색인 구조가 제안되어 왔음에도 불구하고, 인터넷 서비스로서 이미지 및 동영상의 내용 기반 검색을 지원하기 위해서는 고확장성 지원 및 k-최근접점 검색 성능 향상을 지원하는 새로운 고차원 데이터의 색인 구조가 절실히 요구된다. 이에 우리는 다중 컴퓨팅 노드를 바탕으로 구축되는 분산 색인 구조로 분산 벡터 근사 트리(Distributed Vector Approximation-tree)를 제안한다. 분산 벡터 근사 트리는 대용량의 고차원 데이터로부터 추출한 샘플 데이터를 바탕으로 hybrid spill-tree를 구축하고, hybrid spill-tree외 말단 노드 각각에 분산 컴퓨팅 노드를 매핑하여 VA-file용 구축하는 두 레벨의 분산 색인 구조이다. 우리는 다중 컴퓨팅 노드들 상에 구축된 분산 벡터 근사 트리를 바탕으로 병렬 k-최근접점 검색을 수행함으로써 검씩 성능을 향상시킨다. 본 논문에서는 서로 다른 분포의 데이터 집합을 바탕으로 한 성능 시험 결과를 통하여, 분산 벡터 근사 트리가 기존의 고확장성을 지원하는 색인 구조와 비교하여 검색 정확도에 대한 손실 없이 더 빠른 k-최근접점 검색을 수행함을 보인다.

적응 분할과 벡터 근사에 기반한 고차원 이미지 색인 기법 (High-Dimensional Image Indexing based on Adaptive Partitioning ana Vector Approximation)

  • 차광호;정진완
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제29권2호
    • /
    • pp.128-137
    • /
    • 2002
  • 이 논문은 고차원 이미지 데이타의 효율적인 색인을 위한 LCP+-file을 제시한다. 멀티미디어 데이타의 사용이 증가하면서 고차원 이미지 데이타의 색인과 검색의 지원에 대한 요구가 증가하고 있다. 최근에 고차원 데이타의 색인을 위해 벡터 근사에 기반한 LPC-file (5)이 개발되었다. LPC-file은 특히, 데이터 집합이 균일하게 분포할 때는 좋은 성능을 나타내지만 클러스터(cluster)를 이를 때는 성능이 하락한다. 본 논문은 강하게 클러스터를 이루는 이미지 데이타 집합에 대해 LPC-file의 성능을 향상시킨 LCP+-file을 제시한다. 기본 아이디어는 고밀도 클러스터를 갖는 부분 공간을 찾기 위해 데이타 공간을 적응적으로 분할하고, 그 공간에 대해 벡터 근사의 식별 능력을 향상시키기 위해 더 많은 수의 비트를 할당한다. 그러나 분할된 공간이 비트들을 공유하기 때문에 사용되는 전체 비트 수는 오히려 줄어든다. 실험 결과에 따르면 LCP+-file은 강하게 클러스터를 이루는 이미지 데이터 집합에 대해 LPC-file의 성능을 크게 향상시킨다.

GR-tree: 무선 센서 네트워크에서 에너지 효율적인 분산 공간색인기법 (The GR-tree: An Energy-Efficient Distributed Spatial Indexing Scheme in Wireless Sensor Networks)

  • 김민수;장인성
    • Spatial Information Research
    • /
    • 제19권5호
    • /
    • pp.63-74
    • /
    • 2011
  • 최근 특정 공간영역 내에 포함되는 센서노드들만의 센싱정보를 에너지 효율적으로 수집하는 센서 네트워크 기반 공간질의처리에 대한 관심이 증가하고 있다. 이러한 센서 네트워크 기반 공간질의처리의 가장 단순한 방법은 모든 센서노드의 위치와 센싱정보를 서버로 수집한 다음, 서버에서 공간질의를 처리하는 Centralized 방법이다. 이 방법은 간단하다는 장점은 있지만, 모든 센서노드를 접근하기 위하여 소요되는 높은 무선통신 비용으로 인하여 센서노드의 에너지 효율성이 크게 떨어지는 단점을 가지고 있다. 이러한 Centralized 방법을 보완하기 위하여 센서노드에서 분산 공간 필터링을 수행하여 센서노드 간의 무선통신 횟수를 감소시키는 In-network 기반 분산 공간색인기법들이 제안되어 왔다. 그러나, 이러한 분산 공간색인기법들은 대부분 서버에서 이용되던 기존 공간색인기법들을 센서 네트워크에 단순히 적용하였기 때문에, In-network 환경에서 공간 필터링의 효과와 센서노드들 간의 무선 라우팅을 동시에 최적화하지 못하는 단점을 가지고 있다. 이에 본 논문에서는 In-network 환경에서 공간 필터링을 최적화하면서 동시에 센서노드들 간의 라우팅을 보장할 수 있는 GR-tree의 새로운 분산 공간색인기법을 제안하고자 한다. GR-tree 방법은 R-tree와 유사하게 MBR 기반의 트리를 구성하며, 센서노드들 간의 무선 라우팅 및 공간적인 인접성을 보장하면서 MBR들 간의 겹침을 최소화할 수 있는 특징을 가지고 있다. 끝으로, GR-tree와 기존 방법들의 다양한 성능 비교 실험을 통하여 제안된 방법의 효율성을 보여주고자 한다.

A Mobile P2P Semantic Information Retrieval System with Effective Updates

  • Liu, Chuan-Ming;Chen, Cheng-Hsien;Chen, Yen-Lin;Wang, Jeng-Haur
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제9권5호
    • /
    • pp.1807-1824
    • /
    • 2015
  • As the technologies advance, mobile peer-to-peer (MP2P) networks or systems become one of the major ways to share resources and information. On such a system, the information retrieval (IR), including the development of scalable infrastructures for indexing, becomes more complicated due to a huge increase on the amount of information and rapid information change. To keep the systems on MP2P networks more reliable and consistent, the index structures need to be updated frequently. For a semantic IR system, the index structure is even more complicated than a classic IR system and generally has higher update cost. The most well-known indexing technique used in semantic IR systems is Latent Semantic Indexing (LSI), of which the index structure is generated by singular value decomposition (SVD). Although LSI performs well, updating the index structure is not easy and time consuming. In an MP2P environment, which is fully distributed and dynamic, the update becomes more challenging. In this work, we consider how to update the sematic index generated by LSI and keep the index consistent in the whole MP2P network. The proposed Concept Space Update (CSU) protocol, based on distributed 2-Phase locking strategy, can effectively achieve the objectives in terms of two measurements: coverage speed and update cost. Using the proposed effective synchronization mechanism with the efficient updates on the SVD, re-computing the whole index on the P2P overlay can be avoided and the consistency can be achieved. Simulated experiments are also performed to validate our analysis on the proposed CSU protocol. The experimental results indicate that CSU is effective on updating the concept space with LSI/SVD index structure in MP2P semantic IR systems.

Design an Indexing Structure System Based on Apache Hadoop in Wireless Sensor Network

  • Keo, Kongkea;Chung, Yeongjee
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 춘계학술발표대회
    • /
    • pp.45-48
    • /
    • 2013
  • In this paper, we proposed an Indexing Structure System (ISS) based on Apache Hadoop in Wireless Sensor Network (WSN). Nowadays sensors data continuously keep growing that need to control. Data constantly update in order to provide the newest information to users. While data keep growing, data retrieving and storing are face some challenges. So by using the ISS, we can maximize processing quality and minimize data retrieving time. In order to design ISS, Indexing Types have to be defined depend on each sensor type. After identifying, each sensor goes through the Indexing Structure Processing (ISP) in order to be indexed. After ISP, indexed data are streaming and storing in Hadoop Distributed File System (HDFS) across a number of separate machines. Indexed data are split and run by MapReduce tasks. Data are sorted and grouped depend on sensor data object categories. Thus, while users send the requests, all the queries will be filter from sensor data object and managing the task by MapReduce processing framework.

A Novel Air Indexing Scheme for Window Query in Non-Flat Wireless Spatial Data Broadcast

  • Im, Seok-Jin;Youn, Hee-Yong;Choi, Jin-Tak;Ouyang, Jinsong
    • Journal of Communications and Networks
    • /
    • 제13권4호
    • /
    • pp.400-407
    • /
    • 2011
  • Various air indexing and data scheduling schemes for wireless broadcast of spatial data have been developed for energy efficient query processing. The existing schemes are not effective when the clients' data access patterns are skewed to some items. It is because the schemes are based on flat broadcast that does not take the popularity of the data items into consideration. In this paper, thus, we propose a data scheduling scheme letting the popular items appear more frequently on the channel, and grid-based distributed index for non-flat broadcast (GDIN) for window query processing. The proposed GDIN allows quick and energy efficient processing of window query, matching the clients' linear channel access pattern and letting the clients access only the queried data items. The simulation results show that the proposed GDIN significantly outperforms the existing schemes in terms of access time, tuning time, and energy efficiency.

의료 정보 FHIR 리소스 무선 데이터 방송을 위한 분산 인덱싱 기법 (A Distributed Indexing Scheme for Wireless Data Broadcasting of Health Information FHIR Resources)

  • 임석진
    • 한국인터넷방송통신학회논문지
    • /
    • 제17권3호
    • /
    • pp.23-28
    • /
    • 2017
  • 차세대 의료 정보 교환 표준인 FHIR는 빠른 의료정보 교환이 가능할 뿐 아니라 효과적인 다양한 의료서비스가 가능하다. 본 논문은 FHIR 리소스를 보안 채널기반의 무선 데이터 방송에 적용하여 사용자에게 효율적으로 리소스를 전달할 수 있도록 하기 위해 FHIR 리소스 기반의 인덱싱 기법을 제안한다. 제안된 인덱싱 기법은 리소스를 받고자 하는 사용자 정보와 사용자에 대한 FHIR 리소스를 유지하여 대량의 사용자가 빠른 시간에 적은 에너지를 사용하여 원하는 리소스를 다운로드할 수 있도록 한다. 시뮬레이션을 통해 제안된 인덱싱 기법이 다른 기법들 보다 우수한 성능을 보임을 보였다.