• 제목/요약/키워드: Large-scale indexing

검색결과 22건 처리시간 0.022초

PDFindexer: Distributed PDF Indexing system using MapReduce

  • Murtazaev, JAziz;Kihm, Jang-Su;Oh, Sangyoon
    • International Journal of Internet, Broadcasting and Communication
    • /
    • 제4권1호
    • /
    • pp.13-17
    • /
    • 2012
  • Indexing allows converting raw document collection into easily searchable representation. Web searching by Google or Yahoo provides subsecond response time which is made possible by efficient indexing of web-pages over the entire Web. Indexing process gets challenging when the scale gets bigger. Parallel techniques, such as MapReduce framework can assist in efficient large-scale indexing process. In this paper we propose PDFindexer, system for indexing scientific papers in PDF using MapReduce programming model. Unlike Web search engines, our target domain is scientific papers, which has pre-defined structure, such as title, abstract, sections, references. Our proposed system enables parsing scientific papers in PDF recreating their structure and performing efficient distributed indexing with MapReduce framework in a cluster of nodes. We provide the overview of the system, their components and interactions among them. We discuss some issues related with the design of the system and usage of MapReduce in parsing and indexing of large document collection.

Implementation of Tile Searching and Indexing Management Algorithms for Mobile GIS Performance Enhancement

  • ;최진영
    • 사물인터넷융복합논문지
    • /
    • 제1권1호
    • /
    • pp.11-19
    • /
    • 2015
  • The mobile and ubiquitous environment is experiencing a rapid development of information and communications technology as it provides an ever increasing flow of information. Particularly, GIS is now widely applied in daily life due to its high accuracy and functionality. GIS information is utilized through the tiling method, which divides and manages large-scale map information. The tiling method manages map information and additional information to allow overlay, so as to facilitate quick access to tiled data. Unlike past studies, this paper proposes a new architecture and algorithms for tile searching and indexing management to optimize map information and additional information for GIS mobile applications. Since this involves the processing of large-scale information and continuous information changes, information is clustered for rapid processing. In addition, data size is minimized to overcome the constrained performance associated with mobile devices. Our system has been implemented in actual services, leading to a twofold increase in performance in terms of processing speed and mobile bandwidth.

대용량 데이터의 내용 기반 검색을 위한 분산 고차원 색인 구조 (A Distributed High Dimensional Indexing Structure for Content-based Retrieval of Large Scale Data)

  • 최현화;이미영;김영창;장재우;이규철
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제37권5호
    • /
    • pp.228-237
    • /
    • 2010
  • 고차원 데이터에 대한 다양한 색인 구조가 제안되어 왔음에도 불구하고, 인터넷 서비스로서 이미지 및 동영상의 내용 기반 검색을 지원하기 위해서는 고확장성 지원 및 k-최근접점 검색 성능 향상을 지원하는 새로운 고차원 데이터의 색인 구조가 절실히 요구된다. 이에 우리는 다중 컴퓨팅 노드를 바탕으로 구축되는 분산 색인 구조로 분산 벡터 근사 트리(Distributed Vector Approximation-tree)를 제안한다. 분산 벡터 근사 트리는 대용량의 고차원 데이터로부터 추출한 샘플 데이터를 바탕으로 hybrid spill-tree를 구축하고, hybrid spill-tree외 말단 노드 각각에 분산 컴퓨팅 노드를 매핑하여 VA-file용 구축하는 두 레벨의 분산 색인 구조이다. 우리는 다중 컴퓨팅 노드들 상에 구축된 분산 벡터 근사 트리를 바탕으로 병렬 k-최근접점 검색을 수행함으로써 검씩 성능을 향상시킨다. 본 논문에서는 서로 다른 분포의 데이터 집합을 바탕으로 한 성능 시험 결과를 통하여, 분산 벡터 근사 트리가 기존의 고확장성을 지원하는 색인 구조와 비교하여 검색 정확도에 대한 손실 없이 더 빠른 k-최근접점 검색을 수행함을 보인다.

Direct Stem Blot Immunoassay (DSBIA): A Rapid, Reliable and Economical Detection Technique Suitable for Testing Large Number of Barley Materials for Field Monitoring and Resistance Screening to Barley mild mosaic virus and Barley yellow mosaic virus

  • Jonson, Gilda;Park, Jong-Chul;Kim, Yang-Kil;Kim, Mi-Jung;Lee, Mi-Ja;Hyun, Jong-Nae;Kim, Jung-Gon
    • The Plant Pathology Journal
    • /
    • 제23권4호
    • /
    • pp.260-265
    • /
    • 2007
  • Testing a large number of samples from field monitoring and routine indexing is cumbersome and the available virus detection tools were labor intensive and expensive. To circumvent these problems we established tissue blot immunoassay (TBIA) method an alternative detection tool to detect Barley mild mosaic virus (BaMMV) and Barley yellow mosaic virus (BaYMV) infection in the field and greenhouse inoculated plants for monitoring and routine indexing applications, respectively. Initially, leaf and stem were tested to determine suitable plant tissue for direct blotting on nitrocellulose membrane. The dilutions of antibodies were optimized for more efficient and economical purposes. Results showed that stem tissue was more suitable for direct blotting for it had no background that interferes in the reaction. Therefore, this technique was referred as direct stem blot immunoassay or DSBIA, in this study. Re-used diluted (1:1000) antiserum and conjugate up to 3 times with the addition of half strength amount of concentrated antibodies was more effective in detecting the virus. The virus blotted on the nitrocellulose membrane from stem tissues kept at room temperature for 3 days were still detectable. The efficiency of DSBIA and RT-PCR in detecting BaMMV and BaYMV were relatively comparable. Results further proved that DSBIA is a rapid, reliable and economical detection method suitable for monitoring BaMMV and BaYMV infection in the field and practical method in indexing large scale of barley materials for virus resistance screening.

GIS 기반 BIM 데이터의 효과적 가시화를 위한 공간인덱싱 기법 개발 (Development of the Spatial Indexing Method for the Effective Visualization of BIM data based on GIS)

  • 김지은;강태욱;홍창희
    • 한국산학기술학회논문지
    • /
    • 제15권8호
    • /
    • pp.5333-5341
    • /
    • 2014
  • 최근 실내공간정보 기반의 시설물 운영관리에 대한 관심이 고조되면서 BIM과 GIS를 연계한 시설물 유지관리에 대한 다양한 연구가 진행되고 있다. 특히 대용량 데이터에 대한 형상정보의 가시화 처리는 중요한 이슈로, 유지관리 시스템 운영에 중요한 요소이다. 따라서 본 연구는 GIS 기반 BIM 모델의 효과적 가시화 구현을 위하여 IFC 스키마 기반의 시나리오를 통한 공간인덱싱 알고리즘을 설계하고, OcTree 기법을 적용하여 공간인덱싱 알고리즘을 일부 구현하였다. 구현된 결과를 IFC 샘플데이터에 테스트한 후 최종적으로 BIM 데이터의 효과적 가시화를 위한 공간인덱싱 기법을 제안한다.

VotingRank: A Case Study of e-Commerce Recommender Application Using MapReduce

  • Ren, Jian-Ji;Lee, Jae-Kee
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2009년도 춘계학술발표대회
    • /
    • pp.834-837
    • /
    • 2009
  • There is a growing need for ad-hoc analysis of extremely large data sets, especially at e-Commerce companies which depend on recommender application. Nowadays, as the number of e-Commerce web pages grow to a tremendous proportion; vertical recommender services can help customers to find what they need. Recommender application is one of the reasons for e-Commerce success in today's world. Compared with general e-Commerce recommender application, obviously, general e-Commerce recommender application's processing scope is greatly narrowed down. MapReduce is emerging as an important programming model for large-scale data-parallel applications such as web indexing, data mining, and scientific simulation. The objective of this paper is to explore MapReduce framework for the e-Commerce recommender application on major general and dedicated link analysis for e-Commerce recommender application, and thus the responding time has been decreased and the recommender application's accuracy has been improved.

A Semantic Service Discovery Network for Large-Scale Ubiquitous Computing Environments

  • Kang, Sae-Hoon;Kim, Dae-Woong;Lee, Young-Hee;Hyun, Soon-J.;Lee, Dong-Man;Lee, Ben
    • ETRI Journal
    • /
    • 제29권5호
    • /
    • pp.545-558
    • /
    • 2007
  • This paper presents an efficient semantic service discovery scheme called UbiSearch for a large-scale ubiquitous computing environment. A semantic service discovery network in the semantic vector space is proposed where services that are semantically close to each other are mapped to nearby positions so that the similar services are registered in a cluster of resolvers. Using this mapping technique, the search space for a query is efficiently confined within a minimized cluster region while maintaining high accuracy in comparison to the centralized scheme. The proposed semantic service discovery network provides a number of novel features to evenly distribute service indexes to the resolvers and reduce the number of resolvers to visit. Our simulation study shows that UbiSearch provides good semantic searchability as compared to the centralized indexing system. At the same time, it supports scalable semantic queries with low communication overhead, balanced load distribution among resolvers for service registration and query processing, and personalized semantic matching.

  • PDF

NVST DATA ARCHIVING SYSTEM BASED ON FASTBIT NOSQL DATABASE

  • Liu, Ying-Bo;Wang, Feng;Ji, Kai-Fan;Deng, Hui;Dai, Wei;Liang, Bo
    • 천문학회지
    • /
    • 제47권3호
    • /
    • pp.115-122
    • /
    • 2014
  • The New Vacuum Solar Telescope (NVST) is a 1-meter vacuum solar telescope that aims to observe the fine structures of active regions on the Sun. The main tasks of the NVST are high resolution imaging and spectral observations, including the measurements of the solar magnetic field. The NVST has been collecting more than 20 million FITS files since it began routine observations in 2012 and produces maximum observational records of 120 thousand files in a day. Given the large amount of files, the effective archiving and retrieval of files becomes a critical and urgent problem. In this study, we implement a new data archiving system for the NVST based on the Fastbit Not Only Structured Query Language (NoSQL) database. Comparing to the relational database (i.e., MySQL; My Structured Query Language), the Fastbit database manifests distinctive advantages on indexing and querying performance. In a large scale database of 40 million records, the multi-field combined query response time of Fastbit database is about 15 times faster and fully meets the requirements of the NVST. Our slestudy brings a new idea for massive astronomical data archiving and would contribute to the design of data management systems for other astronomical telescopes.

위치 기반 질의 처리를 위한 궤적 보존 색인의 설계 및 구현 (Design and Implementation of Trajectory Preservation Indices for Location Based Query Processing)

  • 임덕성;홍봉희
    • 한국공간정보시스템학회 논문지
    • /
    • 제10권3호
    • /
    • pp.67-78
    • /
    • 2008
  • 위치 기반 서비스(Location-Based Service)는 무선 통신에 기반 한 서비스로서 최근 그 중요성이 증대되고 있다. 차량, 선박과 같이 시간에 따라 위치를 변경하는 이동 객체(moving object)의 이동 경로는 궤적(trajectory)으로 표현된다. 이동 객체의 궤적 모니터링을 위한 데이터베이스에서는 이동객체의 위치를 추적할 뿐만 아니라 이동 경로를 감시하기 위한 궤적 질의를 효율적으로 지원해야 하므로 이동 객체의 궤적 정보를 효과적으로 관리하고, 빠른 검색을 제공하는 이동 객체 색인 방법이 필요하다. 이 논문에서는 먼저 기존 궤적 색인 구조에서 사장 영역 문제를 정의한다. 궤적 색인의 사장 영역은 궤적 보존 속성으로 인해 공간적 지역성을 고려되지 않기 때문에 발생한다. 이를 해결하기 위해 이 논문에서는 사장 영역 및 비단말 노드간의 중첩을 줄이기 위해 엔트리 재배치 기법을 제시하고, 제안된 색인과 기존 알고리즘을 사용하는 색인과의 성능비교를 통하여 제시한 색인의 우수성을 입증한다.

  • PDF

효율적인 네트워크 데이터 관리를 위한 가변-축척 지도 제작 방안 (A Study of Developing Variable-Scale Maps for Management of Efficient Road Network)

  • 주용진
    • 대한공간정보학회지
    • /
    • 제21권4호
    • /
    • pp.143-150
    • /
    • 2013
  • 본 연구의 목적은 상세 레벨의 대규모 도로망 데이터를 대상으로 다양한 축척과 추상화 수준을 가진 상위 레벨의 소축척 도로 선형 사상을 유도하는 가변-축척 기반 네트워크 데이터의 생성 방안을 제시하는 것이다. 이를 위해 우선, 가변-축척 모델 구축을 위해 관련 용어의 정의와 모델 구축시의 이점과 구축 절차에 대해 살펴보았다. 둘째, 가변-축척 모델을 설계하기 위해 지도 표출을 위한 표현 레벨과 레이어 구성요소를 제시하였다. 또한 상위 LoD와 데이터 연계 방법과 인덱스 구조 생성을 위한 규칙을 정의 하였다. 마지막으로 설계된 모델의 구현과 검증을 위해 제시된 알고리즘을 실제적인 연구지역 도로망(제주도)에 적용하여 가변 축척 도로망을 유도하여 구축하고, 공간 데이터베이스(Oracle Spatial)에 저장한 후 성능 분석을 통해 모델의 효율성과 타당성을 검증하였다.