• 제목/요약/키워드: Inverted Files

검색결과 7건 처리시간 0.023초

집합 값을 갖는 애트리뷰트에 대한 수직적으로 분할된 블록 중첩 루프 조인 (Vertically Partitioned Block Nested Loop join on Set-Valued Attributes)

  • 황환규
    • 산업기술연구
    • /
    • 제28권B호
    • /
    • pp.209-214
    • /
    • 2008
  • Set-valued attributes appear in many applications to model complex objects occurring in the real world. One of the most important operations on set-valued attributes is the set join, because it provides a various method to express complex queries. Currently proposed set join algorithms are based on block nested loop join in which inverted files are partitioned horizontally into blocks. Evaluating these joins are expensive because they generate intermediate partial results severely and finally obtain the final results after merging partial results. In this paper, we present an efficient processing of set join algorithm. We propose a new set join algorithm that vertically partitions inverted files into blocks, where each block fits in memory, and performs block nested loop join without producing intermediate results. Our experiments show that the vertical bitmap nested set join algorithm outperforms previously proposed set join algorithms.

  • PDF

Enhanced VLAD

  • Wei, Benchang;Guan, Tao;Luo, Yawei;Duan, Liya;Yu, Junqing
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제10권7호
    • /
    • pp.3272-3285
    • /
    • 2016
  • Recently, Vector of Locally Aggregated Descriptors (VLAD) has been proposed to index image by compact representations, which encodes powerful local descriptors and makes significant improvement on search performance with less memory compared against the state of art. However, its performance relies heavily on the size of the codebook which is used to generate VLAD representation. It indicates better accuracy needs higher dimensional representation. Thus, more memory overhead is needed. In this paper, we enhance VLAD image representation by using two level hierarchical-codebooks. It can provide more accurate search performance while keeping the VLAD size unchanged. In addition, hierarchical-codebooks are used to construct multiple inverted files for more accurate non-exhaustive search. Experimental results show that our method can make significant improvement on both VLAD image representation and non-exhaustive search.

다중 키워드 검색에 적합한 동등조인 연산 결과의 동적 관리 기법 (Dynamic Management of Equi-Join Results for Multi-Keyword Searches)

  • 임성채
    • 정보처리학회논문지A
    • /
    • 제17A권5호
    • /
    • pp.229-236
    • /
    • 2010
  • 인터넷이나 기업체 안에서 생성되는 문서의 수가 빠르게 증가하고 있고 이에 따라 효율적인 문서 검색 서비스의 중요성도 함께 커지고 있다. 이런 검색 환경에서 사용자의 검색 질의를 미리 예측할 수 없기 때문에 문서 내의 키워드를 자동 추출하여 색인어로 사용하는 전문검색(full-text search)이 일반적으로 적용된다. 전문검색을 위해 생성된 색인 파일의 크기는 문서 수 증가로 대용량화 되고, 이런 대용량 색인에 대한 다중 키워드 질의 처리에는 과도한 디스크 비용이 초래될 수 있다. 논문에서는 이런 비용 문제를 해결하기 위해 대용량 문서의 전문검색 시스템에서 다중 키워드 질의를 효율적으로 처리할 수 있게 하는 색인 파일 구조 및 관리 기법을 제안한다. 제안된 방법은 다중 키워드 검색에 적합한 것으로 알려진 역파일을 기본 색인 구조로 하며, 질의 처리의 조인 연산과 랭킹 연산에 적합하도록 색인 파일을 계층화한다. 이를 바탕으로 다중 키워드 질의를 구성할 확률이 높은 키워드 쌍에 대한 조인 연산 결과를 주기억장치 공간에 동적으로 저장함으로써 디스크 사용량을 크게 줄일 수 있다. 논문에서는 제안된 기법의 우수성을 보이기 위해 디스크 비용 모델에 기반한 성능 비교도 수행한다.

역파일에 기반한 웹 검색 엔진의 랭킹 시스템 구현 (Implementation of a Ranking System for the Web Search Engine based on Inverted Files)

  • 임성채;안준선
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2007년도 가을 학술발표논문집 Vol.34 No.2 (C)
    • /
    • pp.35-40
    • /
    • 2007
  • 역파일을 사용한 색인 기법은 정보 검색 분야에서 널리 사용되었으며, 최근 대용량 검색 시스템으로 사용되고 있는 웹 검색 엔진에서도 적응되고 있다. 본 논문에서는 웹 검색 엔진의 특성에 완친 구현된 역파일 기법 기반의 웹 문서 색인 파일의 구조와 디스크에 저장된 대용량의 역파일 색인을 기반으로 웹 페이지의 검색 적합도를 계산하는 랭킹 시스템을 설명한다. 이를 통하여 상용 웹 검색 엔진의 랭킹 시스템과 디스크 자원 사용의 최소화 기법을 제시한다.

  • PDF

확장 불리언 질의에 대한 비용 기반 최적화 (Cost-based Optimization of Extended Boolean Queries)

  • 박병권
    • 정보관리학회지
    • /
    • 제18권3호
    • /
    • pp.29-40
    • /
    • 2001
  • 본 논문에서는 역색인 파일을 미용하여 학장 불리언 질의를 처리할 때 최소 비용의 질의 처리 방법을 구해 주는 질의 최적화 알고리즘을 제시한다. 확장 불리언 질의를 처리하는 방법은 질의를 구성하는 키위드의 처리 순서에 따라 여러 가지가 있을 수 있으므로 확장 불리언 질의 최적화 문제는 결국 최적 키워드 처리 순서를 구하는 문제로 귀결된다. 본 논문에서는 이 문제가 데이터베이스 질의 최적화에서 최적 조인 순서를 구하는 문제와 구조적으로 유사함을 보이고 이 분야의 연구 결과를 이용하여 문제를 해결한다. 즉, 확장 불리언 질의 처리에 대한 비용 모델을 수립하고 키워드 선택률과 역색인 파일 접근 비용을 이용하여 키워드 순위 개념을 도입한 후 이를 이용하여 최적 키워드 처리 순서를 구하는 알고리즘을 도출한다. 그리고 도출한 질의 최적화 알고리즘의 최적성을 증명하고. 실험을 통하여 실제로 최소비용의 질의 처리 방법을 구함을 보이고, 질의 최적화를 하지 않을 경우와 비교하였을 때 그 성능이 월등히 우수함을 보인다. 본 논문에서 제시한 질의 최적화 알고리즘은 정보검색시스템의 질의 처리 성능 향상에 큰 기여를 하리라 믿는다.

  • PDF

가중치 기반 웰빙식품 정보 검색 시스템 (Weight-based Wellbeing Food Retrieval System)

  • 편광범;윤은일;류근호
    • 인터넷정보학회논문지
    • /
    • 제11권3호
    • /
    • pp.75-86
    • /
    • 2010
  • 건강에 대한 관심이 높아지면서 웰빙 관련 정보의 필요성이 중요해졌다. 웰빙 정보검색은 인터넷 검색 엔진이나 블로그, 개인 홈페이지 또는 대중매체를 이융한다. 하지만, 웰빙 식품에 관한 정보는 구하기 어렵다. 그래서 검색엔진은 웰빙식품에 대한 정보검색이 필요하게 되었다. 본 논문은 가중치기반의 웰빙식품 검색엔진을 설계하고 구현한다. 수많은 페이지를 탐색해 웰빙 식품 키워드가 포함되어있으면 이것을 식별하여 가중치를 추가하는 방식이다. 사용자가 키워드를 이용하여 검색하면 웰빙 관련 페이지가 우선적으로 나올 수 있게 구현했다. 웰빙관련 식품의 식별에 사용되는 키워드들은 사전형식으로 되어있다. 그래서 삽입, 삭제, 수정이 가능하다. 역 파일은 직접파일인 해싱 방식으로 저장한다. 본 논문의 엔진을 이용하여 성능평가를 한 결과 웰빙식품 키워드에 대하여 타 검색엔진에 비해 5~15%의 향상된 결과를 보였다. 본 논문에서는 검색엔진의 설계방식과 웰빙식품에 특화된 랭킹선정방식을 제안한다.

디지털도서관 구축과정에서 TREC 텍스트 문서의 시각적 표현에 관한 연구 (A Study on the Visual Representation of TREC Text Documents in the Construction of Digital Library)

  • 정기태;박일종
    • 정보관리학회지
    • /
    • 제21권3호
    • /
    • pp.1-14
    • /
    • 2004
  • 이용자들은 유사문서를 검색할 때, 각 가지 문서의 시각적표현을 통하여 도움을 얻게 되며, 모든 정보검색에 관한 연구는 이용자들의 다양한 요구를 충족시키기 위한 여러 가지의 해결책을 제시하고 있다. 제안되어진 해결책은 알파벳 순서로 만들어 진 파피루스 문서로부터 카드목록, 마이크로 필름을 이용한 저장, 컴퓨터 디스크를 이용한 파일 보관 등에 이르기까지 다양한 방법들을 들 수 있을 것이다. 또한 대부분의 정보검색 시스템들은 Document SUITogate( 문헌을 대체할 수 있는 것들 ), 즉 요약문, 목차, 초록, 리뷰한 내용, 기계가독형목록 (MARC) 기록물 등과 같은 서지자료들을 전체논문을 대체하여 이용하게 된다. 본 논문에서는 또 다른 형태의 Document Surrogate 로서 용어 리스트의 집단화 방법을 이용해서 찾아보았다. 이 Document Surrogate 들은 Multidimensional Scaling (MDS) 을 이용해서 2 차원 그래프 위에 좌표로써 표현되어지고 있다. 사용된 2차원의 그래프 위에서 좌표간의 거리는 문헌들의 유사성을 나타낸다고 해석할 수 있으며 거리가 가까우면 가까울수록 두 문서는 더욱 유사한내용을 포함하고 있다고 해석할 수 있는 것으로 밝혀졌다.