• 제목/요약/키워드: query indexing

검색결과 278건 처리시간 0.028초

접미사 배열을 이용한 JSON 데이터의 경로 기반 검색에 대한 연구 (A Study of Path-based Retrieval for JSON Data Using Suffix Arrays)

  • 김성완
    • 창의정보문화연구
    • /
    • 제7권3호
    • /
    • pp.157-165
    • /
    • 2021
  • 웹, 모바일, IoT 등의 기술을 활용한 다양한 어플리케이션 서비스의 활용과 이에 따른 대용량 데이터 관리의 필요성이 확대됨에 따라 효율적인 데이터 표현 및 교환 방법과 데이터에 대한 질의 처리의 중요성이 증가하고 있다. 간결함을 특징으로 갖는 JSON은 웹 상의 표준 데이터 표현 및 교환 언어인 XML를 대신하여 데이터 교환 및 대용량 데이터 저장의 포맷으로 다양한 영역에서 활용되고 있다. 이는 JSON으로 표현된 대량의 데이터를 효과적으로 접근 및 검색하기 위한 인덱싱 및 질의 처리 기법의 개발이 중요함을 의미한다. 이에 본 논문에서는 계층적 구조를 특징으로 가지는 JSON 데이터를 트리 형태로 모델링 하고 경로 개념을 이용한 인덱싱 및 질의 처리 방안을 제안한다. 특히, 텍스트 검색에서 널리 사용되는 접미사 배열을 활용한 인덱스 구조를 설계하였으며 이를 활용하여 단순 및 복합 경로 기반의 JSON 데이터 질의 처리 방안들을 소개하였다.

이동객체의 현재 위치정보 관리를 위한 셀 기반 색인 기법 (A Cell-based Indexing for Managing Current Location Information of Moving Objects)

  • 이응재;이양구;류근호
    • 정보처리학회논문지D
    • /
    • 제11D권6호
    • /
    • pp.1221-1230
    • /
    • 2004
  • 모바일 환경에서 정보 제공 및 처리의 대상이 되는 사람, 자동차, 비행기 둥과 같은 이동객체는 시간이 경과함에 따라 끊임없이 자신의 위치를 변경하는 특징을 가지며, 이러한 정보들을 데이터베이스에서 효과적으로 처리하기 위해서는 연속적인 위치 변경을 수용할 수 있는 저장공간과 색인 유지 및 관리 기술이 필요하다. 기존의 색인 기법들은 색인의 유지 성능보다 질의 처리 능력을 향상시키는데 노력을 기울여 왔기 때문에 복잡하게 이동하며 매우 빈번하게 위치 정보를 갱신하는 이동객체 정보를 관리하기 어렵다. 이 논문에서는 질의 처리 성능뿐만 아니라 이동객체의 빈번한 위치 갱신을 효율적으로 처리하기 위해 고정 그리드 방식의 색인과 R-Tree의 장점을 결합한 ACAR-Tree(Adaptive Cell index with Auxiliary R-Tree)를 제안한다. 제안된 ACAR-Tree는 R-Tree에서 색인의 재구성으로 인하여 갱신 성능이 저하되는 단점을 보완하기 위하여 고정 그리드 방법의 셀 기반의 색인 방법을 기초로 한다. 또한 고정 그리드 방법에서의 데이터 분포가 편중되었을 경우의 색인 성능저하 문제를 해결하기 위하여, 셀과 버켓이 1 : 1로 매핑되는 셀에서 오버플로가 발생하였을 경우 해당 버켓이 부가적인 색인 구조인 보조R-Tree로 전환하여 처리한다. 제안된 방법을 다양한 데이터 분포 및 데이터 크기에서 실험한 결과, 기존의 R-Tree 기반의 색인 방법과 비교하여 색인의 크기가 크게 감소하였으며, 질의 및 갱신 성능에 대해서도 뛰어난 성능을 보였다.

An Efficient Adaptive Bitmap-based Selective Tuning Scheme for Spatial Queries in Broadcast Environments

  • Song, Doo-Hee;Park, Kwang-Jin
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제5권10호
    • /
    • pp.1862-1878
    • /
    • 2011
  • With the advances in wireless communication technology and the advent of smartphones, research on location-based services (LBSs) is being actively carried out. In particular, several spatial index methods have been proposed to provide efficient LBSs. However, finding an optimal indexing method that balances query performance and index size remains a challenge in the case of wireless environments that have limited channel bandwidths and device resources (computational power, memory, and battery power). Thus, mechanisms that make existing spatial indexing techniques more efficient and highly applicable in resource-limited environments should be studied. Bitmap-based Spatial Indexing (BSI) has been designed to support LBSs, especially in wireless broadcast environments. However, the access latency in BSI is extremely large because of the large size of the bitmap, and this may lead to increases in the search time. In this paper, we introduce a Selective Bitmap-based Spatial Indexing (SBSI) technique. Then, we propose an Adaptive Bitmap-based Spatial Indexing (ABSI) to improve the tuning time in the proposed SBSI scheme. The ABSI is applied to the distribution of geographical objects in a grid by using the Hilbert curve (HC). With the information in the ABSI, grid cells that have no objects placed, (i.e., 0-bit information in the spatial bitmap index) are not tuned during a search. This leads to an improvement in the tuning time on the client side. We have carried out a performance evaluation and demonstrated that our SBSI and ABSI techniques outperform the existing bitmap-based DSI (B DSI) technique.

사용자 질의 패턴을 이용한 효율적인 오디오 색인기법 (An Efficient Audio Indexing Scheme based on User Query Patterns)

  • 노승민;박동문;황인준
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제31권4호
    • /
    • pp.341-351
    • /
    • 2004
  • 디지털 오디오 컨텐츠의 활용이 보편화되면서 오디오 데이타베이스에 대해 컨텐츠를 효과적으로 질의하고 검색하는 기능이 절실해졌다. 본 논문에서는 사용자들이 자주 질의하는 멜로디 부분을 이용하여 오디오 검색을 효과적으로 수행할 수 있는 새로운 인덱스 기법을 제안한다. 이 기법은 어떤 오디오에 대해 사용자가 기억하고 질의하는 내용이 대개 오디오의 특정 부분에 한정되어 있다는 사실에 기반하고 있다. 사용자의 이러한 질의 패턴을 이용하여 자주 질의되는 부분을 감지하고 인덱스로 사용함으로써 사용자가 원하는 곡을 빠르게 찾아낼 수 있게 해준다. 이러한 방법은 데이타베이스의 모든 컨텐츠를 순차적으로 검색하는 기존의 방법에 비해 적은 비용으로 검색 속도를 크게 향상시키며 특히 기존의 검색 시스템 상위 모듈로 사용이 가능하다. 프로토타입 시스템을 구현하고 다양한 실험을 통하여 논문에서 제안하는 기법의 우수성을 보인다.

B+-tree를 이용한 XML 색인기법 (Indexing of XML with B+-tree)

  • 권국봉;홍동권
    • 한국지능시스템학회논문지
    • /
    • 제16권1호
    • /
    • pp.94-100
    • /
    • 2006
  • 인터넷을 바탕으로 하는 컴퓨팅 패러다임의 변환은 인터넷에서 디지털 정보 교환의 표준으로 확고한 자리를 굳힌 XML의 사용을 가속화시키고 있다. 이로 인해 XML 데이터의 양이 기하급수적으로 증가하고 보다 효율적으로 XML 데이터를 저장하고 질의하기 위한 연구가 활발히 진행되고 있다. 본 논문에서는 대용량의 데이터 중심 XML를 효과적으로 관리하기 위한 방안으로 그래프 중심의 색인 방법을 연구, 제안한다. 논문에서 제안한 XML 색인은 XML 데이터와 XML 구조 정보를 크게 3개의 구성 성분으로 표현한 후, 메인 메모리 자료구조로 표현된 각 그래프들을 노드 아이디를 키로 사용하여 B+트리에 각 노드를 사상하고 B+트리를 디스크에 저장하여 이들 색인 모델에 대해 지속성을 부여하였다. 본 논문에서 제안한 색인 방법을 통해 XML 데이터의 크기에 따라 질의 처리시간이 선형적으로 증가하는 결과를 얻을 수 있었다.

Shannon의 정보이론과 문헌정보 (Shannon's Information Theory and Document Indexing)

  • 정영미
    • 한국문헌정보학회지
    • /
    • 제6권
    • /
    • pp.87-103
    • /
    • 1979
  • Information storage and retrieval is a part of general communication process. In the Shannon's information theory, information contained in a message is a measure of -uncertainty about information source and the amount of information is measured by entropy. Indexing is a process of reducing entropy of information source since document collection is divided into many smaller groups according to the subjects documents deal with. Significant concepts contained in every document are mapped into the set of all sets of index terms. Thus index itself is formed by paired sets of index terms and documents. Without indexing the entropy of document collection consisting of N documents is $log_2\;N$, whereas the average entropy of smaller groups $(W_1,\;W_2,...W_m)$ is as small $(as\;(\sum\limits^m_{i=1}\;H(W_i))/m$. Retrieval efficiency is a measure of information system's performance, which is largely affected by goodness of index. If all and only documents evaluated relevant to user's query can be retrieved, the information system is said $100\%$ efficient. Document file W may be potentially classified into two sets of relevant documents and non-relevant documents to a specific query. After retrieval, the document file W' is reclassified into four sets of relevant-retrieved, relevant-not retrieved, non-relevant-retrieved and non-relevant-not retrieved. It is shown in the paper that the difference in two entropies of document file Wand document file W' is a proper measure of retrieval efficiency.

  • PDF

지리정보시스템에서 공간 색인기법에 관한 연구 (A Study on the Spatial Indexing Scheme in Geographic Information System)

  • 황병연
    • Spatial Information Research
    • /
    • 제6권2호
    • /
    • pp.125-132
    • /
    • 1998
  • 지리정보시스템을 위한 공간 데이터베이스는 공간 데이터의 특성에 의해 다차원의 대용량 데이터를 다루기 때문에 공간 질의의 I/O성능이 매우 중요한 역할을 한다. 따라서 본 논문에서는 공간 질의의 I/O성능을 높이기 위해서 복잡한 공간 객체들을 다루는 대표적인 접근기법들인 Z-변형을 이용한 B 트리, KDB트리, R트리, MAX트리에 대해 기술하였다. 또한, 다양한 실제 데이터와 질의 집합을 사용해서 여러 공간 색인 기법들의 성능을 측정하였다. 벤치마크 실험을 해본 결과, MAX 트리는 삽입, 영역 질의, 공간 조인 둥의 연산에 대해 다른 색인 기법들보다 상대적으로 좋은 성능을 나타냈다. MAX 트리는 향후 GIS의 하부 저장시스템을 구성하는 색인기법으로 사용될 것으로 기대된다.

  • PDF

MPEG-7 시각 정보 기술자의 특성을 반영한 효율적인 멀티미디어 데이타 비트맵 인덱싱 방법 (An Efficient Bitmap Indexing Method for Multimedia Data Reflecting the Characteristics of MPEG-7 Visual Descriptors)

  • 정진국;낭종호
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제32권1호
    • /
    • pp.9-20
    • /
    • 2005
  • 최근 멀티미디어 정보를 기술하기 위한 표준인 MPEG-7이 제안되어 이미지/동영상 검색 시스템과 간은 응용분야에서 사용되기 시작하였다. 그러나 MPEG-7 시각 정보 기술자들은 대부분 고차원으로 표현이 되고, 고차원에서 발생되는 문제인 "Curse of dimensionality" 때문에 기존의 인덱싱 방법(예를 들면 트리 구조를 이용하는 다차원 인덱싱 방법, 차원을 줄이는 방법, 양자화 등의 압축 기법을 이용하는 방법 등)으로는 효율적인 검색을 할 수 없다. 본 논문에서는 MPEG-7 시각 정보 기술자들의 특징을 반영한 효율적인 인덱싱 방법을 제안한다. 제안된 방법에서는 기술자를 속성 히스토그램으로 변형하고 히스토그램의 자 빈 값을 이진 형태로 표현하여 비트열을 생성하며, 이러한 비트열들을 이용하여 비트맵 인덱스를 구성한다. 질의 오브젝트가 입력되면 비트맵 인덱스를 이용하여 결과에 포함될 가능성이 있는 후보 오브젝트 리스트를 생성하게 되는데 즉, 각 오브젝트의 인덱스와 질의 오브젝트의 비트열에 대한 XOR(Exclusive OR) 연산을 수행하여서 후보 오브젝트 리스트를 생성한다. 그리고 이 리스트에 있는 오브젝트들에 대해서만 L1-norm과 같은, 기술자를 위해 사용되는 비교 연산식을 수행하여 최종 결과 오브젝트들을 사용자에게 보여주게 된다. 본 논문에서 제안하는 알고리즘은 단순한 비트 연산을 통해 검색 결과에 포함될 가능성이 있는 오브젝트들을 추출해낼 수 있기 때문에 빠른 시간 내에 검색을 마칠 수 있도록 해준다. 실험에 의하면 제안한 방법을 이용하는 경우, 90% 이상의 정확도를 유지하면서 검색 시간에서는 순차 검색에 비해 15배 이상의 속도 향상을 보임을 알 수 있었다.

관계 DBMS 기반 XML 저장시스템 상에서의 XML 뷰 인덱싱 (XML View Indexing Using an RDBMS based XML Storage System)

  • 박대성;김영성;강현철
    • 인터넷정보학회논문지
    • /
    • 제6권4호
    • /
    • pp.59-73
    • /
    • 2005
  • 질의 결과를 캐쉬한 후 후속 질의 처리에 사용하는 것은 중요한 질의 최적화 기법으로서 이에는 실체뷰 기법과 뷰 인덱싱이 있다. 관계 데이터베이스에 대하여 많이 연구된 이들 기법은 XML이 웹 상에서 데이터 교환의 표준으로 부각된 이래 최근 XML 데이터에 대해서도 연구되고 있다. XML 뷰 인덱싱은 XML 질의의 결과인 XML 뷰 xv를 XML 뷰 인덱스(XVI)라는 구조로 표현한다. XVI는 xv의 소스 문서 엘리먼트들의 식별자 및 xv에 대한 정보를 저장한다. xv에 대한 XVI는 XML 엘리먼트의 식별자만을 저장하지 엘리먼트 자체를 저장하는 것이 아니다. 따라서 xv가 요청되면 그것의 XVI를 통해 xv의 하부 소스 XML 문서에 대해 실체화(materialization) 과정이 수행되어야 한다. 본 논문은 XVI 관리 시스템과 관계 DBMS 기반의 XML 저장 시스템의 통합 문제를 다룬다. 제안된 시스템은 두개의 서로 다른 상용 관계 DBMS에 대하여 Windows 2000 Server 환경에서 각각 Java로 구현되어 XML 뷰 인덱싱을 통한 XML 질의 처리의 성능 향상 및 XML 뷰 인덱싱의 오버헤드 평가에 이용되었다. 성능 실험 결과 관계 DBMS 기반의 XML 저장 시스템 상에서 XML 뷰 인덱싱은 매우 효율적이며 그 오버헤드는 미미하다는 것을 확인하였다.

  • PDF

GR-tree: 무선 센서 네트워크에서 에너지 효율적인 분산 공간색인기법 (The GR-tree: An Energy-Efficient Distributed Spatial Indexing Scheme in Wireless Sensor Networks)

  • 김민수;장인성
    • Spatial Information Research
    • /
    • 제19권5호
    • /
    • pp.63-74
    • /
    • 2011
  • 최근 특정 공간영역 내에 포함되는 센서노드들만의 센싱정보를 에너지 효율적으로 수집하는 센서 네트워크 기반 공간질의처리에 대한 관심이 증가하고 있다. 이러한 센서 네트워크 기반 공간질의처리의 가장 단순한 방법은 모든 센서노드의 위치와 센싱정보를 서버로 수집한 다음, 서버에서 공간질의를 처리하는 Centralized 방법이다. 이 방법은 간단하다는 장점은 있지만, 모든 센서노드를 접근하기 위하여 소요되는 높은 무선통신 비용으로 인하여 센서노드의 에너지 효율성이 크게 떨어지는 단점을 가지고 있다. 이러한 Centralized 방법을 보완하기 위하여 센서노드에서 분산 공간 필터링을 수행하여 센서노드 간의 무선통신 횟수를 감소시키는 In-network 기반 분산 공간색인기법들이 제안되어 왔다. 그러나, 이러한 분산 공간색인기법들은 대부분 서버에서 이용되던 기존 공간색인기법들을 센서 네트워크에 단순히 적용하였기 때문에, In-network 환경에서 공간 필터링의 효과와 센서노드들 간의 무선 라우팅을 동시에 최적화하지 못하는 단점을 가지고 있다. 이에 본 논문에서는 In-network 환경에서 공간 필터링을 최적화하면서 동시에 센서노드들 간의 라우팅을 보장할 수 있는 GR-tree의 새로운 분산 공간색인기법을 제안하고자 한다. GR-tree 방법은 R-tree와 유사하게 MBR 기반의 트리를 구성하며, 센서노드들 간의 무선 라우팅 및 공간적인 인접성을 보장하면서 MBR들 간의 겹침을 최소화할 수 있는 특징을 가지고 있다. 끝으로, GR-tree와 기존 방법들의 다양한 성능 비교 실험을 통하여 제안된 방법의 효율성을 보여주고자 한다.