• Title/Summary/Keyword: 데이터 색인

Search Result 858, Processing Time 0.037 seconds

An Efficient Method of the Index Reorganization using Partial Index Transfer in Spatial Data Warehouses (공간 데이터 웨어하우스에서 부분 색인 전송을 이용한 효율적인 색인 재구성 기법)

  • Jeong, Young-Cheol;You, Byeong-Seob;Park, Soon-Young;Lee, Jae-Dong;Bae, Hae-Young
    • Annual Conference of KIPS
    • /
    • 2005.05a
    • /
    • pp.39-42
    • /
    • 2005
  • 공간 데이터 웨어하우스 구축기는 소스 데이터의 변경 사항을 일괄처리의 형태로 공간 데이터 웨어하우스에 적재한다. 또한, 공간 데이터 웨어하우스 서버는 사용자의 질의에 빠른 응답을 하기위해 적재된 데이터로 색인을 구축한다. 색인을 구성하는 기존 기법으로는 벌크 삽입 기법 및 색인 전송 기법이 있다. 벌크 삽입 기법은 색인을 구성하기 위한 클러스터링 비용이 필요하며 검색 성능도 떨어진다. 또한, 색인 전송 기법은 주기적인 소스 데이터의 변경을 지원하지 않는다는 문제점이 있다. 본 논문에서는 이와 같은 문제점을 해결하기 위해 공간 데이터 웨어하우스에서 부분 색인 전송을 이용한 효율적인 색인 재구성 기법을 제안한다. 제안 기법은 구축기에서 색인의 구조에 맞게 클러스터링된 클러스터들을 부분 색인으로 구성하여 페이지 단위로 전송한다. 공간 데이터 웨어하우스 서버에서는 전송된 부분 색인의 물리적 사상 문제를 해결하기 위해 물리적으로 연속된 공간을 예약하고 예약된 공간에 부분 색인을 기록한다. 기록된 부분 색인은 공간 데이터 웨어하우스 서버에 있던 기존 색인에 삽입된다. 부분 색인이 기존 색인에 직접 삽입됨으로써 색인 재구성을 위한 검색, 분할, 재조정 비용은 최소가 된다.

  • PDF

High Dimensional Index Information Management for Data Availability (데이터의 가용성을 보장하는 고차원 색인 정보 관리)

  • Choi, Hyun-Hwa;Lee, Mi-Young;Lee, Kyu-Chul
    • Annual Conference of KIPS
    • /
    • 2010.04a
    • /
    • pp.874-877
    • /
    • 2010
  • 웹 서비스 혹은 클라우드 컴퓨팅 서비스로써 대용량의 멀티미디어 데이터에 대한 내용 기반 검색을 지원하기 위하여, 분산 고차원 색인 구조에 대한 연구가 활발하게 이뤄지고 있다. 이러한 고차원 데이터의 색인 구조에 대한 연구와 달리, 고차원 색인 데이터의 저장 및 관리에 대한 연구는 거의 전무한 것이 현실이다. 지금껏 대부분의 색인 데이터는 빠른 접근을 위하여 트랜잭션 관리 및 데이터의 복구를 제공하지 않은 파일 시스템에서 관리되어 왔다. 그러나, 파일 시스템에 저장된 색인 데이터는 이를 서비스하는 노드의 장애 발생 시에 일부 혹은 전체 데이터에 대한 검색이 이뤄지지 않는 문제점이 있다. 서비스의 가용성 여부가 중요한 요소인 웹 서비스와 클라우드 컴퓨팅 서비스를 위하여, 본 논문에서는 고차원 색인 데이터를 데이터베이스를 통해 관리하여, 안정성 및 가용성을 보장하면서, 고차원 데이터의 색인 및 검색의 성능을 보장하는 방법을 제안하고자 한다.

A New Index Key Duplication method for Efficient Spatial Retrieval (효율적 공간 검색을 위한 새로운 색이 키 중복 기법)

  • 이경모;이충호;김성희;배해영
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1999.10a
    • /
    • pp.261-263
    • /
    • 1999
  • 공간 DBMS는 공간 데이터와 비공간 데이터를 서로 다른 물리적인 페이지에 저장한다. 공간 질의의 효율적인 처리를 위해 공간 데이터에 대한 공간 색인을 생성하며, 성능 향상을 위하여 이를 클러스터링 색인으로 사용한다. 그러나, 공간 데이터에 대한 클러스터링 성질이 비공간 데이터 페이지에는 반영되지 않아 공간 데이터와 비공간 데이터는 서로 다른 물리적 순서를 갖는다. 이로 인해 공간 조건(Spatial Predicate)에 의해 선택된 공간 데이터는 물리적 인접성을 가지는 반면, 비공간 데이터는 물리적 인접성을 갖지 않는다. 즉, 공간 질의 처리 과정에서 비공간 데이터 페이지의 잦은 디스크 I/O를 유발한다. 본 논문에서는 효율적 공간 검색을 위한 색인 키 중복 기법을 제안한다. 제안한 기법은 공간 데이터의 색인 기값을 비공간 데이터 내에 중복시키고 공간, 비공간 데이터에 대해 각각의 공간 클러스터링 색인을 생성한다. 두 클러스터링 색인에 의해 공간 데이터와 마찬가지로 비공간 데이터도 공간 조건에 대한 클러스터링 성질을 유지할 수 있다. 질의 처리 과정에서 공간 조건에 의해 선택된 공간 객체들은 공간, 비공간 데이터들 모두 물리적 인접성을 가지게 되며, 비공간 데이터 페이지에 대한 디스크 액세스 횟수를 줄여 공간 검색의 성능을 향상시킬수 있다.

  • PDF

Index Structure for Efficient Similarity Search of Multi-Dimensional Data (다차원 데이터의 효과적인 유사도 검색을 위한 색인구조)

  • 복경수;허정필;유재수
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04b
    • /
    • pp.97-99
    • /
    • 2004
  • 본 논문에서는 다차원 데이터의 유사도 검색을 효과적으로 수행하기 위한 색인 구조를 제안한다. 제안하는 색인 구조는 차원의 저주 현상을 극복하기 위한 벡터 근사 기반의 색인 구조이다. 제안하는 색인 구조는 부모 노드를 기준으로 KDB-트리와 유사한 영역 분할 방식으로 분할하고 분할된 각 영역은 데이터의 분포 특성에 따라 동적 비트를 할당하여 벡터 근사화된 영역을 표현한다. 따라서, 하나의 노드 안에 않은 영역 정보를 저장하여 트리의 깊이를 줄일 수 있다. 또한 다차원의 특징 벡터 공간에 상대적인 비트를 할당하기 때문에 군집화되어 있는 데이터에 대해서 효과적이다 제안하는 색인 구조의 우수성을 보이기 위해 다양한 실험을 통하여 성능의 우수성을 입증한다.

  • PDF

An Index Splitting Technique for Numerous Sensor Data Archiving (대용량 센서 데이터 아카이빙을 위한 색인 분할 기법)

  • Cho, Dae-Soo
    • Journal of Korea Spatial Information System Society
    • /
    • v.9 no.1
    • /
    • pp.31-43
    • /
    • 2007
  • Sensor data have the characteristics such as numerous and continuous data. Therefore, it is required to develop an index which could retrieve a specific sensor data efficiently from numerous sensed data. The index should have an efficient delete operation for the past data to support the data archiving. In this paper, we have proposed and implemented an index splitting technique to support the sensor data archiving. These splitted indexes compose of a virtual index (that is, index management component), which is shown as single tree from outside. Experimental results show that in the case of 100,000 insert operations the splitted index performs 8% better than the traditional TB-tree maximumly. And the splitted index outperforms TB-tree with retrieving queries when the region of query is small and the size of time domain is large.

  • PDF

Efficient Index Reconstruction Methods using a Partial Index in a Spatial Data Warehouse (공간 데이터 웨어하우스에서 부분 색인을 이용한 효율적인 색인 재구축 기법)

  • Kwak, Dong-Uk;Jeong, Young-Cheol;You, Byeong-Seob;Kim, Jae-Hong;Bae, Hae-Young
    • Journal of Korea Spatial Information System Society
    • /
    • v.7 no.3 s.15
    • /
    • pp.119-130
    • /
    • 2005
  • A spatial data warehouse is a system that stores geographical information as a subject oriented, integrated, time-variant, non-volatile collection for efficiently supporting decision. This system consists of a builder and a spatial data warehouse server. A spatial data warehouse server suspends user services, stores transferred data in the data repository and constructs index using stored data for short response time. Existing methods that construct index are bulk-insertion and index transfer methods. The Bulk-insertion method has high clustering cost for constructing index and searching cost. The Index transfer method has improper for the index reconstruction method of a spatial data warehouse where periodic source data are inserted. In this paper, the efficient index reconstruction method using a partial index in a spatial data warehouse is proposed. This method is an efficient reconstruction method that transfers a partial index and stores a partial index with expecting physical location. This method clusters a spatial data making it suitable to construct index and change treated clusters to a partial index and transfers pages that store a partial index. A spatial data warehouse server reserves sequent physical space of a disk and stores a partial index in the reserved space. Through inserting a partial index into constructed index in a spatial data warehouse server, searching, splitting, remodifing costs are reduced to the minimum.

  • PDF

Design and Performance Analysis of Signature-Based Hybrid Spill-Tree for Indexing High Dimensional Vector Data (고차원 벡터 데이터 색인을 위한 시그니쳐-기반 Hybrid Spill-Tree의 설계 및 성능평가)

  • Lee, Hyun-Jo;Hong, Seung-Tae;Na, So-Ra;Jang, You-Jin;Chang, Jae-Woo;Shim, Choon-Bo
    • Journal of Internet Computing and Services
    • /
    • v.10 no.6
    • /
    • pp.173-189
    • /
    • 2009
  • Recently, video data has attracted many interest. That is the reason why efficient indexing schemes are required to support the content-based retrieval of video data. But most indexing schemes are not suitable for indexing a high-dimensional data except Hybrid Spill-Tree. In this paper, we propose an efficient high-dimensional indexing scheme to support the content-based retrieval of video data. For this, we extend Hybrid Spill-Tree by using a newly designed clustering technique and by adopting a signature method. Finally, we show that proposed signature-based high dimensional indexing scheme achieves better retrieval performance than existing M-Tree and Hybrid Spill-Tree.

  • PDF

An Efficient Index Transfer Method for Reducing Index Organization Cost In Distributed Database Systems (분산 데이터베이스 시스템에서의 색인 구성비용 절감을 위한 효율적인 색인 전송기법)

  • 박상근;김호석;이재동;배해영
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.10b
    • /
    • pp.223-225
    • /
    • 2003
  • 분산 데이터베이스 시스템 환경에서는 특정 노드로 집중되는 부하의 분산이나 가용성 및 안정성 제공을 위해 데이터 분할기법 (fragmentation)과 복제기법(replication)을 사용한다. 이때 전송된 데이터에 대한 기존의 색인 재활용 기법과 벌크 로딩(bulk loading) 기법은 효율적인 색인 구성을 위해 논리적인 페이지 포인터를 물리적 주소로 변환하는 물리적 사상구조를 필요로 하거나, 색인 구성시간과 검색성능 모두를 향상시키지 못하는 문제점을 지닌다. 본 논문에서는 이와 같은 문제점을 해결하기 위해 색인 전송기법을 제안한다. 본 기법은 색인 재활용을 위해 물리적 사상구조를 추가로 유지하거나, 검색 성능을 향상시키기 위해 전체 데이터 집합을 정렬하는 것이 아니라, 데이터가 전송될 사이트에 색인구조물 저장하기 위한 물리적 공간은 예약하고 예약된 공간에 색인구조를 전송, 기록함으로써 색인 구성비용을 줄이게 된다. 또한 예약된 공간을 연속적인 페이지구조로 구성함으로써 색인 구성 시 자식노드에 대한 위치정보를 예상하여 부모노드가 지니는 자식노드에 대한 위치정보 기록 비용을 줄일 수 있다.

  • PDF

A Multi-Dimensional Index Structure for Unformatted Data (비정형 데이터를 위한 다차원 색인구조)

  • 송석일;파준일;이석희;유재수;조기형
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.04b
    • /
    • pp.67-69
    • /
    • 2001
  • 최근 이미지나 멀티미디어 데이터와 같은 비정형 데이터의 검색을 보다 효과적으로 수행하기 위한 연구가 활발하게 진행되어 왔다. 비정형 데이터를 검색하기 위해서는 비정형 데이터를 다차원의 특징 벡터로 변환하고, 그것을 다차원 색인구조를 이용해 색인한다. 따라서 이러한 비정형 데이터를 효율적으로 색인 할 수 있는 다차원 색인구조가 요구되고 있다. 이 논문에서는 데이터를 벡터 근사치로 표현한 후 이를 트리 형태로 구성하여 검색이 효율을 높이는 다차원 데이터를 위한 색인구조 VA(Vector Approximate)-트리를 제안한다. 이 논문에서 제안하는 VA-트리는 VA-파일과 K-D-B-트리 구조를 기반으로 하고 있다. VA-트리는 적은 비트를 이용하여 다차원 공간을 표현하기 위해 노드내의 모든 정보를 비트로 표현한다. 중간노드의 비트 형태 엔트리는 하위노드에 포함된 정보를 의미하고 있어 탐색을 효율적으로 수행할 수 있도록 한다. 실험을 통한 성능평가를 수행하여 제안된 색인구조의 우수함을 보인다.

  • PDF

A update-efficient disk-based inverted index structure (효율적인 갱신이 가능한 디스크 기반 역색인 구조)

  • Park, Eun Ju;Lee, Ki Yong
    • Annual Conference of KIPS
    • /
    • 2015.10a
    • /
    • pp.1230-1232
    • /
    • 2015
  • 소셜 네트워크 서비스(SNS)로 인해 스트리밍 환경에서 발생되는 데이터들이 급격하게 증가하고 있다. 이러한 많은 데이터 사이에서 특정 키워드를 담고 있는 문서를 찾고자 한다. 문서를 찾는 대표적인 색인인 역색인을 사용한다. 그러나 데이터가 증가하게 되면 데이터를 참조하는 색인의 크기 또한 증가한다. 결국 데이터뿐만 아니라 색인 또한 디스크에 저장되어야 한다. 본 논문에서는 역색인을 지수적으로 증가시키면서 관리하는 방법을 다룬다. 새로운 문서는 가장 작은 역색인에 저장이 되고, 후에 더 큰 역색인으로 옮겨지게 된다. 매번 전체 역색인을 읽지 않고 작은 역색인을 갱신함으로서 갱신부하를 줄이게 된다.