• 제목/요약/키워드: 고차원데이타

검색결과 40건 처리시간 0.024초

고차원 공간 데이터를 위한 연속 범위 질의의 효율적인 처리 (An Efficient Processing of Continuous Range Queries on High-Dimensional Spatial Data)

  • 장수민;유재수
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제13권6호
    • /
    • pp.397-401
    • /
    • 2007
  • 이동객체에 대한 연속 범위 질의(Continuous Range Query)의 응용프로그램이 급속도로 확장되면서 이차원정보를 넘어서 고차원 공간 데이타에 대한 처리를 요구하고 있다. 만약 고차원 데이타에 대한 중첩되어지는 연속 범위 질의의 정보를 기존의 색인으로 구성한다면 객체의 수와 질의의 수가 증가함에 따라 질의처리성능이 저하된다. 본 논문은 이러한 문제점을 해결하기 위하여 PAB(Projected Attribute Bit)-기반의 질의색인방법을 제안한다. 제안하는 기법은 성능향상을 위하여 질의의 정보를 각 속성 축에 투영이라는 작업을 통하여 고차원의 데이타를 1차원 정보들로 변환하고 이러한 정보를 비트단위로 구성하였다. 또한 제안하는 질의색인은 보다 효율적인 질의의 처리를 위하여 점진적인 갱신(Incremental Update)을 지원한다. 다양한 성능평가 및 분석을 통하여 제안하는 방법이 최근에 연구된 CES-기반의 질의색인 기법보다 더 나은 확장성(Scalability)을 가짐을 입증한다.

고차원 색인 구조를 위한 동시성 제어 기법의 설계 및 구현 (Design and Implementation of a Concurrency Control Algorithm for High-Dimensional Index Structures)

  • 송석일;박춘서;이석희;유재수
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제27권4호
    • /
    • pp.682-694
    • /
    • 2000
  • 이 논문에서는 고차원 색인 구조를 위한 동시성 제어 기법을 설계하고 이를 구현한다. 일반적으로 고차원 색인구조에서는 삽입보다 탐색연산이 빈번하고 탐색연산의 수행은 질의의 특성상 매우 많은 노드를 접근하다. 제안하는 동시성 제어 알고리즘에서는 이런 특성을 고려하여 탐색 연산의 지연이 최소가 되도록 한다. 또한 인덱스의 성능향상을 위해 재삽입 연산을 이용하는 고차원색인 구조를 고려하여 재삽입 연산 수행중에도 정확한 탐색을 보장할 수 있는 방법을 지원한다. 제안하는 동시성 제어 알고리즘을 CIR-Tree에 적용하여 실제 상용 DBMS의 하부 저장 시스템인 MiDAS-III에서 구현한다. 실험을 통하여 제안된 동시성 제어기법이 기종 동시성 제어 기법보다 성능이 우수함을 보인다.

  • PDF

CIR-Tree를 위한 효율적인 대량적재 알고리즘의 설계 및 구현 (Design and Implementation of an Efficient Bulk Loading Algorithm for CIR-Tree)

  • 피준일;송석일;유재수
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제29권3호
    • /
    • pp.193-206
    • /
    • 2002
  • 이 논문에서는 고차원 색인 구조인 CIR-트리를 위한 효율적인 벌크로딩 알고리즘을 설계하고 구현한다. 벌크로딩 기법은 대량의 고차원 데이타가 색인 구성 시 함께 주어지는 경우 색인의 구성을 빠르게 하고 구축한 색인의 검색 성능을 향상시킨다. CIR-트리는 반드시 필요한 차원만 이용해서 비단말 노드의 엔트리를 구성하기 때문에 엔트리 크기가 일정하지 않다. 이 특성은 비단말 노드의 분기율을 높이고 탐색 성능을 향상시키는 효과가 있다. 기존에 다차원 및 고차원 색인구조를 위한 벌크로딩 기법이 제안되었지만 이러한 CIR-트리의 특징을 제대로 살릴 수 있는 방법은 없다. 이 논문에서는 기존의 벌크로딩 알고리즘을 개선하면서 CIR-트리의 특징을 효과적으로 색인 구성에 반영할 수 있는 알고리즘을 제안한다. 또한 이를 BADA-III의 하부 저장 시스템인 MiDAS-III에서 구현하고 다양한 실험을 통해 그 성능을 입증한다.

MBR-Safe 변환 : 유사 시퀀스 매칭에서 고차원 MBR의 저차원 변환 (NBR-Safe Transform: Lower-Dimensional Transformation of High-Dimensional MBRs in Similar Sequence Matching)

  • 문양세
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제33권7호
    • /
    • pp.693-707
    • /
    • 2006
  • 대부분의 유사 시퀀스 매칭 방법은 다차원 색인을 사용한 검색 속도의 향상을 위해, 많은 수의 고차원 시퀀스를 저차윈 변환한 후 이들 변환된 시퀀스들을 포함하는 저차원 MBR을 구성한다. 본 논문에서는 고차원 MBR자체를 직접 저차원 MBR로 변환하는 정형적인 방법을 제안하고, 이를 사용하면 유사 시퀀스 매칭에서 필요한 저차원 변환 횟수를 획기적으로 줄일 수 있음을 보인다. 이를 위해, 우선 변환의 MBR-safe 개념을 정형적으로 제안한다. 어떤 변환이 MBR-safe하다 함은 고차원 MBR을 직접 변환한 저차원 MBR이 개별 고차원 시퀀스가 변환된 저차원 시퀀스를 모두 포함함을 의미한다. 다음으로, 기존 저차원 변환 중에서 가장 널리 사용되는 DFT와 DCT에 대해 각각 MBR-safe 변환을 제안한다. 먼저, 기존 DFT와 DCT가 MBR-safe하지 않음을 보이고, DFT와 DCT를 확장한 mbrDFT와 mbrDCT를 각각 정의한다. 그리고, 이들 mbrDFT와 mbrDCT가 MBR-safe함을 정형적으로 증명한다. 또한, mbrDFT(흑은 mbrDCT)가 고차원 MBR을 저차원 MBR로 직접 변환하는 DFT(혹은 DCT) 기반의 최적 MBR-safe 변환임을 증명한다. 분석과 실험 결과, 제안한 mbrDFT 및 mbrDCT를 사용하면 저차원 변환 횟수를 획기적으로 줄이고 성능을 크게 향상 시킨 것으로 나타났다. 이 같은 결과를 볼 때, 본 논문에서 제시한 MBR-safe 개념은 고차원 MBR의 저차원 변환이 필요한 많은 응용에 활용될 수 있는 유용한 연구 결과라 사료된다.

MiDAS-III에서 효율적인 이미지 검색을 위한 CIR-트리 관리기의 설계 및 구현 (Design and Implementation of a CIR-Tree Manager for Efficient Image Retrieval on MiDAS-III)

  • 송석일;이희종;이석희;유재수;조기형;유관희
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제7권5호
    • /
    • pp.392-401
    • /
    • 2001
  • 현대 사회는 이미지 데이타의 홍수라 해도 과언이 아닐 정도로 이미지 데이타는 기하 급수적으로 증가하고 있다. 이렇게 방대한 양으로 증가하는 이미지 데이타를 효과적으로 관리하기 위해서는 이미지데이타를 위한 고차원 색인구조가 필요하다. 그러나 아직 국내에서는 상용 DBMS(Database Management System)에서 이러한 색인구조를 지원한 예가 없다. 이 논문에서는 고차원 색인구조인 CIR-트리를 국내에서 개발한 바다-III DBMS의 하부 저장시스템인 MiDAS-III에서 설계하고 구현하여 보다 효과적으로 이미지 데이타를 관리할 수 있도록 한다. 이 논문에서 구현한 CIR-트리 관리기를 순차검색과의 비교를 통해 성능을 입증한다.

  • PDF

셀 기반 필터링 방법을 이용한 고차원 색인 기법 (A High-dimensional Indexing Scheme using Cell-based Filtering Technique)

  • 장재우;한성근;김현진
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제28권2호
    • /
    • pp.204-216
    • /
    • 2001
  • 최근 이미지 특징 벡터와 같은 고차원 벡터 데이터에 관한 색인 기법들이 많이 연구되고 있다. 하지만, 기존의 색인 기법들은 저차원의 데이터에 대해서는 검색 성능이 우수하지만, 차원이 증가함에 따라 검색 성능이 급격히 저하되는 'dimensional curse' 문제를 안고 있다. 따라서, 본 논문에서는 이러한 문제점을 최소화하기 위해 필터링을 이용한 새로운 색인 기법을 제안한다. 제안하는 셀 기반 필터링 기법은 셀 중심에서 객체까지의 거리값을 저장하여 필터링 효과를 증대시킨다. 또한 고차원 공간을 셀 단위로 분할하며, 각각의 셀을 시그니쳐로 표현한다. 검색을 수행하기 위해, 셀 기반 필터링 기법은 데이터 파일을 직접 접근하기 전에 전체 시그니쳐들을 탐색하여 필터링을 수행함으로써 후보 셀들을 얻는다. 성능 실험을 통해 제안하는 기법이 VA-파일보다 검색 시간에 있어서 약 20%의 성능 향상을 보인다.

  • PDF

시퀀스 데이타들 간의 관계성에 기반한 유사 검색 기법 (Association Based Similarity Search in Time Series Databases)

  • 강성구;이석호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 가을 학술발표논문집 Vol.32 No.2 (2)
    • /
    • pp.52-54
    • /
    • 2005
  • 시퀀스 데이타는 크기를 가지는 일련의 값들로 이루어져 있어 일반적인 상품 데이타와는 달리 서로간의 관계성을 파악하기가 어려운 것으로 알려져 있다. 본 논문에서는 이러한 문제점을 해결하기 위하여 관계성을 보이는 시퀀스를 유사 시퀀스로 검색해 내는 기법을 제안한다. 이를 위해 유클리드 거리만으로 유사도가 결정되던 기존의 유사 검색을 변형하여 시퀀스의 상대적 위치와 형태를 고려한 시퀀스의 변화율을 척도로 사용하였으며 고차원이라는 문제를 해결하기 위하여 관계성을 수치로 표현하였다. 또한 본 논문에서는 기존의 하르 웨이블릿을 변형한 기하 웨이블릿을 이용하여 인덱스를 구성하였으며 보정 과정을 통해 기존의 유사 검색 기법으로도 문제가 변형될 수 있음을 보였다.

  • PDF

대용량 데이터의 내용 기반 검색을 위한 분산 고차원 색인 구조 (A Distributed High Dimensional Indexing Structure for Content-based Retrieval of Large Scale Data)

  • 최현화;이미영;김영창;장재우;이규철
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제37권5호
    • /
    • pp.228-237
    • /
    • 2010
  • 고차원 데이터에 대한 다양한 색인 구조가 제안되어 왔음에도 불구하고, 인터넷 서비스로서 이미지 및 동영상의 내용 기반 검색을 지원하기 위해서는 고확장성 지원 및 k-최근접점 검색 성능 향상을 지원하는 새로운 고차원 데이터의 색인 구조가 절실히 요구된다. 이에 우리는 다중 컴퓨팅 노드를 바탕으로 구축되는 분산 색인 구조로 분산 벡터 근사 트리(Distributed Vector Approximation-tree)를 제안한다. 분산 벡터 근사 트리는 대용량의 고차원 데이터로부터 추출한 샘플 데이터를 바탕으로 hybrid spill-tree를 구축하고, hybrid spill-tree외 말단 노드 각각에 분산 컴퓨팅 노드를 매핑하여 VA-file용 구축하는 두 레벨의 분산 색인 구조이다. 우리는 다중 컴퓨팅 노드들 상에 구축된 분산 벡터 근사 트리를 바탕으로 병렬 k-최근접점 검색을 수행함으로써 검씩 성능을 향상시킨다. 본 논문에서는 서로 다른 분포의 데이터 집합을 바탕으로 한 성능 시험 결과를 통하여, 분산 벡터 근사 트리가 기존의 고확장성을 지원하는 색인 구조와 비교하여 검색 정확도에 대한 손실 없이 더 빠른 k-최근접점 검색을 수행함을 보인다.

고차원 데이타에 대한 투영 클러스터링에서 특성 가중치 부여 (Feature Weighting in Projected Clustering for High Dimensional Data)

  • 박종수
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제32권3호
    • /
    • pp.228-242
    • /
    • 2005
  • 투영 클러스터링은 고 차원 데이타집합에서 서로 다른 부분공간들에서 클러스터들을 찾으려고 모색한다. 사용자가 출력 클러스터들의 개수와 투영 클러스터들의 부분공간의 평균 차원수를 지정하지 않아도, 거의 최적인 투영 클러스터들을 탐사해내는 알고리즘을 제안한다. 클러스터링의 각 단계에서 알고리즘의 목적 함수는 투영 에너지, 품질, 그리고 이상치들의 개수를 계산한다. 클러스터링에서 투영 에너지를 최소화하고 품질을 최대화하기 위하여, 전체 차원의 표준 편차들을 비교함으로 입력 점들의 밀도 상에서 각 클러스터의 최선의 부분영역을 찾기 시작한다. 부분공간의 각 차원에 대한 가중치 요소가 투영 거리 측정에서 확률 오차를 없애기 위하여 사용된다. 제안된 알고리즘이 투영 클러스터들을 정확하게 발견해내고 대 용량의 데이타 집합에서 비례확장성을 갖는다는 것을 여러 가지 실험으로 보여준다.

수평 분할 방식을 이용한 병렬 셀-기반 필터링 기법의 설계 및 성능 평가 (Design and Performance Analysis of a Parallel Cell-Based Filtering Scheme using Horizontally-Partitioned Technique)

  • 장재우;김영창
    • 정보처리학회논문지D
    • /
    • 제10D권3호
    • /
    • pp.459-470
    • /
    • 2003
  • 데이터웨어하우징의 애트리뷰트 벡터나 멀티미디어 데이터베이스의 특징 벡터는 모두 고차원 데이터를 이루고 있기 때문에, 이러한 고차원 데이터를 효율적으로 검색하기 위해서는 고차원 색인 기법이 요구된다. 이를 위하여 다수의 고차원 색인 기법들이 제안되었는데, 제안된 대부분의 색인 기법들이 차원의 수가 증가할수록 검색 성능이 급격히 저하되는 ‘차원 저주(dimensional curse)’ 문제를 지니고 있다. 셀-기반 필터링(Cell-Based Filtering : CBF) 기법은 이러한 차원 저주 문제를 해결하기 위해 제안되었다. 그러나 CBF 기법은 데이터의 양이 증가할수록 선형적으로 검색 성능이 감소하며, 이를 극복하기 위해 병렬 처리 기법을 사용하는 것이 필요하다. 본 논문에서는 데이터 디클러스터링(declustering) 방법으로 수평 분할 방식을 사용한 병렬 CBF 기법을 제안한다. 아울러 제안한 병렬 CBF 기법의 성능을 최대화하기 위하여, 병렬 CBF 기법을 다수의 서버로 구성된 Shared Nothing(SN) 구조의 클러스터 아키텍쳐 하에서 구축한다. 또한 SN 구조의 클러스터 아키텍쳐에 적합한 데이타 삽입 알고리즘, 범위질의 처리 알고리즘, k-최근접 질의 처리 알고리즘을 제시한다. 마지막으로 제안하는 병렬 CBF 기법이 기존 CBF 기법과 비교하여 서버 개수에 비례하여 우수한 검색 성능을 달성함을 보인다.