• 제목/요약/키워드: 분산 데이터 색인

검색결과 48건 처리시간 0.034초

대용량 데이터의 내용 기반 검색을 위한 분산 고차원 색인 구조 (A Distributed High Dimensional Indexing Structure for Content-based Retrieval of Large Scale Data)

  • 최현화;이미영;김영창;장재우;이규철
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제37권5호
    • /
    • pp.228-237
    • /
    • 2010
  • 고차원 데이터에 대한 다양한 색인 구조가 제안되어 왔음에도 불구하고, 인터넷 서비스로서 이미지 및 동영상의 내용 기반 검색을 지원하기 위해서는 고확장성 지원 및 k-최근접점 검색 성능 향상을 지원하는 새로운 고차원 데이터의 색인 구조가 절실히 요구된다. 이에 우리는 다중 컴퓨팅 노드를 바탕으로 구축되는 분산 색인 구조로 분산 벡터 근사 트리(Distributed Vector Approximation-tree)를 제안한다. 분산 벡터 근사 트리는 대용량의 고차원 데이터로부터 추출한 샘플 데이터를 바탕으로 hybrid spill-tree를 구축하고, hybrid spill-tree외 말단 노드 각각에 분산 컴퓨팅 노드를 매핑하여 VA-file용 구축하는 두 레벨의 분산 색인 구조이다. 우리는 다중 컴퓨팅 노드들 상에 구축된 분산 벡터 근사 트리를 바탕으로 병렬 k-최근접점 검색을 수행함으로써 검씩 성능을 향상시킨다. 본 논문에서는 서로 다른 분포의 데이터 집합을 바탕으로 한 성능 시험 결과를 통하여, 분산 벡터 근사 트리가 기존의 고확장성을 지원하는 색인 구조와 비교하여 검색 정확도에 대한 손실 없이 더 빠른 k-최근접점 검색을 수행함을 보인다.

분산 데이터베이스 시스템에서의 색인 구성비용 절감을 위한 효율적인 색인 전송기법 (An Efficient Index Transfer Method for Reducing Index Organization Cost In Distributed Database Systems)

  • 박상근;김호석;이재동;배해영
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (2)
    • /
    • pp.223-225
    • /
    • 2003
  • 분산 데이터베이스 시스템 환경에서는 특정 노드로 집중되는 부하의 분산이나 가용성 및 안정성 제공을 위해 데이터 분할기법 (fragmentation)과 복제기법(replication)을 사용한다. 이때 전송된 데이터에 대한 기존의 색인 재활용 기법과 벌크 로딩(bulk loading) 기법은 효율적인 색인 구성을 위해 논리적인 페이지 포인터를 물리적 주소로 변환하는 물리적 사상구조를 필요로 하거나, 색인 구성시간과 검색성능 모두를 향상시키지 못하는 문제점을 지닌다. 본 논문에서는 이와 같은 문제점을 해결하기 위해 색인 전송기법을 제안한다. 본 기법은 색인 재활용을 위해 물리적 사상구조를 추가로 유지하거나, 검색 성능을 향상시키기 위해 전체 데이터 집합을 정렬하는 것이 아니라, 데이터가 전송될 사이트에 색인구조물 저장하기 위한 물리적 공간은 예약하고 예약된 공간에 색인구조를 전송, 기록함으로써 색인 구성비용을 줄이게 된다. 또한 예약된 공간을 연속적인 페이지구조로 구성함으로써 색인 구성 시 자식노드에 대한 위치정보를 예상하여 부모노드가 지니는 자식노드에 대한 위치정보 기록 비용을 줄일 수 있다.

  • PDF

분산 데이터 통합을 위한 색인기반의 매핑 시스템 (Mapping System based on Indexing for Integrating Distributed Data)

  • 설진안;김운용;정계동;최영근
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (3)
    • /
    • pp.436-438
    • /
    • 2003
  • 분산된 데이터는 이질적인 시스템 환경으로 인하여 공유하기 어렵고. 데이터의 형식 및 데이터 모델이 서로 다르게 정의되어 사용함으로서 통합하기 또한 어렵다. 본 논문에서는 이러한 문제를 해결하기 위해 분산된 데이터를 XML문서로 변환한다. 또한 색인기법으로 문서의 구조 및 컨텐츠 정보를 추출하여 서로 다르게 정의된 의미정보를 데이터 사전과 비교하여 표준문서로 통할할 수 있는 색인 기반의 매핑 시스템에 대해 기술한다. 제안된 매핑 시스템은 DOM이나 SAX와 같은 표준 인터페이스를 사용하여 XML문서를 통합하는 것보다 효율적으로 통합할 수 있다.

  • PDF

대용량 공간 데이터에 대한 그리드 기반 분산 색인 기법 (The grid-based distributed indexing on scalable spatial data)

  • 장홍준;정재화;디아나;정순영
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2011년도 한국컴퓨터종합학술대회논문집 Vol.38 No.1(A)
    • /
    • pp.29-32
    • /
    • 2011
  • 최근 GPS를 탑재한 스마트 기기의 보급으로 인해 사용자의 위치 정보를 이용한 위치기반서비스(LBS)가 많은 관심 속에 급속도로 성장하고 있다. 대부분의 위치기반서비스는 사용자의 위치를 바탕으로 주변의 유용한 정보를 제공하고 있으며 이러한 사용자 주변의 유용한 정보를 효율적으로 검색하기 위해서는 공간 데이터에 대한 색인 기법이 필요하다. 그러나 기존 공간 색인은 대부분 중앙 집중식 환경에서 연구가 진행되었고 분산 스토리지 환경에 대한 연구는 미흡하다. 따라서 본 연구는 서비스 성장과 더불어 서비스 영역이 확대됨에 따른 대용량 공간 데이터 환경에서 효율적인 공간 데이터 검색을 지원하는 그리드 기반 분산 색인 기법을 제안한다.

독립적인 벡터 근사에 의한 분산 벡터 근사 트리의 성능 강화 (Performance Enhancement of a DVA-tree by the Independent Vector Approximation)

  • 최현화;이규철
    • 정보처리학회논문지D
    • /
    • 제19D권2호
    • /
    • pp.151-160
    • /
    • 2012
  • 지금까지 제안된 분산 고차원 색인의 대부분은 균일한 분포를 가지는 데이터 집합에서 좋은 검색 성능을 나타내나, 편향되거나 클러스터를 이루는 데이터의 집합에서는 그 성능이 크게 감소된다. 본 논문은 강하게 클러스터를 이루거나 편향된 분포를 가지는 데이터 집합에 대한 분산 벡터 근사 트리의 k-최근접 검색 성능을 향상시키는 방법을 제안한다. 기본 아이디어는 전체 데이터를 클러스터링하는 상위 트리의 말단 노드가 담당하는 데이터 공간의 크기를 계산하고, 그 공간 상의 특징 벡터를 근사하는 데 사용되는 비트의 수를 달리하여 벡터 근사의 식별 능력을 보장하는 것이다. 즉, 고밀도 클러스터에는 더 많은 수의 비트를 할당하는 것이다. 우리는 합성 데이터와 실세계 데이터를 가지고 분산 hybrid spill-tree와 기존 분산 벡터 근사 트리와의 성능 비교 실험을 수행하였다. 실험 결과는 확장된 분산 벡터 근사 트리의 검색 성능이 균일하지 않은 분포의 데이터 집합에서 크게 향상되었음을 보인다.

내용 기반 이미지 검색을 위한 효율적인 분산 고차원 색인 기법 (An Efficient Distributed High-Dimensional Index Structure for Contents-Based Image Retrieval)

  • 김민수;김기훈;송희섭;한진수;유승훈;안지환;박주영;복경수;유재수
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2017년도 춘계 종합학술대회 논문집
    • /
    • pp.43-44
    • /
    • 2017
  • 다양한 디지털 기기 활용의 증가로 인해 멀티미디어 데이터가 증가됨에 따라 내용 기반으로 검색하는 기술이 연구되고 있다. 내용 기반 검색을 위해 멀티미디어에서 추출된 고차원 특징 벡터가 대용량이 되면서 고차원 데이터를 분산해서 관리하는 색인 기법이 필요하다. 본 논문에서는 대용량 멀티미디어 데이터에서 유사한 이미지를 검출하기 위한 분산 고차원 색인 기법을 제안한다. 제안하는 기법은 마스터/슬레이브 구조로 되어 있다. 마스터 서버의 색인 구조는 그리드 방식을 사용하여 검색 요청 시 탐색하는 노드를 감소시킨다. 슬레이브 서버의 색인 구조는 구 형태로 색인하여 범위 질의와 최근접 질의를 효율적으로 검색한다.

  • PDF

데이터의 가용성을 보장하는 고차원 색인 정보 관리 (High Dimensional Index Information Management for Data Availability)

  • 최현화;이미영;이규철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2010년도 춘계학술발표대회
    • /
    • pp.874-877
    • /
    • 2010
  • 웹 서비스 혹은 클라우드 컴퓨팅 서비스로써 대용량의 멀티미디어 데이터에 대한 내용 기반 검색을 지원하기 위하여, 분산 고차원 색인 구조에 대한 연구가 활발하게 이뤄지고 있다. 이러한 고차원 데이터의 색인 구조에 대한 연구와 달리, 고차원 색인 데이터의 저장 및 관리에 대한 연구는 거의 전무한 것이 현실이다. 지금껏 대부분의 색인 데이터는 빠른 접근을 위하여 트랜잭션 관리 및 데이터의 복구를 제공하지 않은 파일 시스템에서 관리되어 왔다. 그러나, 파일 시스템에 저장된 색인 데이터는 이를 서비스하는 노드의 장애 발생 시에 일부 혹은 전체 데이터에 대한 검색이 이뤄지지 않는 문제점이 있다. 서비스의 가용성 여부가 중요한 요소인 웹 서비스와 클라우드 컴퓨팅 서비스를 위하여, 본 논문에서는 고차원 색인 데이터를 데이터베이스를 통해 관리하여, 안정성 및 가용성을 보장하면서, 고차원 데이터의 색인 및 검색의 성능을 보장하는 방법을 제안하고자 한다.

센서네트워크 상에서 영역질의 처리를 위한 분산 색인 관리 메카니즘 (Distributed Index Management Mechanism for Region Query in Sensor Network)

  • 김규철;장기영;진봉;김창화;박찬정;김상경
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 가을 학술발표논문집 Vol.33 No.2 (C)
    • /
    • pp.72-76
    • /
    • 2006
  • 센서 네트워크에서는 싱크에서 센서로 자료요청을 위한 쿼리를 발송하고 감지된 데이터를 싱크로 수집하는 방법은 여러 가지가 있을 수 있다. 그러나 어떠한 쿼리 최적화 방법을 사용하느냐에 따라 센서 네트워크의 성능이 달라질 수 있다. 본 논문에서 센서 네트워크 상에서 영역질의를 처리하는 분산 색인 방법을 제안하였다. 본 연구에서 제안한 DIMTree(Distributed Index Management Tree)는 센터에서 데이터를 수집하기 위하여 모든 영역에 쿼리를 배포할 필요가 없이 질의에 적합한 지역에서만 쿼리를 배포하여, 자료 전송 및 수집으로 인한 데이터 전송량을 줄임으로써 통신으로 인한 노드의 에너지를 절감시킬 수 있는 장점을 가진다.

  • PDF

분산 공간 데이터베이스 시스템에서 R+-tree를 이용한 병렬 분산 공간 죠인 기법 (Parallel Distributed Spatial Join Method using R+ -tree In Distributed Spatial Database Systems)

  • 김종현;김재홍;배해영
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 봄 학술발표논문집 Vol.29 No.1 (B)
    • /
    • pp.67-69
    • /
    • 2002
  • 여러 사이트에서 구축된 공간 데이터를 효율적으로 관리 및 공유하기 위해서는 대용량의 정보를 처리할 수 있는 분산 공간 데이터베이스 시스템의 사용이 필수적이다. 이러한 분산 공간 데이터베이스 시스템상에서의 분산 공간 죠인 질의는 공간 데이터의 대용량성과 그 복잡성으로 인하여 공간 연산의 지펴져 부하와 네트워크상의 전송 부하를 발생시킨다. 이러한 문제를 해결하기 위해 세미죠인 기반의 공간 죠인 기법들이 제안되었으나 공간 죠인 연산을 특정 서버에서만 수행하여 병목현상을 발생시키기 때문에 결국 질의 처리시간이 증가된다. 본 논문은 이러한 분산 공간 데이터베이스 시스템에서 수행 비용이 많이 드는 원격 사이트간의 공간 죠인 연산에 대해 R+-tree 공간 색인을 사용하여 병렬적으로 수행하는 기법을 제안한다. 본 기법은 R+-tree 공간 색인을 이용하여 공간 죠인 연산의 대상이 되는 릴레이션들을 중첩이 없는 두개의 릴레이션들로 분할한 후 질의 수행에 참여하는 두 서버에 죠인 연산을 분배하고 병렬적으로 처리하여 결과들을 병합한 다음 클라이언트에게 전송만다. 본 기법은 릴레이션을 분할하여 각 서버에서 공간 죠인 연산을 병렬적으로 처리하므로 처리 비용을 절반으로 감소시키며. R+-tree의 영역에 해당하는 객체들만 죠인 연산에 참여하게 함으로써 네트워크 전송 비용을 감소시킨다

  • PDF

ATM 교환기용 분산 주기억장치 상주 데이터베이스 시스템에서의 T-tree 색인 구조의 회복 기법 (The T-tree index recovery for distributed main-memory database systems in ATM switching systems)

  • 이승선;조완섭;윤용익
    • 한국통신학회논문지
    • /
    • 제22권9호
    • /
    • pp.1867-1879
    • /
    • 1997
  • DREAM-S는 ATM 네트워크용 교환 시스템에서 응용 프로그램들의 교환기 운용 데이터에 대한 실시간 처리 요구를 지원하기 위한 분산 주기억장치 상주 데이터베이스 시스템(Main Memory Database Systems)이다. DREAM-S는 클라이언트-서버 구조를 가지면서 서버 프로세서에만 디스크가 연결되어 있으며, 대량의 데이터로부터 원하는 데이터를 신속히 검색하기 위하여 T- Tree 색인 구조를 제공한다. 본 논문에서논 DREAM-S에서 T- Tree 색인 구조에 대한 회복 기법를 제안한다. 주기억장치 상주 데이터베이스는 디스크 상주 데이터베이스 보다 뛰어난 성능을 제공하지만 시스템 고장 시(정전 등과 같은 오류) 주기억장치에 저장된 모든 데이터(릴레이션과 색인 구조)가 파손될 수 있다. 따라서 고장 후 파손된 주기억장치 데이터베이스를 신속히 정상 데이터베이스 상태로 회복하는 회복 기법이 필수적이다. 제안된 회복 기법에서는 T-Tree 색인 구조를 각 프로세서의 주기억장치에만 유지하도록 함으로서 ATM 교환기 시스템의 성능에서 병복 현상을 일으킬 수 있는 서버 프로세서의 디스크 출입 오버헤드를 줄인다. 또한, 시스템 고장 후 서버와 모든 클라이언트 시스템들이 병렬 처리 방식으로 각자의 T- Tree(들)를 회복하도룩 함으로서 클라이언트 개수가 많은 경우에도 신속한 회복이 가능하도록 하였다.

  • PDF