• 제목/요약/키워드: Range query

검색결과 201건 처리시간 0.028초

SPEC : 데이타 웨어하우스를 위한 저장 공간 효율적인 큐브 (SPEC: Space Efficient Cubes for Data Warehouses)

  • 전석주;이석룡;강흠근;정진완
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제32권1호
    • /
    • pp.1-11
    • /
    • 2005
  • 군집 질의는 사용자에 의해 명시된 질의 영역 내에서 큐브상의 군집 정보를 계산한다. 프리픽스-섬 기법에 기초한 기존의 방법론은 데이타의 누적된 합을 저장하기 위해 프리픽스-섬 큐브(PC)로 불리는 부가적인 큐브를 사용하므로 높은 저장공간 오버헤드를 초래한다. 이러한 저장공간 오버헤드는 기억장치의 추가적인 비용뿐만 아니라 업데이트의 부가적인 증식(propagation)과 더 많은 물리적 장치로의 접근시간을 유발시킨다. 본 논문에서는 대용량 데이타 웨어하우스에서 PC의 저장공간을 획기적으로 감소시킬 수 있는 'SPEC'으로 불리는 새로운 프리픽스-섬 큐브를 제안한다. SPEC은 PC내 셀들간의 종속에 의한 업데이트 증식을 감소시킨다. 이를 위해 대용량 데이타 큐브로부터 조밀한 서브큐브들을 발견하는 효과적인 알고리즘을 개발한다 다양한 차원의 데이타 큐브와 여러 가지 크기의 질의에 대해 폭 넓은 실험을 행하여 본 논문에서 제안한 방법의 효과와 성능을 조사한다. 실험적인 결과는 SPEC이 적절한 질의 성능을 유지하면서도 PC 저장공간을 상당히 감소시킴을 보여준다.

대용량 데이터베이스에서 다차원 인덱스를 사용한 효율적인 다단계 k-NN 검색 (Efficient Multi-Step k-NN Search Methods Using Multidimensional Indexes in Large Databases)

  • 이상훈;김범수;최미정;문양세
    • 정보과학회 논문지
    • /
    • 제42권2호
    • /
    • pp.242-254
    • /
    • 2015
  • 본 논문에서는 다차원 인덱스 기반 다단계 k-NN 검색의 성능 향상 문제를 다룬다. 기존 다단계 k-NN 검색에서는 고차원 객체의 저차원 변환으로 인한 정보 손실로 k-NN 질의 결과 매우 큰 허용치(검색 범위)가 결정되어 범위 질의 결과로 많은 후보가 검색된다. 또한, 많은 후보는 후처리 과정에서 매우 많은 I/O 및 CPU 오버헤드를 발생시킨다. 본 논문에서는 이와 같은 고찰에 기반하여 범위 질의의 허용치를 줄여 후보 개수를 줄이고 이를 통해 성능을 향상시키는 방법을 제안한다. 먼저, k-NN 질의 결과로 결정된 허용치를 고차원 및 저차원 객체간 거리 비율로 강제 축소하여 범위 질의에 사용하는 허용치 축소 (근사적) 해결책을 제안한다. 다음으로, k-NN 질의 계수 k 대신 c k 를 사용하여 얻은 보다 타이트(tight)한 허용치로 범위 질의를 수행하는 계수 제어 (정확한) 해결책을 제안한다. 실제 객체 데이터를 사용하여 실험한 결과, 제안한 두 가지 해결책은 기존 다단계 k-NN 검색에 비해 후보 개수와 검색 시간 모두를 크게 향상시킨 것으로 나타났다.

지식기반 객체지향 공간 데이터베이스 시스템 (Knowledge-Based Approach for an Object-Oriented Spatial Database System)

  • Kim, Yang-Hee
    • 지능정보연구
    • /
    • 제9권3호
    • /
    • pp.99-115
    • /
    • 2003
  • 본 논문은 지식 기반 객체지 향 공간 데이터베이스시스템 KOBOS를 제안한다. 객체지향 공간 데이터베이스 시스템의 데이터 모델링과 근접 질의답변에 지식기반 접근법을 도입한다. 공간객체와 근접 공간 연산자를 다루기 위해 다음과 같은 세 단계 객체지향 데이터 모델을 제안하고 있다: (1) 공간 형상 모델; (2) 공간 객체 모델: (3) 내부 기술 모델. 근접 공간 연산자의 범위는 공간 타입 추상 계층으로 알 수 있다. 또한 객체지향 공간 질의어인 SOQL을 제안한다. SOQL은 공간 객체의 다양한 출력과 공간 및 비 공간 객체의 검색을 수행할 수 있는 통합 기능을 제공해준다. 효율적인 혼합 질의 처리를 위하여, 하향 공간 질의 처리 방법을 이용하여 처리해 준다.

  • PDF

Spatial Statistic Data Release Based on Differential Privacy

  • Cai, Sujin;Lyu, Xin;Ban, Duohan
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제13권10호
    • /
    • pp.5244-5259
    • /
    • 2019
  • With the continuous development of LBS (Location Based Service) applications, privacy protection has become an urgent problem to be solved. Differential privacy technology is based on strict mathematical theory that provides strong privacy guarantees where it supposes that the attacker has the worst-case background knowledge and that knowledge has been applied to different research directions such as data query, release, and mining. The difficulty of this research is how to ensure data availability while protecting privacy. Spatial multidimensional data are usually released by partitioning the domain into disjointed subsets, then generating a hierarchical index. The traditional data-dependent partition methods need to allocate a part of the privacy budgets for the partitioning process and split the budget among all the steps, which is inefficient. To address such issues, a novel two-step partition algorithm is proposed. First, we partition the original dataset into fixed grids, inject noise and synthesize a dataset according to the noisy count. Second, we perform IH-Tree (Improved H-Tree) partition on the synthetic dataset and use the resulting partition keys to split the original dataset. The algorithm can save the privacy budget allocated to the partitioning process and obtain a more accurate release. The algorithm has been tested on three real-world datasets and compares the accuracy with the state-of-the-art algorithms. The experimental results show that the relative errors of the range query are considerably reduced, especially on the large scale dataset.

효율적인 XML 질의 처리를 위한 적응형 경로 인덱스 (Adaptive Path Index for Efficient U Query Processing)

  • 민준기;심규석;정진완
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제31권1호
    • /
    • pp.61-71
    • /
    • 2004
  • XML은 정형적(regular) 구조로부터 비정형적(irregular) 구조, 평탄한(flat) 구조로부터 깊게 내포된(deeply nested) 구조에 이르기까지 다양한 형태의 자료를 표현할 수 있다. 따라서, 현재 XML은 효율적인 데이타 교환 및 통합 기능을 제공하면서 웹 문서 표준으로 부각되고 있다. 또한, XML로 표현되어 있는 정보를 검색하기 위한 다양한 질의 언어들이 제안되었다. XPath와 XQuery같은 XML 질의 언어들은 XML 엘리먼트(element)로 이루어진 비정형적 구조를 탐색하기 위하여 경로 표현식(path expression)을 기반으로 한다. 이러한 경로 표현식을 효율적으로 처리하기 위하여 다양한 경로 인덱스들이 제안되었으나, 기존의 경로 인덱스들은 XML 데이타의 구조 정보만을 이용하여 생성된다. 따라서, 본 논문에서는 XML 데이타의 구조 정보와 질의 부하(workload)를 이용한 적응형 경로 인덱스를 제안한다. 본 논문에서 제안하는 적응형 경로 인덱스는 질의 성능을 향상하기 위하여 해쉬 트리와 그래프 구조를 이용하여 자주 사용되는 경로 정보와 XML 데이타의 구조 요약을 관리한다. 실험 결과로서, 적응형 경로 인덱스가 기존의 경로 인덱스들에 비하야 평균적으로 2배에서 69배 좋은 성능을 보였다.

아웃소싱 데이터베이스에서 집계 질의를 위한 효율적인 인증 기법 (Efficient Authentication of Aggregation Queries for Outsourced Databases)

  • 신종민;심규석
    • 정보과학회 논문지
    • /
    • 제44권7호
    • /
    • pp.703-709
    • /
    • 2017
  • 아웃소싱 데이터베이스란 데이터 관리 및 질의 처리 등의 계산량이 많은 작업을 제 3자 서버에 위탁하는 것이다. 이를 통해 데이터 소유자는 비싼 인프라를 구축하지 않고 빅데이터를 관리할 수 있으며 여러 사용자로부터 받는 질의들을 빠르게 처리할 수 있다. 하지만 보안 위협이 항상 존재하는 네트워크의 특성상 제 3자 서버를 완전히 신뢰하기 어렵고, 그 서버가 처리한 결과도 신뢰하기 어렵다. 이처럼 신뢰할 수 없는 서버가 처리한 질의 결과가 정확한지 확인하는 것을 질의 인증이라고 하며 구간 질의, kNN 질의, 함수 질의 등 다양한 질의에 대한 인증 기법들이 연구되었다. 하지만 빅데이터 분석에 있어 활용도가 높은 집계 질의에 대한 깊이 있는 질의 인증 연구는 이루어지지 않았으며 기존 연구는 고차원이거나 서로 다른 값이 많은 데이터에 대해 비효율적이다. 본 연구에서는 집계 질의 인증을 위한 자료구조를 제안하고 이를 활용한 효율적인 증거 생성 방법과 증명 방법을 제안한다. 그리고 데이터의 상이 값 수, 레코드 개수, 차원 크기 등을 변경하며 진행한 실험 결과를 통해 제안한 기법의 성능이 우수함을 보였다.

효율적 검색의도 파악을 위한 쿼리 단어 가시화에 관한 연구 (Revealing Hidden Relations between Query-Words for an Efficient Inducing User's Intention of an Information Search)

  • 권순진;홍철의;김원일
    • 전자공학회논문지CI
    • /
    • 제49권2호
    • /
    • pp.44-52
    • /
    • 2012
  • 본 논문은 검색 질의어 단어 입력 시에 드러나지 않은 쿼리 단어들을 가시화함으로써, 검색 주체의 의도 구조를 선택할 수있게 하며, 탐색 효율을 제고하도록 제안한다. 검색 질의어를 입력할 때 검색 의도를 파악한다면 효과적인 검색 서비스가 가능할 것이다. 이렇게 하기 위하여, 의도 구조와 요소를 설정함과 아울러 쿼리 단어의 생략된 관계에 해당하는 단어를 복원하여 가시화하는 과정이 필요하다. 관련된 연구들을 검토하며, 검색 의도 구조를 정의하고, 쿼리 단어의 가시화를 위한 방법과 의도 구조에 적합한 쿼리 단어를 확장 생성하는 과정을 보인다. 이 과정에서 의도 구조의 여러 계층 중 하나를 쿼리 단어 범위로 할당하는 예제와 실험을 수행하였다. 탐색 효율 상승의 검색결과와 탐색효율 하락의 검색결과를 분석하였다. 향후 연구로는 의도 결절을 확장하여 구성 요소를 학습할 수 있도록 자동화하는 연구가 필요하다.

데이터베이스에서 유사도 질의 처리 비용 감소 방법 (A Method of Reducing the Processing Cost of Similarity Queries in Databases)

  • 김선경;박지수;손진곤
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제11권4호
    • /
    • pp.157-162
    • /
    • 2022
  • 오늘날 대부분의 데이터는 데이터베이스(database: DB)에 저장된다. 이러한 DB 환경에서 사용자는 자신이 원하는 데이터를 찾아줄 것을 DB에게 요청하게 된다. DB 질의 중 유사도 질의는 DB 사용자가 원하는 조건으로 유사도가 포함되어 있는 것을 말한다. 그러나 유사도 질의를 처리하기 위한 과정은 처리 레코드의 범위를 줄일 수 있는 색인을 이용하기 힘들어 테이블의 전체 레코드에 대해서 매번 유사도를 계산하는 비용이 높다. 본 논문은 이러한 문제점을 해결하기 위하여 경량 유사도 함수를 정의한다. 경량 유사도 함수는 유사도 함수에 비해 데이터를 여과하는 정확도는 떨어지지만 비용이 유사도 함수에 비하여 적게 소모되는 특징이 있다. 이러한 경량 유사도 함수의 특징을 이용하여 유사도 질의 처리 비용 감소 방법을 제시한다. 그리고 유클리드 거리 함수에 경량 유사도 함수로 체비쇼프 거리를 제시하고 기존의 유사도 함수를 이용하는 질의와 경량 유사도 함수를 이용하는 질의의 처리 비용을 비교한다. 그리고 실험을 통하여 유클리드 유사도에 대한 경량 유사도 함수로 체비쇼프 거리를 적용하였을 때 유사도 질의 처리 비용이 감소하는 것을 확인한다.

GPU를 이용한 R-tree에서의 범위 질의의 병렬 처리 (Parallel Range Query processing on R-tree with Graphics Processing Units)

  • 유보선;김현덕;최원익;권동섭
    • 한국멀티미디어학회논문지
    • /
    • 제14권5호
    • /
    • pp.669-680
    • /
    • 2011
  • R-tree는 데이터베이스 시스템에서 가장 많이 사용되는 색인 구조로 다차원의 데이터를 관리하는데 매우 효율적이다. 하지만 데이터베이스 시스템이 처리해야 하는 데이터의 용량이 증가함에 따라, 기존의 R-tree에서의 범위 질의의 처리는 디스크의 접근 지연 등의 이유로 인하여 수행 시간이 증가하게 되었다. 이러한 문제들을 해결하기 위하여 버퍼를 사용하거나 혹은 다수의 디스크와 프로세서를 사용하여 병렬로 질의를 수행하고자 하는 많은 연구들이 진행되었다. 이러한 연구들의 일환으로 최근 Graphics Processing Unit(GPU)을 이용한 병렬화 기법들에 대한 연구들이 진행되고 있다. 이러한 GPU의 적용을 통한 병렬화는 계산 속도의 증가와 디스크 접근 횟수의 감소를 통하여 수행 속도의 개선을 가능하게 하지만 GPU와 CPU사이의 메모리 교환 및 GPU 메모리의 접근 지연 등에 의한 오버헤드를 발생시킨다. 본 논문에서는 이러한 오버헤드를 해결하고 효과적으로 GPU를 적용하기 위하여 GPU를 버퍼로 사용하여 범위 질의를 병렬화하는 기법을 제안하였다. 버퍼 알고리즘을 통하여 메모리 교환 횟수를 줄이고, 동시 접근 가능한 메모리의 용량을 증가시켜 메모리의 접근 지연을 최소화 할 수 있었다. 제안 기법과 기존의 인덱스의 비교 실험에서 최대의 경우 5배 정도의 성능이 개선되는 것을 확인 할 수 있었다.

범위 모자이크 질의와 범위 모자이크 상위-k 질의의 효율적인 수행 (Efficient Execution of Range Mosaic Query and Range Mosaic Top-k Query)

  • 홍석진;이석호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 가을 학술발표논문집 Vol.32 No.2 (2)
    • /
    • pp.61-63
    • /
    • 2005
  • 범위 통계 질의는 범위 집계 질의와 같이 질의 영역 내에 포함된 데이타의 통계 정보를 반환하는 질의를 의미한다. 이 논문에서는 새로운 범위 통계 질의로 범위 모자이크 질의와 범위 모자이크 상위-k 질의를 소개한다. 범위 모자이크 질의는 질의 영역을 다차원 격자 형태로 분할 한 후, 분할된 각 셀에 대해 집계값을 구하는 질의이며, 범위 모자이크 상위-k 질의는 범위 모자이크 질의 결과 중 집계값을 기준으로 상위 k개의 셀을 구하는 질의이다. 이 논문에서는 집계 R-트리를 사용하여 두 종류의 질의를 효율적으로 수행하는 알고리즘을 제안한다. 또한, 실험 결과를 통해 제안된 알고리즘이 생성된 데이타와 실제 데이타 모두에 대해 졸은 성능을 나타내는 것을 보인다.

  • PDF