• 제목/요약/키워드: top-k query

검색결과 66건 처리시간 0.024초

그리드 인덱스 기반 뷰 선택 기법을 이용한 효율적인 Top-k 질의처리 알고리즘 (Efficient Top-k Query Processing Algorithm Using Grid Index-based View Selection Method)

  • 홍승태;윤들녁;장재우
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제21권1호
    • /
    • pp.76-81
    • /
    • 2015
  • 최근 대용량 데이터의 분석을 위한 top-k 질의처리 알고리즘에 대한 관심이 고조되고 있다. 그러나 기존 top-k 질의처리 알고리즘은 효율적인 인덱스 구조를 제공하지 않기 때문에, 높은 탐색 비용을 야기하며, 아울러 다양한 질의 유형을 지원하지 못하는 문제점이 존재한다. 이러한 문제점을 해결하기 위해, 본 논문에서는 그리드 인덱스 기반 뷰 선택 기법을 이용한 top-k 질의처리 알고리즘을 제안한다. 제안하는 기법은 그리드 인덱스 기반의 뷰 선택 기법을 통해 주어진 질의 영역에 대하여 최소한의 그리드 셀만을 탐색함으로써 질의처리 시간을 감소시킨다. 마지막으로, 성능 평가를 통해 제안하는 top-k 질의처리 알고리즘이 기존 알고리즘에 비해 질의처리 시간 및 질의 결과 정확도 측면에서 우수함을 나타낸다.

센서 네트워크를 위한 데이터 인지 우선순위 기반의 에너지 효율적인 Top-k 질의 처리 (Data-Aware Priority-Based Energy Efficient Top-k Query Processing in Sensor Networks)

  • 여명호;성동욱;유재수
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제36권3호
    • /
    • pp.189-197
    • /
    • 2009
  • Top-k 질의는 많은 센서 네트워크 응용 분야에서 중요하게 사용된다. 기존에 제안된 필터 기반의 Top-k 질의 처리 기법은 질의 결과에 영향을 미치는 값만을 수신하기 위해 각 센서 노드의 측정 허용 범위를 필터로 설정함으로써 센서 데이타의 전송 횟수를 줄인다. 하지만, 센서 데이타의 재검증과 필터의 재배포 과정에서 추가적인 에너지를 소모한다. 또한, 질의 결과값이 빈번히 변경될수록 필터의 재배포 횟수가 증가하여 에너지의 소모가 더욱 증가한다. 본 논문에서는 Top-k 질의를 처리하기 위해서 측정한 데이타를 기반으로 우선 순위를 결정하고, 우선 순위에 따라 최소한의 센서 데이타를 수집하는 새로운 Top-k 질의 처리 기법을 제안한다. 제안하는 기법의 우수성을 보이기 위해서 시뮬레이션을 통한 성능 평가를 수행하였으며, 그 결과 기존 필터 기반의 기법에 비해 네트워크의 수명이 크게 향상되었다.

무선 센서 네트워크에서 클러스터 기반의 Top-k 질의 처리 (A Cluster-Based Top-k Query Processing Algorithm in Wireless Sensor Networks)

  • 여명호;성동욱;유재수
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제36권4호
    • /
    • pp.306-313
    • /
    • 2009
  • 센서 네트워크 응용 분야에서 Top-k 질의는 가장 높은 혹은 가장 낮은 k개의 센서에 대한 유용한 정보를 제공한다. Top-k 질의 처리 시 에너지 소모를 줄이기 위한 많은 연구들이 진행되었다. FILA의 경우, 필터를 이용하여 불필요한 결과의 갱신을 제거하였으며, PRIM의 경우, 센싱된 데이타의 우선 순위를 부여하여 센서 데이타의 전송을 최소화하는 방법을 제안한다. 하지만, 같은 데이타 범위(프레임)에 속한 모든 데이타를 수집하기 때문에 데이타의 집중이 발생하면 많은 False Positive 데이타를 전송하는 문제가 발생한다. 본 논문에서는 Top-k 결과의 False Positive 데이타를 효과적으로 제거하기 위한 클러스터 기반의 새로운 Top-k 질의 처리 기법을 제안한다. 질의 처리 과정은 클러스터 레벨과 트리 레벨로 나누어지며, 각 레벨의 네트워크 토폴로지의 특성을 활용하여 False Positive 데이타를 효과적으로 필터링 한다. 성능 평가 결과, 기존 Top-k 질의 처리 기법에 비해 False Positive 데이타의 수가 70% 감소하고, 네트워크 수명이 약 105% 연장된다.

계층 최대 R-트리를 이용한 범위 상위-$\kappa$ 질의의 효율적인 수행 (Efficient Execution of Range $Top-\kappa$ Queries using a Hierarchical Max R-Tree)

  • 홍석진;이상준;이석호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제31권2호
    • /
    • pp.132-139
    • /
    • 2004
  • 범위 상위-$\kappa$ 질의는 질의 범위 내의 다차원 데이타 중 값 애트리뷰트를 기준으로 상위 k개의 레코드를 반환하는 질의로 공간 데이타베이스와 데이타 웨어하우스에서 분석을 위해 많이 사용되는 유용한 질의 형태이다. 이 논문에서는 계층 최대 R-트리의 선택적인 탐색을 통해 범위 상위-k 질의를 효과적으로 수행하는 기법을 제시한다. 이 기법은 단말 노드의 일부만을 접근하여 질의를 수행할 수 있으며, 질의 범위의 크기에 관계없이 거의 일정한 성능을 보인다. 또한 이 기법은 우선순위 큐를 효율적으로 관리함으로써 큐의 유지비용을 최소화하며, 기존 R-트리와 같은 팬아웃을 보장할 수 있다.

요약된 Partitioned-Layer Index: Partitioned-Layer Index의 임의 접근 횟수를 줄이는 Top-k 질의 처리 방법 (Abstracted Partitioned-Layer Index: A Top-k Query Processing Method Reducing the Number of Random Accesses of the Partitioned-Layer Index)

  • 허준석
    • 한국멀티미디어학회논문지
    • /
    • 제13권9호
    • /
    • pp.1299-1313
    • /
    • 2010
  • Top-k 질의는 데이터베이스에서 사용자가 가장 원하는 k개의 객체를 구하는 질의이다. Top-k 질의를 효율적으로 처리하는 대표적인 연구로 Partitioned-Layer Index (간단히, PL-index) 방법이 있다. PL-index는 데이터베이스를 여러 개의 더 작은 데이터베이스로 분할하고 각 분할된 데이터베이스에 대해 sublayer들의 list (간단히, sublayer list)를 구성한다. 이때, 분할된 데이터베이스에 대해서 top-i 결과가 될 수 있는 객체들을 그 분할된 데이터베이스에 대한 i번째 sublayer로 구성한다. 그리고 주어진 질의에 맞춰 그 sublayer list들을 병합함으로써 질의 결과를 구한다. PL-index는 질의 처리 시 데이터베이스로부터 읽어 들이는 객체의 개수가 매우 작다는 장점을 가지지만, sublayer list들을 병합할 때에 임의 접근(random access)이 많이 발생하기 때문에 디스크 기반의 데이터베이스 환경에서 질의 처리 성능이 저하된다. 이에 본 논문에서는 임의 접근 횟수를 줄임으로써 디스크 기반의 데이터베이스 환경에서 PL-index의 질의 처리 성능을 크게 향상시키는 요약된(Abstracted) Partitioned-Layer Index (간단히, APL一index)를 제안한다. 먼저, PL-index의 각 sublayer를 가상의 (점) 객체로 요약함으로써 sublayer list들을 이러한 점 객체들의 list들(즉, APL-index)로 변형한다. 그리고 APL-index에 대해 질의 처리를 가상으로 수행하여 실제 질의 처리 시 접근할 sublayer를 예측한다, 그리고 예측된 sublayer들을 sublayer list별로 한꺼번에 읽어 들임으로 PL-index에서 발생하는 임의 접근 횟수를 줄인다. 합성 데이터와 실제 데이터에 대한 실험을 통하여 제안한 APL-index가 PL-index의 임의 접근 횟수를 크게 줄일 수 있음을 보인다.

Efficient Top-k Join Processing over Encrypted Data in a Cloud Environment

  • Kim, Jong Wook
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제10권10호
    • /
    • pp.5153-5170
    • /
    • 2016
  • The benefit of the scalability and flexibility inherent in cloud computing motivates clients to upload data and computation to public cloud servers. Because data is placed on public clouds, which are very likely to reside outside of the trusted domain of clients, this strategy introduces concerns regarding the security of sensitive client data. Thus, to provide sufficient security for the data stored in the cloud, it is essential to encrypt sensitive data before the data are uploaded onto cloud servers. Although data encryption is considered the most effective solution for protecting sensitive data from unauthorized users, it imposes a significant amount of overhead during the query processing phase, due to the limitations of directly executing operations against encrypted data. Recently, substantial research work that addresses the execution of SQL queries against encrypted data has been conducted. However, there has been little research on top-k join query processing over encrypted data within the cloud computing environments. In this paper, we develop an efficient algorithm that processes a top-k join query against encrypted cloud data. The proposed top-k join processing algorithm is, at an early phase, able to prune unpromising data sets which are guaranteed not to produce top-k highest scores. The experiment results show that the proposed approach provides significant performance gains over the naive solution.

택시 데이터에 대한 효율적인 Top-K 빈도 검색 (Finding Frequent Route of Taxi Trip Events Based on MapReduce and MongoDB)

  • ;안성아;;정한유;권준호
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제4권9호
    • /
    • pp.347-356
    • /
    • 2015
  • IoT(사물인터넷) 기술의 빠른 개발로 인하여 기존의 택시들은 디스패처와 위치 시스템을 통해 서로 연결되고 있다. 일반적으로 현대의 택시들은 경로 정보를 획득하기 위한 목적으로 GPS(Global Positioning System)를 탑재하고 있다. 택시 운행 데이터들의 경로 빈도를 분석하여, 주어진 질의 시간에 해당하는 빈번한 경로를 찾을 수 있다. 그러나 위치 데이터의 용량이 매우 크고 복잡하기 때문에 택시의 운행 이벤트의 위치 데이터를 분석된 빈도 정보로 변환할 때에 확장성 문제가 발생한다. 이 문제를 해결하기 위하여, NoSQL 데이터베이스에 기반한 택시 운행 데이터에 대한 Top-K 질의 시스템을 제안한다. 첫째, 원시 택시 운행 이벤트를 분석하고 모든 경로들의 빈도 정보를 추출한다. 추출한 경로 정보는 NoSQL 문서-지향 데이터베이스인 MongoDB에 해시 기반의 인덱스 구조로 저장한다. 주로 발생하는 경로에 대한 효율적인 Top-K 질의 처리는 몽고DB의 상에서 이루어진다. 미국 뉴욕시의 실제 택시 운행 데이터를 이용한 실험을 통하여 알고리즘의 효율성을 검증하였다.

시맨틱 RDF 데이터에 대한 효과적인 키워드 검색 (Effective Keyword Search on Semantic RDF Data)

  • 박창섭
    • 한국콘텐츠학회논문지
    • /
    • 제17권11호
    • /
    • pp.209-220
    • /
    • 2017
  • 최근 지식 베이스, 시맨틱 웹 등 여러 응용 분야에서 시맨틱 데이터의 활용이 증가함에 따라 대규모 RDF 데이터에 대한 효과적인 검색 방법의 필요성이 커지고 있다. 기존의 개별 루트 시맨틱에 기반한 키워드 검색 방법들은 서로 다른 루트 노드를 갖는 결과 트리들의 집합만을 검색함에 따라, 의미적으로 유사하거나 연관성이 낮은 결과 트리들이 함께 검색되고, 동일한 루트 노드를 공유하되 의미적으로 다르고 질의 연관도가 높은 결과들은 함께 검색될 수 없는 문제점이 있다. 이를 개선하기 위해 본 논문에서는 결과 트리들의 루트 노드의 중복을 제한적으로 허용하여 질의 연관도가 높으면서 다양한 결과들을 함께 검색하는 방법을 제안한다. 이를 위해 결과 트리 집합의 루트 중복도 척도를 정의하고, 주어진 키워드 질의와 최대 루트 중복도에 따라 제한적인 루트 중복성을 가지면서 연관도가 높은 top-k 결과 트리들을 효율적으로 구하기 위한 검색 알고리즘을 제시한다. 실 데이터를 이용한 성능 실험 결과, 제안한 방법이 기존 방법보다 콘텐트 노드들의 중복이 적은 다양한 결과 트리들을 검색할 뿐만 아니라 결과 트리들의 루트 노드의 중복을 허용함으로써 질의 연관도가 더 높은 결과들을 생성할 수 있음을 보였다.

Improving Execution Models of Logic Programs by Two-phase Abstract Interpretation

  • Chang, Byeong-Mo;Choe, Kwang-Moo;Giacobazzi, Roberto
    • ETRI Journal
    • /
    • 제16권4호
    • /
    • pp.27-47
    • /
    • 1995
  • This paper improves top-down execution models of logic programs based on a two-phase abstract interpretation which consists of a bottom-up analysis followed by a top-down one. The two-phase analysis provides an approximation of all (possibly non-ground) success patterns of clauses relevant to a query. It is specialized by considering Sato and Tamaki’s depth k abstraction as abstract function. By the ability of the analysis to approximate possibly non-ground success patterns of clauses relevant to a query, it can be statically determined whether some subgoals will fail during execution and some succeeding subgoals do not participate in success patterns of program clauses relevant to a given query. These properties are utilized to improve execution models. This approach can be easily applied to any top-down (parallel) execution models. As instances, it is shown to be applicable to linear execution model and AND/OR Process Model.

  • PDF

연속 Top-k 질의 모니터링을 위한 효율적인 알고리즘 (An Efficient Algorithm for Monitoring Continuous Top-k Queries)

  • 장재희;정하림;김용희;김응모
    • 정보과학회 논문지
    • /
    • 제43권5호
    • /
    • pp.590-595
    • /
    • 2016
  • 본 논문에서는 기존 공간 속성만을 고려하는 그리드 기반의 색인 기법을 변형하여 보다 빠른 연산을 수행하는 상위-k 질의 기법을 제안한다. 제안하는 기법은 이동 객체의 공간 속성 뿐만 아니라 비공간 속성을 활용하여 사용자가 선호하는 정보를 효과적으로 검색할 수 있는 메인메모리 기반 그리드 색인 구조인 Bit-Vector Grid Index(BVGI)를 구축한다. 그리드의 각 셀은 이동객체의 비공간 속성 값을 비트 벡터로 부호화하여 이동 객체가 어떤 셀에 포함되어 있는지 빠르게 판단할 수 있고, 각 셀에 존재하는 이동객체의 비트 벡터만을 비교하여 불필요한 연산을 줄일 수 있다. 성능 평가를 통해 제안하는 BVGI 기법이 기존의 질의 처리 기법보다 메모리 사용량과 CPU-time 측면에서 우수함을 보였다.