• 제목/요약/키워드: Skyline query

검색결과 50건 처리시간 0.023초

범주형 데이터에 대한 스카이라인 질의 알고리즘 (Skyline Query Algorithm in the Categoric Data)

  • 이우기;최중호;송종수
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권7호
    • /
    • pp.819-823
    • /
    • 2010
  • 스카이라인 질의는 다차원, 대량의 데이터 검색에서 효율적인 방법이다. '지배한다'의 개념을 활용하여 약 95%이상으로 알려진 불필요한 데이터 집합을 검색 대상에서 제외하고 필요한 데이터에 집중하게 만들기 때문이다. 지금까지의 스카이라인 질의 알고리즘들은 데이터 집합이 모두 수치형 데이터일 경우에만 한정하여 개발되었다. 따라서 데이터베이스 등에 저장된 대부분의 텍스트 데이터들은 기존 스카이라인 질의 알고리즘을 사용하여 결과를 얻을 수 없었다. 본 연구는 스카이라인 질의의 대상을 범주형 데이터라는 전혀 새로운 영역을 개척한 점에서 의미가 있다. 우선 범주형 데이터 거리를 2종류를 개발하고 이를 스카이라인 질의에 적용하였고, 실험에서는 ACM의 실제 논문데이터를 사용하여 처리시간 및 정확도 비율 등에서 그 효과성을 입증하였다.

Skyline Query와 MapReduce 방식을 이용한 대도시에서의 창업 위치 추천 서비스 (An Enterprise Location Recommendation Service in Metropolitan Region Using Skyline Query and MapReduce)

  • 이용현;김동훈;김응모
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2014년도 추계 종합학술대회 논문집
    • /
    • pp.259-260
    • /
    • 2014
  • 본 논문은 편의점, 까페 등의 창업시 많은 후보군들 사이에서 적절한 위치를 추천하는 서비스를 만들어보고자 수행되었다. 본 연구는 Skyline Query를 이용하여 사용자가 설정한 지점으로부터의 거리에 따른 예상이익을 도출해내고, MapReduce를 사용하여 많은 후보군들을 대상으로 이를 효율적으로 처리하도록 구현하였다. 본 연구의 방법을 사용하여 창업자가 설정한 한정적 자원 및 거리 제한 조건 안에서 최적의 위치를 손쉽게 추천해줄 수 있을 것이다.

  • PDF

데이터 샘플링 기반 프루닝 기법을 도입한 효율적인 각도 기반 공간 분할 병렬 스카이라인 질의 처리 기법 (An Efficient Angular Space Partitioning Based Skyline Query Processing Using Sampling-Based Pruning)

  • 최우성;김민석;;정재화;정순영
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제6권1호
    • /
    • pp.1-8
    • /
    • 2017
  • 다기준 의사결정 시 활용할 수 있는 스카이라인 질의는 다수의 선택지 중에서 사용자가 '선호하지 않을 만한'(uninteresting) 선택지를 제거함으로써 사용자가 검토해야 하는 선택지의 수를 대폭 감소시키기 때문에 대용량 데이터 분석 시 매우 유용하게 활용될 수 있다. 이러한 배경에서 대용량 데이터에 대한 스카이라인 질의를 분산 병렬 처리하는 기법이 각광을 받고 있으며, 특히 맵리듀스(MapReduce) 기반의 분산 병렬 처리 기법 연구가 활발히 진행되어 왔다. 맵리듀스 기반 알고리즘의 병렬성 제고를 위해서는 부하 불균등 문제 중복 계산 문제 과다한 네트워크 비용 발생 문제를 해소해야 한다. 본 논문에서는 부하 불균등 문제와 중복 계산 문제를 해소하면서도 데이터 샘플링 기반 프루닝을 통해 네트워크 비용 절감 시킬 수 있는 맵리듀스 기반 병렬 스카이라인 질의 처리 기법인 MR-SEAP(MapReduce sample Skyline object Equality Angular Partitioning)을 소개한다. 또한 다양한 관점에서의 실험 평가함으로써 제안 기법의 효용성을 다방면으로 검증했다.

An Efficient Grid Method for Continuous Skyline Computation over Dynamic Data Set

  • Li, He;Jang, Su-Min;Yoo, Kwan-Hee;Yoo, Jae-Soo
    • International Journal of Contents
    • /
    • 제6권1호
    • /
    • pp.47-52
    • /
    • 2010
  • Skyline queries are an important new search capability for multi-dimensional databases. Most of the previous works have focused on processing skyline queries over static data set. However, most of the real applications deal with the dynamic data set. Since dynamic data set constantly changes as time passes, the continuous skyline computation over dynamic data set becomes ever more complicated. In this paper, we propose a multiple layer grids method for continuous skyline computation (MLGCS) that maintains multiple layer grids to manage the dynamic data set. The proposed method divides the work space into multiple layer grids and creates the skyline influence region in the grid of each layer. In the continuous environment, the continuous skyline queries are only handled when the updating data points are in the skyline influence region of each layer grid. Experiments based on various data distributions show that our proposed method outperforms the existing methods.

다중 연속 스카이라인 질의의 효율적인 처리 기법 (Multiple Continuous Skyline Query Processing Over Data Streams)

  • 이유원;이기용;김명호
    • 한국전자거래학회지
    • /
    • 제15권4호
    • /
    • pp.165-179
    • /
    • 2010
  • 최근 들어 e-비즈니스 환경에서도 증권 거래, 시세, 주문 및 과금 데이터와 같이 지속적으로 유입되는 데이터 스트림에 대한 처리가 중요해지고 있다. 이 중에서도 데이터 스트림에 대한 다기준 의사 결정에 사용되는 스카이라인(skyline) 질의의 사용이 증가하고 있다. 다차원 튜플의 집합이 주어졌을 때, 스카이라인 집합은 다른 튜플에 의해 지배(dominate)되지 않는 튜플들의 집합을 반환한다. 고정된 데이터에 대한 단일 스카이라인 질의 처리에 대해서는 최근까지 많은 연구가 이루어져 왔으나, 데이터 스트림 환경에서 다중 연속 스카이라인 질의 처리에 대해서는 아직까지 많은 연구가 수행되지 않았다. 본 논문에서는 데이터 스트림 환경에서 하나 이상의 연속 스카이라인 질의들이 주어졌을 때, 이들을 효율적으로 처리할 수 있는 방법을 제안한다. 제안하는 방법은 각 튜플이 어떤 질의의 결과에 포함될지를 효율적으로 파악함으로써, 여러 개의 연속 스카이라인 질의들도 적은 비용으로 동시에 처리할 수 있다. 다양한 실험을 통해 제안하는 방법의 우수성을 보인다.

무선 센서 네트워크 환경에서 에너지 효율적인 연속 스카이라인 질의 처리기법 (An Energy Efficient Continuous Skyline Query Processing Method in Wireless Sensor Networks)

  • 성동욱;여명호;유재수
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제15권4호
    • /
    • pp.289-293
    • /
    • 2009
  • 센서 네트워크에서 병합 질의를 효율적으로 처리하기 위한 다양한 인-네트워크 질의 처리 기법이 제안되었다. 스카이라인 질의는 일반적인 병합 질의와 달리 다차원 데이터에 대한 비교를 요구하므로 인-네트워크 처리가 쉽지 않다. 스카이라인 질의를 에너지 효율적으로 처리하기 위해서 불필요한 데이터의 전송을 제거하는 것이 중요하다. 기존에 제안된 스카이라인 처리 기법은 전체 네트워크에 필터를 배포함으로써 불필요한 데이터 전송을 차단한다. 하지만 필터 배포시 발생하는 에너지 소모로 인해 네트워크의 수명이 단축된다. 본 논문에서는 필터 배포에 따른 에너지 소모를 줄이기 위한 방법으로 Lazy 필터링 기법을 통한 스카이라인 질의 처리 기법을 제안한다. 제안하는 기법은 필터를 미리 배포하지 않고 하위 노드로부터 기지국으로 데이터를 수집하는 과정에서 스카이라인 필터 테이블(SFT)을 만들고 필터링을 수행한다. 제안하는 알고리즘의 우수성을 보이기 위해 시뮬레이션을 통해 기존에 제안된 MFTAC 기법과 비교하였으며, 그 결과 평균 False Positive가 평균 53% 감소하였고, 네트워크 수명이 약 44% 증가하였다.

빅데이터 전처리 기반의 실시간 사용자 선호 데이터 추천을 위한 개선된 스카이라인 질의 기법 (An Improved Skyline Query Scheme for Recommending Real-Time User Preference Data Based on Big Data Preprocessing)

  • 김지현;김종완
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제11권5호
    • /
    • pp.189-196
    • /
    • 2022
  • 스카이라인 질의(Skyline Query)는 객체의 다중 속성을 기준으로 사용자 선호에 적합한 대상을 탐색하는 기법이다. 기존 스카이라인 질의는 탐색 결과를 일괄처리(batch processing)로 반환하지만, 대화형 앱이나 모바일 환경의 등장으로 실시간 탐색 결과의 필요성이 증가하였다. 스카이라인을 위한 온라인 알고리즘(online algorithm)은 객체의 반환 속도를 향상해 실시간으로 선호 객체를 제공한다. 하지만 객체 탐색 과정에서 기존에 탐색한 영역을 재방문하여 반복 비교하는 불필요한 연산 시간이 소요된다. 본 논문은 온라인 알고리즘에서 불필요한 탐색 시간을 제거하여 스카이라인 질의 결과를 실시간으로 제공하기 위한 스카이라인 온라인 전처리 알고리즘을 제안한다. 제안 기법은 기존의 온라인 알고리즘에서 전처리를 수행함으로써 반복적으로 재탐색 되는 영역을 미리 제거하여 탐색 성능을 향상하였다. 실험 결과, 기존 온라인 알고리즘과 비교 시 이산 데이터 집합의 표준 분포, 편향 분포, 양의 상관 및 음의 상관분포에서 향상된 성능을 보였다. 제안 기법은 비교 대상을 최소화하여 탐색 성능을 향상하므로 모바일 장치의 사용이 증가하는 현실에서 사용자들에게 신속한 서비스를 제공할 수 있는 새로운 기준이 될 것이다.

센서 네트워크에서 다차원 데이터 스카이라인 질의 처리를 위한 CMF 기반의 우선처리 기법 (CMF-based Priority Processing Method for Multi-dimensional Data Skyline Query Processing in Sensor Networks)

  • 김진환;이광모
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제1권1호
    • /
    • pp.7-18
    • /
    • 2012
  • 데이터베이스 분야에서 다수의 속성을 갖는 데이터의 효율적인 의사 결정을 지원하는 스카이라인 질의에 관한 연구가 활발히 진행되고 있다. 스카이라인 질의란 대량의 데이터에서 필요한 관심 정보를 검색할 때 모든 속성의 데이터를 탐색하지 않고 속성 내에 의미 있는 데이터만 탐색하는 것이다. 이와 같은 스카이라인 질의는 센서 네트워크에서 다양한 환경 및 상황정보를 수집하여 사용자에게 제공하기 위해 유용하게 활용할 수 있다. 그러나 기존의 스카이라인 선출 방식은 다차원 데이터에서 스카이라인 선출시 센서의 수와 차원이 증가함에 따라 비교 계산 횟수가 급격히 증가하며 또한 지배력이 큰 값에 의해 단일 속성으로도 의미 있는 값이 제외될 수 있다. 따라서 본 논문에서는 싱크 노드로 부터 관심(interest) 질의를 하위 노드로 전송할 때 전체 데이터 중 일부 데이터들의 선호도(preference)를 판별할 수 있는 카테고리 기반 소속 함수(CMF : Category Based Member Function)를 함께 전송하여 스카이라인 선출 시 차원의 증가로 발생할 수 있는 비교 계산의 복잡성을 감소시키고 선호도 높은 우선순위 데이터를 처리하는 기법을 제안한다. 제안된 기법의 우수성을 보이기 위해 시뮬레이션을 통한 성능평가를 수행하였으며 그 결과 다차원의 센서 데이터 집합에서 데이터 검출 시 카테고리 기반 소속 함수를 기반으로 한 처리기법에서 시간 복잡도가 감소함을 보였으며 지배력이 큰 스카이라인으로부터 제외된 의미 있는 속성 값을 검출할 수 있었다.

Efficiently Processing Skyline Query on Multi-Instance Data

  • Chiu, Shu-I;Hsu, Kuo-Wei
    • Journal of Information Processing Systems
    • /
    • 제13권5호
    • /
    • pp.1277-1298
    • /
    • 2017
  • Related to the maximum vector problem, a skyline query is to discover dominating tuples from a set of tuples, where each defines an object (such as a hotel) in several dimensions (such as the price and the distance to the beach). A tuple, an instance of an object, dominates another tuple if it is equally good or better in all dimensions and better in at least one dimension. Traditionally, skyline queries are defined upon single-instance data or upon objects each of which is associated with an instance. However, in some cases, an object is not associated with a single instance but rather by multiple instances. For example, on a review website, many users assign scores to a product or a service, and a user's score is an instance of the object representing the product or the service. Such data is an example of multi-instance data. Unlike most (if not all) others considering the traditional setting, we consider skyline queries defined upon multi-instance data. We define the dominance calculation and propose an algorithm to reduce its computational cost. We use synthetic and real data to evaluate the proposed methods, and the results demonstrate their utility.

2-계층 그리드 블록을 이용한 효과적인 맵리듀스 기반 스카이라인 질의 처리 기법 (An Efficient MapReduce-based Skyline Query Processing Method with Two-level Grid Blocks)

  • 유형철;정성원
    • 정보과학회 논문지
    • /
    • 제44권6호
    • /
    • pp.613-620
    • /
    • 2017
  • 스카이라인 질의는 사용자들의 다양한 기준을 만족하는 데이터를 찾기 때문에 의사 결정 문제 등에서 폭넓게 사용되고 있다. 최근의 스카이라인 질의는 대용량 데이터베이스 처리를 위해 맵리듀스 프레임워크를 사용하는 연구들이 많이 진행되었으며 특히 맵리듀스에 기존의 색인 구조를 적용하는 방식으로 연구가 활발히 진행되고 있다. 스카이라인의 특징 중 하나는 원점에서 가까운 데이터일수록 더 많은 영역을 지배한다는 점이다. 하지만 기존의 색인 구조는 이와 같은 스카이라인의 특징을 반영하지 못하는 단점이 있었다. 본 논문에서는 그리드의 셀들을 스카이라인의 특징을 고려하여 묶는 그리드 블록 구조와 원점과 가까운 데이터가 없을 때도 사용 가능한 2계층 그리드 블록 구조, 그리고 2계층 그리드 블록 구조를 사용한 효율적인 스카이라인 질의 기법을 제안하였다.