• 제목/요약/키워드: Query Processing Method

검색결과 532건 처리시간 0.027초

SparQLing : SparkSQL 기반 대용량 트리플 데이터를 위한 SPARQL 질의 시스템 구축 (SPARQL Query Processing System over Scalable Triple Data using SparkSQL Framework)

  • 전명중;홍진영;박영택
    • 정보과학회 논문지
    • /
    • 제43권4호
    • /
    • pp.450-459
    • /
    • 2016
  • 매년 RDFS 데이터는 대용량화 되어 가며, 빠른 질의를 위한 SPARQL 처리방식에 대한 변화가 필요하게 되었다. 이를 위해 대용량 분산 처리 프레임워크를 활용한 SPARQL의 질의 처리방식이 많이 연구되고 있다. 기존의 연구 중 대용량 분산 처리 프레임워크인 Hadoop(MapReduce) 기반 질의 엔진은 반복적인 작업으로 인한 잦은 I/O 발생으로 실시간 질의 처리가 불가능하며, 인메모리 기반 분산 질의 엔진 역시 낮은 단계의 언어 수준에서 분산 구조를 고려한 구현이 필요하기 때문에 질의 엔진 구축이 어렵다. 본 논문에서는 인메모리 기반 분산 질의 처리 프레임워크인 SparkSQL을 활용하여 대용량 트리플 데이터에 대한 SPARQL 질의문 처리 속도를 향상시킬 수 있는 질의 처리 엔진 구축 방법을 제안한다. SparkSQL 은 Spark 기반의 고수준 분산 질의 엔진으로서 기존의 SQL문을 활용한 질의가 가능하다. 따라서 SPARQL 질의문을 처리하기 위해서는 Jena를 이용하여 Algebra Tree를 생성한 후 이를 Spark 시스템에 적용하기 위한 Spark Algebra Tree로 변환해야 한다. 그리고 이를 이용하여 SparkSQL 질의문을 생성하는 시스템을 구축하였다. 또한 Spark 인메모리 시스템에서 보다 효율적인 질의 처리를 위한 DataFrame기반의 트리플 Property 테이블 설계를 제안하고 SparkSQL 프레임워크에 활용하였다. 마지막으로 기존의 분산처리 프레임워크를 사용한 질의 엔진과 비교 평가를 통하여 연구의 타당성을 검증한다.

제약 데이터베이스에서의 효율적인 공간질의 처리 (Efficient Spatial Query Processing in Constraint Databases)

  • 우성구;류근호
    • 한국공간정보시스템학회 논문지
    • /
    • 제11권1호
    • /
    • pp.79-86
    • /
    • 2009
  • 제약 데이터베이스의 투플은 제약 논리식으로 구성되었으며, 공간 데이터의 표현 및 질의를 비교적 간결하게 처리할 수 있다. 제약 데이터베이스를 통한 공간 데이터의 실렉션, 합집합, 교집합 등의 질의 연산 처리는 간단하게 관련 투플 간에 제약식을 포함시켜 주면 된다. 그러나 중복되거나 불필요한 데이터가 증가할 수 있으며, 그에 따른 질의 비용이 증가될 수도 있다. 이 논문에서는 제약 데이터베이스에서의 질의처리 결과에 대한 문제점을 밝히고, 효율적인 질의처리를 위해서 결과 릴레이션에 대한 투플 최소화 정리기법의 제안 및 그 효과를 분석했다. 우리는 투플 최소화 기법을 이용하여 제약 릴레이션의 불필요한 제약식을 제거함에 따른 질의처리의 효율성이 개선됨을 확인할 수 있었다.

  • PDF

클러스터링 환경에서 효율적인 공간 질의 처리를 위한 로드 밸런싱 기법의 설계 및 구현 (Design and Implementation of Load Balancing Method for Efficient Spatial Query Processing in Clustering Environment)

  • 김종훈;이찬구;정현민;정미영;배영호
    • 한국멀티미디어학회논문지
    • /
    • 제6권3호
    • /
    • pp.384-396
    • /
    • 2003
  • 웹 GIS에서 인터넷 서비스 이용자의 집중 현상으로 발생하는 서버의 과부하 현상을 막기 위한 대표적인 방법으로 클라이언트와 서버가 모두 질의에 참여하는 하이브리드(Hybrid) 질의 처리 방식이 있다. 그러나 하이브리드 질의 처리 방식은 서버 확장에 제약이 존재하기 때문에 근본적인 해결책이 되지 못한다. 따라서 웹 GIS 서버의 안정적인 서비스 제공을 위해서는 웹 클러스터링 기술의 도입이 필요하다. 본 논문에서는 웹 GIS클러스터링 시스템을 위한 질의 영역의 인접성을 이용한 로드 밸런싱 기법을 제안한다. 제안하는 기법은 공간 데이터를 관리하는 타일을 기반으로 인접한 타일 그룹을 생성하여 각 서버에 할당하며, 질의 영역 및 공간 연산을 고려하여 서버에서 질의가 처리되는 동안 버퍼 재사용율이 최대가 되도록 클라이언트의 질의 요청을 서버에 전달한다. 제안하는 기법은 서버의 버퍼를 공간 인덱스 탐색에 최적화함으로써 서버의 버퍼 재사용율을 높이고, 클러스터링 시스템에서 디스크의 접근 횟수를 낮추어 전체적인 서버 시스템의 처리 능력을 향상시킨다.

  • PDF

모바일 P2P 네트워크에서 효율적인 스카이라인 질의 처리 기법 (Efficient Skyline Query Processing Scheme in Mobile P2P Networks)

  • 복경수;박선용;김대윤;임종태;신재룡;유재수
    • 한국콘텐츠학회논문지
    • /
    • 제15권7호
    • /
    • pp.30-42
    • /
    • 2015
  • 본 논문에서는 모바일 P2P 환경에서 질의 처리 정확성 및 통신 비용을 향상시키기 위한 새로운 스카이라인 질의 처리 기법을 제안한다. 제안하는 기법은 사전 스카이라인 구축, 질의 배포 범위 확장 정책과 연속 스카이라인 질의 처리 과정으로 구성된다. 사전 스카이라인에서는 질의 처리 이전에 필터링 객체로 선정될 가능성을 가지고 있는 후보 객체 집합을 선정하여 질의 처리에서의 필터링 비용을 감소시킨다. 질의 배포 범위 확장 정책에서 질의 배포 범위를 확장함으로써 정확성을 향상시킨다. 또한, 최초 스카이라인 질의 처리한 후 모니터링을 수행하여 연속 스카이라인 질의를 처리한다. 제안하는 기법의 우수성을 입증하기 위해 기존 기법과 성능 평가를 수행한 결과 제안하는 기법이 기존 기법보다 우수한 성능을 보였다.

S-XML 데이터의 효율적인 X-Path 처리를 위한 색인 구조 (An Index Structure for Efficient X-Path Processing on S-XML Data)

  • 장기;장용일;박순영;오영환;배해영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2005년도 춘계학술발표대회
    • /
    • pp.51-54
    • /
    • 2005
  • This paper proposes an index structure which is used to process X-Path on S-XML data. There are many previous index structures based on tree structure for X-Path processing. Because of general tree index's top-down query fashion, the unnecessary node traversal makes heavy access and decreases the query processing performance. And both of the two query types for X-Path called single-path query and branching query need to be supported in proposed index structure. This method uses a combination of path summary and the node indexing. First, it manages hashing on hierarchy elements which are presented in tag in S-XML. Second, array blocks named path summary array is created in each node of hashing to store the path information. The X-Path processing finds the tag element using hashing and checks array blocks in each node to determine the path of query's result. Based on this structure, it supports both single-path query and branching path query and improves the X-Path processing performance.

  • PDF

확장 불리언 질의에 대한 비용 기반 최적화 (Cost-based Optimization of Extended Boolean Queries)

  • 박병권
    • 정보관리학회지
    • /
    • 제18권3호
    • /
    • pp.29-40
    • /
    • 2001
  • 본 논문에서는 역색인 파일을 미용하여 학장 불리언 질의를 처리할 때 최소 비용의 질의 처리 방법을 구해 주는 질의 최적화 알고리즘을 제시한다. 확장 불리언 질의를 처리하는 방법은 질의를 구성하는 키위드의 처리 순서에 따라 여러 가지가 있을 수 있으므로 확장 불리언 질의 최적화 문제는 결국 최적 키워드 처리 순서를 구하는 문제로 귀결된다. 본 논문에서는 이 문제가 데이터베이스 질의 최적화에서 최적 조인 순서를 구하는 문제와 구조적으로 유사함을 보이고 이 분야의 연구 결과를 이용하여 문제를 해결한다. 즉, 확장 불리언 질의 처리에 대한 비용 모델을 수립하고 키워드 선택률과 역색인 파일 접근 비용을 이용하여 키워드 순위 개념을 도입한 후 이를 이용하여 최적 키워드 처리 순서를 구하는 알고리즘을 도출한다. 그리고 도출한 질의 최적화 알고리즘의 최적성을 증명하고. 실험을 통하여 실제로 최소비용의 질의 처리 방법을 구함을 보이고, 질의 최적화를 하지 않을 경우와 비교하였을 때 그 성능이 월등히 우수함을 보인다. 본 논문에서 제시한 질의 최적화 알고리즘은 정보검색시스템의 질의 처리 성능 향상에 큰 기여를 하리라 믿는다.

  • PDF

짧은 구간을 갖는 범위 질의의 효율적인 질의 색인 기법 (Efficient Query Indexing for Short Interval Query)

  • 김재인;송명진;한대영;김대인;황부현
    • 정보처리학회논문지D
    • /
    • 제16D권4호
    • /
    • pp.507-516
    • /
    • 2009
  • 데이터 스트림 환경에서는 지속적으로 입력되는 데이터에 대한 실시간 처리를 수행하기 위하여 범위를 갖는 다수의 질의를 시스템에 미리 등록한다. 등록된 질의를 입력 스트림에 따라 빠르게 검색하기 위해 질의 색인 기법을 사용하는데, 질의 색인은 메인 메모리 기반에서 동작하기 위해 색인 정보의 저장 비용이 낮아야 하고 빠른 질의 탐색을 실시해야 한다. 본 논문에서는 다수의 범위 질의에 대하여 색인 정보의 저장 비용이 낮고 빠른 질의 탐색을 실시하는 질의 색인 기법으로 LVC-based(Limited Virtual Construct-based) 기법을 제안한다. 해시기반으로 동작하는 LVC-based 색인 기법은 입력 스트림의 범위를 가상의 분할 구조로 나눈 LVC를 이용한다. 각 LVC는 식별자가 할당되고 각 LVC에 구간에 해당하는 범위 질의를 저장하며 색인을 실시한다. LVC-based 기법은 입력 스트림의 범위가 길고 범위가 짧은 다수의 질의를 색인할 때 저장비용과 탐색 비용에서 좋은 효율을 보이며 이는 기 제안된 CEI-based 색인 기법과의 비교를 통하여 입증하였다.

대용량 위치 데이터에서 효율적인 k-최근접 질의 처리 기법 (Efficient k-Nearest Neighbor Query Processing Method for a Large Location Data)

  • 최도진;임종태;유승훈;복경수;유재수
    • 한국콘텐츠학회논문지
    • /
    • 제17권8호
    • /
    • pp.619-630
    • /
    • 2017
  • 스마트 기기의 대중화로 다양한 위치 기반 서비스가 제공되고 있다. 최근에는 소셜 서비스와 결합한 위치 기반 소셜 서비스들이 생겨나고 있다. 이러한 위치 기반 소셜 네트워크 서비스에서는 사용자 중심의 가장 가까운 위치를 검색하는 k-최근접 질의 처리의 요구가 증가된다. 본 논문에서는 대규모 사용자 환경에서 질의를 효율적으로 처리하기 위한 근사 k-최근접 질의 처리 기법을 제안한다. 제안하는 기법은 빅데이터 분산 처리기술을 활용하여 효율적인 스트림 처리를 수행한다. 본 논문에서는 대량의 위치 데이터에 대한 색인을 위해 전통적인 그리드 색인 기법을 변형한 색인 기법을 제안한다. 제안하는 질의 처리기법은 사용자의 진행방향을 고려하여 해당 셀을 우선적으로 탐색한다. 이를 통해 k개의 근사 결과 집합을 생성할 수 있다. 제안하는 기법의 우수성을 입증하기 위해 기존 기법과 다양한 성능 평가를 수행한다.

분산 환경에 질의 최적화를 위한 XQuery 질의 재작성 (XQuery Query Rewriting for Query Optimization in Distributed Environments)

  • 박종현;강지훈
    • 한국컴퓨터정보학회논문지
    • /
    • 제14권3호
    • /
    • pp.1-11
    • /
    • 2009
  • XQuery가 XML 데이터를 위한 표준 질의어로 제안되면서, XQuery를 효율적으로 처리하기 위한 연구는 새로운 연구의 주제가 되었고, 몇몇 연구자들은 XQuery 질의를 최적화하기 위한 방법을 제안하고 있다. 그러나 앞선 대부분의 연구들은 XML 데이터 관리 시스템에 특화된 최적화 규칙만을 정의하고 있을 뿐 어떠한 시스템에서도 일반적으로 사용할 수 있는 최적화 방법과는 거리가 멀다. 또한 앞선 몇몇 연구에서는 XML 스키마 또는 DTD와 같은 미리 정의된 XML데이터의 구조정보를 이용하여 최적화하는 방법을 제안하고 있다. 그러나 현재 모든 응용이 XML 데이터를 위한 구조정보를 포함하고 있지는 않은 것이 현실이다. 그러므로 본 논문에서는 XQuery 질의의 특성을 파악하고 XQuery 질의 자체만을 이용한 최적화 방법들을 제안한다. 본 논문에서는 XQuery질의의 특성들을 고려한 세 가지 XQuery질의를 최적화 방법을 제안한다. 첫 번째 방법은 XQuery질의에 존재하는 불필요한 표현을 제거하는 것이고, 두 번째 방법은 질의 재배치를 이용한 최적화 방법이다. 마지막으로 세 번째 방법은 XQuery가 For절에 의해서 중첩된다는 점을 고려하여 For절에 의해서 발생하는 불필요한 반복을 최소화하는 방법이다. 성능 평가를 통해 논문에서 제안한 방법들에 의해 재작성 된 질의의 처리시간은 원본 질의의 처리 시간보다 뛰어나다는 것을 알 수 있다. 또한 각 방법들은 독립적으로 수행될 수 있으므로 XQuery 엔진의 필요에 따라 개별적으로 사용이 가능하다.

데이터 중심 저장 환경에서 소설 데이터 보정 기법을 이용한 인-네트워크 병합 질의 처리 (In-network Aggregation Query Processing using the Data-Loss Correction Method in Data-Centric Storage Scheme)

  • 박준호;이효준;성동욱;유재수
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제37권6호
    • /
    • pp.315-323
    • /
    • 2010
  • 센서 네트워크에서 발생하는 데이터를 저장하고, 효율적으로 질의를 처리하는 기법에 대한 많은 연구가 이루어지고 있다. 대표적인 연구로 데이터 중심 저장 기법이 있다, 데이터 중심 저장 기법의 경우 질의를 효과적으로 처리하기 위해 수집한 데이터 값에 따라 저장 될 센서 노드를 지정하고, 질의 처리를 위해 질의에 해당하는 데이터를 저장하는 노드에서만 데이터를 수집한다. 하지만 노드의 결함이 발생하면 결함 노드에 저장되어 있는 전체 데이터가 소설 됨에 따라 질의 결과 정확도가 저하 되는 문제점이 발생한다. 이러한 문제를 해결하기 위해, 본 논문에서는 데이터 중심 저장 기법에서 노드 결함에 따른 데이터 소실이 발생하여도 높은 정확도를 보이는 인 네트워크 병합 질의 처리 기법을 제안한다. 데이터 소실이 발생 하였을 경우 선형 회귀 분석 기법을 이용하여 소설 된 영역에 해당하는 보정 모델을 생성하고, 이를 통해 가상의 데이터를 포함한 질의 결과를 반환한다. 제안하는 기법의 우수성을 보이기 위해 시뮬레이션을 통해 소설 데이터 보정 기법을 적용한 KDDCS(E-KDDCS) 기법과 기존의 데이터 중심 저장 기법과 성능을 비교하였다. 그 결과 기존 기법에 비해 질의 결과 정확도가 향상되었고, 질의 처리 시 에너지 소모를 감소시켰다.