• 제목/요약/키워드: 집계 분석

검색결과 379건 처리시간 0.03초

시공간 집계정보를 위한 Aggregation R-tree 기반의 하이브리드 인덱스 (A Hybrid Index based on Aggregation R-tree for Spatio-Temporal Aggregation)

  • 유병섭;배해영
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제33권5호
    • /
    • pp.463-475
    • /
    • 2006
  • 교통 관리 시스템과 같은 응용에서는 공간 데이타 웨어하우스의 공간 계층을 이용한 분석을 수행하는데, 이러한 분석에서는 주로 단순한 집계정보만을 요구한다. 공간 계층 기반의 집계정보 제공을 위하여 기존의 연구들은 공간 인덱스를 사용한 해결방법을 제시하였는데, 대부분의 연구들은 공간 인덱스 중 가장 널리 이용되는 R-tree를 확장한 방법을 이용하였다. 그러나 단순히 현재 집계 정보만을 제공하여 수년에 걸친 분석을 요구하는 교통 정책에 대하여 의사결정을 지원할 수 없었다. 본 논문에서는 과거의 집계정보까지 관리할 수 있는 aR-tree(Aggregation R-tree)기반의 하이브리드 인덱스를 제안한다. 제안 기법은 aR-tree를 이용하여 공간 계층과 현재시점의 집계정보를 제공하며, 시간 구조체를 이용한 정렬 해쉬 테이블로 시간 계층과 과거의 집계정보를 제공한다. 따라서 제안기법은 시공간 분석을 통한 효율적인 의사결정을 지원하며, 이는 현재의 교통 분석 및 과거를 통한 교통 정책 결정을 가능하게 한다.

공간 데이터 재구축을 통한 음식업종 매출액 영향 요인 분석 : 이종 공간 데이터의 집계단위 변환을 중심으로 (Analyzing Influence Factors of Foodservice Sales by Rebuilding Spatial Data : Focusing on the Conversion of Aggregation Units of Heterogeneous Spatial Data)

  • 노은빈;이상경;이병길
    • 한국측량학회지
    • /
    • 제35권6호
    • /
    • pp.581-590
    • /
    • 2017
  • 이 연구에서는 서울연구원 제공 집계구 자료를 이용하여 유동인구와 공간 특성, 공간자기상관이 음식업종의 매출액에 미치는 영향을 분석한다. 최근 공공 분야의 빅데이터가 증가하고 있지만 자료집계 단위가 달라 연구에 어려움을 야기하는 경우가 많다. 본 연구에서도 종속변수인 매출액은 SKT 집계구 단위로, 공간 특성은 통계청 집계구와 행정동 단위로, 그리고 유동인구는 Point 정보로 구축되어 있다. 분석을 위해 먼저 SKT 집계구 단위로 모든 독립변수의 집계단위를 변환하였다. 공간자기상관 효과를 검정할 수 있는 모형인 SEM을 이용하여 회귀분석을 수행한 결과 매출액에 대한 공간자기상관의 영향이 확인되었으며, 또한 유동인구와 주변 종사자수, 집계 구 면적이 매출액에 정의 영향을 주는 것으로 나타났다. 또한, 강남구에 비해 중구, 영등포구, 송파구 매출액이 더 적은 것으로 나타났다. 이 같은 결과는 유동인구가 많고 주변 종사자수가 많은 지역, 그리고 음식업종 점포들이 몰려있는 지역이 창업에 유리하다는 것을 시사한다. 이 연구는 이종 공간 데이터의 집계단위 변환의 유용성 과 함께 지도상의 면적 비례로 집계단위를 변환하는 것의 한계를 보여줌으로써 후속 연구에 시사점을 제공한다.

AVL 트리를 사용한 효율적인 스트림 큐브 계산 (Efficient Computation of Stream Cubes Using AVL Trees)

  • 김지현;김명
    • 정보처리학회논문지D
    • /
    • 제14D권6호
    • /
    • pp.597-604
    • /
    • 2007
  • 스트림 데이터는 끊임없이 고속으로 생성되는 데이터로써 최근 이러한 데이터를 분석하여 부가가치를 얻고자 하는 노력이 활발히 진행 중 이다. 본 연구에서는 스트림 데이터의 다차원적 분석을 위해 큐브를 고속으로 계산하는 방법을 제안한다. 스트림 데이터는 비즈니스 데이터와는 달리 정렬되지 않은 채로 도착하며, 데이터의 끝에 도달하지 않은 상태에서는 집계 결과를 낼 수 없어서, 고속으로 집계하는 과정에서 저장 공간의 낭비를 심하게 초래한다. 또한 큐브에 속한 집계 테이블들을 모두 생성하는 것은 시간/공간 측면에서 비효율적이라는 점이 지적되고 있다. 이러한 문제를 해결하기 위해 본 연구에서는 기존 연구들과 마찬가지로 큐브에 포함시킬 집계 테이블들을 사용자가 미리 정하도록 하였고, 정렬되지 않은 스트림 데이터를 고속으로 집계하는 과정에서 배열과 AVL 트리들로 구성된 자료구조를 집계 테이블의 임시 저장소로 사용하였다. 제안한 알고리즘은 생성하려는 큐브가 메모리에 상주할 수 없을 정도로 큰 경우에도 집계 연산을 수행할 수 있다. 이론적 분석과 성능 평가를 통해 제안한 큐브 계산 알고리즘이 실용적임을 입증하였다.

맵리듀스에서 집계 질의 스트림의 효율적인 처리 기법 (Efficient Processing of an Aggregate Query Stream in MapReduce)

  • 최현진;이기용
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제3권2호
    • /
    • pp.73-80
    • /
    • 2014
  • 맵리듀스는 빅데이터 분석 및 처리에 널리 사용되는 프로그래밍 모델이다. 빅데이터 분석을 위해 흔히 사용되는 질의 중 하나는 집계 질의(aggregate query)이다. 본 논문에서는 여러 사용자가 동시에 여러 집계 질의를 계속해서 요청하는 경우, 맵리듀스를 사용하여 이들 질의를 효율적으로 처리하는 방법을 제안한다. 제안 방법은 각 집계 질의를 개별적으로 처리하지 않고, 여러 집계 질의를 묶어 하나의 최적화된 맵리듀스 잡(job)으로 만들어 일괄 처리한다. 그 결과로 제안 방법은 단순 방법에 비해 시간당 처리하는 질의 수를 크게 증가시킨다. 성능 평가를 통해, 제안 방법은 단순 방법에 비해 질의 처리 속도를 크게 향상시킴을 보인다.

시각화된 스키마 생성기를 이용한 데이터 웨어하우스의 실체 뷰 생성 (Generation of Materialized View for Data Warehouse Using Visualized Schema Generator)

  • 정병화;이현창;김경창;지원철
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1998년도 가을 학술발표논문집 Vol.25 No.2 (1)
    • /
    • pp.392-394
    • /
    • 1998
  • 데이터 웨어하우스 시스템은 의사 결정의 지원에 필요한 요약, 분석 작업을 수행하여 다양한 고품질의 정보 서비스를 사용자에게 제공한다[1]. 이러한 데이터 웨어하우스에 사용자가 질의를 요청할 경우 다차원 모델을 고려해 보면 여러 테이블을 조인해야 할 경우가 발생하고 이때 방대한 양의 사실 테이블을 가지고 있는 데이터 웨어하우스는 질의 처리시 성능 저하를 초래 할 수 있다. 그러므로 본 연구에서는 사용자의 질의에서 자주 요구되는 집계사실을 미리 저장하여 데이터 웨어하우스에 대한 질의 처리 성능향상을 기대할 수 있도록 집계사실이 저장될 효율적인 집계 테이블 생성에 따른 설계와 구현을 한다. 이를 수행하기 위해 본 논문에는 집계 사실의 저장방법에 대해 살펴보고, 집계 계획에 근거한 집계테이블 생성 인터페이스의 프로토타입 설계 및 구현을 살펴본다. 이렇게 함으로서 사용자의 의사결정에 필요한 정보를 데이터 웨어하우스에서 더욱 신속하게 얻을 수 있다.

집계 함수를 포함하는 조인 질의의 맵리듀스를 사용한 효율적인 처리 기법 (A Join Query with Aggregation functions Using Mapreduce)

  • 오소현;이기용
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2015년도 춘계학술발표대회
    • /
    • pp.132-135
    • /
    • 2015
  • 맵리듀스(MapReduce)는 분산 환경에서의 빅데이터(Big Data), 즉 대용량 데이터를 처리하는 프로그래밍 모델이다. 대용량의 데이터를 분석하기 위해서 집계 함수(Aggregation function)로 데이터를 처리할 수 있다. 본 논문에서는 맵리듀스 환경을 기반으로 SQL 쿼리에서 집계 함수를 더 적은 비용으로 수행하며 효율적으로 처리할 수 있는 두 가지 전략을 제안한다. 두 가지 전략 중 더 높은 성능을 보이는 전략을 더 효율적인 처리 방법으로 판단한다. 첫 번째 전략은 두 테이블을 Join하여 집계 함수를 처리하는 방법이다. 두 번째 전략은 집계 함수를 처리하여 Join에 참여할 튜플의 수를 최소로 줄인 후 Join을 수행하고 다시 집계 함수를 처리하는 방법이다. 두 제안 방법을 비교하기 위하여 실험을 한 결과 두 번째 전략이 더 적은 비용이 드므로 더 효율적인 처리 방법인 것으로 보인다.

큐브리드 샤드 분산 데이터베이스에서 집계/분석 함수의 분산 처리 시스템 개발 (Distributed Processing System for Aggregate/Analytical Functions on CUBRID Shard Distributed Databases)

  • 원지섭;강석;조선화;김진호
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제21권8호
    • /
    • pp.537-542
    • /
    • 2015
  • 대용량의 테이블을 수평적으로 분할하여 서로 다른 데이터베이스에 저장함으로써 데이터를 분산 저장하고 처리할 수 있는 방법을 샤딩이라 한다. 샤딩된 데이터에 대한 집계 또는 분석 함수를 적용하여 전체 결과를 얻기 위해서는 여러 곳으로 분산된 데이터에 대한 지역 결과를 통합하는 과정이 필요하다. 본 논문에서는 오픈 소스 DBMS의 하나인 큐브리드(CUBRID)의 샤딩 기술을 이용하여 분산된 부분 집계함수를 통합 처리하는 모듈을 설계하고 구현하는 방법에 대해 소개한다. 이 통합 모듈을 통해 여러 곳으로 샤딩된 데이터에 대하여 집계 및 분석 함수를 이용한 분석이 가능하도록 하였고, 단일 데이터베이스를 사용한 분석 성능과의 비교를 통해 샤드 분산 데이터베이스를 사용한 집계 계산이 효율적임을 보인다.

시간지원 데이타베이스에서 다차원 시간 집계 연산의 효율적인 처리 기법 (On Efficient Processing of Multidimensional Temporal Aggregates In Temporal Databases)

  • 강성탁;정연돈;김명호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제29권6호
    • /
    • pp.429-440
    • /
    • 2002
  • 시간지원 데이타베이스 시스템은 자료의 과거 및 현재, 그리고 미래의 상태까지 관리함으로써, 사용자에게 시간에 따라 변화하는 자료에 대한 저장 및 질의 수단을 제공한다. 시간지원 데이터베이스에서의 집계 연산은 집계 연산과 질의에 시간 애트리뷰트를 고려하므로 기존의 집계 연산과는 큰 차이가 있다. 본 논문에서는 다차원 시간 집계 연산에 초점을 둔다. 다차원 시간 집계 연산은 시간 애트리뷰트 뿐만 아니라 하나 이상의 일반 애트리뷰트까지 고려한 시간 집계 연산으로 이력 데이타 웨어 하우스, 전화 기록 관리(CBR) 등에 유용하다. 본 논문에서는 다차원 시간 집계 연산을 효율적으로 처리하기 위한 자료 구조인 PTA-tree를 제안하고, 이를 이용한 시간 집계 처리 기법을 제안한다. 또한 본 논문에서는 제안된 PTA-tree를 이용한 기법과 기존의 SB-tree를 확장한 기법의 성능을 최악 경우 분석과 실험을 통해 비교한다.

집단급식사업에서의 유통 ERP 사용과 집계 분석 (Analysis of Using and Gathering of Distribution ERP in Massfeeding)

  • 임상선;박대우
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2011년도 제44차 하계학술발표논문집 19권2호
    • /
    • pp.143-147
    • /
    • 2011
  • 집단급식사업을 할 때 재료의 신선한 공급을 위한 신속성, 음식의 매출액과 재료비, 인건비, 경비 등의 관련비용 집계에 대한 정확성과 기업회계 결산에 대한 어려움이 있다. 집단급식사업은 통신과 컴퓨터를 이용하여 유통 ERP를 구축하고, 사업장을 여러 군데로 확장하여 정확한 정보의 집계와 전달에 관한 연구가 필요하다. 본 논문에서는 집단급식사업의 유통 ERP를 연구하고, 구축 운영하여 급식 매출과 원가의 요소를 집계한다. 또한 집단급식사업장 단위의 매출액에 대한 재료비, 인건비, 경비 등 요소를 집계하고, 급식 자재의 유통을 위한 구매 발주와 낙찰된 식자재의 계약과 결과 값으로 예측 Simulation하여 본다. 집단급식 사업장 단위에서 마감되면 시도 단위와 전국 단위의 자산 및 손익 계산을 하는 ERP를 연구한다. 본 논문 연구를 통하여 집단급식사업의 ERP 발전과 물류 유통 산업 발전에 기여하게 될 것이다.

  • PDF

시간지원데이타베이스에서의 효과적인 시간지원집계 처리 기법 (On Efficient Processing of Temporal Aggregates in Temporal Databases)

  • 강성탁;김종수;김명호
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제26권12호
    • /
    • pp.1418-1427
    • /
    • 1999
  • 시간지원 데이타베이스 시스템은 자료의 과거 및 현재, 그리고 미래의 상태까지 관리함으로써, 사용자에게 시간에 따라 변화하는 자료에 대한 저장 및 질의 수단을 제공한다. 시간지원 데이타베이스는 경향 분석, 버전 관리, 의료 기록 관리 및 비디오 데이타 관리 등과 같이 자료의 시간적 특성이 중요시 되는 모든 분야에 폭 넓게 응용될 수 있다. 시간지원 데이타베이스에서의 집계는 시간 애트리뷰트를 고려하지 않은 기존의 집계와는 큰 차이가 있으며, 기존의 집계 처리 기법을 이용하여 효과적으로 처리될 수 없다. 본 논문에서는 시간지원 집계를 효율적으로 처리하기 위한 새로운 자료 구조인 PA-트리를 제안하고, 이를 이용한 시간지원 집계 처리 기법을 제안한다. 또한 본 논문에서는 제안된 PA-트리를 이용한 기법과 기존의 집계 트리를 이용한 기법의 성능을 최악 경우 분석과 실험을 통해 비교한다.Abstract Temporal databases manage time-evolving data. They provide built-in supports for efficient recording and querying of temporal data. Many application area such as trend analysis, version management, and medical record management have temporal aspects, and temporal databases can handle these temporal aspects efficiently. The aggregate in temporal databases, that is, temporal aggregate is an extension of conventional aggregate on the domain and range of aggregation to include time concept. The basic techniques behind computing aggregates in conventional databases are not efficient when applied to temporal databases. In this paper, we propose a new tree structure for temporal aggregation, called PA-tree, and aggregate processing method based on the PA-tree. We compare the PA-tree with the existing aggregation tree which has been proposed for temporal aggregate.