• Title/Summary/Keyword: 집계함수

Search Result 51, Processing Time 0.028 seconds

Study of Aggregate Function for Spatiotemporal (시공간지원 집계 함수 연구)

  • Chung, Ji-Moon
    • 한국디지털정책학회:학술대회논문집
    • /
    • 2005.11a
    • /
    • pp.273-280
    • /
    • 2005
  • 시공간 데이터베이스는 실세계에 존재하는 다양한 유형의 객체에 대한 공간 관리와 이력정보를 동시에 제공함으로써 사용자에게 시공간 데이터에 대한 저장 및 질의 수단을 제공한다. 질의 연산중 집계 연산은 특정한 조건을 만족하는 데이터에 대하여 계산을 수행한 결과 값을 반환하는 연산으로, 다양한 분야에서 데이터의 분석을 위해 사용된다. 그러나 기존의 집계에 대한 연구는 시간 또는 공간에만 편중되어 시간과 공간 제약을 모두 가진 실세계의 응용에 직접 적용할 수 없다. 따라서 이 논문에서는 실세계 응용들의 분석을 위한 시공간 집계함수를 제안하고, 실제 응용에서의 분석을 위한 질의 예를 보인다. 제안된 시공간 집계함수에 의해 사용자는 응용시스템에 따른 시공간 데이터 분석을 위해 간략하고 편리한 질의 할 수 있다.

  • PDF

A Join Query with Aggregation functions Using Mapreduce (집계 함수를 포함하는 조인 질의의 맵리듀스를 사용한 효율적인 처리 기법)

  • Oh, So Hyeon;Lee, Ki Yong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2015.04a
    • /
    • pp.132-135
    • /
    • 2015
  • 맵리듀스(MapReduce)는 분산 환경에서의 빅데이터(Big Data), 즉 대용량 데이터를 처리하는 프로그래밍 모델이다. 대용량의 데이터를 분석하기 위해서 집계 함수(Aggregation function)로 데이터를 처리할 수 있다. 본 논문에서는 맵리듀스 환경을 기반으로 SQL 쿼리에서 집계 함수를 더 적은 비용으로 수행하며 효율적으로 처리할 수 있는 두 가지 전략을 제안한다. 두 가지 전략 중 더 높은 성능을 보이는 전략을 더 효율적인 처리 방법으로 판단한다. 첫 번째 전략은 두 테이블을 Join하여 집계 함수를 처리하는 방법이다. 두 번째 전략은 집계 함수를 처리하여 Join에 참여할 튜플의 수를 최소로 줄인 후 Join을 수행하고 다시 집계 함수를 처리하는 방법이다. 두 제안 방법을 비교하기 위하여 실험을 한 결과 두 번째 전략이 더 적은 비용이 드므로 더 효율적인 처리 방법인 것으로 보인다.

Extension of Aggregate Functions for Spatiotemporal Data Analysis (데이타 분석을 위한 시공간 집계 함수의 확장)

  • Chi Jeong Hee;Shin Hyun Ho;Kim Sang Ho;Ryu Keun Ho
    • Journal of KIISE:Databases
    • /
    • v.32 no.1
    • /
    • pp.43-55
    • /
    • 2005
  • Spatiotemporal databases support methods of recording and querying for spatiotemporal data to user by offering both spatial management and historical information on various types of objects in the real world. We can answer to the following query in real world: 'What is the average of volume of pesticide sprayed for cach farm land from April to August on 2001, within some query window' Such aggregation queries have both temporal and spatial constraint. However, previous works for aggregation are attached only to temporal aggregation or spatial aggregation. So they have problems that are difficult to apply for spatiotemporal data directly which have both spatial and temporal constraint. Therefore, in this paper, we propose spatiotemporal aggregate functions for analysis of spatiotemporal data which have spatiotemporal characteristic, such as stCOUNT, stSUM, stAVG, stMAX, stMIN. We also show that our proposal resulted in the convenience and improvement of query in application systems, and facility of analysis on spatiotemporal data which the previous temporal or spatial aggregate functions are not able to analyze, by applying to the estate management system. Then, we show the validity of our algorithm performance through the evaluation of spatiotemporal aggregate functions.

Applying an Aggregate Function AVG to OLAP Cubes (OLAP 큐브에서의 집계함수 AVG의 적용)

  • Lee, Seung-Hyun;Lee, Duck-Sung;Choi, In-Soo
    • Journal of the Korea Society of Computer and Information
    • /
    • v.14 no.1
    • /
    • pp.217-228
    • /
    • 2009
  • Data analysis applications typically aggregate data across many dimensions looking for unusual patterns in data. Even though such applications are usually possible with standard structured query language (SQL) queries, the queries may become very complex. A complex query may result in many scans of the base table, leading to poor performance. Because online analytical processing (OLAP) queries are usually complex, it is desired to define a new operator for aggregation, called the data cube or simply cube. Data cube supports OLAP tasks like aggregation and sub-totals. Many aggregate functions can be used to construct a data cube. Those functions can be classified into three categories, the distributive, the algebraic, and the holistic. It has been thought that the distributive functions such as SUM, COUNT, MAX, and MIN can be used to construct a data cube, and also the algebraic function such as AVG can be used if the function is replaced to an intermediate function. It is believed that even though AVG is not distributive, but the intermediate function (SUM, COUNT) is distributive, and AVG can certainly be computed from (SUM, COUNT). In this paper, however, it is found that the intermediate function (SUM COUNT) cannot be applied to OLAP cubes, and consequently the function leads to erroneous conclusions and decisions. The objective of this study is to identify some problems in applying aggregate function AVG to OLAP cubes, and to design a process for solving these problems.

Design of Aggregate Function for Spatiotemporal (시공간지원 집계 함수 설계)

  • Shin, Hyun-Ho;Choi, Bo-Yoon;Chi, Jeong-Hee;Kim, Sang-Ho;Ryu, Keun-Ho
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2003.05c
    • /
    • pp.1503-1506
    • /
    • 2003
  • 시공간 데이터베이스는 실세계에 존재하는 다양한 유형의 객체에 대한 공간 관리와 이력정보를 동시에 제공함으로써 사용자에게 시공간 데이터에 대한 저장 및 질의 수단을 제공한다. 질의 연산 중 집계 연산은 특정한 조건을 만족하는 데이터에 대하여 계산을 수행한 결과 값을 반환하는 연산으로, 다양한 분야에서 데이터의 분석을 위해 사용된다. 그러나 기존의 집계에 대한 연구는 시간 또는 공간에만 편중되어 시간과 공간 제약을 모두 가진 실세계의 응용에 직접 적용할 수 없다. 따라서 이 논문에서는 실세계 응용들의 분석을 위한 시공간 집계함수를 제안하고, 실제 응용에서의 분석을 위한 질의 예를 보인다. 제안된 시공간 집계함수에 의해 사용자는 응용시스템에 따른 시공간데이터 분석을 위해 간략하고 편리한 질의 할 수 있다.

  • PDF

A Condition Processing System of Active Rules Using Analyzing Condition Predicates (조건 술어 분석을 이용한 능동규칙의 조건부 처리 시스템)

  • Lee, Gi-Uk;Kim, Tae-Sik
    • The KIPS Transactions:PartD
    • /
    • v.9D no.1
    • /
    • pp.21-30
    • /
    • 2002
  • The active database system introduces the active rules detecting specified state. As the condition evaluation of the active rules is performed every time an event occurs, the performance of the system has a great influence, depending on the conditions processing method. In this paper, we propose the conditions processing system with the preprocessor which determines the delta tree structure, constructs the classification tree, and generates the aggregate function table. Due to the characteristics of the active database through which the active rules can be comprehended beforehand, the preprocessor can be introduced. In this paper, the delta tree which can effectively process the join, selection operations, and the aggregate function is suggested, and it can enhance the condition evaluation performance. And we propose the classification tree which effectively processes the join operation and the aggregate function table processing the aggregate function which demands high cost. In this paper, the conditions processing system can be expected to enhance the performance of conditions processing in the active rules as the number of conditions comparison decreases because of the structure which is made in the preprocessor.

A New Method for Processing Queries in Data Warehouse Environment (데이터 웨어하우징 환경에서 질의 처리를 위한 새로운 기법)

  • 김윤호;김진호;감상욱
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.04b
    • /
    • pp.121-123
    • /
    • 2001
  • 대용량의 데이터가 저장되는 데이터 웨어하우징 환경에서는 조인이나 집계 함수와 같은 고비용의 연산의 효율적인 처리는 매우 중요하다. 본 논문에서는 집계 함수(aggregate function)와 조인이 모두 포함된 질의를 처리하는 새로운 기법을 제안한다. 제안하는 기법은 먼저 차원 테이블(dimension table)을 미리 그룹핑한 후, 비트맵 조인 인덱스(bitmap join index)를 이용하여 조인을 처리하는 방식을 사용한다. 이 결과, 사실 테이블만을 접근하여 집계 함수를 처리함으로써 기존 기법이 가지는 성능 저하의 문제점을 해결할 수 있다. 기존 기법과 제안하는 기법에 대한 비용 모델(cost model)을 정립하고, 이를 기반으로 시뮬레이션을 수행함으로써 제안된 기법의 우수성을 규명한다.

  • PDF

Distributed Processing System for Aggregate/Analytical Functions on CUBRID Shard Distributed Databases (큐브리드 샤드 분산 데이터베이스에서 집계/분석 함수의 분산 처리 시스템 개발)

  • Won, Jiseop;Kang, Suk;Jo, Sunhwa;Kim, Jinho
    • KIISE Transactions on Computing Practices
    • /
    • v.21 no.8
    • /
    • pp.537-542
    • /
    • 2015
  • Database Shard is a technique that can be queried and stored by dividing one logical table into multiple databases horizontally. In order to analyze the shard data with aggregate or analysis functions, a process is required that integrates partial results on each shard database. In this paper, we introduce the design and implementation of a distributed processing system for aggregation and analysis on the CUBRID Shard distributed database, which is an open source database management system. The implemented system can accelerate the analysis onto multiple shards of partitioned tables; it shows efficient aggregation on shard distributed databases compared to stand-alone databases.

History / Aggregate Operator for Spatio-Temporal Databases (시공간 데이터베이스를 위한 history 집계 연산자)

  • 이종연
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10a
    • /
    • pp.106-108
    • /
    • 2001
  • 기존의 관계형 데이터베이스 시스템은 기본적으로 count, max, min, sum, avg의 집계 함수(aggregate functions)를 제공하며, UBMS에 따라 다양한 집계 연산자를 추가로 지원한다. 시공간 데이터베이스는 기본적인 공간 정보뿐만 아니라 시간 흐름에 따른 이력 정보를 취급하므로 데이터베이스로부터 자유로운 이력(history) 정보의 검색 기능이 요구되고 있다. 따라서, 본 연구에서는 시공간 데이터베이스로부터 이력을 자동으로 검색할 수 있는 새로운 집계 연산자, ‘history’를 제안하고, 그 처리 알고리즘과 SQL3에서 탐색 질의 표현법을 제안한다. 결과적으로, 제안된 이력 집계 연산자는 향후 SQL3리 질의 표현 능력의 제고에 기여할 것이다.

  • PDF

An Empirical Analysis of the Aggregate Travel Demands of the Urban Households in Korea (우리나라 도시가구 거주자의 집계교통수요함수 분석)

  • 윤재호
    • Journal of Korean Society of Transportation
    • /
    • v.20 no.3
    • /
    • pp.93-103
    • /
    • 2002
  • 우리 국민의 교통수요행태를 분석하기 위하여 준이상수요체계(almost ideal demand system) 함수형태의 집계교통수요모형을 설정하였다. 대중교통수단으로서 시내버스, 시외버스, 택시, 기차, 전철이 그리고 개인교통수단으로서 연료비가 포함되었으며, 기타재화 및 서비스에 대한 소비지출이 함께 추정되었다. 추정에 이용된 자료는 통계청의 "도시가계연보"에 수록된 '전국 도시가구 소비지출'과 "물가통계"에 수록된 '전국 도시소비자 물가'이다. 추정결과 모형의 설명력을 나타내는 수정결정계수(adjusted-$R^2$)는 대부분 0.9 내외에서 높게 나타났다. 추정계수는 총 51개중에서 25개가 5% 수준에서 유의한 것으로 나타났다. 추정된 계수값을 이용하여 가격탄력성과 소득탄력성을 구하였다. 자기가격탄력성과 소득탄력성 추정치는 조금 높기는 하나 부호와 상대적 크기가 모두 예상과 일치하고 다른 연구결과들과 유사한 범위에 있다. 연료비에 대한 소득탄력성은 1.72로 가장 높게 나타났고, 대중교통수단은 0.03~0.49 사이에서 나타나므로 교통수단이 정상재임을 의미한다. 보상수요의 교차가격탄력성은 총 15개의 교차관계에서 12개의 관계가 상식과 일치한다. 다음 연구에서는 더 많은 시계열자료를 발굴하여, 장기간의 교통수요 변화에 대한 분석을 시도할 필요가 있다. 또한 초월대수함수나 동태함수 등 다양한 형태의 수요함수를 시도할 필요가 있다. 여러가지 형태의 교통수요함수추정을 통해서 우리 현실에 적합한 교통수요모형을 발견할 수 있을 것이다. 대도시와 중소도시 등 지역별 지출자료를 발굴하여 지역특성을 반영하는 교통수요함수의 추정도 필요하다.