• 제목/요약/키워드: data skew

검색결과 125건 처리시간 0.022초

다중 해시 조인의 파이프라인 처리에서 분할 조율을 통한 부하 균형 유지 방법 (A Load Balancing Method using Partition Tuning for Pipelined Multi-way Hash Join)

  • 문진규;진성일;조성현
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제29권3호
    • /
    • pp.180-192
    • /
    • 2002
  • Shared nothing 다중 프로세서 환경에서 조인 어트리뷰트의 자료 불균형(data skew)이 파이프라인 해시 조인 연산의 성능에 주는 영향을 연구하고, 자료 불균형을 대비하여 적재부하를 Round-robin 방식으로 정적 분할하는 방법과 자료분포도를 이용하여 동적 분할하는 두 가지 파이프라인 해시 조인 알고리즘을 제안한다. 해시 기반 조인을 사용하면 여러 개의 조인을 파이프라인 방식으로 처리할 수 있다. 다중 조인은 파이프라인 방식 처리는 조인 중간 결과를 디스크를 통하지 않고 다른 프로세서에게 직접 전달하므로 효율적이다. Shared nothing 다중 프로세서 구조는 대용량 데이타베이스를 처리하는데 확장성은 좋으나 자료 불균형 분포에 매우 민감하다. 파이프라인 해시 조인 알고리즘이 동적 부하 균형 유지 메커니즘을 갖고 있지 않다면 자료 불균형은 성능에 매우 심각한 영향을 줄 수 있다. 본 논문은 자료 불균형의 영향과 제안된 두 가지 기법을 비교하기 위하여 파이프라인 세그먼트의 실행 모형, 비용 모형, 그리고 시뮬레이터를 개발한다. 다양한 파라미터로 모의 실험을 한 결과에 의하면 자료 불균형은 조인 선택도와 릴레이션 크기에 비례하여 시스템 성능을 떨어뜨림을 보여준다. 그러나 제안된 파이프라인 해시 조인 알고리즘은 다수의 버켓 사용과 분할의 조율을 통해 자료 불균형도가 심한 경우에도 좋은 성능을 갖게 한다.

병렬 조인에서 샘플링 기반 비용 예측 기법을 이용한 균등 부하 분산 (Uniform Load Distribution Using Sampling-Based Cost Estimation in Parallel Join)

  • 박웅규
    • 한국정보처리학회논문지
    • /
    • 제6권6호
    • /
    • pp.1468-1480
    • /
    • 1999
  • 데이터베이스 시스템에서 조인 연산은 시스템의 성능에 영향을 주는 가장 복잡하고 소모적인 연산이다. 데이터베이스 시스템의 향상을 위한 많은 병렬 처리 알고리즘들이 제안되었으나 기존의 방법들은 AVS(Attribute Value Skew)와 JPS(Join Product Skew) 등과 같은 데이터 편지를 고려하고 있지 않다. 따라서 데이터 편재의 상황에서 기존의 방법들은 조인 연산 중에 노드들 간의 부하 불균형으로 인하여 그 성능이 급격하게 저하된다. 본 논문에서는 병렬 조인 시에 AVS와 JPS를 고려하여 노드간에 균등하게 부하를 분산하는 방법과 이를 이용한 효율적인 병렬 조인 알고리즘을 제안한다. 제안된 알고리즘은 먼저 기존의 샘플링 방법을 이용하여 조인 연산의 입력과 결과 릴레이션의 데이터 분포를 예측하고, 이를 기반으로 데이터 값에 대한 조인 비용을 산출한다. 그리고 히스토그램 균등화 기법을 이용하여 국부적인 조인 과정에서 노드들 간에 부하 균등을 성취할 수 있도록 데이터를 각 노드에 재 분재한다. 본 논문에서는 성능 평가를 위하여 제안된 알고리즘과 기존의 대표적인 알고리즘들을 위한 모의 실험 모델을 제시하고 모의 실험 결과를 기술한다. 성능 측정 결과 제안된 알고리즘이 기존의 알고리즘들에 비해서 데이터 편재의 상황에서 성능이 우수한 것으로 나타났다.

  • PDF

데이터 공유 시스템에서 동적 부하분산을 지원하는 해쉬 기반 병렬 조인 처리 기법 (Hash-based Parallel Join Schemes Supporting Dynamic Load Balancing in Data Sharing Systems)

  • 문애경;조행래
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (1)
    • /
    • pp.249-251
    • /
    • 1999
  • 해싱 함수를 이용하여 작업을 여러 노드에 분할해서 실행하는 해쉬 기반 병렬 조인 기법에서 Data Skew는 특정 노드에 부하를 집중시키므로 시스템의 성능을 떨어뜨린다. 본 논문에서는 기본적인 해쉬 기반 조인 기법을 데이터 공유시스템에 적용하고, Data Skew를 해결하기 위하여 동적 작업 할당과 부하가 집중된 노드의 작업을 다른 노드로 재할당하는 작업 재배치 방법을 제안한다. 제안된 기법들의 성능을 분석하기 위하여 모의 실험을 수행하였으며, 모든 노드에서 데이터베이스가 저장된 디스크를 공유하는 데이터 공유 시스템의 겨우 동적 작업 할당과 작업 재배치 방법이 효과적임을 알 수 있었다.

  • PDF

왜정규 표본평균의 분포함수에 대한 안장점근사 (Saddlepoint approximation for distribution function of sample mean of skew-normal distribution)

  • 나종화;유혜경
    • Journal of the Korean Data and Information Science Society
    • /
    • 제24권6호
    • /
    • pp.1211-1219
    • /
    • 2013
  • 최근 많은 통계 이론과 응용 문제에 정규분포의 대안으로 왜정규분포에 대한 활용이 높아지고 있다. 본 논문에서는 왜정규분포에 기반한 표본평균의 분포함수에 대한 안장점근사를 다루었다. 안장점근사는 기존의 정규근사에 비해 매우 뛰어난 정확성을 보일 뿐 아니라, 소표본에서도 정확한 근사결과를 제공한다. 본 논문에서 제시한 왜정규분포에 관련된 안장점근사는 복잡한 계산이 요구되는 기존의 Gupta와 Chen (2001)과 Chen 등 (2004)에 대한 근사적 방법으로 사용될 수 있다. 모의실험을 통해 표본평균의 분포함수에 대한 제안된 안장점근사의 정확도를 확인하고, 실제 자료에 대한 응용으로 Roberts (1966)의 쌍둥이 자료의 분석에 적용하였다.

Post Silicon Management of On-Package Variation Induced 3D Clock Skew

  • Kim, Tak-Yung;Kim, Tae-Whan
    • JSTS:Journal of Semiconductor Technology and Science
    • /
    • 제12권2호
    • /
    • pp.139-149
    • /
    • 2012
  • A 3D stacked IC is made by multiple dies (possibly) with heterogeneous process technologies. Therefore, die-to-die variation in 2D chips renders on-package variation (OPV) in a 3D chip. In spite of the different variation effect in 3D chips, generally, 3D die stacking can produce high yield due to the smaller individual die area and the averaging effect of variation on data path. However, 3D clock network can experience unintended huge clock skew due to the different clock propagation routes on multiple stacked dies. In this paper, we analyze the on-package variation effect on 3D clock networks and show the necessity of a post silicon management method such as body biasing technique for the OPV induced 3D clock skew control in 3D stacked IC designs. Then, we present a parametric yield improvement method to mitigate the OPV induced 3D clock skew.

3D Spreader Movement Information by the CCD cameras and the Laser Distance Measuring Unit

  • Lee, Bong-Ki;Lee, Jung-Jae;Kim, Sang-Ju;Lee, Jang-Myung
    • 제어로봇시스템학회:학술대회논문집
    • /
    • 제어로봇시스템학회 2003년도 ICCAS
    • /
    • pp.241-245
    • /
    • 2003
  • This paper introduces a method that can derive information about the movement of a spreader and skew in order to drive ALS(Automatic Landing System) in the crane used at a harbor. Some methods that use LDL Corner detectors a kind of 2D Laser scanner sensor or Laser distance measuring units to obtain the information in ALS are used presently. But these have some defects in economic efficiency and performance. Therefore, to correct these defects, we propose a method to acquire the information for the movement of a spreader, skew and sway angle using CCD camera image data and Laser distance measuring unit data.

  • PDF

Power t distribution

  • Zhao, Jun;Kim, Hyoung-Moon
    • Communications for Statistical Applications and Methods
    • /
    • 제23권4호
    • /
    • pp.321-334
    • /
    • 2016
  • In this paper, we propose power t distribution based on t distribution. We also study the properties of and inferences for power t model in order to solve the problem of real data showing both skewness and heavy tails. The comparison of skew t and power t distributions is based on density plots, skewness and kurtosis. Note that, at the given degree of freedom, the kurtosis's range of the power t model surpasses that of the skew t model at all times. We draw inferences for two parameters of the power t distribution and four parameters of the location-scale extension of power t distribution via maximum likelihood. The Fisher information matrix derived is nonsingular on the whole parametric space; in addition we obtain the profile log-likelihood functions on two parameters. The response plots for different sample sizes provide strong evidence for the estimators' existence and unicity. An application of the power t distribution suggests that the model can be very useful for real data.

Estimations of the skew parameter in a skewed double power function distribution

  • Kang, Jun-Ho;Lee, Chang-Soo
    • Journal of the Korean Data and Information Science Society
    • /
    • 제24권4호
    • /
    • pp.901-909
    • /
    • 2013
  • A skewed double power function distribution is defined by a double power function distribution. We shall evaluate the coefficient of the skewness of a skewed double power function distribution. We shall obtain an approximate maximum likelihood estimator (MLE) and a moment estimator (MME) of the skew parameter in the skewed double power function distribution, and compare simulated mean squared errors for those estimators. And we shall compare simulated MSEs of two proposed reliability estimators in two independent skewed double power function distributions with different skew parameters.

Estimations in a skewed uniform distribution

  • Son, Hee-Ju;Woo, Jung-Soo
    • Journal of the Korean Data and Information Science Society
    • /
    • 제20권4호
    • /
    • pp.733-740
    • /
    • 2009
  • We obtain a skewed uniform distribution by a uniform distribution, and evaluate its coeffcient of skewness. And we obtain the approximate maximum likelihood estimator (AML) and moment estimator of skew parameter in the skewed uniform distribution. And we compare simulated mean squared errors (MSE) of those estimators, and also compare MSE of two proposed reliability estimators in two independent skewed uniform distributions each with different skew parameters.

  • PDF

Hidden Truncation Normal Regression

  • Kim, Sungsu
    • Communications for Statistical Applications and Methods
    • /
    • 제19권6호
    • /
    • pp.793-798
    • /
    • 2012
  • In this paper, we propose regression methods based on the likelihood function. We assume Arnold-Beaver Skew Normal(ABSN) errors in a simple linear regression model. It was shown that the novel method performs better with an asymmetric data set compared to the usual regression model with the Gaussian errors. The utility of a novel method is demonstrated through simulation and real data sets.