• Title/Summary/Keyword: 데이터 추정

Search Result 3,464, Processing Time 0.045 seconds

Selectivity Estimation using Maximum Area Difference (최대 면적 차이 분할 방법을 이용한 선택률 추정)

  • 이미란;황환규
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10a
    • /
    • pp.109-111
    • /
    • 2001
  • 공간데이터베이스에서 공간 질의를 최적화하기 위해서는 질의 결과 크기를 계산하는 것이 필수적이다. 그러나 공간 데이터베이스의 크기는 매우 방대하여 질의 결과 크기를 계산하는데 비용이 많이 든다. 이러한 문제를 해결하기 위해서는 실제 공간 데이터의 분포와 특성에 근접하도록 공간 데이터의 분포를 요약하여 이를 토대로 질의 결과 크기를 추정하는 것이 효과적이라 할 수 있다. 공간 분할 방법에는 균등분할 방법과 비균등 분할 방법이 있으면, 본 논문에서 제안한 방법은 1차원 데이터에 대한 선택률 추정기법 중에서 그 성능이 가장 우수하다고 평가된 바 있는 최대 면적 차이 분말을 공간 데이터베이스에 적용하여 공간 분할하는 것이다. 공간 데이터베이스에서 선택을 추정 방법은 공간 분할 방법에 따라 성능상의 차이가 있으며 본 논문은 기존의 방법과 제안한 방법을 실험을 통하여 선택률 추정의 정확성을 비교, 평가하여 제안한 방법이 우수함을 보였다.

  • PDF

Approximate Aggregation and Effective Error Estimation using Histogram (히스토그램을 이용한 근사적 집단 연산과 효과적인 오차 추정)

  • 안성준;배진욱;심마로;이석호
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1999.10a
    • /
    • pp.18-20
    • /
    • 1999
  • 히스토그램은 데이터베이스 질의 최적기가 사용하는 통게정보 중의 하나이다. 최근에는 데이터베이스의 크기가 기하급수적으로 커짐에 따라, 데이터의 전체적인 성향을 빠르게 파악할 수 있는 방법의 하나로 히스토그램으로 활용하는 방안이 고려되고 있다. 그를 위해서, 히스토그램에서 얻어진 근사값의 오차를 추정할 수 있는 방법이 요구되었다. 기존의 기법에서는 히스토그램의 각 버켓에 실제 빈도와 평균 빈도의 최대차를 추가하고, 이 값을 이용하여 오차추정을 하였다. 그러나, 이 값이 히스토그램 버켓의 전체적인 데이터 분포를 잘 반영하지 못하기 때문에 실제 오차에 근접한 오차 추정을 할 수가 없는 단점이 있었다. 본 논문에서는 이를 극복하기 위해, 히스토그램에 데이터의 분포를 잘 반영하는 정보 즉, 평균값, COUNT/SUM 연산에 대한 최대 오차를 추가하였다. 이 정보들을 이용하여 실제 오차에 보다 근접한 오차 추정을 할 수 있었으며, 부가적으로 SUM/AVG 연산에 대한 보다 정확한 근사값을 얻을 수 있었다.

  • PDF

Spatial Partitioning using filbert Space Filling Curve for Spatial Query Optimization (공간 질의 최적화를 위한 힐버트 공간 순서화에 따른 공간 분할)

  • Whang, Whan-Kyu;Kim, Hyun-Guk
    • The KIPS Transactions:PartD
    • /
    • v.11D no.1
    • /
    • pp.23-30
    • /
    • 2004
  • In order to approximate the spatial query result size we partition the input rectangles into subsets and estimate the query result size based on the partitioned spatial area. In this paper we examine query result size estimation in skewed data. We examine the existing spatial partitioning techniques such as equi-area and equi-count partitioning, which are analogous to the equi-width and equi-height histograms used in relational databases, and examine the other partitioning techniques based on spatial indexing. In this paper we propose a new spatial partitioning technique based on the Hilbert space filling curve. We present a detailed experimental evaluation comparing the proposed technique and the existing techniques using synthetic as well as real-life datasets. The experiments showed that the proposed partitioning technique based on the Hilbert space filling curve achieves better query result size estimation than the existing techniques for space query size, bucket numbers, skewed data, and spatial data size.

Data Communication Prediction Model in Multiprocessors based on Robust Estimation (로버스트 추정을 이용한 다중 프로세서에서의 데이터 통신 예측 모델)

  • Jun Janghwan;Lee Kangwoo
    • The KIPS Transactions:PartA
    • /
    • v.12A no.3 s.93
    • /
    • pp.243-252
    • /
    • 2005
  • This paper introduces a noble modeling technique to build data communication prediction models in multiprocessors, using Least-Squares and Robust Estimation methods. A set of sample communication rates are collected by using a few small input data sets into workload programs. By applying estimation methods to these samples, we can build analytic models that precisely estimate communication rates for huge input data sets. The primary advantage is that, since the models depend only on data set size not on the specifications of target systems or workloads, they can be utilized to various systems and applications. In addition, the fact that the algorithmic behavioral characteristics of workloads are reflected into the models entitles them to model diverse other performance metrics. In this paper, we built models for cache miss rates which are the main causes of data communication in shared memory multiprocessor systems. The results present excellent prediction error rates; below $1\%$ for five cases out of 12, and about $3\%$ for the rest cases.

Count-Min HyperLogLog : Cardinality Estimation Algorithm for Big Network Data (Count-Min HyperLogLog : 네트워크 빅데이터를 위한 카디널리티 추정 알고리즘)

  • Sinjung Kang;DaeHun Nyang
    • Journal of the Korea Institute of Information Security & Cryptology
    • /
    • v.33 no.3
    • /
    • pp.427-435
    • /
    • 2023
  • Cardinality estimation is used in wide range of applications and a fundamental problem processing a large range of data. While the internet moves into the era of big data, the function addressing cardinality estimation use only on-chip cache memory. To use memory efficiently, there have been various methods proposed. However, because of the noises between estimator, which is data structure per flow, loss of accuracy occurs in these algorithms. In this paper, we focus on minimizing noises. We propose multiple data structure that each estimator has the number of estimated value as many as the number of structures and choose the minimum value, which is one with minimum noises, We discover that the proposed algorithm achieves better performance than the best existing work using the same tight memory, such as 1 bit per flow, through experiment.

A study for Estimation of Sound Source location using 256 Channel Microphone (256채널 마이크로폰을 사용한 음원 위치 추정에 관한 연구)

  • 송성근
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.06e
    • /
    • pp.185-188
    • /
    • 1998
  • 본 연구에서는 256(16$\times$16)개의 마이크로폰 정방형 배열에 의한 음향 홀로그래피 시스템을 제작하고, FFT에 의한 음향 홀로그래피법 알고리즘을 이용한 음원 위치 추정에 관하여 기술한다. 본 연구에서 설계한 측정 시스템은 방사된 음들을 동시 수음함으로서 실시간 데이터 처리가 가능하다. 또한 환경 잡음이 존재하는 실음장에서도 계측시간을 단축함과 동시에 고분해능으로 안정하게 음원의 위치를 추정할 수 있다. 본 연구의 타당성을 검증하기 위해 SYSNOISE에 의한 음장해석과 음향 홀로그래피 알고리즘을 이용하여 마이크로폰 간격 및 측정면 크기, 측정거리의 최적 조건을 구한 후 실음장 측정 실험에 적용하였다. 수치 시뮬레이션과 무향실에서 실험 데이터에 의해 음원 위치를 추정한 결과 유사한 결과를 얻었다.

  • PDF

강우량 추정에서 유전자 알고리즘을 활용한 크리깅 방법의 적용

  • Ryu, Je-Seon;Park, Yeong-Seon;Cha, Gyeong-Jun
    • Proceedings of the Korean Statistical Society Conference
    • /
    • 2003.10a
    • /
    • pp.295-300
    • /
    • 2003
  • 공간적으로 영향을 받는 위치에서의 상호 연관성을 고려한 예측모형 중에서 크리깅 (kriging) 방법은 관측된 데이터를 보간(interpolation)하고, 부드럽게 연결(smoothing)하며, 새로운 데이터를 예측(prediction)하는 통계적 모형으로서 많이 활용되고 있다. 크리깅 모형을 적용하기 위해서는 먼저 주어진 두 위치에서의 비연관성을 나타내는 세미베리오그램 (semivariogram)의 3가지 모수(nugget, sill, range)를 추정해야 한다. 본 연구에서는 전역 적 최적화 방법인 유전자 알고리즘(genetic algorithm)을 도입하여 세미베리오그램 모수들을 추정하였고, 이를 통해 강우량(rainfall)에 대한 크리깅 추정량을 산출하고 효과성을 판단하였다.

  • PDF

선물의 수익률과 변동성에 대한 장기기억 효과 분석

  • Lee, Jeong-Hyeong
    • 한국데이터정보과학회:학술대회논문집
    • /
    • 2004.04a
    • /
    • pp.103-110
    • /
    • 2004
  • 본 논문에서 한국선물시장의 변동성과 수익률에 대한 장기기억의 경험적 근거를 보이기 위해 일별 수익률과 변동성에 대하여 장기기억성의 추정과 검정을 실시하였다. Geweke and Porter-Hudak(1983)의 반비모수적 추정법을 이용하여 장기기억모수를 추정하였으며 추정결과 수익률은 장기기억효과가 없었으며, 변동성에서 장기기억효과가 유의한 것으로 나타났다.

  • PDF

Spectral Estimation of Nonstationary Signals Using RLS Algorithm with a Variable Forgetting Factor (시변 망각 인자를 갖는 RLS 알고리즘을 이용한 Nonstationary 신호의 스펙트럼 추정)

  • 조용수
    • The Journal of the Acoustical Society of Korea
    • /
    • v.12 no.1E
    • /
    • pp.56-64
    • /
    • 1993
  • 본 논문은 공간적으로 변하는 스펙트럼을 추정하는 새로운 적응 방법을 제안한다. 제안한 방법에서는 오래된 upstream의 데이터를 망각함으로서 신호의 nonstationarity를 고려해주는 시변망각인자의 개념을 recursive least square(RLS) 알고리즘에 도입하였으며, 관심이 있는 공간영역에서 탐사침을 천천히 움직여 얻은 하나의 데이터 군으로부터 downstream 스펙트럼을 추정하였다. 제시한 방법의 실현 가능성은 실제 실험(wind tunnel 이용)을 통해서 얻은 공간적으로 변하는 nonstatonary 신호의 스펙트럼을 추정하는 과정에서 입증되며 또한 기존의 방법들과 비교함으로서 그 우수성을 보인다.

  • PDF

Stride Length Estimation Using LSTM-Attention (LSTM-Attention을 이용한 보폭 추정)

  • Tae, Min-Woo;Kang, Kyung-Hoon;Choi, Sang-Il
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2022.07a
    • /
    • pp.331-332
    • /
    • 2022
  • 본 논문에서는 3축 가속도와 3축 각속도 센서로 구성된 관성 측정 장치(IMU)와 압력센서가 내장되어있는 스마트 인솔을 착용하여 얻어진 보행 데이터를 통해 보폭을 추정하는 방법을 제안한다. 먼저 압력센서를 활용하여 한 걸음 주기로 나눈 뒤 나누어진 가속도와 각속도 센서 데이터를 LSTM과 Attention 계층을 결합한 딥러닝 모델에 학습하여 보폭 추정을 시행하였다. LSTM-Attention 모델은 기존 LSTM 모델보다 약 1.14%의 성능 향상을 보였다.

  • PDF