• 제목/요약/키워드: Kernel Density Estimate

검색결과 35건 처리시간 0.025초

다양한 대역폭 선택법에 따른 커널밀도추정의 비교 연구 (Comparison Study of Kernel Density Estimation according to Various Bandwidth Selectors)

  • 강영진;노유정
    • 한국전산구조공학회논문집
    • /
    • 제32권3호
    • /
    • pp.173-181
    • /
    • 2019
  • 제한된 실험 데이터로부터 확률분포함수를 추정하기 위해서 KDE가 많이 사용되고 있다. KDE에 의한 분포함수는 대역폭 선택법에 따라서 실험 데이터에 대해 평활하거나 과대적합된 커널 추정치를 생성한다. 본 연구에서는 Silverman's rule of thumb, rule using adaptive estimate, oversmoothing rule을 사용해서 각 방법에 따른 정확성과 보수적인 성향을 비교하였다. 비교를 위해서 단봉분포와 다봉분포를 가지는 실제 모델을 가정하고 통계적 시뮬레이션을 수행한 다음 다양한 데이터의 개수에 따른 추정된 분포함수의 정확도와 보수성을 비교하였다. 또한, 간단한 신뢰성 예제를 통해 대역폭 선택법에 따른 KDE의 추정된 분포가 신뢰성 해석 결과에 어떻게 영향을 미치는지 확인하였다.

확률밀도함수의 불연속점 추정을 위한 띠폭 선택 (Bandwidth selection for discontinuity point estimation in density)

  • 허집
    • Journal of the Korean Data and Information Science Society
    • /
    • 제23권1호
    • /
    • pp.79-87
    • /
    • 2012
  • Huh (2002)는 확률밀도함수가 하나의 불연속점을 가질 때, 한쪽방향커널함수를 이용하여 확률 밀도함수의 오른쪽과 왼쪽 커널추정량을 제시하여 그 차를 최대로 하는 점을 불연속점의 위치추정량으로 제안하였다. 커널추정량의 평활모수인 띠폭의 선택의 중요함은 익히 알려져 있다. 최대가능도 교차타당성은 확률밀도함수의 커널추정량에서 띠폭 선택의 기준으로 널리 쓰여지고 있다. 본 연구에서는 한쪽방향커널함수를 이용한 확률밀도함수의 오른쪽과 왼쪽 커널추정량들의 띠폭의 선택 방법을 Hart와 Yi (1998)의 한쪽방향교차타당성의 방법론을 최대가능도교차타당성에 적용하여 제안하고자 한다. 소표본 모의실험을 통하여 연구결과를 제시하고자 한다.

Problems Occurred with Histogram and a Resolution

  • Park, Byeong Uk;Park, Hong Nae;Song, Moon Sup;Song, Jae Kee
    • 품질경영학회지
    • /
    • 제18권2호
    • /
    • pp.127-133
    • /
    • 1990
  • In this article, several problems inherent in histogram estimate of unknown probability density function are discussed. Those include so called sharp comers and bin edge effect. A resolution for these problems occurred with histogram is discussed. The resulting estimate is called kernel density estimate which is most widely used by data analysts. One of the most recent and reliable data-based choices of scale factor (bandwidth) of the estimate, which has been known to be most crucial, is also discussed.

  • PDF

독립성분분석에서 Convolution-FFT을 이용한 효율적인 점수함수의 생성 알고리즘 (An Algorithm of Score Function Generation using Convolution-FFT in Independent Component Analysis)

  • 김웅명;이현수
    • 정보처리학회논문지B
    • /
    • 제13B권1호
    • /
    • pp.27-34
    • /
    • 2006
  • 본 연구에서는 엔트로피를 이용한 독립성분분석(ICA : Independent Component Analysis)에서 점수함수(score function)를 생성하는 알고리즘을 제안한다. 점수함수를 생성하기 위해서 원 신호(original signals)에 대한 확률밀도함수의 추정이 반드시 필요하고 밀도함수가 미분 가능해야 한다. 따라서 원 신호에 따른 적응적인 점수 함수를 유도할 수 있도록 커널 기반의 밀도추정(kernel density estimation)방법을 사용하였으며, 보다 빠른 밀도 추정 계산을 위해서 식의 형태를 컨볼루션(convolution) 변환 한 후, 컨볼루션을 빠르게 계산할 수 있는 FFT(Fast Fourier Transform) 알고리즘을 이용하였다. 제안한 점수함수 생성 방법은 원 신호에 확률밀도분포와 추정된 신호의 확률밀도 분포의 오차를 줄이는 역할을 한다 실험 결과, 암묵신호분리(blind source separation)문제에서 기존의 Extended Infomax 알고리즘과 Fixed Point ICA 보다 원 신호와 유사한 밀도함수를 추정하였고, 분리된 신호의 신호대잡음비등(SNR)에 있어서 향상된 성능을 얻을 수 있었다.

커널 밀도 추정을 이용한 Fuzzy C-Means의 초기화 (Initialization of Fuzzy C-Means Using Kernel Density Estimation)

  • 허경용;김광백
    • 한국정보통신학회논문지
    • /
    • 제15권8호
    • /
    • pp.1659-1664
    • /
    • 2011
  • Fuzzy C-Means (FCM)는 군집화를 위해 널리 사용되는 알고리듬 중 하나로 다양한 응용 분야에서 성공적으로 사용되어 왔다. 하지만 FCM은 여러 가지 단점을 가지고 있으며 초기 원형 설정이 그 중 하나이다. FCM은 국부 최적해에 수렴하므로 초기 원형 설정에 따라 군집화의 결과가 달라진다. 따라서 초기 원형의 설정은 군집화 결과 향상을 위해 중요하다. 이 논문에서는 이러한 FCM의 초기 원형 설정 문제를 해결하는 방안으로 커널 밀도 추정을 활용하는 방법을 제안한다. 커널 밀도 추정은 비모수적 분포들에도 사용할 수 있어 국부적인 데이터 밀도 추정에 유용하다. 제안한 방법에서는 커널 밀도 추정을 수행한 후 밀도가 높은 지역에 클러스터의 초기 원형을 설정하고 원형이 설정된 영역의 밀도를 감소시키는 과정을 반복함으로써 효율적으로 초기 원형을 선택할 수 있다. 제안된 방법이 일반적으로 사용되는 무작위 초기화 방법에 비해 효율적이라는 사실은 실험 결과를 통해 확인할 수 있다.

GIS 기반의 상권분석 모형 연구 - Huff 확률모형을 중심으로 - (A Study on the Trade Area Analysis Model based on GIS - A Case of Huff probability model -)

  • 손영기;안상현;신영철
    • 한국지리정보학회지
    • /
    • 제10권2호
    • /
    • pp.164-171
    • /
    • 2007
  • 본 연구는 GIS공간분석기법과 Huff의 확률모형을 이용하여 근린생활권중심의 상권분석을 수행하였다. 연구에 사용된 기본도는 청주시 복대동을 대상으로 하여 업종, 세대수 등을 현장 조사하여 구축하였으며, 기 구축된 LMIS에 있는 연속지적도를 활용하였다. 분석에서는 커널밀도함수(Kernel Density Function)와 최근린지수(Nearest Neighbor Index)를 활용하여 근린생활권내 점포분포 중심권역을 설정하였다. 상권분석을 수행하기 위하여 설정된 중심권역에 따라 중심지(점)와 규모를 산출한 후 상권분석의 모형인 Huff 확률모형에 적용하여 중심권역별 상권을 추출하였으며, 추출된 상권을 지도로 도식하였다. 따라서 본 연구에서는 GIS 공간분석기법 중 커널밀도함수와 최근린지수를 통해 Huff 확률모형에 적용할 수 있는 방법을 제시하였다. 이러한 방법들을 이용함으로써 보다 정확하게 상권분석을 할 수 있으며, 향후 창업하고자 하는 소상공인들에 도움이 될 수 있으리라 사료된다.

  • PDF

비동질성 Markov 모형에 의한 시간강수량 모의 발생과 천이확률을 이용한 강우의 시간분포 유도 (Simulation of Hourly Precipitation using Nonhomogeneous Markov Chain Model and Derivation of Rainfall Mass Curve using Transition Probability)

  • 최병규;오태석;박래건;문영일
    • 한국수자원학회논문집
    • /
    • 제41권3호
    • /
    • pp.265-276
    • /
    • 2008
  • 수공구조물의 설계를 위해서는 충분한 기간의 관측자료가 필요하지만, 우리나라의 수문자료는 대부분 충분한 수의 관측자료를 보유하고 있지 못하는 실정이다. 따라서 본 연구에서는 핵밀도함수를 이용한 비동질성 Markov 모형을 통해 시간강수량 자료를 모의하였다. 첫 번째로 시간강수량 자료에 변동핵밀도함수를 이용하여 천이확률을 산정하였으며, 두 번째로 난수와 천이확률을 통해 강수가 발생하는 시간을 결정하였다. 세 번째로 강수가 발생한 시간의 강수량의 크기를 핵밀도함수를 통해 추정하였다. 분석결과에서 모의된 시간강수량은 관측시간강수량과 비슷한 통계적 특성을 보이고 있는 것으로 나타났다. 또한, 시간강수량의 모의발생을 위하여 산정한 천이확률을 이용해 강수의 무차원시간분포곡선을 유도하였다.

교차타당성을 이용한 확률밀도함수의 불연속점 추정의 띠폭 선택 (Bandwidth selections based on cross-validation for estimation of a discontinuity point in density)

  • 허집
    • Journal of the Korean Data and Information Science Society
    • /
    • 제23권4호
    • /
    • pp.765-775
    • /
    • 2012
  • 교차타당성은 커널추정량의 평활모수인 띠폭의 선택 방법으로 흔히 활용되고 있다. 연속인 확률밀도함수의 커널추정량의 띠폭 선택으로 널리 쓰이는 교차타당성 방법으로는 최대가능도교차타당성과 더불어 최소제곱교차타당성과 편의교차타당성이 있다. 확률밀도함수가 하나의 불연속점을 가질 때, Huh (2012)는 불연속점 추정을 위한 커널추정량의 띠폭 선택으로 최대가능도교차타당성을 이용한 방법을 제시하였다. 본 연구에서는 Huh (2012)에 의해 최대가능도교차타당성으로 제안된 띠폭선택의 방법과 같이 한쪽방향커널함수를 이용한 최소제곱교차타당성과 편의교차타당성으로 띠폭 선택 방법을 제시하고, 이들 띠폭 선택 방법들과 Huh (2012)의 최대가능도교차타당성을 이용한 띠폭 선택 방법을 모의실험을 통하여 비교연구 하고자 한다.

다변량 확률분포함수의 추정을 위한 MKDE-ebd 개발 (Development of MKDE-ebd for Estimation of Multivariate Probabilistic Distribution Functions)

  • 강영진;노유정;임오강
    • 한국전산구조공학회논문집
    • /
    • 제32권1호
    • /
    • pp.55-63
    • /
    • 2019
  • 공학문제에서 많은 확률 변수들은 상관성을 가지고 있고, 입력변수의 상관성은 기계시스템의 통계적 성능 분석 결과에 큰 영향을 미친다. 하지만, 상관 변수들은 결합분포함수를 모델링하기 어렵다는 이유로 종종 독립변수로 취급되거나 특정한 모수적 모델로 표현되는 경우가 많으며, 특히 데이터가 적은 경우 결합분포함수를 정확히 모델링하는데 더 큰 어려움이 있다. 본 연구에서 개발된 경계데이터를 이용한 다변량 커널밀도추정은 비선형성을 갖는 다양한 형태의 다변량 확률 분포 추정을 위해 개발되었다. 다변량 커널밀도추정은 주어진 데이터와 균등분포함수의 파라미터의 신뢰구간으로부터 생성된 경계데이터를 결합하여 데이터의 질과 수에 덜 민감하다. 따라서 제안된 방법은 보수적인 통계모델링과 신뢰성 해석 결과를 도출할 수 있으며, 통계시뮬레이션과 공학예제를 통해 그 성능을 검증하였다.

Stochastic simulation models with non-parametric approaches: Case study for the Colorado River basin

  • 이태삼;호세 살라스;제임스 프레리;도널드 프리버트;테리 플립
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2010년도 학술발표회
    • /
    • pp.283-287
    • /
    • 2010
  • Stochastic simulation of hydrologic data has been widely developed for several decades. However, despite the several advances made in literature still a number of limitations and problems remain. In the current study, some stochastic simulation approaches tackling some of the existing problems are discussed. The presented models are based on nonparametric techniques such as block bootstrapping, and K-nearest neighbor resampling (KNNR), and kernel density estimate (KDE). Three different types of the presented stochastic simulation models are (1) Pilot Gamma Kernel estimate with KNNR (a single site case) and (2) Enhanced Nonparametric Disaggregation with Genetic Algorithm (a disaggregation case). We applied these models to one of the most challenging and critical river basins in USA, the Colorado River. These models are embedded into the hydrological software package, Pros and cons of the models compared with existing models are presented through basic statistics and drought and storage-related statistics.

  • PDF