• 제목/요약/키워드: Robust Statistics

검색결과 397건 처리시간 0.019초

AR(1) 모형의 모수에 대한 L-추정법 (L-Estimation for the Parameter of the AR(l) Model)

  • 한상문;정병철
    • 응용통계연구
    • /
    • 제18권1호
    • /
    • pp.43-56
    • /
    • 2005
  • 본 연구에서는 AR(1) 과정을 따르는 시계열 모형에서 가산적 이상치(Additive Out-lier)가 존재하는 경우, 1차 자기상관계수에 대한 로버스트 추정방법으로 Rupport 와 Carroll (1980)에 의해 회귀모형에서 제안된 L-추정법 형태의 절사최소제곱추정 (PE 추정)방법을 제안하였다. 더불어 X축의 이상치에 대한 비중강하(down-weight)의 방법으로 Mallows의 가중함수를 고려한 유계영향 절사최소제곱 (bounded influence PE, BIPE)추정량을 제안하였으며 모의 실험을 통하여 각 추정량의 효율성을 비교하였다. 모의실험 결과, 다양한 자료의 오염률상에서 일반화 LAD추정치를 예비 추정치로 고려한 BIPE(LAD)-추정량의 효율이 좋은 것으로 나타났다.

고차원 (유전자 발현) 자료에 대한 군집 타당성분석 기법의 성능 비교 (Comparison of the Cluster Validation Methods for High-dimensional (Gene Expression) Data)

  • 정윤경;백장선
    • 응용통계연구
    • /
    • 제20권1호
    • /
    • pp.167-181
    • /
    • 2007
  • 유전자 발현 자료(gene expression data)는 전형적인 고차원 자료이며, 이를 분석하기 위한 여러 가지 군집 알고리즘(clustering algorithm)과 군집 결과들을 검증하는 군집타당성분석 기법(cluster validation technique)이 제안되고 있지만, 이들 군집 타당성을 분석하는 기법의 성능에 대한 비교, 평가는 매우 드물다. 본 논문에서는 저차원의 모의실험 자료와 실제 유전자 발현 자료에 대하여 군집 타당성분석 기법들의 성능을 비교하였으며, 그 결과 내적 측도에서는 Dunn 지수, Silhouette 지수 순으로 뛰어났고 외적 측도에서는 Jaccard 지수가 성능이 가장 우수한 것으로 평가되었다.

숨은마코프모형을 이용하는 음성 끝점 검출을 위한 이산 특징벡터 (A Discrete Feature Vector for Endpoint Detection of Speech with Hidden Markov Model)

  • 이재기;오창혁
    • 응용통계연구
    • /
    • 제21권6호
    • /
    • pp.959-967
    • /
    • 2008
  • 본 연구의 목적은 숨은마코프모형을 사용하여 음성구간의 끝점을 검출하는 문제에서 소음의 환경에서도 강건하며 계산의 부하가 적은 이산형 특징벡터를 제안하고 이의 성질을 실증적으로 밝히는 것이다. 제시된 특징벡터는 일차원의 소리 신호의 에너지의 변화율을 나타내는 경사도이며 숨은마코프모형과 관련된 계산에서의 부하를 감소하기 위하여 세 개의 값으로 이산화하였다. 여러 소음 수준의 끝점 검출의 실험에서, 제시된 특징벡터가 잡음 환경에서도 강건함을 보였다.

선형모형에서 특정 이상치 후보군에 대한 검정 (A Test on a Specific Set of Outlier Candidates in a Linear Model)

  • 서한손;윤민
    • 응용통계연구
    • /
    • 제27권2호
    • /
    • pp.307-315
    • /
    • 2014
  • 이상치 후보군을 검정할 때 일반적으로 정확한 검정 통계량의 분포가 존재하지 않는다. 이에 따라 전체 관찰치군에 대한 검정대신 개별 관찰치에 대한 검정을 수행하거나 실험에 의해 계산된 유의값을 사용하여 이상치 가설검정을 수행한다. 본 연구에서는 임의의 관찰치 집단 또는 이상치 탐지절차에 따라 이상치 후보로 탐지된 특정 관찰치 집단의 이상치 여부를 검정하는 방법을 제시한다. 제시된 방법은 기존의 이상치 탐지기법에서 사용되는 검정방법과 모의실험을 통해 검정력을 비교한다.

Mallows의 $C_L$ 통계량을 이용한 수문응답 추정 (Hydrologic Response Estimation Using Mallows' $C_L$ Statistics)

  • 성기원;심명필
    • 한국수자원학회논문집
    • /
    • 제32권4호
    • /
    • pp.437-445
    • /
    • 1999
  • 비모수능형회귀분석법을 이용하여 수문응답을 추정하는 방안에 대하여 연구하였다. 응답을 추정하기 위하여 평균제곱예측오차에 대한 추정량인 CL 통계량을 최소화하는 방법을 적용하였으며 가중행렬은 전통적으로 이용도는 단위행렬과 특수한 형태인 행렬인 Laplacian 행렬을 각각 이용하여 비교하였다. 또한 추정응답의 오차분산을 추정하는 방안에 대한 검토도 실행하였다. 합성자료와 실제자료에 대한 분석 결과 가중행렬과 Laplacian 행렬을 오차분산은 편기 수정된 추정치를 이용하는 것이 좋은 결과를 보여 주었다. 본 연구에서 제시된 절차 및 방법은 수문응답 분리에 있어서 안정적이고 효율적으로 적용될 수 있을 것으로 판단된다.

  • PDF

MOSUM 성근 프로젝션을 이용한 고차원 시계열의 변화점 추정 (High-dimensional change point detection using MOSUM-based sparse projection)

  • 김문정;백창룡
    • 응용통계연구
    • /
    • 제35권1호
    • /
    • pp.63-75
    • /
    • 2022
  • 본 논문은 Wang과 Samworth (2018)가 제안한 성근 프로젝션 방법을 개선하여 MOSUM을 이용하여 고차원의 시계열데이터에 존재하는 다중 평균 변화점을 추정하는 방법에 대해서 제안한다. 제안한 방법은 국소방법으로 다중 변화점을 동시에 찾을 수 있어 순차적 오류를 최소화 할 뿐만 아니라 평균이 상쇄되는 경우에도 변화점을 추정하는 장점을 지니고 있다. 또한 데이터 의존적인 방법으로 블록 와일드 붓스트랩 방법을 활용하여 임계점을 찾는 방법을 제안한다. 모의 실험을 통해 제안한 방법이 좋은 성능을 보임을 확인하였으며 S&P 500 지수를 구성하는 개별 기업들의 금융 자료에 적용하여 최근 6년간 네 번의 변화점을 찾았다.

다변량 자료에서 특이점 검출 및 시각화 - R 스크립트 (Detecting outliers in multivariate data and visualization-R scripts)

  • 김성수
    • 응용통계연구
    • /
    • 제31권4호
    • /
    • pp.517-528
    • /
    • 2018
  • 다변량 자료에서 특이점을 검출하고, 검출된 특이점을 시각화와 연결한 R 스크립트를 제공한다. 개발된 R 스크립트는 특이점을 검출하는 방법으로서 1) Robust Mahalanobis distance, 2) High Dimensional data, 3) Density-based approach 방법을 이용하였다. 특이점을 연결하면서 데이터 구조를 파악하기 위한 시각화 방법으로는 1) multidimensional scaling (MDS)와 minimal spanning tree (MST)를 K-means 군집분석과 연결하여 표시하는 방법, 2) MDS를 fviz cluster와 연결하는 방법, 3) principal component analysis (PCA)를 fviz cluster와 연결한 방법을 이용하였다. 사례분석의 예로서는 Major League Baseball (MLB) 자료에서 류현진이 적극적으로 활동하던 2013년, 2014년 투수자료를 이용하였다. 개발된 R 스트립트는 "http://www.knou.ac.kr/~sskim/ddpoutlier.html (R 스크립트와 R 패키지도 다운로드 받을 수 있다. 실행방법도 설명되어 있다.)"에서 다운받으면 된다.

표본 선택 모형을 이용한 국내 여성 임금 데이터 분석 (Korean women wage analysis using selection models)

  • 정미량;김미정
    • Journal of the Korean Data and Information Science Society
    • /
    • 제28권5호
    • /
    • pp.1077-1085
    • /
    • 2017
  • 본 연구에서는 한국노동연구원의 "2015년 한국노동패널조사 (KLIPS)" 자료를 활용하여 국내 여성의 임금 결정요인을 분석하기 한다. 일반적으로 임금 자료는 랜덤 추출이 불가능하기 때문에 분석하기가 쉽지 않다. 표본 선택 편의 (sampling bias)가 있는 자료를 분석하는 방법으로 Heckman 표본 선택 모형이 가장 널리 알려져 있다. Heckman은 크게 두 가지 모형을 제안했는데, 그 중 하나는 최대 우도 방법을 이용하는 것이고, 다른 하나는 2단계 표본 선택 모형이다. 이 중 Heckman 2단계 표본 선택 모형은 주된 결과 모형 (outcome model)과 경제 활동 여부를 결정짓는 선택 모형 (selection model)을 포함한 모형으로써, 이 모형이 최대 우도 방법을 이용한 모형에 비해 이변수 오차의 정규분포 가정에 덜 민감하다고 알려져 있다. 그럼에도 불구하고 이변수 오차에 대한 정규 분포 가정은 꽤 강한 가정이라고 볼 수 있는데, 최근에 이 모형의 단점을 보완하는 모형으로 Marchenko와 Genton (2012)의Heckman 표본 선택 t 모형이 제시되었다. Heckman 2단계 모형과 Heckman 표본 선택 t 모형을 이용하여 국내 여성의 임금 결정 요인을 분석하고 비교하도록 한다.

다변량 자료에서 위치모수에 대한 로버스트 검정 (A Robust Test for Location Parameters in Multivariate Data)

  • 소선하;이동희;정병철
    • 응용통계연구
    • /
    • 제22권6호
    • /
    • pp.1355-1364
    • /
    • 2009
  • 본 논문에서는 다변량 자료의 위치모수에 대한 로버스트 검정 방법으로 유사등변성과 고붕괴성을 만족하는 MVE와 MCD 추정량에 근거한 로버스트 검정방법을 제안하였다. 일반적으로 이들 추정방법은 낮은 효율성으로 인하여 통계적 추론보다는 잠재적 이상치의 발견과 같은 탐색적분석에서 사용된다. 우리는 검정력을 높이기 위하여 MVE와 MCD 추정량에 근거한 일단계 재가중절차를 사용했는데, 가중치 선정과 관련된 임계값을 조절함으로써 현실적으로 사용가능한 높은 효율성과 정확성을 갖춘 검정방법을 제시하였다. 모의실험 결과 본 연구에서 제안한 검정법은 모분포에 관계없이 모두 명목유의수준을 제대로 유지하고 검정력도 높게 나타났으며, 이상치를 포함하고 있는 사례를 이용하여 실제로 모평균에 대한 가설검정을 수행한 결과 기존 방법과는 달리 영향을 받지 않았다.

Robust Person Identification Using Optimal Reliability in Audio-Visual Information Fusion

  • Tariquzzaman, Md.;Kim, Jin-Young;Na, Seung-You;Choi, Seung-Ho
    • The Journal of the Acoustical Society of Korea
    • /
    • 제28권3E호
    • /
    • pp.109-117
    • /
    • 2009
  • Identity recognition in real environment with a reliable mode is a key issue in human computer interaction (HCI). In this paper, we present a robust person identification system considering score-based optimal reliability measure of audio-visual modalities. We propose an extension of the modified reliability function by introducing optimizing parameters for both of audio and visual modalities. For degradation of visual signals, we have applied JPEG compression to test images. In addition, for creating mismatch in between enrollment and test session, acoustic Babble noises and artificial illumination have been added to test audio and visual signals, respectively. Local PCA has been used on both modalities to reduce the dimension of feature vector. We have applied a swarm intelligence algorithm, i.e., particle swarm optimization for optimizing the modified convection function's optimizing parameters. The overall person identification experiments are performed using VidTimit DB. Experimental results show that our proposed optimal reliability measures have effectively enhanced the identification accuracy of 7.73% and 8.18% at different illumination direction to visual signal and consequent Babble noises to audio signal, respectively, in comparison with the best classifier system in the fusion system and maintained the modality reliability statistics in terms of its performance; it thus verified the consistency of the proposed extension.