• 제목/요약/키워드: 다변량 이상점

검색결과 58건 처리시간 0.022초

다변량 장기 종속 시계열에서의 이상점 탐지 (Outlier detection for multivariate long memory processes)

  • 김경희;유승연;백창룡
    • 응용통계연구
    • /
    • 제35권3호
    • /
    • pp.395-406
    • /
    • 2022
  • 본 논문에서는 장기 종속 다변량 시계열 자료에 대한 이상점 탐지 기법을 연구한다. 기존 다변량 시계열 이상점 탐지 방법은 단기 종속 시계열 모형인 VARMA에 기반한 방법으로, 장기억성을 띈 다변량 시계열 자료에는 적합하지 않다. 자기회귀 모형을 통해서 장기 종속성, 즉 장기억성을 고려하기 위해서는 높은 차수의 모형이 필요하고, 이는 곧 추정의 불안성으로 이어지기에 장기억성을 효율적으로 다룰 수 없기 때문이다. 따라서, 본 논문은 이러한 문제를 보완하고자 VHAR 구조에 기반한 이상점 탐지 방법을 제시하고자 한다. 또한 더욱 정확한 추론을 위해서 로버스트한 방법을 이용하여 VHAR 계수를 추정하였고 이를 활용하여 이상점을 탐지하였다. 모의실험 결과 우리가 제안한 방법론이 기존 VARMA에 기반한 방법론보다 이상점 탐지에 더 효과적임을 살펴볼 수 있었다. 주가지수에 대한 실증자료 분석에서도 기존의 방법론은 탐지하지 못하는 추가 이상점을 찾음을 확인할 수 있었다.

CIMS에서 다변량 ARMA 공정제어 (Multivariate Autoregressive Moving Average(ARMA) process Control in Computer Integrated Manufacturing Systems (CIMS))

  • 최성운
    • 산업경영시스템학회지
    • /
    • 제15권26호
    • /
    • pp.181-187
    • /
    • 1992
  • 본 논문은 CIMS에서 적응되는 ARMA 공정제어의 새로운 3단계절차를 제안한다. 첫번째 단계는 다변량 ARMA모델을 식별하여 모수를 추정하고, white noise로 진단된 잔차 series에 대하여 다변량 제어통계량(즉, 다변량 Hotelling T$^2$통계량, 다변량 CUSUM, 다변량 EWHA 통계량, 다변량 MA 통계량)등을 계산한다. 마지막으로 본 논문에서 제안한 8가지 다변량 제어통계량을 상호비교하여 이상점을 발견한다.

  • PDF

이상점을 고려한 다변량 층화 (Multivariate Stratification under Consideration of Outliers)

  • 박진우;윤석훈
    • 응용통계연구
    • /
    • 제21권3호
    • /
    • pp.377-385
    • /
    • 2008
  • 여러 통계작성기관에서 실시하는 대부분의 표본조사들은 하나의 표본을 통해 서로 다른 여러 항목들을 조사하는 다목적조사이다. 다목적표본설계에서 층화변수들은 다변량이고 또한 서로 이질적인 속성을 지니는 관심변수들을 종합적으로 고려해야 하므로 층화는 매우 복잡한 양상을 띤다. 본 연구는 K-평균군집법을 적용한 다변량 층화에서 이상점의 효과를 지적하고, 층화 단계에서 사전에 이상점을 고려할 것을 제안하는 연구이다. 농촌생활지표조사를 위한 표본설계의 사례를 통해 이상점을 고려한 층화의 효과를 실증적으로 보인다.

κ-공간중위 군집방법을 활용한 층화방법 (Stratification Method Using κ-Spatial Medians Clustering)

  • 손순철;전명식
    • 응용통계연구
    • /
    • 제22권4호
    • /
    • pp.677-686
    • /
    • 2009
  • 표본조사에서 널리 쓰이는 모집단의 층화는 추정의 효율을 높이는 방법 중의 하나지만, 이상점을 포함하는 변수가 있는 경우에 여러 가지 문제점을 유발시킬 수 있다. 특히, 이상점이 존재하는 다변량 자료의 경우, 층화를 위한 $\kappa$-평균 군집방법은 이상점에 매우 민감하여 추정의 효율을 떨어뜨릴 수 있다. 본 연구에서는 이상점이 존재하는 다변량 자료의 층화를 위해 $\kappa$-평균 군집방법보다 강건하며 이상점을 따로 식별하는 과정이 배제된 $\kappa$-공간중위수 군집방법을 제안한다. 기존 관련연구인 박진우와 윤석훈 (2008)과 동일한 자료에 대한 사례분석을 통해 층화과정들을 비교, 검토하였으며 이들의 효율성을 추정량의 분산을 통해 비교하였다.

장치산업에서 다변량 EWMA 공정제어와 통계적 공정감시 (Multivariate Exponentially Weighted Moving Average(EWMA) Process Control and Statistical Process Monitoring in the Process Industry)

  • 김복만;최성운
    • 산업경영시스템학회지
    • /
    • 제15권26호
    • /
    • pp.119-124
    • /
    • 1992
  • 본 논문은 장치산업에서 적용되는 다변량 EWMA 공정제어와 통계적 공정감시 통합시스템을 제안한다. 본 논문에서 제안한 통합시스템은 자동공정제어(APC)의 예측, 조정기능과 통계적 정정감시(SPM)의 이상점 발견 및 제거등의 각각의 장점을 이용하였다. 기존의 다변량 EWMA연구는 데이타간의 독립성을 가정하였으나 본 논문은 데이타간의 종속적인 형태인 IMA(1,1)모델을 대상으로 하였다.

  • PDF

다변량 공정 모니터링에서 이상신호 발생시 원인 식별에 관한 연구 (Notes on identifying source of out-of-control signals in phase II multivariate process monitoring)

  • 이성임
    • 응용통계연구
    • /
    • 제31권1호
    • /
    • pp.1-11
    • /
    • 2018
  • 최근 다변량 공정관리는 다양한 응용 분야에서 중요해지고 있는 추세이다. 예를 들어, 제조 산업 분야에서는 다변량 품질특성치를 동시에 모니터링할 필요가 있다. 그러나, 다변량 관리도는 이상신호가 발생한 경우 그 원인이 되는 개별적인 변수를 식별하기가 어렵기 때문에, 실제로는 기대만큼 유용하게 쓰이고 있지 않은 형편이다. 이에 본 논문에서는 새로운 관측치에 대한 개별적인 신뢰구간을 사용하여 이상신호의 원인을 탐지하는 세 가지 방법을 소개하고, 시뮬레이션 연구를 통해 이상신호의 원인이 되는 개별적인 변수를 식별하고 해석하는 데 있어 주의할 점이 무엇인지 살펴보기로 한다.

2000년 미국대선 플로리다주의 투표결과 분석 (Statistical Outliers in Florida Counties at the Presidential Election 2000)

  • 김현철
    • 응용통계연구
    • /
    • 제15권1호
    • /
    • pp.21-32
    • /
    • 2002
  • We searched out in the votes data of the State of Florida at presidential election 2000. We used a multivariate regression analysis. We got there were several outliers including Palm Beach County. It means that we should analyze the number of disqualified ballots which were double-punched as well as the votes, to insist the " Butterfly Ballot" made Palm Beach outlier.

다변량 시계열 이상 탐지 과업에서 비지도 학습 모델의 성능 비교 (A Survey on Unsupervised Anomaly Detection for Multivariate Time Series)

  • 임주완;이재구
    • 정보보호학회논문지
    • /
    • 제33권1호
    • /
    • pp.1-12
    • /
    • 2023
  • 다변량 시계열 이상 탐지 과업에서 정답 값이 존재하는 데이터를 얻는 것은 매우 시간 집약적인 일이다. 따라서 최근 정답 값이 필요 없는 비지도 학습법(unsupervised learning)에 관한 많은 연구가 진행되었다. 하지만 다변량 시계열 이상 탐지 과업에 특화된 주요 구조와 세부적인 특성에 대한 심화 있는 논의는 이루어지지 않았다. 본 논문에서는 비지도 학습 기반의 다변량 시계열 이상 탐지 모델과 특장점을 포괄적으로 분석하여 분류하였다. 전력 계통(power grid) 또는 Cyber Physical System(CPS)과 같은 현실 세계 데이터 집합에서 현실적인 이상 상황을 고려하여 학습을 진행하였고, 실험 결과를 바탕으로 각 모델의 정량적 성능을 비교 분석하였다. 성능 지표로는 정밀도(precision), 재현율(recall)과 F1 점수를 사용하여 성능을 측정하였다.

Copula 함수 기반의 이변량 가뭄빈도 해석 (Bivariate drought frequency analysis using copula function)

  • 이정주;김하영;권문혁;권현한
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2022년도 학술발표회
    • /
    • pp.309-309
    • /
    • 2022
  • 특정 극치사상 자료에 대한 특성 분석 시 수문자료에 대한 빈도해석은 일반적으로 단일 확률 변수를 기준으로 이루어지는 단변량 해석 방법이 활용된다. 그러나 두 가지 이상의 변량이 서로 상관성을 가지는 경우 다변량 빈도해석이 요구되며, 이를 단변량으로 해석하는 경우 재현기간의 과소추정 등의 문제점이 발생할 수 있다. 최근 이러한 점을 개선하기 위하여 다변량 빈도해석에 관한 연구가 지속적으로 진행되고 있다(Kwon and Lall, 2016; Vaziri et al., 2018). 특히, 가뭄의 경우, 강도(intensity)뿐만 아니라 지속기간, 심도도 매우 중요한 인자로 고려되고 있다. 특히, 가뭄지속기간과 심도의 경우 두 인자 간의 상관성이 매우 크기 때문에 단변량(univariate) 가뭄빈도해석 보다 다변량으로(multivariate) 가뭄빈도해석을 수행하는 것이 가뭄위험도 평가 측면에서 유리하다고 알려져 있다(Shiau and Shen, 2001; Kim et al., 2017). 따라서 이 둘을 결합한 빈도 해석을 위해 Copula Function을 이용한 다변량 빈도 해석에 관한 연구들이 활발히 진행되고 있다. 홍수의 경우 지속시간별 연최대강수량 계열을 이용한 빈도해석 과정이 지침으로 정립되어 수자원 설계 실무에서 활용되고 있으나, 가뭄은 실무에서 활용할 수 있는 지침 및 분석 도구가 없는 실정이다. 이에 환경부와 국가가뭄정보분석센터에서는 '20년도에 단변량 가뭄빈도 해석을 위한 프로그램을 제작·배포하였다. 본 연구에서는 가뭄의 특성을 대변하는 상관도 높은 두 인자인 가뭄 심도(severity)와 가뭄 지속기간(duration)이라는 두 가지 특성을 함께 고려해 이변량(bivariate) 가뭄 빈도를 해석할 수 있는 도구를 개발하는 것을 목표로, 다양한 확률분포형을 이용한 최적 주변 확률분포형 선정과 최신 Copula Function들을 이용한 최적 결합확률분포 추정을 통해 신뢰도 높은 2변량 가뭄빈도 해석을 수행할 수 있는 프로그램을 제작하였으며, 테스트 버전 배포 등을 거쳐 누구나 사용할 수 있도록 공개할 예정이다.

  • PDF

Subset 샘플링 검증 기법을 활용한 MSCRED 모델 기반 발전소 진동 데이터의 이상 진단 (Anomaly Detection In Real Power Plant Vibration Data by MSCRED Base Model Improved By Subset Sampling Validation)

  • 홍수웅;권장우
    • 융합정보논문지
    • /
    • 제12권1호
    • /
    • pp.31-38
    • /
    • 2022
  • 본 논문은 전문가 독립적 비지도 신경망 학습 기반 다변량 시계열 데이터 분석 모델인 MSCRED(Multi-Scale Convolutional Recurrent Encoder-Decoder)의 실제 현장에서의 적용과 Auto-encoder 기반인 MSCRED 모델의 한계인, 학습 데이터가 오염되지 않아야 된다는 점을 극복하기 위한 학습 데이터 샘플링 기법인 Subset Sampling Validation을 제시한다. 라벨 분류가 되어있는 발전소 장비의 진동 데이터를 이용하여 1) 학습 데이터에 비정상 데이터가 섞여 있는 상황을 재현하고, 이를 학습한 경우 2) 1과 같은 상황에서 Subset Sampling Validation 기법을 통해 학습 데이터에서 비정상 데이터를 제거한 경우의 Anomaly Score를 비교하여 MSCRED와 Subset Sampling Validation 기법을 유효성을 평가한다. 이를 통해 본 논문은 전문가 독립적이며 오류 데이터에 강한 이상 진단 프레임워크를 제시해, 다양한 다변량 시계열 데이터 분야에서의 간결하고 정확한 해결 방법을 제시한다.