• 제목/요약/키워드: Outlier Detection 방법론

검색결과 9건 처리시간 0.019초

다변량 장기 종속 시계열에서의 이상점 탐지 (Outlier detection for multivariate long memory processes)

  • 김경희;유승연;백창룡
    • 응용통계연구
    • /
    • 제35권3호
    • /
    • pp.395-406
    • /
    • 2022
  • 본 논문에서는 장기 종속 다변량 시계열 자료에 대한 이상점 탐지 기법을 연구한다. 기존 다변량 시계열 이상점 탐지 방법은 단기 종속 시계열 모형인 VARMA에 기반한 방법으로, 장기억성을 띈 다변량 시계열 자료에는 적합하지 않다. 자기회귀 모형을 통해서 장기 종속성, 즉 장기억성을 고려하기 위해서는 높은 차수의 모형이 필요하고, 이는 곧 추정의 불안성으로 이어지기에 장기억성을 효율적으로 다룰 수 없기 때문이다. 따라서, 본 논문은 이러한 문제를 보완하고자 VHAR 구조에 기반한 이상점 탐지 방법을 제시하고자 한다. 또한 더욱 정확한 추론을 위해서 로버스트한 방법을 이용하여 VHAR 계수를 추정하였고 이를 활용하여 이상점을 탐지하였다. 모의실험 결과 우리가 제안한 방법론이 기존 VARMA에 기반한 방법론보다 이상점 탐지에 더 효과적임을 살펴볼 수 있었다. 주가지수에 대한 실증자료 분석에서도 기존의 방법론은 탐지하지 못하는 추가 이상점을 찾음을 확인할 수 있었다.

고차원 자료의 비지도 부분공간 이상치 탐지기법에 대한 요약 연구 (A survey on unsupervised subspace outlier detection methods for high dimensional data)

  • 안재형;권성훈
    • 응용통계연구
    • /
    • 제34권3호
    • /
    • pp.507-521
    • /
    • 2021
  • 고차원 자료에서 이상치를 탐지하기 위해서는 변수를 선별해야 할 필요성이 있다. 이상치 탐지에 적합한 정보가 종종 일부 변수에만 포함되어 있기 때문이다. 많은 수의 부적합한 변수가 자료에 포함될 경우 모든 관측치의 거리가 비슷해지는 집중효과가 발생하고 이로 인해 모든 관측치의 이상정도가 비슷해지는 문제가 발생하게 된다. 부분공간 이상치 탐지기법은 전체 변수 중 이상치 탐지에 적합한 변수들의 집합을 선별하여 관측치의 이상정도를 측정함으로써 이러한 문제를 극복한다. 본 논문은 대표적인 부분공간 이상치 탐지기법을 부분공간 선정 방식에 따라 세가지 유형으로 분류하고 각 유형에 속한 방법론을 부분공간 선정 기준과 이상 정도 측정 방식에 따라 요약한다. 더하여, 부분공간 이상치 탐지기법들을 적용할 수 있는 컴퓨팅 프로그램을 소개하고 집중효과에 대한 간단한 가상 실험과 자료 분석 결과를 제시한다.

데이터 마이닝을 이용한 고혈압환자의 당뇨질환 동반에 관한 데이터 질 관리 알고리즘 개발 (Developing data quality management algorithm for Hypertension Patients accompanied with Diabetes Mellitus By Data Mining)

  • 황규연;이은숙;김고원;홍성옥;박정선;곽미숙;이예진;임채혁;박태현;박종호;강성홍
    • 디지털융복합연구
    • /
    • 제14권7호
    • /
    • pp.309-319
    • /
    • 2016
  • 보건의료데이터의 질적 수준을 향상시키기 위해서는 데이터 질 관리 알고리즘을 개발할 필요성이 있다. 이에 본 연구에서는 질환의 유병률, 입원율이 높은 고혈압 환자의 당뇨질환 동반에 관련된 데이터 질 관리 알고리즘을 개발하고자 하였다. 이를 위해 2011년, 2012년 퇴원손상심층조사 자료 중 고혈압 환자 61,199건을 추출하여 분석대상으로 하였다. 데이터 마이닝의 대화식 의사결정나무 방법과 Outlier Detection 방법론을 통해 데이터 질 관리 알고리즘 개발한 결과 고혈압 환자가 당뇨병을 동반상병으로 가지는데 영향을 미치는 요인으로는 성별, 연령, 당뇨병성 사구체 장애, 당뇨병성 망막병증, 당병성 다발성 신경병증 등이 있었다. 의사결정나무 결과에 따라 당뇨병을 동반상병으로 가질 확률 값이 80% 이상이거나, 20% 이하인 집단을 Outlier(극단치)로 정의하고, 고혈압 환자의 당뇨 동반에 대한 극단치를 가지는 6개 집단을 발견하였다. 이와 같이 Outlier(극단치) 집단에 포함되는 실제 데이터를 확인하여 데이터의 질적 수준을 향상 시킬 필요가 있다.

LOF를 이용한 ICA 기반 통계적 공정관리의 성능 개선 방법론 (The Use of Local Outlier Factor(LOF) for Improving Performance of Independent Component Analysis(ICA) based Statistical Process Control(SPC))

  • 이재신;강복영;강석호
    • 한국경영과학회지
    • /
    • 제36권1호
    • /
    • pp.39-55
    • /
    • 2011
  • Process monitoring has been emphasized for the monitoring of complex system such as chemical processing industries to achieve the efficiency enhancement, quality management, safety improvement. Recently, ICA (Independent Component Analysis) based MSPC (Multivariate Statistical Process Control) was widely used in process monitoring approaches. Moreover, DICA (Dynamic ICA) has been introduced to consider the system dynamics. However, the existing approaches show the limitation that their performances are strongly dependent on the statistical distributions of control variables. To improve the limitation, we propose a novel approach for process monitoring by integrating DICA and LOF (Local Outlier Factor). In this paper, we aim to improve the fault detection rate with the proposed method. LOF detects local outliers by using density of surrounding space so that its performance is regardless of data distribution. Therefore, the proposed method not only can consider the system dynamics but can also assure robust performance regardless of the statistical distributions of control variables. Comparison experiments were conducted on the widely used benchmark dataset, Tennessee Eastman process (TE process), and showed the improved performance than existing approaches.

실시간 비즈니스 프로세스 모니터링 방법론을 위한 확장 KNN 대체 기반 LOF 예측 알고리즘 (Extended KNN Imputation Based LOF Prediction Algorithm for Real-time Business Process Monitoring Method)

  • 강복영;김동수;강석호
    • 한국전자거래학회지
    • /
    • 제15권4호
    • /
    • pp.303-317
    • /
    • 2010
  • 본 논문에서는 KNN 대체와 LOF 알고리즘의 결합 모델을 확장하여 실시간 비즈니스 프로세스 모니터링을 위한 비정상 종료 예측 방법론을 제안하였다. 기존의 룰 기반 모니터링 방법론은 실시간 프로세스 진행 정도에 따른 비관측 정보에 기인하여 조기 경보 및 실시간 대응이 힘들다는 한계점을 안고 있다. 이를 해결하기 위하여 비관측 정보에 대한 가정 및 진행 중인 프로세스의 향후 경로 예측을 통해 종료 시점에서 예상되는 LOF를 추정하기 위한 알고리즘을 제안하였다. 이 알고리즘을 적용하여 실시간 비즈니스 프로세스 모니터링 과정에서 각 관측 시점마다 종료 시점에서의 결과를 예측함으로써, 전 시점에 걸친 추세를 살펴종료 패턴을 예측할 수 있다. 이를 통해 비즈니스 프로세스의 실시간 진척에 대한 정보를 가시화함으로써 기회 및 위협에 사전에 대응할 수 있게 하여 프로세스 관리 수준의 향상을 기대할 수 있을 것으로 예상된다.

국소가중다항회귀분석을 이용한 이상치제거 및 자료보정기법 개발 (GPS를 이용한 개별차량 주행속도를 중심으로) (Correction of Erroneous Individual Vehicle Speed Data Using Locally Weighted Regression (LWR))

  • 임희섭;오철;박준형;이건우
    • 대한교통학회지
    • /
    • 제27권2호
    • /
    • pp.47-56
    • /
    • 2009
  • 현장에서 수집되는 교통원시자료는 수집장비의 결함 및 주변환경 등에 의해 다양한 이상치가 발생한다. 원시자료의 품질은 추가 가공을 통해 생성되는 교통정보의 신뢰도에 직접적인 영향을 미치는 중요한 요인이다. 실시간으로 수집되는 교통원시자료를 1차 가공하는데 있어서 핵심은 이상치(Outlier)를 검지하고 보정하는 것이라고 할 수 있다. 본 연구에서는 GPS장비를 이용해 얻은 개별차량의 주행속도에서 발생하는 이상치를 제거하고 보정하는 기법을 제안하였다. GPS는 광범위한 교통네트워크상의 차량추적에 용이하게 사용될 수 있는 장점이 있다. 수집된 개별차량의 주행속도에서 이상치를 검지하고 보정하기 위해 국소가중다항회귀분석(LWR: Locally Weighted Regression)을 적용하였다. 또한 국소가중다항회귀분석을 수행하기 위한 파라미터 결정 알고리즘을 개발하여 적용하였다. 개발된 필터링 기법의 성능 평가를 위해 Synthetic Outlier를 생성 및 주입하여 개발된 필터링 기법을 통해 보정시키고 원시자료와 비교 분석 하였고, LWR을 이용한 기법의 상대적 성능 평가를 위해 지수평활화를 이용한 기법과 비교하였다. 평가 결과 LWR기법이 지수평활화를 이용한 기법보다 낮은 오차율을 보여 상대적으로 우수함을 검증하였다. 본 연구에서 제안한 방법론은 교통정보공학 분야의 자료처리 및 정보가공을 위한 도구로서 활용도가 클 것으로 기대된다.

LSTM-AutoEncoder를 활용한 선박 메인엔진의 이상 탐지 및 라벨링 (Outlier Detection and Labeling of Ship Main Engine using LSTM-AutoEncoder)

  • 김도희;한영재;김혜미;강성필;김기훈;배혜림
    • 한국빅데이터학회지
    • /
    • 제7권1호
    • /
    • pp.125-137
    • /
    • 2022
  • 운송 산업은 우리나라의 3면이 바다로 둘러싸여 있는 지리적 요건과 자원 소비량의 대부분을 수입에 의존하는 자원 빈곤 문제로 인해 중요한 산업 중 하나이다. 그 중에서도 해운업의 비중은 운송 산업의 대부분을 차지할 정도로 크며, 해운업에서의 유지보수는 선박의 운영 효율성 개선 및 비용 감소에 있어서도 중요하다. 그러나 현재 선박이 유지보수를 위해 일정기간 주기로 검사가 시행되고, 이에 따라 시간과 비용이 발생하며 원인규명도 제대로 되지 않고 있다. 따라서 본 연구에서는 제안 방법론인 LSTM-AutoEncoder를 활용해 실제 선박 운항 데이터에 대해 시점을 고려하여 선박 고장의 원인이 될 수 있는 이상 탐지를 수행한다. 또한 클러스터링을 통해 군집화를 수행하고 이상치에 대해 요인별로 그룹화를 통해 선박 메인엔진 고장의 잠재 원인을 규명한다. 이는 선박의 다양한 정보에 대해 보다 빠르게 모니터링이 가능하고, 이상 정도를 식별할 수 있다. 또한 현재 선박의 고장 감시시스템에 있어서도 구체화된 경보 점 설정과 고장 진단 체계를 갖추고, 유지보수시점을 찾는 데 도움을 줄 수 있을 것이다.

COVID-19 사례를 통한 도시 내 비정상적 수요 예측을 위한 시계열 모형 파이프라인 개발 연구 (Time Series Modeling Pipeline for Urban Behavioral Demand Prediction under Uncertainty)

  • 진민수;이동우;김영록;이현수
    • 한국ITS학회 논문지
    • /
    • 제22권2호
    • /
    • pp.80-92
    • /
    • 2023
  • 도시에 많은 사람들이 밀집하여 살아가면서 기존에 예측하지 못했던 범죄, 사고, 감염병 등의 비정상 이벤트가 발생은 도시 내 이용자 수요에 영향을 미치게 된다. 이러한 불확실성(uncertainty)이 내포된 정보를 기반으로 도시 내 이용자 수요에 대한 시계열적 예측을 수행한다면 신뢰성 있는 결과 도출이 불가능하다. 특히, 2020년 초 발발한 COVID-19는 비정상적인 이동통행패턴의 변화를 불러 일으키며 시계열 수요예측을 어렵게 만들었기에 이러한 변화를 검지하고 이를 반영하여 정확한 수요를 예측 수행할 수 있는 방법론의 필요성이 대두되고 있다. 이에 본 연구는 COVID-19로 인한 비정상적 이벤트를 자동으로 검지하고 예측하는 모형 파이프라인을 구축하였다. 이는 도시 내 다양한 분야에서의 불규칙적이고 비정상적인 이벤트로 인한 수요변화가 일어나는 상황에 폭넓게 활용될 수 있을 것으로 생각된다.

머신러닝을 활용한 음원 차트와 뉴미디어 데이터를 활용한 K-POP 아이돌 인기 요인 분석 (Analyzing K-POP idol popularity factors using music charts and new media data using machine learning)

  • 최지원;정다연;최강규;임태인;김대훈;정종균;노승민
    • Journal of Platform Technology
    • /
    • 제12권1호
    • /
    • pp.55-66
    • /
    • 2024
  • K-POP 시장은 문화를 넘어 외교, 환경 운동 등 사회 전반에 미치는 영향력이 지대해지고 있다. 이에 따라 아이돌의 성공 요인을 알아내고자 음원, 음반 등 전통적 데이터를 활용하여 머신러닝 기반으로 다양한 논문들이 수행되고 있다. 하지만, 기존의 선행 연구는 최근 아이돌의 인지도에 미치는 인스타그램 릴스, 유튜브 쇼츠, 틱톡, 트위터 등과 같은 뉴미디어 플랫폼의 영향을 반영하지 못했다는 한계점이 있다. 따라서 기존의 연구로는 매일 변화하는 미디어 트렌드를 고려하지 못하여 최근 아이돌 성공 요인의 인과관계를 뚜렷하게 밝히는데 어려움이 있었다. 이러한 문제점을 해결하기 위해, 본 논문은 아이돌 관련 데이터의 수집 시스템과 분석 방법론을 제안한다. 아이돌 데이터의 특이성을 반영한 컨테이너 기반 실시간 데이터 수집 자동화 시스템을 개발해, 아이돌 데이터 수집의 안정성과 확장성을 확보하고 K-Means 클러스터링 기반 이상치 탐지 모델을 통해 성공 아이돌 군집을 비교, 분석한다. 그 결과, 성별, 앨범 발매 시기 후 성공 시점, 뉴미디어와의 연관성 등 성공 아이돌들의 공통점을 파악할 수 있었다. 이를 통해, 최종적으로 각 아이돌별, 앨범 형태별, 컴백 시기에 따른 최적 컴백 프로모션을 기획해 아이돌의 성공 가능성을 증진할 수 있을 것으로 기대한다.

  • PDF