• 제목/요약/키워드: 이상치탐지

검색결과 148건 처리시간 0.028초

시계열 이상치 탐지 기법을 활용한 경부선 주요도시 철도 승객수의 이상치 탐색 연구 (A Study on the Outliers Detection in the Number of Railway Passengers for the Gyeongbu Line From Seoul to Major Cities Using a Time Series Outlier Detection Technique)

  • 이지선;윤윤진
    • 대한교통학회지
    • /
    • 제35권6호
    • /
    • pp.469-480
    • /
    • 2017
  • 2004년 4월 1일, 국내 최초의 고속철도(HSR)인 KTX (Korea Train eXpress)가 경부선에 도입 되었다. KTX의 등장은 경부선을 이용하는 철도 승객들의 운송수단 선택 및 도시구간별 이용객 수 변화를 가져왔다. KTX의 등장과 같은 개입사건(Intervention events)의 영향은 개입사건 전후 변화를 단순 통계량으로 분석하거나 개입 ARIMA 모델을 통해 분석 되었다. 개입 ARIMA 모델은 개입사건의 발생 시점(t)과 개입사건의 영향 형태(type) 등의 가정이 필요하다는 한계가 있었으며, 본 연구에서는 기존 연구에서의 한계점을 보완할 수 있는 시계열 이상치 탐지(time series outlier detection)를 활용하였다. 일반적으로 개입사건의 발생시기는 잘 알려져 있지 않으므로 시계열 이상치 탐지를 통해 개입사건에의 발생 시기를 추정할 수 있다. 시계열 이상치 탐지기법을 활용하여 개입의 시점과 영향 형태에 관한 가정 없이 개입사건에 대한 영향을 분석할 수 있으며, 발생된 이상치의 시점을 개입사건의 시점, 이상치의 영향을 개입사건의 영향으로 가정하였다. 데이터는 KTDB (Korea Transport Database)로 부터 KTX가 도입되기 이전인 2003년부터 2014년까지 12년 동안의 경부선(4개의 주요 도시구간 합산)을 포함한 주요 도시구간 4개의 월별데이터를 수집하여 활용하였다. 경부선 도시 구간별 이상치를 탐지 하고 그 영향을 분석한 결과, 동일한 개입사건 임에도 그 영향의 형태의 정도가 도시구간마다 다르게 나타나거나 영향이 나타나지 않았으며, 기존 연구에서 분석되지 않은 개입사건을 찾을 수 있었다.

정규화 흐름 기반 시계열 이상 탐지 시스템 연구 (Research on Normalizing Flow-Based Time Series Anomaly Detection System)

  • 전영훈;곽정환
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2023년도 제68차 하계학술대회논문집 31권2호
    • /
    • pp.283-285
    • /
    • 2023
  • 이상 탐지는 데이터에서 일반적인 범주에서 크게 벗어나는 인스턴스 또는 패턴을 식별하는 중요한 작업이다. 본 연구에서는 시계열 데이터의 특징 추출을 위한 비지도 학습 기반 방법과 정규화 흐름의 결합을 통한 이상 탐지 프레임워크를 제안한다. 특징 추출기는 1차원 합성곱 신경망 기반의 오토인코더로 구성되며, 정상적인 시퀀스로만 구성된 훈련 데이터를 압축하고 복원하는 과정을 통해 최적화된다. 추출된 시계열 데이터의 특징 맵은 가능도를 최대화하도록 훈련된 정규화 흐름의 입력으로 사용된다. 이와 같은 방식으로 훈련된 이상 탐지 시스템은 테스트 샘플에 대한 이상치를 계산하며, 최종적으로 임계값과의 비교를 통해 이상 여부를 예측한다. 성능 평가를 위해 시계열 이상 탐지를 위한 공개 데이터셋을 이용하여 공정하게 이상 탐지 성능을 비교하였으며, 실험 결과는 제안하는 정규화 흐름 기법이 시계열 이상 탐지 시스템에 활용될수 있는 잠재성을 시사한다.

  • PDF

대용량 데이터 분석을 위한 맵리듀스 기반의 이상치 탐지 (Outlier Detection Based on MapReduce for Analyzing Big Data)

  • 홍예진;나은희;정용환;김양우
    • 인터넷정보학회논문지
    • /
    • 제18권1호
    • /
    • pp.27-35
    • /
    • 2017
  • 가까운 미래에는 빅데이터의 많은 부분을 IoT 데이터가 차지할 것이라는 전망이 나오고 있다. 그에 따라, IoT 데이터의 많은 부분을 차치하는 센서 데이터에 관한 관심과 연구 또한 활발하게 진행되고 있다. 여러 분야에서 활용되고 있는 센서 데이터는 분석할 때 실제와는 다른 값인 이상치를 포함하게 되면 정확한 분석이 어려우며, 왜곡된 결과가 도출되어 활용할 수 없는 경우가 생긴다. 따라서 본 논문에서는 정확한 결과를 도출하기 위해 수집된 원자료를 분석하기 전에 이상치 탐지 및 제거를 하였다. 또한, 점점 늘어나고 있는 대용량의 데이터를 빠르게 처리하기 위해 메모리 접근방식인 스파크를 사용한 분산처리환경에서 처리하였다. 맵리듀스 기반의 이상치 탐지 및 제거는 총 4단계로 나누어 구현하였으며, 각 단계를 매퍼와 리듀스로 구현하였다. 제안한 기법의 평가를 위해서 3가지 환경에서 비교하였으며, 그 결과 이상치 탐지 및 제거를 하고자 하는 데이터의 용량이 커질수록 스파크를 이용한 분산처리환경에서의 처리가 가장 빠르다는 결과를 얻었다.

모바일 기기에서 이상치 데이터 처리 정책에 따른 배터리 잔여 시간 예측 기법의 평가 (Performance Evaluation of Battery Remaining Time Estimation Methods According to Outlier Data Processing Policies in Mobile Devices)

  • 탁성우
    • 한국정보통신학회논문지
    • /
    • 제26권7호
    • /
    • pp.1078-1090
    • /
    • 2022
  • 모바일 기기 배터리의 잔여 시간 예측은 배터리 잔량별 사용 시간 데이터의 분포 특성에 영향을 받는다. 특히 이상치 데이터가 존재하는 경우, 통계적 회귀 기법의 예측 성능을 왜곡시킬 수 있다. 이에 본 논문에서는 통계적 회귀 기법의 예측 성능 향상을 위해 이상치 데이터를 탐지 및 처리하는 프레임워크를 제안하였다. 제안한 프레임워크는 먼저 배터리 잔여 시간 예측에 영향을 주는 이상치 데이터를 탐지한다. 탐지된 이상치 데이터는 평활 과정을 통해 새로운 값으로 치환된 후, 이상치 데이터와 치환된 데이터 간의 차이를 개별 데이터에 분배한다. 마지막으로 개별 데이터를 재강화하여 예측 성능을 향상시키고자 한다. 제안한 프레임워크의 성능 분석을 수행한 결과, 배터리 잔여 시간의 예측 성능이 향상됨을 확인하였다.

다중 클래스 이상치 탐지를 위한 계층 CNN의 효과적인 클래스 분할 방법 (Effective Classification Method of Hierarchical CNN for Multi-Class Outlier Detection)

  • 김지현;이세영;김예림;안서영;박새롬
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2022년도 제66차 하계학술대회논문집 30권2호
    • /
    • pp.81-84
    • /
    • 2022
  • 제조 산업에서의 이상치 검출은 생산품의 품질과 운영비용을 절감하기 위한 중요한 요소로 최근 딥러닝을 사용하여 자동화되고 있다. 이상치 검출을 위한 딥러닝 기법에는 CNN이 있으며, CNN을 계층적으로 구성할 경우 단일 CNN 모델에 비해 상대적으로 성능의 향상을 보일 수 있다는 것이 많은 선행 연구에서 나타났다. 이에 MVTec-AD 데이터셋을 이용하여 계층 CNN이 다중 클래스 이상치 판별 문제에 대해 효과적인지를 탐구하고자 하였다. 실험 결과 단일 CNN의 정확도는 0.7715, 계층 CNN의 정확도는 0.7838로 다중 클래스 이상치 판별 문제에 있어 계층 CNN 방식 접근이 다중 클래스 이상치 탐지 문제에서 알고리즘의 성능을 향상할 수 있음을 확인할 수 있었다. 계층 CNN은 모델과 파라미터의 개수와 리소스의 사용이 단일 CNN에 비하여 기하급수적으로 증가한다는 단점이 존재한다. 이에 계층 CNN의 장점을 유지하며 사용 리소스를 절약하고자 하였고 K-means, GMM, 계층적 클러스터링 알고리즘을 통해 제작한 새로운 클래스를 이용해 계층 CNN을 구성하여 각각 정확도 0.7930, 0.7891, 0.7936의 결과를 얻을 수 있었다. 이를 통해 Clustering 알고리즘을 사용하여 적절히 물체를 분류할 경우 물체에 따른 개별 상태 판단 모델을 제작하는 것과 비슷하거나 더 좋은 성능을 내며 리소스 사용을 줄일 수 있음을 확인할 수 있었다.

  • PDF

Support Vector Regression을 이용한 이상치 데이터분석 (An Outlier Data Analysis using Support Vector Regression)

  • 전성해
    • 한국지능시스템학회논문지
    • /
    • 제18권6호
    • /
    • pp.876-880
    • /
    • 2008
  • 주어진 데이터에서 대부분의 다른 관측치들에 비해 지나치게 크거나 작은 관측치를 이상치라고 한다. 이상치는 몇 가지 원인에 의해 발생한다. 이상치를 포함한 데이터의 분석결과는 이 값을 포함하지 않은 경우와 크게 달라질 수 있다. 일반적으로 이상치는 탐지를 통하여 찾아내어 제거한 후에 데이터분석을 수행한다. 하지만 사기탐지, 네트워크 침입 등의 데이터 마이닝 분야에서는 이상치가 중요한 정보를 포함하고 있기 때문에 반드시 포함하여 데이터분석을 수행하여야 한다. 본 논문에서 다루는 회귀모형에서는 기존의 단순, 다중 회귀분석은 이상치에 대하여 안정된 모형을 구축하기 어렵기 때문에 표준화 잔차 또는 스튜던트화된 잔차를 이용하여 이상치를 찾아내고 제거한 후의 데이터분석 수행을 추천한다. 본 논문에서는 회귀모형에서 이상치를 포함하여 효과적으로 데이터분석을 수행할 수 있는 한 방법으로 Vapnik이 제안한 통계적 학습이론에 기반한 Support Vector Regression(SVR)을 이용하였다 인공 데이터를 생성한 모의실험 결과 기존의 회귀모형에 비해 SVR의 향상된 결과를 확인할 수 있었다.

선형회귀에서 변수선택, 변수변환과 이상치 탐지의 동시적 수행을 위한 절차 (A procedure for simultaneous variable selection, variable transformation and outlier identification in linear regression)

  • 서한손;윤민
    • 응용통계연구
    • /
    • 제33권1호
    • /
    • pp.1-10
    • /
    • 2020
  • 본 연구에서는 선형회귀모형에서 이상치와 변수변환을 고려한 변수선택 알고리즘을 다룬다. 제안된 방법은 잠재적 이상치를 탐지하여 제거한 후 변수변환 추정을 위해 최소 절사 제곱 추정법을 적용하며 가능한 모든 회귀모형을 비교하여 최종적으로 변수를 선택한다. 정확한 변수 선택과 추정된 모델의 적합도의 맥락에서 방법의 효율성을 보여주기 위해 실제 데이터 분석 및 시뮬레이션 결과가 제시된다.

콘텐츠 기반 무선 센서 네트워크 이상 탐지 기법 (A Contents-Based Anomaly Detection Scheme in WSNs)

  • 이창석;이광휘
    • 전자공학회논문지CI
    • /
    • 제48권5호
    • /
    • pp.99-106
    • /
    • 2011
  • 데이터 중심적인 네트워크인 무선 센서 네트워크는 대량의 센서 노드들이 광범위한 지역에 조밀하게 분산 배치되어 동작한다. 센서 노드들은 일반적으로 열린 환경에서 독립적으로 동작하기 때문에 보안 공격에 취약하다. 본 논문에서는 무선 센서 네트워크를 위한 콘텐츠 기반 이상 탐지 기법을 제안한다. 제안 기법은 무선 센서 네트워크의 특징인 특정한 현상을 여러 개의 센서 노드가 동시에 감지한다는 특성과 센서 노드에서 측정된 데이터인 콘텐츠는 어떤 특정 범위 안에서 변한다는 특성을 이용한다. 제안 기법은 훈련 단계, 적용 단계와 보정 단계로 구성되며 적용 단계에서 거리 기반 이상 탐지(distance-based anomaly detection) 기법을 이용하여 얻게 된 이상치 후보를 보정 단계로 보낸다. 보정 단계는 동일한 현상을 동시에 감지한 센서 노드들의 데이터로 구성된 콘텐츠 테이블과 이상치 후보를 비교, 분석함으로써 이상 탐지 기법의 성능을 향상시킨다. 시뮬레이션을 통해 제안 탐지 기법이 높은 탐지율과 낮은 오탐율을 가진다는 것을 확인할 수 있었다.

이동 평균과 3-시그마를 이용한 하둡 로그 데이터의 이상 탐지 (Anomaly Detection of Hadoop Log Data Using Moving Average and 3-Sigma)

  • 손시운;길명선;문양세;원희선
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제5권6호
    • /
    • pp.283-288
    • /
    • 2016
  • 최근 빅데이터 처리를 위한 연구들이 활발히 진행 중이며, 관련된 다양한 제품들이 개발되고 있다. 이에 따라, 기존 환경에서는 처리가 어려웠던 대용량 로그 데이터의 저장 및 분석이 가능해졌다. 본 논문은 다수의 서버에서 빠르게 생성되는 대량의 로그 데이터를 Apache Hive에서 분석할 수 있는 데이터 저장 구조를 제안한다. 그리고 저장된 로그 데이터로부터 특정 서버의 이상 유무를 판단하기 위해, 이동 평균 및 3-시그마 기반의 이상 탐지 기술을 설계 및 구현한다. 또한, 실험을 통해 로그 데이터의 급격한 증가폭을 나타내는 구간을 이상으로 판단하여, 제안한 이상 탐지 기술의 유효성을 보인다. 이 같은 결과를 볼 때, 본 연구는 하둡 기반으로 로그 데이터를 분석하여 이상치를 바르게 탐지할 수 있는 우수한 결과라 사료된다.

농업용 저수지 이상거동 탐지를 위한 시계열 수위자료 특성 분석 (Time Series Analysis of Agricultural Reservoir Water Level Data for Abnormal Behavior Detection)

  • 이성학;이상현;홍민기;최진용
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2015년도 학술발표회
    • /
    • pp.275-275
    • /
    • 2015
  • 최근 기후변화에 따른 극한 강우사상의 증가로 인하여 농업용 저수지의 재해 위험도가 증가하고 있는 추세이며, 사고가 발생할 때 마다 파손/붕괴된 시설물을 보수하는 대응형 유지관리체계에서 벗어나 기반시설의 성능과 생애주기 등을 고려하여 재해 발생을 사전에 예보 및 경보를 알릴 수 있는 예방적 관리체계로의 전환이 필요하다. 한국농어촌공사는 전국 1,500개 저수지에서 10분 단위 수위자료를 측정하고 있으며, 이를 분석하여 재해예방에 활용할 수 있는 기반이 조성되어 있으나 이에 대한 관리가 이루어지지 않고 있고 수집된 자료를 활용하여 재해 징후를 분석할 수 있는 재해 예방적 분석기술이 마련되어 있지 않은 실정이다. 본 연구에서는 농업용 저수지 수위자료를 이용한 저수지 이상거동을 판별하기 위하여 전국 34개 한국농어촌공사 관할 저수의 시계열 수위자료의 특성(Feature)을 분석하고자 한다. 시계열 자료의 시계열 특성을 분석하기 위하여 한국농어촌공사 관할의 전국 34개 저수지를 선정하여 분석을 실시하였다. 대상저수지는 지역별, 저수용량, 안정등급, 붕괴발생, 1개 지사관할 저수지로 각각 구분하여 선정하였으며, 각 저수지의 수위 측정기간(최소 5개년)에 대한 자료를 수집하였다. 농업용 저수지의 시계열 수위 자료의 특성을 분석하기 위하여 자료의 전처리를 수행하였다. 자료의 전처리는 시계열 수위자료의 잡음 특성, 기상자료 관련 변동특성 등 분류(Classification)에 영향을 미치는 노이즈 요소를 제거하는 과정이다. 전처리과정을 거친 자료는 특징(Feature) 추출 과정을 거치게 되고, 추출된 특징의 적합성에 따라 분류 알고리듬 성능에 많은 영향을 미친다. 따라서 시계열 자료의 특성을 파악하고 특징을 추출하는 것은 이상치 탐지에 있어 매우 중요한 과정이다. 본 연구에서는 시계열 자료 특징 추출 방법으로 물리적인 한계치, 확률적인 문턱값(Threshold), 시계열 패턴, 주변 저수지와의 시계열 상관분석 등을 적용하였으며, 이를 데이터베이스로 구축하여 이후 분류알고리듬 학습에 적용하여 정상치와 이상치를 판별하는데 이용될 수 있도록 하였다. 따라서 본 연구에서 제시되는 농업용 저수지의 시계열 특성은 다양한 분류알고리듬에 적용할 수 있으며, 이를 통하여 저수지 이상거동 판별을 위한 최적을 분류알고리듬의 선택에 도움이 될 것이다.

  • PDF