• 제목/요약/키워드: 이상데이터

검색결과 6,469건 처리시간 0.035초

다수 계측 데이터에 대한 복합 이상치 평가 및 검증 (Compound Outlier Assessment and Verification for Multiple Field Monitoring Data)

  • 전제성
    • 한국지반환경공학회 논문집
    • /
    • 제19권1호
    • /
    • pp.5-14
    • /
    • 2018
  • 건설 현장에서 생산되는 각종 계측 데이터 내에는 다양한 원인에서 생성된 각종 이상 데이터가 포함되어 있다. 본 연구에서는 시계열 데이터 내에 포함된 이상 데이터의 효과적 판정을 위한 합성신호 생성 기법과 그를 이용한 회귀분석, 최종적인 이상 데이터 판단과 평가 등에 관한 연구를 수행하였다. 방대한 데이터로 구성된 다수 데이터셋에 대한 이상 데이터 평가 시 다수의 데이터셋 간의 상관성을 가중치로 한 합성신호는 특정 데이터셋 과의 상관성을 크게 향상 시키는 효과를 보였으며, 이를 통해 효과적인 이상 데이터 판정이 가능하였다. 인위적 이상 데이터가 포함된 인공 오류 데이터를 생성하고 이에 합성신호 기법을 적용한 결과, 이상 데이터 판정 정확도가 크게 증가 하였으며 이러한 결과는 이종 시계열 모델의 경우에서도 동일하게 확인되었다. 이상 데이터 판정의 정확도는 신호 합성에 이용되는 데이터셋 수가 많고 시계열 모델 특성이 유사할수록 크게 증가하였다.

XAI(Explainable AI) 기법을 이용한 선박기관 이상탐지 시스템 개발

  • ;;;김동현;이상봉;이지환
    • 한국항해항만학회:학술대회논문집
    • /
    • 한국항해항만학회 2022년도 추계학술대회
    • /
    • pp.289-290
    • /
    • 2022
  • 본 연구에서는 선박의 중요부품인 메인엔진에서 수집되는 센서 데이터를 사용하여 선박 메인엔진의 이상치를 탐지하는 시스템을 소개한다. 본 시스템의 특장점은 이상치 탐지 뿐만 아니라, 이상치의 센서별 기여도를 정량화 함으로써, 이상치 발생을 유형화 하고 추가적인 분석을 가능하게 해준다. 또한 웹 인터페이스 형태의 편리한 UI를 개발하여 사용자들이 보다 편리하게 이상치

  • PDF

인자 점수를 이용한 이상치 데이터의 군집화 (Outlier Data Clustering using Factor Score)

  • 전성해;임민택;오경환
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2002년도 춘계학술대회 및 임시총회
    • /
    • pp.77-80
    • /
    • 2002
  • 이상치를 포함한 학습 데이터의 군집화 전략은 일반적으로 이상치를 포함하여 학습하거나, 이상치를 제거하는 두 가지 선택이 가능하다. 이상치를 제거하지 않고 학습에 반영시켜야 할 경우 한 개 또는 소수의 이상치가 독자적인 군집을 형성하거나 객관적인 군집화를 방해하는 문제가 발생할 수 있다. 이 때 주어진 학습 데이터의 군집 결과가 이상치의 영향으로부터 벗어나기 위해 원래의 학습 데이터에 대한 변환 작업을 거친 후 군집화를 수행할 수 있다. 이러한 변환 방법으로서 본 논문에서는 차원 축소의 기법으로 알려진 인자 분석의 점수를 사용하였다. 인자 점수로 변환된 학습 데이터에 대해 계층적 군집화, K-means 그리고 자기조직화 지도 등과 같은 군집화 알고리즘을 적용하면 이상치가 자신만의 군집을 별도로 형성하지 않고 다른 학습 데이터의 군집에 소속되면서 이상회의 영향으로부터 벗어남을 실험을 통하여 확인하였다.

  • PDF

규칙기반 및 상관분석 방법을 이용한 시계열 계측 데이터의 이상치 판정 (Outlier Detection in Time Series Monitoring Datasets using Rule Based and Correlation Analysis Method)

  • 전제성;구자갑;박창목
    • 한국지반환경공학회 논문집
    • /
    • 제16권5호
    • /
    • pp.43-53
    • /
    • 2015
  • 본 연구에서는 빅데이터 범주에 포함되는 각종 계측 데이터를 대상으로 각종 이상치를 판단하기 위한 기법을 고안하고, 인공 데이터 및 실 계측 데이터를 이용한 이상치 분석을 수행하였다. 계측결과에 대한 1차 차분 값 및 오차율을 적용한 규칙기반 방법은 큰 규모의 Short fault 분석 및 일정 기간 계측값에 변화가 발생하지 않는 경우의 Constant fault 분석에 효과적으로 적용될 수 있었으나, 독립적인 단일 데이터셋만을 이용하는 관계로 큰 변화폭을 보이는 실 계측 데이터의 정상 데이터를 이상치로 오판하는 문제점이 있었다. 규칙기반 방법을 이용한 Noise fault 분석은 적정 데이터 윈도우 사이즈의 선택 및 이상치 판정용 한계값 선정상의 문제로 인해 실 계측 데이터 적용에 한계가 있었다. 이종 데이터 간 상관분석 방법은 학습 데이터의 적정범위 선정이 선행된다면 장단기 계측 데이터의 이상 거동 및 국부적 이상치 판정에 매우 효과적으로 이용될 수 있음을 알 수 있었다.

기계학습에 기반한 댐 수위 이상 데이터 탐지 (Detection of Abnormal Dam Water Level Data Based on Machine Learning)

  • 방수일;이도길
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 춘계학술발표대회
    • /
    • pp.293-296
    • /
    • 2021
  • K-water에서는 다목적댐의 관리를 위해 실시간으로 댐수위, 하천 수위 및 강우량 등을 계측하고 있으며, 계측된 값들은 댐을 효과적으로 운영하는데 필요한 데이터로 활용되고 있다. 특히 댐수위 이상 데이터를 탐지하지 못한 채 그대로 사용할 경우 댐의 방류 시기와 방류량 등을 결정하는 중요한 의사결정을 그르칠 수 있으므로 이를 신속히 탐지하는 것이 매우 중요하다. 현재의 자동화된 이상 데이터 탐지방법 중 하나는 현재 데이터가 최댓값과 최솟값을 초과할 때, 다른 하나는 현재 데이터와 일정 시간 동안의 평균값 간의 차이가 관리자가 정한 특정 값을 벗어났을 때를 기준으로 삼고 있다. 전자는 상한과 하한의 초과 여부만 판단하므로 탐지가 쉬우나 정상범위 내에서 발생한 이상 데이터는 탐지가 불가하다. 후자는 관리자의 경험을 통해 판단 조건을 정하기 때문에 객관성이 결여되는 문제가 있다. 특히 방류와 강우가 복합적으로 댐수위에 영향을 미치는 홍수기에 관리자의 경험에 기초한 이상 데이터 판별은 신뢰성의 문제가 있을 수 있다. 따라서 본 연구에서는 기계학습을 최초로 적용하여 이상 데이터를 탐지하고자 하였다. 댐수위, 누적강우량 및 누적방류량 데이터와 댐수위데이터를 가공하여 생성한 댐수위차, 댐수위차평균, 댐수위평균 등 자질들의 다양한 조합을 만든 후 이를 Random Forest, SVM, AdaptiveBoost 및 다층퍼셉트론(MLP) 등과 같은 여러 가지 기계학습모델 등을 통해 이상 데이터를 판별하는 실험(분류)을 하였다. 실험결과 댐수위, 댐수위차, 댐수위-댐수위평균, 누적강우량, 누적방류량 및 댐수위차평균을 사용하였을 때 MLP에서 가장 우수한 성능을 보였다. 이 연구를 통해서 댐수위 이상 데이터를 기계학습의 분류기능을 통해 효과적으로 탐지할 수 있다는 것과 모델의 성능은 실험에 사용한 자질의 수뿐 아니라 자질의 종류에도 큰 영향을 받는다는 것을 알 수 있었다.

클러스터링 기반 앙상블 모델 구성을 이용한 이상치 탐지 (Outlier Detection By Clustering-Based Ensemble Model Construction)

  • 박정희;김태공;김지일;최세목;이경훈
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제7권11호
    • /
    • pp.435-442
    • /
    • 2018
  • 이상치 탐지는 정상 데이터 분포를 크게 벗어나는 데이터 샘플을 탐지하는 것을 의미한다. 대부분의 이상치 탐지 방법은 데이터 샘플이 정상 상태를 벗어나는 정도를 나타내는 이상치 지수(outlier score)를 계산하여 주어진 임계값 이상일 때 이상치로 판정한다. 그러나, 데이터마다 이상치 지수의 범위가 다양하고 정상 데이터에 비해 이상치 데이터는 적은 비율로 존재하기 때문에 이상치 지수에 대한 임계값을 결정하기는 매우 어렵다. 또한, 실제 상황에서는 학습에 이용할 수 있는 충분한 양의 이상치를 포함하는 데이터의 획득이 용이하지 않다. 본 논문에서는 정상 데이터가 주어졌을 때 이를 이용하여 정상 데이터 영역을 나타내는 모델을 구성하고 새로운 데이터 샘플에 대해 이상치와 정상치의 이진 분류를 수행하는 방법으로 군집화 기반 이상치 탐지 방법을 제안한다. 그리고, 주어진 정상 데이터를 청크로 나누고 각 청크에 대해 클러스터링 모델을 구성한 후 모델들에 의한 이상치 판정 결과를 결합하는 앙상블 방법과 동적 변화가 있는 스트리밍 데이터에서의 적용 방법으로 확장한다. 실제 데이터와 인공 데이터를 이용한 실험결과는 제안 방법의 높은 성능을 보여준다.

교량 CCTV 화면에서의 자세 추정 기반 이상 행동 탐지 (Anomaly Detection by Human Pose Estimation On Surveillance Videos in Bridge)

  • 오수빈;강민정;이상민
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.691-694
    • /
    • 2023
  • 본 논문은 CCTV 화면에서의 다양한 이상상황 중 교량 데이터에 특화된 자세 추정 기반 이상탐지 알고리즘을 소개한다. 교량은 크게 도로, 인도 이렇게 두 구역으로 나눠지며, 사람들의 이동방향이 한정적이라는 특징을 가지는 장소 중 하나이다. 이러한 장소적 특징을 이용하고자 사람 자세 추정을 통해 이상의 기준을 잡고 교량 데이터에 특화된 이상탐지 알고리즘을 제안한다. CCTV 영상은 이상을 정하기 어렵고 이상에 대한 레이블이 없는 데이터가 대부분이며 이상에 대한 레이블 생성시 많은 비용 발생이 필수적이다. 본 연구에서는 이러한 한계점을 극복하고자 영상 데이터를 이미지 단위가 아닌 영상 단위로 레이블이 담긴 weakly label 을 가지는 데이터를 활용한 이상탐지 모델을 이용하였다. 특히, 교량에서의 이상상황의 특징인 사람 자세 추정으로 추출한 특질을 추가하여 기존 알고리즘의 이상탐지 예측 성능을 개선하였다.

빅데이터 기반의 IoT 이상 장애 탐지 시스템 설계 (Design of Anomaly Detection System Based on Big Data in Internet of Things)

  • 나성일;김형중
    • 디지털콘텐츠학회 논문지
    • /
    • 제19권2호
    • /
    • pp.377-383
    • /
    • 2018
  • 사물인터넷(IoT) 서비스는 스마트 환경이 발전하면서 다양한 데이터를 생산하고 있다. 이 데이터는 사용자의 상황을 판단하는 중요한 데이터로 사용된다. 그렇기 때문에 센서의 이상 상태를 실시간으로 모니터링하고 이상 데이터를 탐지하는 것이 중요하다. 하지만 데이터 구조와 프로토콜이 다양하기 때문에 표준화된 데이터 구조로 변환하는 과정이 필요하다. 그럼으로써 데이터의 품질을 보장하고 정확한 분석을 통해 서비스의 품질까지 좋아지는 효과를 기대할 수 있다. 본 논문은 수집된 센서의 이상탐지를 위해 빅데이터 기반의 이상탐지 시스템을 제안한다. 제안한 시스템은 이상탐지를 위해 데이터 표준화 전처리와 시계열 기반의 이상탐지가 우수한 SVM(Support Vector Machine) 모델을 적용하였다. 실험에서는 전처리와 전처리되지 않은 데이터를 각각 학습시키고 비교하였다. 그 결과, 전처리된 데이터는 이상 장애를 정확히 탐지하고 예측하였다.

이상 탐지를 위한 합성 데이터 생성 및 성능 분석 (Synthetic Data Generation and Performance Analysis for Anomaly Detection)

  • 황주효;진교홍
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2022년도 추계학술대회
    • /
    • pp.19-21
    • /
    • 2022
  • 자기 지도 학습을 이용한 이상 탐지는 일반적으로 합성 데이터를 생성해 정상과 이상을 학습하고, 실제 이상 데이터를 테스트 데이터로 사용하여 이상 탐지 성능을 측정한다. 정상 데이터와 유사한 합성 데이터를 생성하기 위해 기존 연구에서는 원본 이미지에서 특정 패치를 자르고 붙이는 식으로 합성 데이터를 생성한다. 이런 방식에서 정상 데이터와 유사한 정도는 패치 개수와 크기에 따라 달라지므로 이상 탐지 성능에 영향을 미칠 수 있다. 본 연구에서는 패치 크기 및 개수를 다르게 하여 합성 데이터를 생성한 뒤 사전 학습된 모델을 사용하여 정상 데이터와의 유사성 측정 및 분석을 진행하였고 모델을 학습시켜 이상 탐지 성능을 측정하여 보았다.

  • PDF

클라우드 모니터링 시스템의 성능 향상을 위한 딥러닝을 이용한 시계열 데이터 예측 연구 (Deep Learning-based Time Series Data Prediction Research for Performance Enhancement in Cloud Monitoring Systems)

  • 김동완;홍두표;신용태
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.342-344
    • /
    • 2023
  • 클라우드 시장의 성장과 마이크로 서비스 접근식이 제기됨에 따라 IT인프라를 관리하기 위한 연구가 최근 활발히 이루어지고 있다. 하지만 고도화 및 분산된 환경에서 관찰 가능성 응용을 확보하기 어렵다는 문제점을 가지고 있다. 따라서 본 연구에서는 모니터링 시스템을 통한 데이터 분석 중 수집한 데이터의 분석이 난해하다는 문제를 해결하기 위한 방법을 제안한다. 제안된 방법은 NAB 데이터셋을 대상으로 STUMPY를 이용하여 데이터를 시각화하고, CNN을 이용하여 분류 작업을 수행한다. 분류를 수행한 데이터셋은 이상치 데이터와 이상 전조 데이터, 정상 데이터셋으로 분류하여 데이터셋을 구성한다. 구성한 학습 데이터셋에 대해 훈련을 마친 딥러닝 모델은 부하 테스트 환경에서 수집한 데이터에 대한 그래프 패턴을 분석하여 이상치 데이터와 이상 전조 데이터를 탐지한다.