• Title/Summary/Keyword: 이상데이터

Search Result 6,442, Processing Time 0.045 seconds

Compound Outlier Assessment and Verification for Multiple Field Monitoring Data (다수 계측 데이터에 대한 복합 이상치 평가 및 검증)

  • Jeon, Jesung
    • Journal of the Korean GEO-environmental Society
    • /
    • v.19 no.1
    • /
    • pp.5-14
    • /
    • 2018
  • All kinds of monitoring data in construction site could have outlier created from diverse cause. In this study generation technique of synthesis value, its regression, final outlier detection and assessment are conducted to distinct outlier data included in extensive time series dataset. Synthesis value having weight factor of correlation between a number of datasets consist of many monitoring data enable to detect outlier by increasing its correlation. Standard artificial dataset in which intentional outliers are inserted has been used for assessment of synthesis value technique. These results showed increase of detection accuracy for outlier and general tendency in case of having different time series models in common. Accuracy of outlier detection increased in case of using more dataset and showing similar time series pattern.

XAI(Explainable AI) 기법을 이용한 선박기관 이상탐지 시스템 개발

  • Habtemariam Duguma Yeshitla;Agung Nugraha;Antariksa Gian
    • Proceedings of the Korean Institute of Navigation and Port Research Conference
    • /
    • 2022.11a
    • /
    • pp.289-290
    • /
    • 2022
  • 본 연구에서는 선박의 중요부품인 메인엔진에서 수집되는 센서 데이터를 사용하여 선박 메인엔진의 이상치를 탐지하는 시스템을 소개한다. 본 시스템의 특장점은 이상치 탐지 뿐만 아니라, 이상치의 센서별 기여도를 정량화 함으로써, 이상치 발생을 유형화 하고 추가적인 분석을 가능하게 해준다. 또한 웹 인터페이스 형태의 편리한 UI를 개발하여 사용자들이 보다 편리하게 이상치

  • PDF

Outlier Data Clustering using Factor Score (인자 점수를 이용한 이상치 데이터의 군집화)

  • 전성해;임민택;오경환
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2002.05a
    • /
    • pp.77-80
    • /
    • 2002
  • 이상치를 포함한 학습 데이터의 군집화 전략은 일반적으로 이상치를 포함하여 학습하거나, 이상치를 제거하는 두 가지 선택이 가능하다. 이상치를 제거하지 않고 학습에 반영시켜야 할 경우 한 개 또는 소수의 이상치가 독자적인 군집을 형성하거나 객관적인 군집화를 방해하는 문제가 발생할 수 있다. 이 때 주어진 학습 데이터의 군집 결과가 이상치의 영향으로부터 벗어나기 위해 원래의 학습 데이터에 대한 변환 작업을 거친 후 군집화를 수행할 수 있다. 이러한 변환 방법으로서 본 논문에서는 차원 축소의 기법으로 알려진 인자 분석의 점수를 사용하였다. 인자 점수로 변환된 학습 데이터에 대해 계층적 군집화, K-means 그리고 자기조직화 지도 등과 같은 군집화 알고리즘을 적용하면 이상치가 자신만의 군집을 별도로 형성하지 않고 다른 학습 데이터의 군집에 소속되면서 이상회의 영향으로부터 벗어남을 실험을 통하여 확인하였다.

  • PDF

Outlier Detection in Time Series Monitoring Datasets using Rule Based and Correlation Analysis Method (규칙기반 및 상관분석 방법을 이용한 시계열 계측 데이터의 이상치 판정)

  • Jeon, Jesung;Koo, Jakap;Park, Changmok
    • Journal of the Korean GEO-environmental Society
    • /
    • v.16 no.5
    • /
    • pp.43-53
    • /
    • 2015
  • In this study, detection methods of outlier in various monitoring data that fit into big data category were developed and outlier detections were conducted for both artificial data and real field monitoring data. Rule-based methods applied rate of change and probability of error for monitoring data are effective to detect a large-scale short faults and constant faults having no change within a certain period. There are however, problems with misjudgement that consider the normal data with a large scale variation as outlier caused by using independent single dataset. Rule-based methods for noise faults detection have a limit to application of real monitoring data due to the problem with a choice of proper window size of data and finding of threshold for outlier judgment. A correlation analysis among different two datasets were very effective to detect localized outlier and abnormal variation for short and long-term monitoring dataset if reasonable range of training data could be selected.

Detection of Abnormal Dam Water Level Data Based on Machine Learning (기계학습에 기반한 댐 수위 이상 데이터 탐지)

  • Bang, Suil;Lee, Do-Gil
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2021.05a
    • /
    • pp.293-296
    • /
    • 2021
  • K-water에서는 다목적댐의 관리를 위해 실시간으로 댐수위, 하천 수위 및 강우량 등을 계측하고 있으며, 계측된 값들은 댐을 효과적으로 운영하는데 필요한 데이터로 활용되고 있다. 특히 댐수위 이상 데이터를 탐지하지 못한 채 그대로 사용할 경우 댐의 방류 시기와 방류량 등을 결정하는 중요한 의사결정을 그르칠 수 있으므로 이를 신속히 탐지하는 것이 매우 중요하다. 현재의 자동화된 이상 데이터 탐지방법 중 하나는 현재 데이터가 최댓값과 최솟값을 초과할 때, 다른 하나는 현재 데이터와 일정 시간 동안의 평균값 간의 차이가 관리자가 정한 특정 값을 벗어났을 때를 기준으로 삼고 있다. 전자는 상한과 하한의 초과 여부만 판단하므로 탐지가 쉬우나 정상범위 내에서 발생한 이상 데이터는 탐지가 불가하다. 후자는 관리자의 경험을 통해 판단 조건을 정하기 때문에 객관성이 결여되는 문제가 있다. 특히 방류와 강우가 복합적으로 댐수위에 영향을 미치는 홍수기에 관리자의 경험에 기초한 이상 데이터 판별은 신뢰성의 문제가 있을 수 있다. 따라서 본 연구에서는 기계학습을 최초로 적용하여 이상 데이터를 탐지하고자 하였다. 댐수위, 누적강우량 및 누적방류량 데이터와 댐수위데이터를 가공하여 생성한 댐수위차, 댐수위차평균, 댐수위평균 등 자질들의 다양한 조합을 만든 후 이를 Random Forest, SVM, AdaptiveBoost 및 다층퍼셉트론(MLP) 등과 같은 여러 가지 기계학습모델 등을 통해 이상 데이터를 판별하는 실험(분류)을 하였다. 실험결과 댐수위, 댐수위차, 댐수위-댐수위평균, 누적강우량, 누적방류량 및 댐수위차평균을 사용하였을 때 MLP에서 가장 우수한 성능을 보였다. 이 연구를 통해서 댐수위 이상 데이터를 기계학습의 분류기능을 통해 효과적으로 탐지할 수 있다는 것과 모델의 성능은 실험에 사용한 자질의 수뿐 아니라 자질의 종류에도 큰 영향을 받는다는 것을 알 수 있었다.

Outlier Detection By Clustering-Based Ensemble Model Construction (클러스터링 기반 앙상블 모델 구성을 이용한 이상치 탐지)

  • Park, Cheong Hee;Kim, Taegong;Kim, Jiil;Choi, Semok;Lee, Gyeong-Hoon
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.7 no.11
    • /
    • pp.435-442
    • /
    • 2018
  • Outlier detection means to detect data samples that deviate significantly from the distribution of normal data. Most outlier detection methods calculate an outlier score that indicates the extent to which a data sample is out of normal state and determine it to be an outlier when its outlier score is above a given threshold. However, since the range of an outlier score is different for each data and the outliers exist at a smaller ratio than the normal data, it is very difficult to determine the threshold value for an outlier score. Further, in an actual situation, it is not easy to acquire data including a sufficient amount of outliers available for learning. In this paper, we propose a clustering-based outlier detection method by constructing a model representing a normal data region using only normal data and performing binary classification of outliers and normal data for new data samples. Then, by dividing the given normal data into chunks, and constructing a clustering model for each chunk, we expand it to the ensemble method combining the decision by the models and apply it to the streaming data with dynamic changes. Experimental results using real data and artificial data show high performance of the proposed method.

Anomaly Detection by Human Pose Estimation On Surveillance Videos in Bridge (교량 CCTV 화면에서의 자세 추정 기반 이상 행동 탐지)

  • Su-Bin Oh;Min-Jeong Kang;Sang-Min Lee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.11a
    • /
    • pp.691-694
    • /
    • 2023
  • 본 논문은 CCTV 화면에서의 다양한 이상상황 중 교량 데이터에 특화된 자세 추정 기반 이상탐지 알고리즘을 소개한다. 교량은 크게 도로, 인도 이렇게 두 구역으로 나눠지며, 사람들의 이동방향이 한정적이라는 특징을 가지는 장소 중 하나이다. 이러한 장소적 특징을 이용하고자 사람 자세 추정을 통해 이상의 기준을 잡고 교량 데이터에 특화된 이상탐지 알고리즘을 제안한다. CCTV 영상은 이상을 정하기 어렵고 이상에 대한 레이블이 없는 데이터가 대부분이며 이상에 대한 레이블 생성시 많은 비용 발생이 필수적이다. 본 연구에서는 이러한 한계점을 극복하고자 영상 데이터를 이미지 단위가 아닌 영상 단위로 레이블이 담긴 weakly label 을 가지는 데이터를 활용한 이상탐지 모델을 이용하였다. 특히, 교량에서의 이상상황의 특징인 사람 자세 추정으로 추출한 특질을 추가하여 기존 알고리즘의 이상탐지 예측 성능을 개선하였다.

Design of Anomaly Detection System Based on Big Data in Internet of Things (빅데이터 기반의 IoT 이상 장애 탐지 시스템 설계)

  • Na, Sung Il;Kim, Hyoung Joong
    • Journal of Digital Contents Society
    • /
    • v.19 no.2
    • /
    • pp.377-383
    • /
    • 2018
  • Internet of Things (IoT) is producing various data as the smart environment comes. The IoT data collection is used as important data to judge systems's status. Therefore, it is important to monitor the anomaly state of the sensor in real-time and to detect anomaly data. However, it is necessary to convert the IoT data into a normalized data structure for anomaly detection because of the variety of data structures and protocols. Thus, we can expect a good quality effect such as accurate analysis data quality and service quality. In this paper, we propose an anomaly detection system based on big data from collected sensor data. The proposed system is applied to ensure anomaly detection and keep data quality. In addition, we applied the machine learning model of support vector machine using anomaly detection based on time-series data. As a result, machine learning using preprocessed data was able to accurately detect and predict anomaly.

Synthetic Data Generation and Performance Analysis for Anomaly Detection (이상 탐지를 위한 합성 데이터 생성 및 성능 분석)

  • Hwang, Ju-hyo;Jin, Kyo-hong
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2022.10a
    • /
    • pp.19-21
    • /
    • 2022
  • Anomaly detection using self-supervised learning typically generates synthetic data to learn to classify normal and abnormal, and uses real abnormal data as test data to measure anomaly detection performance. In a study using this method to generate synthetic data similar to normal data, anomaly detection was carried out by generating synthetic data by cutting and pasting a specific patch from the original image. In this way, the degree of similarity to normal data depends on the number and size of patches, which affects anomaly detection performance. In this paper, synthetic data were generated by varying patch sizes and numbers, and then similarity and analysis with normal data were conducted using a pre-trained model, and anomaly detection performance was measured by learning the model.

  • PDF

Deep Learning-based Time Series Data Prediction Research for Performance Enhancement in Cloud Monitoring Systems (클라우드 모니터링 시스템의 성능 향상을 위한 딥러닝을 이용한 시계열 데이터 예측 연구)

  • 김동완;홍두표;신용태
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.05a
    • /
    • pp.342-344
    • /
    • 2023
  • 클라우드 시장의 성장과 마이크로 서비스 접근식이 제기됨에 따라 IT인프라를 관리하기 위한 연구가 최근 활발히 이루어지고 있다. 하지만 고도화 및 분산된 환경에서 관찰 가능성 응용을 확보하기 어렵다는 문제점을 가지고 있다. 따라서 본 연구에서는 모니터링 시스템을 통한 데이터 분석 중 수집한 데이터의 분석이 난해하다는 문제를 해결하기 위한 방법을 제안한다. 제안된 방법은 NAB 데이터셋을 대상으로 STUMPY를 이용하여 데이터를 시각화하고, CNN을 이용하여 분류 작업을 수행한다. 분류를 수행한 데이터셋은 이상치 데이터와 이상 전조 데이터, 정상 데이터셋으로 분류하여 데이터셋을 구성한다. 구성한 학습 데이터셋에 대해 훈련을 마친 딥러닝 모델은 부하 테스트 환경에서 수집한 데이터에 대한 그래프 패턴을 분석하여 이상치 데이터와 이상 전조 데이터를 탐지한다.