• Title/Summary/Keyword: 이상데이터

Search Result 6,449, Processing Time 0.031 seconds

Research on Normalizing Flow-Based Time Series Anomaly Detection System (정규화 흐름 기반 시계열 이상 탐지 시스템 연구)

  • Younghoon Jeon;Jeonghwan Gwak
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2023.07a
    • /
    • pp.283-285
    • /
    • 2023
  • 이상 탐지는 데이터에서 일반적인 범주에서 크게 벗어나는 인스턴스 또는 패턴을 식별하는 중요한 작업이다. 본 연구에서는 시계열 데이터의 특징 추출을 위한 비지도 학습 기반 방법과 정규화 흐름의 결합을 통한 이상 탐지 프레임워크를 제안한다. 특징 추출기는 1차원 합성곱 신경망 기반의 오토인코더로 구성되며, 정상적인 시퀀스로만 구성된 훈련 데이터를 압축하고 복원하는 과정을 통해 최적화된다. 추출된 시계열 데이터의 특징 맵은 가능도를 최대화하도록 훈련된 정규화 흐름의 입력으로 사용된다. 이와 같은 방식으로 훈련된 이상 탐지 시스템은 테스트 샘플에 대한 이상치를 계산하며, 최종적으로 임계값과의 비교를 통해 이상 여부를 예측한다. 성능 평가를 위해 시계열 이상 탐지를 위한 공개 데이터셋을 이용하여 공정하게 이상 탐지 성능을 비교하였으며, 실험 결과는 제안하는 정규화 흐름 기법이 시계열 이상 탐지 시스템에 활용될수 있는 잠재성을 시사한다.

  • PDF

Distributed Processing Environment for Outlier Removal to Analyze Big Data (대용량 데이터 분석을 위한 이상치 제거용 분산처리 환경)

  • Hong, Yejin;Na, Eunhee;Jung, Yonghwan;Kim, Yangwoo
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2016.07a
    • /
    • pp.73-74
    • /
    • 2016
  • IoT 데이터는 비정형 데이터로 가공되고 분석하였을 때 비로소 가치를 갖기에 전 세계적으로 빅데이터 기술에 관심이 집중되고 있다. IoT 데이터 중 많은 부분을 차치하는 센서 데이터는 수집이 용이하고 활용범위가 넓기 때문에 여러 분야에서 사용되고 있다. 하지만 센서가 정상적으로 작동하지 못한 경우에는 실제와는 다른 값인 이상치를 포함하여 왜곡된 결과가 도출되어 활용할 수 없는 경우가 생긴다. 따라서 본 논문에서는 정확한 결과를 도출하기 위하여 수집된 원자료의 데이터를 분석하기 전에 이상치 탐지 및 제거를 하고자 한다. 또한 점점 늘어나고 있는 대용량 데이터를 신속하게 처리하기 위하여 메모리 접근방식인 스파크를 사용한 분산처리환경에서 이상치 탐지 및 제거하는 것을 제안한다. 맵리듀스 기반의 이상치 탐지 및 제거는 총 4단계로 나누어 구현하였으며 제안한 기법의 성능 평가를 위해 총 3가지 환경에서 비교하여 실험하였다. 실험을 통해 데이터의 용량이 커질수록 분산처리환경에서 스파크를 사용하여 처리하는 방식이 가장 빠를 것 이라는 결과를 얻었다.

  • PDF

An Outlier Data Analysis using Support Vector Regression (Support Vector Regression을 이용한 이상치 데이터분석)

  • Jun, Sung-Hae
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.18 no.6
    • /
    • pp.876-880
    • /
    • 2008
  • Outliers are the observations which are very larger or smaller than most observations in the given data set. These are shown by some sources. The result of the analysis with outliers may be depended on them. In general, we do data analysis after removing outliers. But, in data mining applications such as fraud detection and intrusion detection, outliers are included in training data because they have crucial information. In regression models, simple and multiple regression models need to eliminate outliers from given training data by standadized and studentized residuals to construct good model. In this paper, we use support vector regression(SVR) based on statistical teaming theory to analyze data with outliers in regression. We verify the improved performance of our work by the experiment using synthetic data sets.

A Feasibility Study on Clustering for Effective Anomaly Detection (효과적인 이상 진단을 위한 클러스터링의 타당성 연구)

  • Lee, HyunYong;Kim, Nac-Woo;Lee, Jun-Gi;Lee, Byung-Tak
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2020.05a
    • /
    • pp.428-430
    • /
    • 2020
  • 이상 진단은 주어진 데이터의 정상 유무를 진단하는 방법으로써 다양한 분야에 걸쳐 요구되는 기능이다. 이상 진단은 대상 환경에서 발생하는 데이터의 특성 등에 따라 다양한 방법으로 구현이 될 수 있는데, 본 연구에서는 정상 데이터가 다수의 클래스로 구분될 수 있는 상황에서의 이상 진단을 효과적으로 할 수 있는 방법에 대해서 다루고자 한다. 특히, 실험을 통해 정상 데이터를 유사한 데이터들끼리 구분하여 처리하는 경우와 그렇지 않은 경우의 비교를 통해서, 정상 데이터를 유사한 데이터들끼리 구분하여 이상 진단을 진행하는 방법의 타당성을 검증한다.

Development of Integrated Outlier Analysis System for Construction Monitoring Data (건설 계측 데이터에 대한 통합 이상치 분석 시스템 개발)

  • Jeon, Jesung
    • Journal of the Korean GEO-environmental Society
    • /
    • v.21 no.5
    • /
    • pp.5-11
    • /
    • 2020
  • Outliers detection and elimination included in field monitoring datum are essential for effective foundation of unusual movement, long and short range forecast of stability and future behavior to various structures. Integrated outlier analysis system for assessing long term time series data was developed in this study. Outlier analysis could be conducted in two step of primary analysis targeted at single dataset and second multi datasets analysis using synthesis value. Integrated outlier analysis system presents basic information for evaluating stability and predicting movement of structure combined with real-time safety management platform. Field application results showed increased correlation between synthesis value including similar sort of sensor showing constant trend and each single dataset. Various monitoring data in case of showing different trend can be used to analyse outlier through correlation-weighted value.

Design of pet abnormal behavior detection through sensor data augmentation based on GAN (GAN 기반 센서 데이터 증강을 통한 반려동물 이상행동 탐지 설계)

  • Kim, Hyungju;Moon, Nammee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2022.05a
    • /
    • pp.665-666
    • /
    • 2022
  • 반려동물의 이상행동 탐지를 위한 센서 데이터를 수집하는 과정에서 발생하는 시간과 비용의 문제로 인해 데이터 증강이 요구되고 있다. 본 논문에서는 통계적 변형과 GAN 기반의 데이터 증강을 통해 반려동물의 정상행동과 이상행동으로 분류하는 방법을 제안한다. 통계적 변형은 회전, 순열, 조합 등을 이용하며, GAN을 통해 원본 데이터에 노이즈가 포함된 유사한 데이터를 생성한다. 증강된 모든 데이터는 원본 데이터와 함께 학습 데이터로 사용한다. 최종적으로, LSTM의 단점을 보완한 Convolutional LSTM 모델을 통해 반려동물의 정상행동 인식의 범주를 넓혀 보다 정확한 이상행동을 인식하고자 한다.

Anomaly Detection Technique of Log Data Using Hadoop Ecosystem (하둡 에코시스템을 활용한 로그 데이터의 이상 탐지 기법)

  • Son, Siwoon;Gil, Myeong-Seon;Moon, Yang-Sae
    • KIISE Transactions on Computing Practices
    • /
    • v.23 no.2
    • /
    • pp.128-133
    • /
    • 2017
  • In recent years, the number of systems for the analysis of large volumes of data is increasing. Hadoop, a representative big data system, stores and processes the large data in the distributed environment of multiple servers, where system-resource management is very important. The authors attempted to detect anomalies from the rapid changing of the log data that are collected from the multiple servers using simple but efficient anomaly-detection techniques. Accordingly, an Apache Hive storage architecture was designed to store the log data that were collected from the multiple servers in the Hadoop ecosystem. Also, three anomaly-detection techniques were designed based on the moving-average and 3-sigma concepts. It was finally confirmed that all three of the techniques detected the abnormal intervals correctly, while the weighted anomaly-detection technique is more precise than the basic techniques. These results show an excellent approach for the detection of log-data anomalies with the use of simple techniques in the Hadoop ecosystem.

Resolving data imbalance through differentiated anomaly data processing based on verification data (검증데이터 기반의 차별화된 이상데이터 처리를 통한 데이터 불균형 해소 방법)

  • Hwang, Chulhyun
    • Journal of Intelligence and Information Systems
    • /
    • v.28 no.4
    • /
    • pp.179-190
    • /
    • 2022
  • Data imbalance refers to a phenomenon in which the number of data in one category is too large or too small compared to another category. Due to this, it has been raised as a major factor that deteriorates performance in machine learning that utilizes classification algorithms. In order to solve the data imbalance problem, various ovrsampling methods for amplifying prime number distribution data have been proposed. Among them, SMOTE is the most representative method. In order to maximize the amplification effect of minority distribution data, various methods have emerged that remove noise included in data (SMOTE-IPF) or enhance only border lines (Borderline SMOTE). This paper proposes a method to ultimately improve classification performance by improving the processing method for anomaly data in the traditional SMOTE method that amplifies minority classification data. The proposed method consistently presented relatively high classification performance compared to the existing methods through experiments.

Anomaly Detection in Livestock Environmental Time Series Data Using LSTM Autoencoders: A Comparison of Performance Based on Threshold Settings (LSTM 오토인코더를 활용한 축산 환경 시계열 데이터의 이상치 탐지: 경계값 설정에 따른 성능 비교)

  • Se Yeon Chung;Sang Cheol Kim
    • Smart Media Journal
    • /
    • v.13 no.4
    • /
    • pp.48-56
    • /
    • 2024
  • In the livestock industry, detecting environmental outliers and predicting data are crucial tasks. Outliers in livestock environment data, typically gathered through time-series methods, can signal rapid changes in the environment and potential unexpected epidemics. Prompt detection and response to these outliers are essential to minimize stress in livestock and reduce economic losses for farmers by early detection of epidemic conditions. This study employs two methods to experiment and compare performances in setting thresholds that define outliers in livestock environment data outlier detection. The first method is an outlier detection using Mean Squared Error (MSE), and the second is an outlier detection using a Dynamic Threshold, which analyzes variability against the average value of previous data to identify outliers. The MSE-based method demonstrated a 94.98% accuracy rate, while the Dynamic Threshold method, which uses standard deviation, showed superior performance with 99.66% accuracy.

Anomaly Detection of Hadoop Log Data Using Moving Average and 3-Sigma (이동 평균과 3-시그마를 이용한 하둡 로그 데이터의 이상 탐지)

  • Son, Siwoon;Gil, Myeong-Seon;Moon, Yang-Sae;Won, Hee-Sun
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.5 no.6
    • /
    • pp.283-288
    • /
    • 2016
  • In recent years, there have been many research efforts on Big Data, and many companies developed a variety of relevant products. Accordingly, we are able to store and analyze a large volume of log data, which have been difficult to be handled in the traditional computing environment. To handle a large volume of log data, which rapidly occur in multiple servers, in this paper we design a new data storage architecture to efficiently analyze those big log data through Apache Hive. We then design and implement anomaly detection methods, which identify abnormal status of servers from log data, based on moving average and 3-sigma techniques. We also show effectiveness of the proposed detection methods by demonstrating that our methods identifies anomalies correctly. These results show that our anomaly detection is an excellent approach for properly detecting anomalies from Hadoop log data.