• Title/Summary/Keyword: 이상데이터

Search Result 6,505, Processing Time 0.044 seconds

A Study on data pre-processing for rainfall estimation from CCTV videos (CCTV 영상 기반 강수량 산정을 위한 데이터 전처리 방안 연구)

  • Byun, Jongyun;Jun, Changhyun;Lee, Jinwook;Kim, Hyeonjun;Cha, Hoyoung
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2022.05a
    • /
    • pp.167-167
    • /
    • 2022
  • 최근 빅데이터에 관련된 연구에 있어 데이터의 품질관리에 대한 논의가 꾸준히 이뤄져 오고 있다. 특히 이미지 처리 및 분석에 활용되어온 딥러닝 기술의 경우, 분류 작업 및 패턴인식 등으로부터 데이터의 특징을 추출함으로써 비지도학습(Unsupervised Learning)을 가능하게 한다는 장점이 있음에도 불구하고 빅데이터를 다루는 과정에 있어 용량, 다양성, 속도 및 신뢰성 측면에서의 한계가 있었다. 본 연구에서는 CCTV 영상을 활용한 강수량 산정 모델 개발에 있어 예측 정확도 향상 및 성능 개선을 도모할 수 있는 데이터 전처리 방법을 제안하였다. 서울 근린 AWS 4개소 지역(김포장기, 하남덕풍, 강동, 성남) 및 중앙대학교 지점 내 CCTV를 설치한 후, 최대 9개월의 영상을 확보하여 강수량 산정을 위한 딥러닝 모델을 개발하였다. 배경분리, 조도조정, 영역설정, 데이터증진, 이상데이터 분류 등이 가능한 알고리즘을 개발함으로써 데이터셋 자체에 대한 전처리 작업을 수행한 후, 이에 대한 결과를 기존 관측자료와 비교·분석하였다. 본 연구에서 제안한 전처리 방법들을 적용한 결과, 강수량 산정 모델의 예측 정확도를 평가하는 지표로 선정한 평균 제곱근 편차(Root Mean Square Error; RMSE)가 약 30% 감소함을 확인하였다. 본 연구의 결과로부터 CCTV 영상 데이터를 활용한 강수량 산정의 가능성을 확인할 수 있었으며 특히, 딥러닝 모델 개발시 필요한 적정 전처리 방법들에 대한 기준을 제시할 수 있을 것으로 판단된다.

  • PDF

MLOps workflow language and platform for time series data anomaly detection

  • Sohn, Jung-Mo;Kim, Su-Min
    • Journal of the Korea Society of Computer and Information
    • /
    • v.27 no.11
    • /
    • pp.19-27
    • /
    • 2022
  • In this study, we propose a language and platform to describe and manage the MLOps(Machine Learning Operations) workflow for time series data anomaly detection. Time series data is collected in many fields, such as IoT sensors, system performance indicators, and user access. In addition, it is used in many applications such as system monitoring and anomaly detection. In order to perform prediction and anomaly detection of time series data, the MLOps platform that can quickly and flexibly apply the analyzed model to the production environment is required. Thus, we developed Python-based AI/ML Modeling Language (AMML) to easily configure and execute MLOps workflows. Python is widely used in data analysis. The proposed MLOps platform can extract and preprocess time series data from various data sources (R-DB, NoSql DB, Log File, etc.) using AMML and predict it through a deep learning model. To verify the applicability of AMML, the workflow for generating a transformer oil temperature prediction deep learning model was configured with AMML and it was confirmed that the training was performed normally.

Design and Implementation of Machine Learning System for Fine Dust Anomaly Detection based on Big Data (빅데이터 기반 미세먼지 이상 탐지 머신러닝 시스템 설계 및 구현)

  • Jae-Won Lee;Chi-Ho Lin
    • The Journal of the Institute of Internet, Broadcasting and Communication
    • /
    • v.24 no.1
    • /
    • pp.55-58
    • /
    • 2024
  • In this paper, we propose a design and implementation of big data-based fine dust anomaly detection machine learning system. The proposed is system that classifies the fine dust air quality index through meteorological information composed of fine dust and big data. This system classifies fine dust through the design of an anomaly detection algorithm according to the outliers for each air quality index classification categories based on machine learning. Depth data of the image collected from the camera collects images according to the level of fine dust, and then creates a fine dust visibility mask. And, with a learning-based fingerprinting technique through a mono depth estimation algorithm, the fine dust level is derived by inferring the visibility distance of fine dust collected from the monoscope camera. For experimentation and analysis of this method, after creating learning data by matching the fine dust level data and CCTV image data by region and time, a model is created and tested in a real environment.

A Bayesian Outlier Detection in Random Effects Model (변량모형 자료에서의 베이지안 이상점검출)

  • 정윤식;이상진
    • The Korean Journal of Applied Statistics
    • /
    • v.13 no.1
    • /
    • pp.115-131
    • /
    • 2000
  • 이 논문에서는 평균-이동모형(mean-shift model)을 이상점을 위한 대립모형으로 사용하여 변량모형(random effect model)에서의 이상점 검출을 위한 베이즈인자(Bayes factor)를 제시한다. 그러나 가능한 사전 정보가 없어서 무정보사전분포(noninformative prior distribution)가 사용되어야만 할 때, 대부분의 무정보사전분포는 부적절분포(improper distribution)이기 때문에 베이즌 인자에는 사전분포로부터 나온 미지의 상수가 포함되어 잇다. 이 문제를 해결하기 위해 이 논문에서는 Berger와 Pericchi (1996)가 제시한 내재베이즈인자(the intrinsic Bayes factor;IBF)를 사용한다. 또한 이 베이즈인자를 계산상 어려움을 해결하기 위해 Verdinellidh Wasserman(1995)의 일반화 세비디지키 밀도비를 이용하여 수정하고 이것을 이용하여 이상점을 검출하는 방법을 제시한다. 마지막으로 인위적으로 이상점을 포함하고 있는 데이터를 만들고 제시된 방법으로 가상실험을 하고 또한 실제 데이터에서 제시한 방법으로 이상점을 찾아보았다.

  • PDF

Fraud Detection System Model Using Generative Adversarial Networks and Deep Learning (생성적 적대 신경망과 딥러닝을 활용한 이상거래탐지 시스템 모형)

  • Ye Won Kim;Ye Lim Yu;Hong Yong Choi
    • Information Systems Review
    • /
    • v.22 no.1
    • /
    • pp.59-72
    • /
    • 2020
  • Artificial Intelligence is establishing itself as a familiar tool from an intractable concept. In this trend, financial sector is also looking to improve the problem of existing system which includes Fraud Detection System (FDS). It is being difficult to detect sophisticated cyber financial fraud using original rule-based FDS. This is because diversification of payment environment and increasing number of electronic financial transactions has been emerged. In order to overcome present FDS, this paper suggests 3 types of artificial intelligence models, Generative Adversarial Network (GAN), Deep Neural Network (DNN), and Convolutional Neural Network (CNN). GAN proves how data imbalance problem can be developed while DNN and CNN show how abnormal financial trading patterns can be precisely detected. In conclusion, among the experiments on this paper, WGAN has the highest improvement effects on data imbalance problem. DNN model reflects more effects on fraud classification comparatively.

항로표지 고장예측 서비스를 위한 기계학습 모델 연구

  • 김환;정수환;임성수
    • Proceedings of the Korean Institute of Navigation and Port Research Conference
    • /
    • 2022.06a
    • /
    • pp.95-97
    • /
    • 2022
  • 다양한 소스에서 수집되고 연동되는 항로표지 상태 데이터에서의 이상탐지는 항로표지의 고장예측에 있어서 중요한 역할을 한다. 이 연구에서는 항로표지 고장예측 서비스를 위해 상태 데이터를 모델링하고 분석할 수 있는 기계학습 모델의 연구 방법을 소개한다.

  • PDF

Metadata Management Techniques in a Large Distributed File System Environment (대규모 분산 파일 시스템 환경의 메타 데이터 관리)

  • Cha, M.H.;Lee, S.M.;Kim, J.;Kim, Y.K.;Kim, M.J.
    • Electronics and Telecommunications Trends
    • /
    • v.22 no.3 s.105
    • /
    • pp.154-165
    • /
    • 2007
  • 메타 데이터와 데이터의 처리 경로를 독립시킨 분산 파일 시스템 구조는 입출력 성능향상 및 확장성 용이라는 측면에서 현재 주도적인 아키텍처로 사용되고 있다. 이러한 환경에서 클라이언트 및 데이터 서버의 수가 계속 확장되어 전체 시스템 규모가 페타(peta) 바이트급 이상 처리가 가능한 대규모로 진화될 경우 필연적으로 메타 데이터 서버에 병목 현상이 발생하게 된다. 본 고에서는 이러한 문제를 처리하기 위한 아키텍처로서 메타 데이터 서버들의 클러스터링을 고려하며, 이를 위해 제안된 다양한 기술들의 동작 원리 및 장단점 등을 분석하고 고찰해 보기로 한다.

The analysis of characteristics change according to mileage of Hybrid Electric Vehicle (하이브리드자동차의 주행거리에 따른 특성 변화 분석)

  • Woo, Ji-Young;Park, Seong-A;Yu, So-Young;Yang, In-Beom
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2019.01a
    • /
    • pp.443-444
    • /
    • 2019
  • 공유경제 시대의 다양한 전기구동플랫폼 운용에 유효한 새로운 유지보수 가이드라인을 도출하고자, 본 연구는 하이브리드자동차와 전기자동차의 특성을 모두 갖는 PHEV의 장기간 주행 데이터를 분석하여, 주요 부품의 상태 변화를 파악하였다. PHEV의 모터, 인버터, 2차전지 등 주요 부품의 주행 데이터 변화를 관찰하여 마일리지 누적에 따른 상태변화가 큰 부품을 파악하였다. 분석결과 1만Km 이상 주행 시 보조 배터리의 온도와 5만Km 이상 주행 시 2차전지의 온도 변화가 유의미하게 발생함을 확인하였다.

  • PDF

Development of a Stock Data Monitoring System Using the Isolation Forest Algorithm (Isolation Forest 알고리즘을 활용한 증권 데이터 모니터링 시스템 개발)

  • Woo-Yong An;Hong-Jip Kim;Jung-Yeon Kim;Seung-Hyun Seo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2024.05a
    • /
    • pp.488-489
    • /
    • 2024
  • 변동성이 심한 증권 데이터의 특성 상 데이터의 다양한 요소에서 장애 상황이 발생한다. 따라서 실시간 대용량 데이터 처리 과정에서 발생할 수 있는 다양한 서비스 장애 요인들을 식별하고, 이를 신속하게 대응하기 위한 효율적인 실시간 모니터링 시스템 구축이 필요하다. 본 연구는 국내 증권사로 송신되는 해외 선물옵션 및 주식 데이터를 이상치 탐지 알고리즘인 Isolation Forest 를 통해 데이터의 이상치를 판단하고 알림 신호를 발생시키는 시스템을 제안한다.

빅데이터 분석을 위한 Rank-Sparsity 기반 신호처리기법

  • Lee, Hyeok;Lee, Hyeong-Il;Jo, Jae-Hak;Kim, Min-Cheol;So, Byeong-Hyeon;Lee, Jeong-U
    • Information and Communications Magazine
    • /
    • v.31 no.11
    • /
    • pp.35-45
    • /
    • 2014
  • 주성분 분석 기법(PCA)는 가장 널리 사용되는 데이터 차원 감소 (dimensionality reduction) 기법으로 알려져 있다. 하지만 데이터에 이상점 (outlier)가 존재하는 환경에서는 성능이 크게 저하된다는 단점을 가지고 있다. Rank-Sparsity(Robust PCA) 기법은 주어진 행렬을 low-rank 행렬과 저밀도(sparse)행렬의 합으로 분해하는 방식으로, 이상점이 많은 환경에서 PCA기법을 효과적으로 대체할 수 있는 알고리즘으로 알려져 있다. 본 고에서는 RPCA 기법을 간략히 소개하고, 그의 적용분야, 및 알고리즘에 관한 연구들을 대해서 알아본다.