• 제목/요약/키워드: 이상데이터

검색결과 6,505건 처리시간 0.042초

이상탐지 알고리즘 성능 비교: 이상치 유형과 데이터 속성 관점에서 (Performance Comparison of Anomaly Detection Algorithms: in terms of Anomaly Type and Data Properties)

  • 김재웅;정승렬;김남규
    • 지능정보연구
    • /
    • 제29권3호
    • /
    • pp.229-247
    • /
    • 2023
  • 여러 분야에서 이상탐지의 중요성이 강조됨에 따라, 다양한 데이터 유형과 이상치 유형에 대한 이상탐지 알고리즘이 개발되고 있다. 하지만 이상탐지 알고리즘의 성능은 주로 공개 데이터 세트에 대해 측정될 뿐 특정 유형의 이상치에서 나타나는 각 알고리즘의 성능은 확인되지 않고 있으므로, 분석 상황에 맞는 적절한 이상탐지 알고리즘 선택에 어려움이 있다. 이에 본 논문에서는 이상치의 유형과 다양한 데이터 속성을 먼저 파악하여, 이를 기반으로 적절한 이상탐지 알고리즘 선택에 도움을 줄 수 있는 방안을 제시하고자 한다. 구체적으로 본 연구에서는 지역, 전역, 종속성, 그리고 군집화의 총 4가지 이상치 유형에 대해 이상탐지 알고리즘의 성능을 비교하고, 추가 분석을 통해 라벨 수준, 데이터 개수, 그리고 차원 수가 성능에 미치는 영향을 확인한다. 실험 결과 이상치 유형에 따라 가장 우수한 성능을 나타내는 알고리즘이 다르게 나타나며, 이상치 유형에 대한 정보가 없는 경우에도 안정적인 성능을 보여주는 알고리즘을 확인했다. 또한 비지도 학습 기반 이상탐지 알고리즘의 성능이 지도 학습 및 준지도 학습 알고리즘의 성능보다 낮게 나타나는 유형을 확인하였다. 마지막으로 데이터 개수가 상대적으로 적거나 많을 때 대부분 알고리즘들의 성능이 이상치 유형에 더 강하게 영향을 받으며, 상대적으로 고차원일 경우 지역, 전역 이상치에서는 우수한 성능을 보였지만 군집화 이상치 유형에서 낮은 성능을 나타냄을 확인하였다.

자율주행 영상데이터의 신뢰도 향상을 위한 AI모델 기반 데이터 자동 정제 (AI Model-Based Automated Data Cleaning for Reliable Autonomous Driving Image Datasets)

  • 김가나;김학일
    • 방송공학회논문지
    • /
    • 제28권3호
    • /
    • pp.302-313
    • /
    • 2023
  • 본 연구는 과학기술정보통신부가 2017년부터 1조원 이상을 투자한 'AI Hub 댐' 사업에서 구축된 인공지능 모델 학습데이터의 품질관리를 자동화할 수 있는 프레임워크의 개발을 목표로 한다. 자율주행 개발에 사용되는 AI 모델 학습에는 다량의 고품질의 데이터가 필요하며, 가공된 데이터를 검수자가 데이터 자체의 이상을 검수하고 유효함을 증명하는 데는 여전히 어려움이 있으며 오류가 있는 데이터로 학습된 모델은 실제 상황에서 큰 문제를 야기할 수 있다. 본 논문에서는 이상 데이터를 제거하는 신뢰할 수 있는 데이터셋 정제 프레임워크를 통해 모델의 인식 성능을 향상시키는 전략을 소개한다. 제안하는 방법은 인공지능 학습용 데이터 품질관리 가이드라인의 지표를 기반으로 설계되었다. 한국정보화진흥원의 AI Hub을 통해 공개된 자율주행 데이터셋에 대한 실험을 통해 프레임워크의 유효성을 증명하였고, 이상 데이터가 제거된 신뢰할 수 있는 데이터셋으로 재구축될 수 있음을 확인하였다.

PPG와 ECG의 상관 관계에 기반한 심박 시계열 데이터 이상 상황 탐지 최적 모델 비교 연구 (A Comparative Study on the Optimal Model for abnormal Detection event of Heart Rate Time Series Data Based on the Correlation between PPG and ECG)

  • 김진수;이강윤
    • 인터넷정보학회논문지
    • /
    • 제20권6호
    • /
    • pp.137-142
    • /
    • 2019
  • 본 논문은 이상 상황을 탐지하고 모니터링하는 다양한 서비스가 존재한다. 하지만 대부분의 서비스는 화재, 가스누출에 초점을 맞추어 진행되고 있으며, 독거노인과 중증장애인들의 사망 혹은 심정지 등 위급상황에 대하여 사전 예방 및 위급상황 대응이 불가능하다. 본 연구에서는 여러 생체신호 중 가장 위중하다고 판단되는 심박 신호의 이상 상태를 탐지하기 위하여 인공지능 모델을 설계하는 과정에서 적합한 데이터 변형과 모델을 비교한다. 세부적으로는 오픈 의료 데이터 PhysioNet의 MIT-BIH Arrhythmia Database를 이용하여 심전도(ECG) 데이터를 수집하고, 수집한 데이터를 각각 다른 방법으로 데이터를 변형한 후 학습하여 기본 심전도 데이터를 이용해 학습한 인공지능 모델과 비교한다.

이상 데이터를 활용한 성과부진학생의 조기예측성능 향상 (Improvement of early prediction performance of under-performing students using anomaly data)

  • 황철현
    • 한국정보통신학회논문지
    • /
    • 제26권11호
    • /
    • pp.1608-1614
    • /
    • 2022
  • 최근 학생 수 감소로 인한 대학 간 경쟁이 심화되면서 성과부진학생을 조기에 예측하고, 중도이탈을 예방하기 위해 다양한 노력을 기울이는 것은 대학의 필수 업무로 인식되고 있다. 이를 위해서는 학생의 성과를 정밀하게 예측하는 우수한 성능의 모델이 필수적이다. 본 논문은 성과부진학생을 식별하기 위한 분류 예측 모델에서 이상 데이터를 제거하거나 증폭을 통해 예측 성능을 향상시키는 방법에 대해 제안한다. 기존 이상데이터 처리방법은 주로 데이터를 삭제하거나 무시하는데 집중되었지만 이 논문에서는 잡음과 변화지표를 구분하는 기준을 제시하고, 데이터를 삭제하거나 증폭함으로써 예측 모델의 성능을 높이는데 기여한다. 제안 방법의 검증을 위해 공개된 학습 성과 데이터를 활용한 실험에서 기존 방법에 비해 제안방법이 분류 성능을 향상시킬 수 있는 다수의 사례를 발견할 수 있었다.

부하테스트를 활용한 클라우드 운영 환경의 이상탐지 알고리즘 성능 분석 (Anomaly Detection Algorithm Performance Analysis of Cloud Operating Environment using Stress Test)

  • 김진희;이찬재;윤호영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 추계학술발표대회
    • /
    • pp.837-840
    • /
    • 2021
  • 안정적인 서버 운영을 위해 이상 패턴 및 개체를 식별하는 이상탐지 연구가 활발하게 연구되어 오고 있다. 이상탐지의 대표적인 예로 서버의 사용량 증가를 꼽을 수 있지만, 실제 이상 데이터 수집 및 현상의 재현이 어렵다는 점은 해당 연구의 어려움으로 존재한다. 본 연구는 다양한 시나리오 기반의 부하테스트를 설계하고, 클라우드 환경에서 이상 데이터를 생성 및 수집하였다. 해당 데이터는 이상탐지에 대표적으로 사용되는 알고리즘의 성능을 비교 분석에 활용하였으며, 실험을 통해 각 알고리즘의 신뢰 수준을 확인하였다. 이는 다양한 서버 운영 환경에 적합한 알고리즘을 채택하는데 활용 가능하며, 결과적으로 안정적이고 효율적인 서버 운영에 기여할 수 있을 것으로 사료된다.

데이터 저장소를 이용한 이상치 및 결측치 보정 시스템 (Adjustment System for Outlier and Missing Value using Data Storage)

  • 김광호;김능회
    • 한국인터넷방송통신학회논문지
    • /
    • 제23권5호
    • /
    • pp.47-53
    • /
    • 2023
  • 현재 4차 산업혁명 시대에 오면서 다양하고 많은 데이터가 쌓여왔다. 농업사회도 스마트팜이나 노지에서 작물의 성장에 영향을 주는 환경 데이터를 센서로 수집해왔다. 환경 데이터는 측정하는 지역에 따라 특징을 가지고, 측정하는 시기에 따라서도 특징을 보이는 데이터이다. 수집된 농업 데이터를 활용해 통계, 인공지능을 사용하여 성장을 예측하거나 수확량을 예측하는 연구가 진행되어왔다. 이러한 연구는 기반이 되는 데이터에 따라 결과가 크게 차이난다. 이에 성능 향상을 위해서 데이터의 품질을 개선하기 위한 연구 또한 지속해서 진행되어왔다. 높은 성능을 위하여 많은 양의 데이터가 필요하고, 양이 충분하여도 데이터의 이상치나 결측치가 있을 경우 결과에 큰 영향을 미친다. 따라서 이상치와 결측치 값의 보정은 데이터 전처리 과정에서 필수이다. 이에 본 논문에서는 실제 농가에서 수집된 데이터를 통합하고 이를 기반으로 이상치와 결측치 보정 시스템을 제안한다.

이상 탐지 모델을 활용한 사용자 행위 기반의 VR기기 사용자 인증 모델 연구 (A Study on VR Device User Authentication Model based on User Behavior using Anomaly Detection Model)

  • 전우진;김형식
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2024년도 춘계학술발표대회
    • /
    • pp.856-858
    • /
    • 2024
  • VR 기술의 발전은 다양한 분야에서 사용자에게 몰입감 있는 가상 현실 경험을 제공하지만, VR기기 내부에 사용자의 생체 데이터 및 금융정보와 같은 민감한 정보들이 저장되어 새로운 보안 문제를 야기하고 있다. 이에 따라 PIN, 패스워드 등과 같은 기존의 인증 방식이 VR 기기에 적용되고 있지만 이들은 shoulder-surfing attack 공격 취약하며 VR 환경에서 사용하기에 불편한 인터페이스를 가지고 있다. 따라서 본 논문에서는 이상 탐지 모델을 활용하여 외부 추론 공격에 강인하며 VR 환경에 적합한 사용자 행위 기반의 VR기기 사용자 인증 모델을 구현한다. 특정 task를 수행하는 동안 사용자의 행위 데이터를 수집 및 feature 데이터를 추출하고, 정상으로 라벨링 된 사용자의 데이터로 이상 탐지 머신러닝 모델들을 학습 후 정상 데이터와 비정상 데이터를 이용하여 인증 모델의 성능을 평가하였다. OC-SVM이 87.72%의 F1-score로 세 모델 중 가장 높은 성능을 보임을 확인하였으며, 향후 인증 모델 성능 향상을 위한 계획을 제시하였다.

그리드 환경에서의 데이터 관리를 위한 시스템 (A Data Management System For Grid Environment)

  • 황상준;노재춘
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 한국컴퓨터종합학술대회 논문집 Vol.32 No.1 (A)
    • /
    • pp.55-57
    • /
    • 2005
  • 과학 분야의 발전에 따라 처리해야 하는 데이터의 양도 급격하게 증가하여 기가바이트, 테라바이트 혹은 페타바이트 이상이 되었다. 이렇게 큰 단위의 데이터를 로컬영역에서 처리하기에는 무리가 있다. 본 논문에서는 테라바이트 혹은 페타 바이트 이상의 데이터를 처리하고 관리하는 방안과 데이터의 사용방법에 대해서 논의 하겠다.

  • PDF

변압기의 이상 신호 데이터를 축적하기 위한 원거리 진단 시스템 개발 (Development of Remote Diagnosis System to Accumulate Abnormal Signal Data of Transformer)

  • 곽승수;김용신
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2019년도 제60차 하계학술대회논문집 27권2호
    • /
    • pp.161-162
    • /
    • 2019
  • 본 논문에서는 변압기의 이상 신호 데이터를 원거리에서 축적하기 위한 이상 신호 진단 시스템을 제안한다. 이 시스템은 원격으로 변압기의 이상 신호를 수집하여 변압기의 이상을 알아낼 수 있다. 이 시스템은 상용된 통신 모듈의 느린 통신 속도를 고려하여 이상 신호를 RMS-DC 값으로 변환하는 작업을 추가하였다.

  • PDF

높은 이상점 비율을 갖는 고감도 가이거모드 영상 라이다 데이터로부터 이상점 검출 (Outlier Detection from High Sensitive Geiger Mode Imaging LIDAR Data retaining a High Outlier Ratio)

  • 김성준;이임평;이영철;조민식
    • 대한원격탐사학회지
    • /
    • 제28권5호
    • /
    • pp.573-586
    • /
    • 2012
  • 라이다 센서로 취득된 점군에는 실제 물리적인 표면에 존재하지 않는 이상점이 포함되어 있다. 이러한 이상점들은 활용을 위한 후속처리를 하기 전에 반드시 제거되어야 한다. 특히 민감도가 아주 높은 가이거 모드 검출기를 이용하는 라이다로 취득한 데이터는 높은 비율의 이상점을 포함하고 있다. 이로 인해 기존의 알고리즘은 이러한 데이터로부터 성공적으로 이상점을 검출하는데 어려움이 있었다. 이에 본 연구는 가이거 모드 영상 라이다로 획득된 높은 이상점 비율을 갖는 점군에서 이상점을 제거하는 방법을 제안한다. 제안된 방법은 의미 있는 표적의 표면은 검출기상에서 두 개 이상의 이웃픽셀에 검출되며, 이러한 이웃픽셀들로부터 출력되는 거리값은 유사하다는 점을 이용한다. 개발된 제거 기법은 시뮬레이션으로 생성된 다양한 점밀도와 이상점 비율의 모의 데이터에 적용하여 임계값과 데이터 특성에 따른 성능을 분석하였다. 대부분의 경우에 약 99% 이상의 이상점 검출성능이 나타났으며, 데이터 특성에 강인하고 임계값에 크게 민감하지 않는 검출성능을 확인하였다. 제안된 방법은 향후 가이거 모드 라이다 데이터의 온라인 실시간 처리 또는 후처리에 효과적으로 활용될 것으로 판단된다.