Methods for screening time series data according to data quality and statistical status

품질 및 조건 기반 시계열 데이터 선별 활용 방법

  • Moon, JaeWon (Dept. of Information and Media Center, Korea Electronics Technology Institute) ;
  • Yu, MiSeon (Dept. of Information and Media Center, Korea Electronics Technology Institute) ;
  • Oh, SeungTaek (Dept. of Information and Media Center, Korea Electronics Technology Institute) ;
  • Kum, SeungWoo (Dept. of Information and Media Center, Korea Electronics Technology Institute) ;
  • Hwang, JiSoo (Dept. of Information and Media Center, Korea Electronics Technology Institute) ;
  • Lee, JiHoon (Dept. of Information and Media Center, Korea Electronics Technology Institute)
  • 문재원 (한국전자기술연구원 정보미디어연구센터) ;
  • 유미선 (한국전자기술연구원 정보미디어연구센터) ;
  • 오승택 (한국전자기술연구원 정보미디어연구센터) ;
  • 금승우 (한국전자기술연구원 정보미디어연구센터) ;
  • 황지수 (한국전자기술연구원 정보미디어연구센터) ;
  • 이지훈 (한국전자기술연구원 정보미디어연구센터)
  • Published : 2022.01.12

Abstract

본 논문에서는 불완전한 시계열 데이터를 활용하기 전 데이터를 선별하여 활용하는 방법을 소개한다. 시계열 데이터의 품질은 수집 네트워크와 수집 기기의 시간적 변화와 같은 가변적 상황에 의존적이므로 불규칙적으로 이상 혹은 누락 데이터가 발생한다. 이때 에러를 포함하였다는 이유로 일괄적으로 데이터를 제거하여 활용하지 않거나, 혹은 누락 데이터의 구간을 조건 없이 복원하여 활용한다면 원하지 않는 결과를 초래할 수 있다. 제안하는 방법은 시계열 데이터의 구간에 대한 누락 데이터의 통계적 정보를 축출하고 이에 기반하여 활용 목적과 활용 가능한 품질의 기준에 부합하지 않는다면 활용 불가능한 데이터라고 판별하고 미리 분석 등의 데이터 활용 시 자동 제외하는 구조를 제안하고 실험하였다. 제안하는 방법은 활용 목적과 상황에 적응적으로 누락 값을 포함하는 데이터의 빠른 활용 판단이 가능하며 보다 나은 분석 결과를 얻을 수 있다.

Keywords

Acknowledgement

이 논문은 2021년도 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원의 지원을 받아 수행된 연구임 (No.2021-0-00034, 파편화된 데이터의 적극 활용을 위한 시계열 기반 통합 플랫폼 기술 개발)