Data Quality Management Method base on Seasonality from Time series Data

시계열 데이터 특성 기반 품질 관리 방법 연구

  • Lee, Jihoon (Information & Media Research Center, Korea Electronics Technology Institute) ;
  • Moon, Jaewon (Information & Media Research Center, Korea Electronics Technology Institute) ;
  • Hwang, Jisoo (Information & Media Research Center, Korea Electronics Technology Institute)
  • 이지훈 (정보미디어연구센터, 한국전자기술연구원) ;
  • 문재원 (정보미디어연구센터, 한국전자기술연구원) ;
  • 황지수 (정보미디어연구센터, 한국전자기술연구원)
  • Published : 2022.06.20

Abstract

IoT 기기의 보급 및 확산으로 많은 산업군에서 이를 바탕으로 시계열 데이터를 획득하고 분석하려는 시도가 확대되고 있다. 시간의 흐름에 따라 저장된 데이터들은 주기에 따라 특정 패턴을 갖는 경우가 많으며 이러한 패턴을 파악한다면 주요 산업군의 의사 결정에 도움이 된다. 그러나 IoT 기기의 수집 오류 및 네트워크 환경에 의해 대부분의 시계열 데이터들은 누락 데이터, 이상 데이터를 갖고 있으며 이를 처리하지 않고 분석할 경우 오히려 잘못된 결과를 초래한다. 본 논문에서는 패턴 파악을 위해 '시간, 일, 주, 월, 년' 등 시간의 주기를 기준으로 데이터를 분할하며 이에 기반하여 데이터셋을 재구성하고 활용 가능한 데이터와 불가능한 데이터로 구분한다. 선별된 데이터셋은 클러스터링에 적용하였으며, 제안하는 방법을 적용할 경우 주기를 갖는 시계열 데이터를 활용하는 분석 및 학습에서 더 나은 결과를 보임을 확인하였다.

Keywords

Acknowledgement

이 논문은 2021년도 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원의 지원을 받아 수행된 연구임 (No.2021-0-00034, 파편화된 데이터의 적극 활용을 위한 시계열 기반 통합 플랫폼 기술 개발)