DOI QR코드

DOI QR Code

실외공기측정기 자료를 이용한 도심 기상 예측 기계학습 모형 비교

Comparison of Machine Learning Techniques in Urban Weather Prediction using Air Quality Sensor Data

  • 투고 : 2021.11.26
  • 심사 : 2021.12.17
  • 발행 : 2021.12.31

초록

최근 국가 관측망, 기업 공기 측정기 등을 통해 많고 다양한 기상 데이터가 수집되고 있다. 기계학습 기법을 통해 기상 예측하려는 노력이 곳곳에서 이루어지고 있으며, 국내 미세먼지는 농도가 증가해오고 사람들의 관심이 높아 가장 관심있는 예측 대상 중 하나이다. 본 연구에서는 서울시 전역에 설치된 840여 개실외공기측정기 데이터를 사용하여 PM10·PM2.5 예측 모형을 비교하고자 한다. 5분 뒤 미세먼지 농도 예측을 통해 실시간으로 정보를 제공할 수 있으며, 이는 10분·30분·1시간 뒤 예측 모형 개발에 기반이 될 수 있다. 잡음 제거, 결측치 대체 등의 데이터 전처리를 진행하였고, 시·공간 변수를 고려할 수 있는 파생 변수를 생성하였다. 모형의 매개변수는 반응 표면 방법을 통해 선택하였다. XGBoost, 랜덤포레스트, 딥러닝(Multilayer Perceptron)을 예측 모형으로 사용하여, 미세먼지 농도와 예측값의 차이를 확인하고, 모형 간 성능을 비교하고자 한다.

Recently, large and diverse weather data are being collected by sensors from various sources. Efforts to predict the concentration of fine dust through machine learning are being made everywhere, and this study intends to compare PM10 and PM2.5 prediction models using data from 840 outdoor air meters installed throughout the city. Information can be provided in real time by predicting the concentration of fine dust after 5 minutes, and can be the basis for model development after 10 minutes, 30 minutes, and 1 hour. Data preprocessing was performed, such as noise removal and missing value replacement, and a derived variable that considers temporal and spatial variables was created. The parameters of the model were selected through the response surface method. XGBoost, Random Forest, and Deep Learning (Multilayer Perceptron) are used as predictive models to check the difference between fine dust concentration and predicted values, and to compare the performance between models.

키워드

과제정보

본 연구는 국토교통부의 '빅데이터 기반 항공안전관리 기술 개발 및 플랫폼 구축(21BDAS-B158275-02)' 연구의 지원에 의하여 이루어진 연구로서, 관계부처에 감사드립니다.

참고문헌

  1. Atluri, Gowtham, Anuj Karpatne, and Vipin Kumar. "Spatio-temporal data mining: A survey of problems and methods." ACM Computing Surveys (CSUR) 51.4 (2018): 1-41.
  2. Barnett, Vic, and Toby Lewis. "Outliers in statistical data." Wiley Series in Probability and Mathematical Statistics. Applied Probability and Statistics (1984).
  3. Box, George EP, and Donald W. Behnken. "Some new three level designs for the study of quantitative variables." Technometrics 2.4 (1960): 455-475. https://doi.org/10.1080/00401706.1960.10489912
  4. Breiman, Leo. "Random forests." Machine learning 45.1 (2001): 5-32. https://doi.org/10.1023/A:1010933404324
  5. Chen, Tianqi, and Carlos Guestrin. "Xgboost: A scalable tree boosting system." Proceedings of the 22nd acm sigkdd international conference on knowledge discovery and data mining. 2016.
  6. Hawkins, Douglas M. Identification of outliers. Vol. 11. London: Chapman and Hall, 1980.
  7. Johnson, Richard Arnold, and Dean W. Wichern. Applied multivariate statistical analysis. Vol. 6. London, UK:: Pearson, 2014.
  8. Kowalski, Pawel, and Robert Smyk. "Review and comparison of smoothing algorithms for one-dimensional data noise reduction." 2018 International Interdisciplinary PhD Workshop (IIPhDW). IEEE, 2018.
  9. 이범석. 반응 표면 방법을 이용한 딥러닝 매개변수 최적화 연구 . 인천: 인하대학교 대학원, 2017. Print.