Abstract
As the number of registered vehicles increases, traffic congestion will worsen worse, which may act as an inhibitory factor for urban social and economic development. Through accurate traffic flow prediction, various AI techniques have been used to prevent traffic congestion. This paper uses the data from a VDS (Vehicle Detection System) as input variables. This study predicted traffic flow in five levels (free flow, somewhat delayed, delayed, somewhat congested, and congested), rather than predicting traffic flow in two levels (free flow and congested). The Catboost model, which is a machine-learning algorithm, was used in this study. This model predicts traffic flow in five levels and compares and analyzes the accuracy of the prediction with other algorithms. In addition, the preprocessed model that went through RandomizedSerachCv and One-Hot Encoding was compared with the naive one. As a result, the Catboost model without any hyper-parameter showed the highest accuracy of 93%. Overall, the Catboost model analyzes and predicts a large number of categorical traffic data better than any other machine learning and deep learning models, and the initial set parameters are optimized for Catboost.
자동차 등록대수와 비례하여 증가하는 교통 혼잡은 도시의 사회경제 발전의 저해 요소로 작용하고 있다. 본 논문은 VDS(Vehicle Detection System)을 통한 데이터를 입력 변수로 사용한다. 본 연구의 목적은 교통 흐름을 단순히 2단계(원할, 정체)가 아닌 5단계(원할, 다소 지체, 지체, 다소 정체, 정체)로 더 정교하게 예측하고, 이 예측에서 가장 정확도가 높은 모델인 Catboost 모델과 다른 모델들을 비교하는 것이다. 이를 위해 본 논문에서는 머신러닝 알고리즘인 Catboost 모델을 통해 5가지 단계를 예측하고 정확도를 다른 머신러닝 알고리즘들과 비교, 분석한다. 또한, 하이퍼 파라미터(Hyper Parameter) 튜닝 및 원-핫 인코딩(One-Hot Encoding) 전처리를 거치지 않은 Catboost 모델과 랜덤 선택(RandomizedSearchcv)을 통해 튜닝 및 데이터 전처리를 거친 모델을 비교, 분석한다. 분석 결과 하이퍼 파라미터 튜닝을 하지 않은 초기 Catboost 모델이 정확도 93%를 보이며 가장 높은 정확도를 기록하였다. 따라서 본 연구는 두가지 의의를 가진다. 첫번째로, 초기 세팅된 파라미터들이 적용된 Catboost 모델이 다수의 범주형 변수를 포함하는 교통 흐름 예측에서 다른 머신러닝, 딥러닝 모델들보다 성능이 높다는 결론을 도출했다는 점에서 의의가 있다. 두번째로, 기존 2단계로 예측하던 교통 흐름을 5단계로 예측함으로써 더욱 정교한 교통 흐름 예측 모델을 제안한다는 점에서 의의를 가진다.