Designing Reward Function for Cooperative Traffic Signal Control at Multi-intersection

다중 교차로에서 협동적 신호제어를 위한 보상함수 설계

  • Published : 2022.10.03

Abstract

Nowadays, breaking through the conventional traffic signal control method based on mathematical optimization, artificial intelligence began to be used in the area. In response to this trend, many studies are ongoing to figure out how to utilize AI technology properly for traffic signal optimization. They just simply focus on which method will work well besides lots of machine learning techniques and abandon the reward function engineering. In many cases, the reward function consists of the average delay of the vehicles in the intersection. However, this may lead to AI's misunderstanding about the traffic signal control: what AI regards as a good situation may not be realistic. Even the reward function itself may not meet the service level. Therefore, this study analyzes the problems of previous reward functions and will suggest how to reward function can be enhanced.

신호를 제어하는 방식은기존의 전통적인 수학적 방식을 이용한 최적화를 넘어 이제 인공지능이 본격적으로 활용되기 시작하는 단계까지 발전하였다. 이에 따라 인공지능을 적용하는 방안에 대해 다양한 연구들이 진행되고 있는데, 현행 연구에서는 주로 좋은 교통 상황에 대한 마땅한 고려 없이 간단히 지체도만을 고려하여 보상함수를 설정하는 방식을 주로 채택하고 있다. 그러나 이 경우 현실성이 떨어지는 신호 제어 방식을 인공지능이 학습할 가능성이 존재한다는 문제점을 지닐 뿐더러, 보상 함수에서 좋다고 평가하는 것이 실질적인 서비스 수준의 정의에 부합하지 않음을 확인할 수 있다. 따라서 본 연구에서는 기존의 보상함수 설정 사례를 분석하고, 개선 방향을 제시하고자 한다.

Keywords

Acknowledgement

이 논문은 경기과학고등학교의 지원에 의함.