Using Topological Properties of Complex Networks for analysis of the efficiency of MDP-based learning

복잡계의 위상특성을 이용한 MDP 학습의 효율 분석

  • Yi Seung-Joon (Biointelligence Lab, School of Computer Science, Seoul National University) ;
  • Zhang Byoung-Tak (Biointelligence Lab, School of Computer Science, Seoul National University)
  • 이승준 (서울대학교 컴퓨터공학부 바이오지능연구실) ;
  • 장병탁 (서울대학교 컴퓨터공학부 바이오지능연구실)
  • Published : 2006.06.01

Abstract

본 논문에서는 마르코프 결정 문제 (Markov decision problem)의 풀이 효율을 잴 수 있는 척도를 알아보기 위해 복잡계 네트워크 (complex network) 의 관점에서 MDP를 하나의 그래프로 나타내고, 그 그래프의 위상학적 성질들을 여러 네트워크 척도 (network measurements)들을 이용하여 측정하고 그 MDP의 풀이 효율과의 관계를 분석하였다. 실세계의 여러 문제들이 MDP로 표현될 수 있고, 모델이 알려진 경우에는 평가치 반복(value iteration)이나 모델이 알려지지 않은 경우에도 강화 학습(reinforcement learning) 알고리즘등을 사용하여 풀 수 있으나, 이들 알고리즘들은 시간 복잡도가 높아 크기가 큰 실세계 문제에 적용하기 쉽지 않다. 이 문제를 해결하기 위해 제안된 것이 MDP를 계층적으로 분할하거나, 여러 단계를 묶어서 수행하는 등의 시간적 추상화(temporal abstraction) 방법들이다. 시간적 추상화를 도입할 경우 MDP가 보다 효율적으로 풀리는 꼴로 바뀐다는 사실에 착안하여, MDP의 풀이 효율을 네트워크 척도를 이용하여 측정할 수 있는 여러 위상학적 성질들을 기반으로 분석하였다. 다양한 구조와 파라미터를 가진 MDP들을 사용해 네트워크 척도들과 MDP의 풀이 효율간의 관계를 분석해 본 결과, 네트워크 척도들 중 평균 측지 거리 (mean geodesic distance) 가 그 MDP의 풀이 효율을 결정하는 가장 중요한 기준이라는 사실을 알 수 있었다.

Keywords