DOI QR코드

DOI QR Code

Robust Scheduling based on Daily Activity Learning by using Markov Decision Process and Inverse Reinforcement Learning

강건한 스케줄링을 위한 마코프 의사결정 프로세스 추론 및 역강화 학습 기반 일상 행동 학습

  • 이상우 (서울대학교 컴퓨터공학부) ;
  • 곽동현 (서울대학교 뇌과학협동과정) ;
  • 온경운 (서울대학교 컴퓨터공학부) ;
  • 허유정 (서울대학교 컴퓨터공학부) ;
  • 강우영 (서울대학교 컴퓨터공학부) ;
  • 재이다 (서울대학교 컴퓨터공학부) ;
  • 장병탁 (서울대학교 컴퓨터공학부)
  • Received : 2017.03.08
  • Accepted : 2017.07.29
  • Published : 2017.10.15

Abstract

A useful application of smart assistants is to predict and suggest users' daily behaviors the way real assistants do. Conventional methods to predict behavior have mainly used explicit schedule information logged by a user or extracted from e-mail or SNS data. However, gathering explicit information for smart assistants has limitations, and much of a user's routine behavior is not logged in the first place. In this paper, we suggest a novel approach that combines explicit schedule information with patterns of routine behavior. We propose using inference based on a Markov decision process and learning with a reward function based on inverse reinforcement learning. The results of our experiment shows that the proposed method outperforms comparable models on a life-log dataset collected over six weeks.

유저의 일상 스케쥴을 제안하고 예측하는 서비스는 스마트 비서의 흥미로운 응용이다. 전통적인 방법에서는 유저의 행동을 예측하기 위하여, 유저가 직접 자신의 행동을 기록하거나, e-mail 혹은 SNS 등에서 명시적인 일정 정보를 추출하여 사용해왔다. 하지만, 유저가 모든 정보를 기록할 수 없기에, 스마트 비서가 얻을 수 있는 정보는 제한적이며, 유저는 유저의 일상의 routine한 정보를 기록하지 않는 경향이 있다. 본 논문에서는 스케줄러에 적히는 정형화된 일정인 스케줄과 비정형화된 일정을 만드는 일상 행동 패턴들을 동시에 고려하는 접근 방법을 제안한다. 이를 위하여 마코프 의사 결정 프로세스 (MDP)를 기반으로 하는 추론 방법과 역강화 학습 (IRL)을 통한 보상 함수 학습 방법을 제안한다. 실험 결과는 우리가 6주간 모은 실제 생활을 기록한 데이터 셋에서 우리의 방법이 기존 방법들보다 우수한 성능을 보임을 논증한다.

Keywords

Acknowledgement

Supported by : 정보통신기술진흥센터, 한국산업기술평가관리원

References

  1. V. Pejovic and M. Musolesi, "Anticipatory Mobile Computing: A Survey of the State of the Art and Research Challenges," ACM Computing Serveys, Vol. 47, No. 3, 2015.
  2. A. Sadilek and J. Krumm, "Far Out: Predicting Long-Term Human Mobility," Proceedings of the Twenty-Sixth AAAI Conference on Artificial Intelligence, 2012.
  3. X. Ma, H. Yu, Y. Wang, and Y. Wang, "Large-scale transportation network congestion evolution prediction using deep learning theory," PloS one, Vol. 10, No. 3, 2015.
  4. A. Y. Ng and S. Russell, "Algorithm for Inverse Reinforcement Learning," Proceedings of the Seventeenth International Conference on Machine Learning, 2000.
  5. D. Castro, S. Hickson, V. Bettadapura, E. Thomaz, G. Abowd, H. Christensen, and I. Essa, "Predicting Daily Activities From Egocentric Images Using Deep Learning," proceedings of the 2015 ACM International symposium on Wearable Computers, 2015.
  6. S.-W. Lee, C.-Y. Lee, D.-H. Kwak, J.-W. Ha, J. Kim, and B.-T. Zhang, "Dual-memory neural networks for modeling cognitive activities of humans via wearable sensors," Neural Networks, Vol. 92, 2017.
  7. T. Huynh, M. Fritz, and B. Schiele, "Discovery of Activity Patterns using Topic Models," Proceedings of the 10th international conference on Ubiquitous computing, 2008.