• 제목/요약/키워드: Sleeping bandit problem

검색결과 1건 처리시간 0.014초

확률적 보상과 유효성을 갖는 Sleeping Bandits의 다수의 전략을 융합하는 기법 (Combining Multiple Strategies for Sleeping Bandits with Stochastic Rewards and Availability)

  • 최상희;장형수
    • 정보과학회 논문지
    • /
    • 제44권1호
    • /
    • pp.63-70
    • /
    • 2017
  • 본 논문에서는 확률적 보상과 유효성을 갖고, 매 시간 유효한 arm들의 집합이 변하는 sleeping bandit 문제를 해결하는 다수의 전략들의 집합 ${\Phi}$가 주어졌을 때, 이들을 융합하는 문제를 고려하고, 이 문제를 해결하기 위한 융합 알고리즘 sleepComb(${\Phi}$)를 제안한다. 제안된 알고리즘인 sleepComb(${\Phi}$)는 확률적(stochastic) multi-armed bandit 문제를 해결하는 매개변수 기반 휴리스틱으로 잘 알려진 ${\epsilon}_t$-greedy의 확률적 스위칭 기법을 바탕으로 매 시간 적절한 전략을 선택하는 알고리즘이다. 시퀀스 {${\epsilon}_t$}와 전략들에 대한 적절한 조건이 주어졌을 때, 알고리즘 sleepComb(${\Phi}$)는 sleeping bandit 문제에 대해 적절히 정의된 "best" 전략으로 수렴한다. 실험을 통해 이 알고리즘이 "best" 전략으로 수렴한다는 사실을 확인하고, 기존의 다른 융합 알고리즘보다 "best" 전략으로 더 빠르게 수렴함과 "best" 전략을 선택하는 비율이 더 높음을 보인다.