• 제목/요약/키워드: epsilon-Greedy

검색결과 4건 처리시간 0.02초

확률적 보상과 유효성을 갖는 Sleeping Bandits의 다수의 전략을 융합하는 기법 (Combining Multiple Strategies for Sleeping Bandits with Stochastic Rewards and Availability)

  • 최상희;장형수
    • 정보과학회 논문지
    • /
    • 제44권1호
    • /
    • pp.63-70
    • /
    • 2017
  • 본 논문에서는 확률적 보상과 유효성을 갖고, 매 시간 유효한 arm들의 집합이 변하는 sleeping bandit 문제를 해결하는 다수의 전략들의 집합 ${\Phi}$가 주어졌을 때, 이들을 융합하는 문제를 고려하고, 이 문제를 해결하기 위한 융합 알고리즘 sleepComb(${\Phi}$)를 제안한다. 제안된 알고리즘인 sleepComb(${\Phi}$)는 확률적(stochastic) multi-armed bandit 문제를 해결하는 매개변수 기반 휴리스틱으로 잘 알려진 ${\epsilon}_t$-greedy의 확률적 스위칭 기법을 바탕으로 매 시간 적절한 전략을 선택하는 알고리즘이다. 시퀀스 {${\epsilon}_t$}와 전략들에 대한 적절한 조건이 주어졌을 때, 알고리즘 sleepComb(${\Phi}$)는 sleeping bandit 문제에 대해 적절히 정의된 "best" 전략으로 수렴한다. 실험을 통해 이 알고리즘이 "best" 전략으로 수렴한다는 사실을 확인하고, 기존의 다른 융합 알고리즘보다 "best" 전략으로 더 빠르게 수렴함과 "best" 전략을 선택하는 비율이 더 높음을 보인다.

기피비용과 수송비용을 고려한 기피시설 입지문제 (An unwanted facility location problem with negative influence cost and transportation cost)

  • 양병학
    • 대한안전경영과학회지
    • /
    • 제15권1호
    • /
    • pp.77-85
    • /
    • 2013
  • In the location science, environmental effect becomes a new main consideration for site selection. For the unwanted facility location selection, decision makers should consider the cost of resolving the environmental conflict. We introduced the negative influence cost for the facility which was inversely proportional to distance between the facility and residents. An unwanted facility location problem was suggested to minimize the sum of the negative influence cost and the transportation cost. The objective cost function was analyzed as nonlinear type and was neither convex nor concave. Three GRASP (Greedy Randomized adaptive Search Procedure) methods as like Random_GRASP, Epsilon_GRASP and GRID_GRASP were developed to solve the unwanted facility location problem. The Newton's method for nonlinear optimization problem was used for local search in GRASP. Experimental results showed that quality of solution of the GRID_GRASP was better than those of Random_GRASP and Epsilon_GRASP. The calculation time of Random_GRASP and Epsilon_GRASP were faster than that of Grid_GRASP.

삼목 게임에서 최상의 첫 수를 구하기 위해 적용된 신뢰상한트리 알고리즘 (The UCT algorithm applied to find the best first move in the game of Tic-Tac-Toe)

  • 이병두;박동수;최영욱
    • 한국게임학회 논문지
    • /
    • 제15권5호
    • /
    • pp.109-118
    • /
    • 2015
  • 고대 중국에서 기원된 바둑은 인공지능 분야에서 가장 어려운 도전 중의 하나로 간주된다. 지난 수년에 걸쳐 MCTS를 기반으로 하는 정상급 컴퓨터바둑 프로그램이 놀랍게도 접바둑에서 프로기사를 물리쳤다. MCTS는 게임이 끝날 때까지 일련의 무작위 유효착수를 시뮬레이션 하는 접근법이며, 기존의 지식기반 접근법을 대체했다. 저자는 MCTS의 변형인 UCT 알고리즘을 삼목 게임에 적용하여 최선의 첫 수를 찾고자 했으며, 순수 MCTS의 결과와 비교를 했다. 아울러 UCB 이해를 위한 다중슬롯머신 문제를 풀기 위해 엡실론-탐욕 알고리즘과 UCB 알고리즘을 소개 및 성능을 비교하였다.

풍력 발전기 평가를 위한 수집 행렬 데이터 절감 알고리즘 개발 (Developing Novel Algorithms to Reduce the Data Requirements of the Capture Matrix for a Wind Turbine Certification)

  • 이제현;최정철
    • 신재생에너지
    • /
    • 제16권1호
    • /
    • pp.15-24
    • /
    • 2020
  • For mechanical load testing of wind turbines, capture matrix is constructed for various range of wind speeds according to the international standard IEC 61400-13. The conventional method wastes considerable amount of data by its invalid data policy -segment data into 10 minutes then remove invalid ones. Previously, we have suggested an alternative way to save the total amount of data to build a capture matrix, but the efficient selection of data has been still under question. The paper introduces optimization algorithms to construct capture matrix with less data. Heuristic algorithm (simple stacking and lowest frequency first), population method (particle swarm optimization) and Q-Learning accompanied with epsilon-greedy exploration are compared. All algorithms show better performance than the conventional way, where the distribution of enhancement was quite diverse. Among the algorithms, the best performance was achieved by heuristic method (lowest frequency first), and similarly by particle swarm optimization: Approximately 28% of data reduction in average and more than 40% in maximum. On the other hand, unexpectedly, the worst performance was achieved by Q-Learning, which was a promising candidate at the beginning. This study is helpful for not only wind turbine evaluation particularly the viewpoint of cost, but also understanding nature of wind speed data.