• 제목/요약/키워드: Multi-armed bandit

검색결과 10건 처리시간 0.018초

확률적 보상과 유효성을 갖는 Sleeping Bandits의 다수의 전략을 융합하는 기법 (Combining Multiple Strategies for Sleeping Bandits with Stochastic Rewards and Availability)

  • 최상희;장형수
    • 정보과학회 논문지
    • /
    • 제44권1호
    • /
    • pp.63-70
    • /
    • 2017
  • 본 논문에서는 확률적 보상과 유효성을 갖고, 매 시간 유효한 arm들의 집합이 변하는 sleeping bandit 문제를 해결하는 다수의 전략들의 집합 ${\Phi}$가 주어졌을 때, 이들을 융합하는 문제를 고려하고, 이 문제를 해결하기 위한 융합 알고리즘 sleepComb(${\Phi}$)를 제안한다. 제안된 알고리즘인 sleepComb(${\Phi}$)는 확률적(stochastic) multi-armed bandit 문제를 해결하는 매개변수 기반 휴리스틱으로 잘 알려진 ${\epsilon}_t$-greedy의 확률적 스위칭 기법을 바탕으로 매 시간 적절한 전략을 선택하는 알고리즘이다. 시퀀스 {${\epsilon}_t$}와 전략들에 대한 적절한 조건이 주어졌을 때, 알고리즘 sleepComb(${\Phi}$)는 sleeping bandit 문제에 대해 적절히 정의된 "best" 전략으로 수렴한다. 실험을 통해 이 알고리즘이 "best" 전략으로 수렴한다는 사실을 확인하고, 기존의 다른 융합 알고리즘보다 "best" 전략으로 더 빠르게 수렴함과 "best" 전략을 선택하는 비율이 더 높음을 보인다.

Opportunistic Spectrum Access Based on a Constrained Multi-Armed Bandit Formulation

  • Ai, Jing;Abouzeid, Alhussein A.
    • Journal of Communications and Networks
    • /
    • 제11권2호
    • /
    • pp.134-147
    • /
    • 2009
  • Tracking and exploiting instantaneous spectrum opportunities are fundamental challenges in opportunistic spectrum access (OSA) in presence of the bursty traffic of primary users and the limited spectrum sensing capability of secondary users. In order to take advantage of the history of spectrum sensing and access decisions, a sequential decision framework is widely used to design optimal policies. However, many existing schemes, based on a partially observed Markov decision process (POMDP) framework, reveal that optimal policies are non-stationary in nature which renders them difficult to calculate and implement. Therefore, this work pursues stationary OSA policies, which are thereby efficient yet low-complexity, while still incorporating many practical factors, such as spectrum sensing errors and a priori unknown statistical spectrum knowledge. First, with an approximation on channel evolution, OSA is formulated in a multi-armed bandit (MAB) framework. As a result, the optimal policy is specified by the wellknown Gittins index rule, where the channel with the largest Gittins index is always selected. Then, closed-form formulas are derived for the Gittins indices with tunable approximation, and the design of a reinforcement learning algorithm is presented for calculating the Gittins indices, depending on whether the Markovian channel parameters are available a priori or not. Finally, the superiority of the scheme is presented via extensive experiments compared to other existing schemes in terms of the quality of policies and optimality.

강화학습 기반 빌딩의 방별 조명 시스템 조도값 설정 기법 (Reinforcement Learning-Based Illuminance Control Method for Building Lighting System)

  • 김종민;김선용
    • 전기전자학회논문지
    • /
    • 제26권1호
    • /
    • pp.56-61
    • /
    • 2022
  • 전 세계적으로 에너지 사용량이 증가함에 따라 지구온난화와 같은 환경문제가 초래되었으며, 이에 각국은 협정·협약을 통한 에너지 산업의 탈탄소화와 함께 화석 에너지를 신재생에너지로 빠르게 전환 중이다. 발전량이 급변하는 신재생에너지 보급 확대에 따라 효율적인 에너지 관리의 필요성이 대두되는 한편, AI 기술이 발전함에 따라 에너지 관리 분야와 결합한 AI 기반 빌딩 에너지 관리 시스템(Building Energy Management System, BEMS)의 연구 및 개발이 활발히 이루어지고 있다. 본 논문에서는 강화학습 기법중 Multi-Armed Bandit(MAB) 알고리즘을 활용하여 빌딩 각 방의 조명시스템 전력사용량을 효율적으로 관리함과 동시에 사용자들의 불쾌지수를 최소화할 수 있는 알고리즘을 제안하고, 시뮬레이션을 통해 성능을 검증한다.

Adaptive algorithm for optimal real-time pricing in cognitive radio enabled smart grid network

  • Das, Deepa;Rout, Deepak Kumar
    • ETRI Journal
    • /
    • 제42권4호
    • /
    • pp.585-595
    • /
    • 2020
  • Integration of multiple communication technologies in a smart grid (SG) enables employing cognitive radio (CR) technology for improving reliability and security with low latency by adaptively and effectively allocating spectral resources. The versatile features of the CR enable the smart meter to select either the unlicensed or the licensed band for transmitting data to the utility company, thus reducing communication outage. Demand response management is regarded as the control unit of the SG that balances the load by regulating the real-time price that benefits both the utility company and consumers. In this study, joint allocation of the transmission power to the smart meter and consumer's demand is formulated as a two stage multi-armed bandit game in which the players select their optimal strategies noncooperatively without having any prior information about the media. Furthermore, based on historical rewards of the player, a real-time pricing adaptation method is proposed. The latter is validated through numerical results.

A Heuristic Time Sharing Policy for Backup Resources in Cloud System

  • Li, Xinyi;Qi, Yong;Chen, Pengfei;Zhang, Xiaohui
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제10권7호
    • /
    • pp.3026-3049
    • /
    • 2016
  • Cloud computing promises high performance and cost-efficiency. However, most cloud infrastructures operate at a low utilization, which greatly adheres cost effectiveness. Previous works focus on seeking efficient virtual machine (VM) consolidation strategies to increase the utilization of virtual resources in production environment, but overlook the under-utilization of backup virtual resources. We propose a heuristic time sharing policy of backup VMs derived from the restless multi-armed bandit problem. The proposed policy achieves increasing backup virtual resources utilization and providing high availability. Both the results in simulation and prototype system experiments show that the traditional 1:1 backup provision can be extended to 1:M (M≫1) between the backup VMs and the service VMs, and the utilization of backup VMs can be enhanced significantly.

MEC 산업용 IoT 환경에서 경매 이론과 강화 학습 기반의 하이브리드 오프로딩 기법 (Hybrid Offloading Technique Based on Auction Theory and Reinforcement Learning in MEC Industrial IoT Environment)

  • 배현지;김승욱
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제12권9호
    • /
    • pp.263-272
    • /
    • 2023
  • 산업용 IoT는 대규모 연결을 통해 데이터 수집, 교환, 분석과 함께 산업 분야의 생산 효율성 개선에 중요한 요소이다. 그러나 최근 산업용 IoT의 확산으로 인해 트래픽이 폭발적으로 증가함에 따라 트래픽을 효율적으로 처리해줄 할당 기법이 필요하다. 본 논문에서는 산업용 IoT 환경에서 성공적인 태스크 처리율을 높이기 위한 2단계 태스크 오프로딩 결정 기법을 제안한다. 또한, 컴퓨팅 집약적인 태스크를 셀룰러 링크를 통해 이동 엣지 컴퓨팅(Mobile Edge Computing: MEC) 서버로 오프로드 하거나 D2D(Device to Device) 링크를 통해 근처의 산업용 IoT 장치로 오프로드 할 수 있는 하이브리드 오프로딩(Hybrid-offloading) 시스템을 고려한다. 먼저 1단계는 태스크 오프로딩에 참여하는 기기들이 이기적으로 행동하여 태스크 처리율 향상에 어려움을 주는 것을 방지하기 위해 인센티브 메커니즘을 설계한다. 메커니즘 디자인 중 McAfee's 메커니즘을 사용하여 태스크를 처리해주는 기기들의 이기적인 행동을 제어하고 전체 시스템 처리율을 높일 수 있도록 한다. 그 후 2단계에서는 산업용 IoT 장치의 불규칙한 움직임을 고려하여 비정상성(Non-stationary) 환경에서 멀티 암드 밴딧(Multi-Armed Bandit: MAB) 기반 태스크 오프로딩 결정 기법을 제안한다. 실험 결과로 제안된 기법이 기존의 다른 기법에 비해 전체 시스템 처리율, 통신 실패율, 후회 측면에서 더 나은 성능을 달성할 수 있음을 보인다.

삼목 게임에서 최상의 첫 수를 구하기 위해 적용된 신뢰상한트리 알고리즘 (The UCT algorithm applied to find the best first move in the game of Tic-Tac-Toe)

  • 이병두;박동수;최영욱
    • 한국게임학회 논문지
    • /
    • 제15권5호
    • /
    • pp.109-118
    • /
    • 2015
  • 고대 중국에서 기원된 바둑은 인공지능 분야에서 가장 어려운 도전 중의 하나로 간주된다. 지난 수년에 걸쳐 MCTS를 기반으로 하는 정상급 컴퓨터바둑 프로그램이 놀랍게도 접바둑에서 프로기사를 물리쳤다. MCTS는 게임이 끝날 때까지 일련의 무작위 유효착수를 시뮬레이션 하는 접근법이며, 기존의 지식기반 접근법을 대체했다. 저자는 MCTS의 변형인 UCT 알고리즘을 삼목 게임에 적용하여 최선의 첫 수를 찾고자 했으며, 순수 MCTS의 결과와 비교를 했다. 아울러 UCB 이해를 위한 다중슬롯머신 문제를 풀기 위해 엡실론-탐욕 알고리즘과 UCB 알고리즘을 소개 및 성능을 비교하였다.

다중경로 통신 시스템에서 톰슨 샘플링을 이용한 경로 선택 기법 (Thompson sampling based path selection algorithm in multipath communication system)

  • Chung, Byung Chang
    • 한국정보통신학회논문지
    • /
    • 제25권12호
    • /
    • pp.1960-1963
    • /
    • 2021
  • In this paper, we propose a multiplay Thompson sampling algorithm in multipath communication system. Multipath communication system has advantages on communication capacity, robustness, survivability, and so on. It is important to select appropriate network path according to the status of individual path. However, it is hard to obtain the information of path quality simultaneously. To solve this issue, we propose Thompson sampling which is popular in machine learning area. We find some issues when the algorithm is applied directly in the proposal system and suggested some modifications. Through simulation, we verified the proposed algorithm can utilize the entire network paths. In summary, our proposed algorithm can be applied as a path allocation in multipath-based communications system.

Deep Q 학습 기반의 다중경로 시스템 경로 선택 알고리즘 (Path selection algorithm for multi-path system based on deep Q learning)

  • 정병창;박혜숙
    • 한국정보통신학회논문지
    • /
    • 제25권1호
    • /
    • pp.50-55
    • /
    • 2021
  • 다중경로 시스템은 유선망, LTE망, 위성망 등 다양한 망을 동시에 활용하여 데이터를 전송하는 시스템으로, 통신망의 전송속도, 신뢰도, 보안성 등을 높이기 위해 제안되었다. 본 논문에서는 이 시스템에서 각 망의 지연시간을 보상으로 하는 강화학습 기반 경로 선택 방안을 제안하고자 한다. 기존의 강화학습 모델과는 다르게, deep Q 학습을 이용하여 망의 변화하는 환경에 즉각적으로 대응하도록 알고리즘을 설계하였다. 네트워크 환경에서는 보상 정보를 일정 지연시간이 지나야 얻을 수 있으므로 이를 보정하는 방안 또한 함께 제안하였다. 성능을 평가하기 위해, 분산 데이터베이스와 텐서플로우 모듈 등을 포함한 테스트베드 학습 서버를 개발하였다. 시뮬레이션 결과, 제안 알고리즘이 RTT 감소 측면에서 최저 지연시간을 선택하는 방안보다 20% 가량 좋은 성능을 가지는 것을 확인하였다.

온라인 배너 광고 강화학습의 최적 탐색-활용 전략: 구전효과의 영향 (Optimal Exploration-Exploitation Strategies in Reinforcement Learning for Online Banner Advertising: The Impact of Word-of-Mouth Effects)

  • 김범수;유건재;이준겸
    • 서비스연구
    • /
    • 제14권2호
    • /
    • pp.1-17
    • /
    • 2024
  • 온라인 배너 광고 산업에서는 일반적으로 복수의 배너 대안이 제작된다. 이때 중요한 의사결정은 어떤 광고 배너 대안을 선택해서 고객에게 노출하느냐 하는 것이다. 각 배너 대안을 고객이 클릭할 확률을 미리 알 수 없기 때문에 경영자는 실험적으로 여러 대안을 노출한 후, 고객의 클릭 여부에 따라 각 대안의 클릭 확률을 추정하며 최적의 대안을 찾아야 하고 이것은 온라인 광고와 관련된 강화학습 프로세스이다. 이 과정에서의 주요 의사결정 문제는 축적된 추정 클릭 확률 지식을 이용해서 최적의 대안을 노출하는 활용 전략과, 잠재적으로 더 우수한 대안을 찾기 위해 새로운 대안을 시도해보는 탐색 전략의 최적 균형점을 찾는 것이다. 본 연구는 구전효과와 대안의 수가 이러한 최적 탐색-활용 전략에 미치는 영향을 분석하였다. 이는 고객이 노출된 배너를 클릭하는 경우 관련 제품을 주위에 홍보하는 과정을 통해 광고 배너의 클릭률이 높아지는 구전효과를 온라인 광고 관련 강화학습에 추가하여 구현한 것이다. 분석을 위해 Multi-Armed Bandit 모형을 이용한 시뮬레이션 기법을 사용하였다. 분석 결과, 구전효과의 크기가 커지고 배너 대안의 수가 적을수록 광고 강화학습의 최적 탐색 수준이 높아지는 것이 관측되었다. 이는 구전효과에 의해 고객이 광고 배너를 클릭할 확률이 증가함에 따라 기존에 축적했던 추정 클릭률 지식의 가치가 낮아지고, 따라서 새로운 대안을 탐색하는 것의 가치가 증가하기 때문으로 분석되었다. 또한 광고 대안의 수가 작을 경우에는 구전효과 크기가 커질 때 최적 탐색 수준이 더 큰 폭으로 증가하는 경향을 발견하였다. 최근 온라인 구전으로 인해 구전효과의 영향이 커지는 시점에서 본 연구는 의미 있는 시사점을 제공한다.