• 제목/요약/키워드: MCTS(Monte Carlo Tree Search) Algorithm

검색결과 7건 처리시간 0.026초

삼목 게임을 위해 개선된 몬테카를로 트리탐색 알고리즘 (Enhanced strategic Monte-Carlo Tree Search algorithm to play the game of Tic-Tac-Toe)

  • 이병두
    • 한국게임학회 논문지
    • /
    • 제16권4호
    • /
    • pp.79-86
    • /
    • 2016
  • 몬테카를로 트리탐색은 최대우선탐색 알고리즘이며, 많은 게임 특히 바둑 게임에 성공적으로 적용되어 왔다. 삼목 게임에서 MCTS 간의 대국을 통해 성능을 평가하고자 했다. 첫 번째 대국자는 항상 두 번째 대국자에 비해 압도적인 우위를 보였으며, 최선의 게임 결과가 무승부가 됨에도 불구하고 첫 번째 대국자가 두 번째 대국자에 비해 우월한 이유를 찾고자 했다. MCTS는 반복적인 무작위 샘플링을 기반으로 하는 통계적 알고리즘이기 때문에, 특히 두 번째 대국자를 위해 전략을 요하는 시급한 문제를 적절히 대처하지 못한다. 이를 위해 전략적 MCTS(S-MCTS)를 제안하며, S-MCTS는 결코 삼목 게임에서 지지 않는다는 것을 보였다.

Convolutional Neural Network와 Monte Carlo Tree Search를 이용한 인공지능 바둑 프로그램의 구현 (Implementation of Artificial Intelligence Computer Go Program Using a Convolutional Neural Network and Monte Carlo Tree Search)

  • 기철민;조태훈
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2016년도 추계학술대회
    • /
    • pp.405-408
    • /
    • 2016
  • 바둑, 체스, 장기와 같은 게임은 사람들의 두뇌발달에 도움을 주어왔다. 이 게임들은 컴퓨터 프로그램으로도 개발되었으며, 혼자서도 게임을 즐길 수 있도록 많은 알고리즘들이 개발되었다. 사람을 이기는 체스 프로그램은 1990년대에 개발된 것에 비해 바둑은 경우의 수가 너무 많아서 프로 바둑기사를 이기기는 불가능한 것으로 여겨졌다. 하지만 MCTS(Monte Carlo Tree Search)와 CNN(Convolutional Neural Network)의 이용으로 바둑 알고리즘의 성능은 큰 향상을 이루었다. 본 논문에서는 CNN과 MCTS를 사용하여 바둑 알고리즘의 개발을 진행하였다. 바둑의 기보가 학습된 CNN을 이용하여 최적의 수를 찾고, MCTS를 이용하여 게임의 시뮬레이션을 진행하여 이길 확률을 계산한다. 또한 기존 기보를 이용하여 바둑의 패턴 정보를 추출하고, 이를 이용하여 속도와 성능 향상을 도모하였다. 이 방법은 일반적으로 사용되는 바둑 알고리즘들에 비해 성능 향상이 있었다. 또한 충분한 Computing Power가 제공되면 더욱 성능이 향상될 것으로 보인다.

  • PDF

MCTS 기법을 활용한 불완전 정보 카드 게임에서의 인공지능 에이전트 생성 : 하스스톤을 중심으로 (Generation of AI Agent in Imperfect Information Card Games Using MCTS Algorithm: Focused on Hearthstone)

  • 오평;김지민;김선정;홍석민
    • 한국게임학회 논문지
    • /
    • 제16권6호
    • /
    • pp.79-90
    • /
    • 2016
  • 최근 게임분야에서 수준 높은 인공지능 에이전트의 구현은 많은 주목을 받고 있다. 그 중 Monte-Carlo Tree Search(MCTS)는 완전 정보를 가진 게임에서 무작위 탐색을 통해 최적의 해를 구할 수 있는 알고리즘으로, 수식으로 표현되지 않는 경우에 근사치를 계산하는 용도로 적합하다. 하스스톤과 같은 Trading Card Game(TCG) 장르의 게임은 상대방의 카드와 플레이를 예측할 수 없기 때문에 불완전 정보를 가지고 있다. 본 논문에서는 불완전 정보 카드 게임에서 인공지능 에이전트를 생성하기 위해 MCTS 알고리즘을 응용하는 방법을 제안하고, 현재 서비스되는 하스스톤 게임에 적용하여 봄으로써 MCTS 알고리즘의 실용성을 검증한다.

순수 몬테카를로 트리탐색을 기반으로 한 소형 바둑판에서의 가장 유망한 첫 수들 (The most promising first moves on small Go boards, based on pure Monte-Carlo Tree Search)

  • 이병두
    • 한국게임학회 논문지
    • /
    • 제18권6호
    • /
    • pp.59-68
    • /
    • 2018
  • 간단한 규칙에도 불구하고 바둑은 인공지능 분야에서 가장 복잡한 전략적 보드게임 중의 하나이다. 몬테카를로 트리탐색(MCTS)은 최상우선 트리탐색 알고리즘으로 컴퓨터바둑 제작을 위해 사용되어 왔다. 저자는 9줄바둑판보다 작은 바둑판에서의 바둑게임 행위를 위해 MCTS를 활용하여 가장 유망한 첫 수를 찾고자 한다. 실험결과에 의하면 MCTS는 첫 수로 홀수형 바둑판에서는 정중앙, 짝수형 바둑판에서는 중앙 부근에 착수하기를 선호하는 것으로 나타났다.

기계학습 알고리즘 기반의 인공지능 장기 게임 개발 (Development of Artificial Intelligence Janggi Game based on Machine Learning Algorithm)

  • 장명규;김영호;민동엽;박기현;이승수;우종우
    • 한국IT서비스학회지
    • /
    • 제16권4호
    • /
    • pp.137-148
    • /
    • 2017
  • Researches on the Artificial Intelligence has been explosively activated in various fields since the advent of AlphaGo. Particularly, researchers on the application of multi-layer neural network such as deep learning, and various machine learning algorithms are being focused actively. In this paper, we described a development of an artificial intelligence Janggi game based on reinforcement learning algorithm and MCTS (Monte Carlo Tree Search) algorithm with accumulated game data. The previous artificial intelligence games are mostly developed based on mini-max algorithm, which depends only on the results of the tree search algorithms. They cannot use of the real data from the games experts, nor cannot enhance the performance by learning. In this paper, we suggest our approach to overcome those limitations as follows. First, we collects Janggi expert's game data, which can reflect abundant real game results. Second, we create a graph structure by using the game data, which can remove redundant movement. And third, we apply the reinforcement learning algorithm and MCTS algorithm to select the best next move. In addition, the learned graph is stored by object serialization method to provide continuity of the game. The experiment of this study is done with two different types as follows. First, our system is confronted with other AI based system that is currently being served on the internet. Second, our system confronted with some Janggi experts who have winning records of more than 50%. Experimental results show that the rate of our system is significantly higher.

일반적인 비디오 게임의 AI 에이전트 생성을 위한 개선된 MCTS 알고리즘 (Enhanced MCTS Algorithm for Generating AI Agents in General Video Games)

  • 오평;김지민;김선정;홍석민
    • 한국정보시스템학회지:정보시스템연구
    • /
    • 제25권4호
    • /
    • pp.23-36
    • /
    • 2016
  • Purpose Recently, many researchers have paid much attention to the Artificial Intelligence fields of GVGP, PCG. The paper suggests that the improved MCTS algorithm to apply for the framework can generate better AI agent. Design/methodology/approach As noted, the MCTS generate magnificent performance without an advanced training and in turn, fit applying to the field of GVGP which does not need prior knowledge. The improved and modified MCTS shows that the survival rate is increased interestingly and the search can be done in a significant way. The study was done with 2 different sets. Findings The results showed that the 10 training set which was not given any prior knowledge and the other training set which played a role as validation set generated better performance than the existed MCTS algorithm. Besed upon the results, the further study was suggested.

매치 3 게임 플레이를 위한 PPO 알고리즘을 이용한 강화학습 에이전트의 설계 및 구현 (Design and Implementation of Reinforcement Learning Agent Using PPO Algorithim for Match 3 Gameplay)

  • 박대근;이완복
    • 융합정보논문지
    • /
    • 제11권3호
    • /
    • pp.1-6
    • /
    • 2021
  • 매치 3 퍼즐 게임들은 주로 MCTS(Monte Carlo Tree Search) 알고리즘을 사용하여 자동 플레이를 구현하였지만 MCTS의 느린 탐색 속도로 인해 MCTS와 DNN(Deep Neural Network)을 함께 적용하거나 강화학습으로 인공지능을 구현하는 것이 일반적인 경향이다. 본 연구에서는 매치 3 게임 개발에 주로 사용되는 유니티3D 엔진과 유니티 개발사에서 제공해주는 머신러닝 SDK를 이용하여 PPO(Proximal Policy Optimization) 알고리즘을 적용한 강화학습 에이전트를 설계 및 구현하여, 그 성능을 확인해본 결과, 44% 정도 성능이 향상되었음을 확인하였다. 실험 결과 에이전트가 게임 규칙을 배우고 실험이 진행됨에 따라 더 나은 전략적 결정을 도출 해 낼 수 있는 것을 확인할 수 있었으며 보통 사람들보다 퍼즐 게임을 더 잘 수행하는 결과를 확인하였다. 본 연구에서 설계 및 구현한 에이전트가 일반 사람들보다 더 잘 플레이하는 만큼, 기계와 인간 플레이 수준 사이의 간극을 조절하여 게임의 레벨 디지인에 적용된다면 향후 빠른 스테이지 개발에 도움이 될 것으로 기대된다.