• 제목/요약/키워드: Learning Agent

검색결과 448건 처리시간 0.03초

플레이 수준 조절이 가능한 강화학습 기반 카드형 대전 게임 에이전트 (Card Battle Game Agent Based on Reinforcement Learning with Play Level Control)

  • 이용철;이칠우
    • 스마트미디어저널
    • /
    • 제13권2호
    • /
    • pp.32-43
    • /
    • 2024
  • 게임 플레이를 위한 행동 주체인 에이전트는 게임 만족도를 높일 수 있는 중요한 요소이다. 하지만 다양한 게임 난이도와 게임 환경, 여러 플레이어를 위한 게임 에이전트 개발에는 많은 시간과 노력이 필요하다. 또한 캐릭터 추가나 업데이트와 같은 게임 환경 변화가 일어나면 새로운 게임 에이전트의 개발이 필요하고, 개발 난이도는 점차 높아진다는 단점이 존재한다. 이와 함께 다양한 플레이어의 수준에 맞는 세분화된 게임 에이전트 역시 중요하다. 단순히 강한 게임 에이전트보다는 세분화된 수준의 게임 플레이가 가능한 게임 에이전트가 활용성이 높고, 플레이어에 대한 만족도를 높일 수 있기 때문이다. 본 논문에서는 카드형 대전 게임을 대상으로 빠른 게임 에이전트 학습과 세분화된 플레이 수준 조절이 가능한 방법을 제안한다. 제안된 방법은 먼저 행동 구성에 대한 높은 자유도와 멀티 에이전트 환경에서의 빠른 학습을 위해 정책(Policy) 기반 분산형 강화학습 방법 중 하나인 IMPALA를 적용한다. 세분화된 플레이 수준 조절은 Temperature-Softmax를 통해 얻은 행동별 확률 값의 샘플링을 통해 수행한다. 논문에서는 Temperature 값의 증가에 따라 게임 에이전트의 플레이 수준이 낮아지는 결과와 이 수치를 다변화하여 손쉽게 다양한 플레이 수준 조절이 가능함을 확인하였다.

The Characteristic of Reward in Computer Assisted Learning

  • 연은모;이선영;정윤경;조은수;권순구;전훈;이계형;윤성현;소연희;김성일
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2008년도 학술대회 2부
    • /
    • pp.64-70
    • /
    • 2008
  • Computer Assisted Learning (CAL) is quite different from in many aspects. CAL provides individualistic learning environment and facilitates autonomy of the learner. Thus the learners who uses CAL program has more sense of control and engages in more strategic learning than conventional learning environment. In this experiment, we used KORI (KORea university intelligent agent) which is a new type of ITS adopting TA (Teachable Agent) that fosters learning by teaching, So, we investigated the critical motivational factor that have influences in CAL learning and the effects of reward in CAL are another area of our interest. Thus, we divided two conditions that presence of reward and absence of reward. The 174 elementary school students(5th) were participated and they are randomly assigned the one of the reward conditions. Before entering the experimental instruction, all participants measured about metacognition, self-efficacy and goal orientation questionnaire as independent variables. Then, Participants were instructed of method of using KORI program and asked to study for ten days with KORI program at least 20 minutes everyday in their home, about 10 days. After 10 days, they were rated interest and comprehension. Regression results suggest that regardless of the presence of reward, metacognition is a positive predictor in interestingness. It indicate that metacognitive skills are required in CAL learning situation irrespective of reward. But on comprehension in the absence of reward, only self- efficacy appeared to be a positive predictor. In the presence of reward, performance goal orientation showed as a negative predictor of comprehension, whereas self-efficacy was a positive predictor. This result suggest that presence of reward especially interferes learning process of performance goal orientation in CAL learning situation. It could be interpreted that reward interferes the learning process of performance goal orientation by debilitating intrinsic motivation.

  • PDF

Opportunistic Spectrum Access with Discrete Feedback in Unknown and Dynamic Environment:A Multi-agent Learning Approach

  • Gao, Zhan;Chen, Junhong;Xu, Yuhua
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제9권10호
    • /
    • pp.3867-3886
    • /
    • 2015
  • This article investigates the problem of opportunistic spectrum access in dynamic environment, in which the signal-to-noise ratio (SNR) is time-varying. Different from existing work on continuous feedback, we consider more practical scenarios in which the transmitter receives an Acknowledgment (ACK) if the received SNR is larger than the required threshold, and otherwise a Non-Acknowledgment (NACK). That is, the feedback is discrete. Several applications with different threshold values are also considered in this work. The channel selection problem is formulated as a non-cooperative game, and subsequently it is proved to be a potential game, which has at least one pure strategy Nash equilibrium. Following this, a multi-agent Q-learning algorithm is proposed to converge to Nash equilibria of the game. Furthermore, opportunistic spectrum access with multiple discrete feedbacks is also investigated. Finally, the simulation results verify that the proposed multi-agent Q-learning algorithm is applicable to both situations with binary feedback and multiple discrete feedbacks.

에이전트 기반 모델링을 활용한 IT 융합 u-러닝 콘텐츠 (IT Convergence u-Learning Contents using Agent Based Modeling)

  • 박홍준;김진영;전영국
    • 한국콘텐츠학회논문지
    • /
    • 제14권4호
    • /
    • pp.513-521
    • /
    • 2014
  • 본 연구의 목적은 통합교육의 이론적 배경을 토대로, 유비쿼터스 학습 환경에 적용이 가능한 에이전트 기반 모델링 활용 융합 교육 콘텐츠를 개발하고 적용하는 것이다. 이 콘텐츠의 구조는 탈학문적 통합 개념과 상황학습 이론을 토대로 설계하였으며, 3개의 모듈로 구성되어 있다. 3개의 모듈은 융합 문제 제시 모듈, 지식 리소스 모듈, 그리고 에이전트 기반 모델링과 IT 도구에 대한 학습 모듈이다. 구현한 콘텐츠의 만족도를 묻는 설문을 실시한 결과 5점 만점에 4.05(효과성), 4.13(편의성), 3.86(디자인)의 평균 값을 받았으며 각 평가 영역에 대하여 사용자들이 대체적으로 만족하고 있는 것을 확인할 수 있었다. 이 콘텐츠를 사용하여 학습자는 디바이스, 시간, 공간의 제한이 없이 IT 도구를 활용하여 융합 문제를 해결하는 과정에 대한 학습과 경험을 할 수 있으며, 이러한 구조의 콘텐츠 설계는 향후 융합형 교육 콘텐츠를 개발하려는 연구자에게 좋은 가이드라인이 될 것으로 판단한다.

유비쿼터스 웹 학습 환경을 위한 코스 스케줄링 멀티 에이전트 시스템 (A Course Scheduling Multi-Agent System For Ubiquitous Web Learning Environment)

  • 한승현;류동엽;서정만
    • 한국컴퓨터정보학회논문지
    • /
    • 제10권4호
    • /
    • pp.365-373
    • /
    • 2005
  • 유비쿼터스 환경을 위한 웹 기반 교육 시스템으로서 다양한 온라인 학습에 대한 새로운 교수 모형이 요구되고 있다. 또한, 학습자의 요구에 맞는 코스웨어의 주문이 증가되고 있는 추세이며 그에 따라 웹 기반 교육시스템에 효율적이고 자동화된 교육 에이전트의 필요성이 인식되고 있다. 그러나 현재 연구되고 있는 많은 교육 시스템들은 학습자 성향에 맞는 코스를 적절히 서비스해 주지 못할 뿐 아니라 지속적인 피드백과 학습자가 코스를 학습함에 있어서 취약한 부분을 재학습 할 수 있도록 도와주는 서비스를 원활히 제공하지 못하고 있다. 본 논문에서는 취약성 분석 알고리즘을 이용한 학습자 중심의 유비쿼터스 환경팩터를 통한 코스 스케줄링 멀티 에이전트 시스템을 제안한다. 제안한 시스템은 먼저 학습자의 학습 평가 결과를 분석하고 학습자의 학습 성취도를 계산하며, 이 성취도를 에이전트의 스케줄에 적용하여 학습자에게 적합한 코스를 제공하고, 학습자는 이러한 코스에 따라 능력에 맞는 반복된 학습을 통하여 적극적인 완전학습을 수행하게 된다.

  • PDF

Intelligent Mobile Agents in Personalized u-learning

  • Cho, Sung-Jin;Chung, Hwan-Mook
    • International Journal of Fuzzy Logic and Intelligent Systems
    • /
    • 제10권1호
    • /
    • pp.49-53
    • /
    • 2010
  • e-learning and m-learning have some problems that data transmission frequently discontinuously, communication cost increases, the computation speed of mass data drops, battery limitation in the mobile learning environments. In this paper, we propose the PULIMS for u-learning systems. The proposed system intellectualize the education environment using intelligent mobile agent, supports the customized education service, and helps that learners feasible access to the education information through mobile phone. We can see the fact that the efficience of proposed method is outperformed that of the conventional methods. The PULIMS is new technology that can be used to learn whenever and wherever learners want in Ubiquitous education environment.

Design of a ParamHub for Machine Learning in a Distributed Cloud Environment

  • Su-Yeon Kim;Seok-Jae Moon
    • International Journal of Internet, Broadcasting and Communication
    • /
    • 제16권2호
    • /
    • pp.161-168
    • /
    • 2024
  • As the size of big data models grows, distributed training is emerging as an essential element for large-scale machine learning tasks. In this paper, we propose ParamHub for distributed data training. During the training process, this agent utilizes the provided data to adjust various conditions of the model's parameters, such as the model structure, learning algorithm, hyperparameters, and bias, aiming to minimize the error between the model's predictions and the actual values. Furthermore, it operates autonomously, collecting and updating data in a distributed environment, thereby reducing the burden of load balancing that occurs in a centralized system. And Through communication between agents, resource management and learning processes can be coordinated, enabling efficient management of distributed data and resources. This approach enhances the scalability and stability of distributed machine learning systems while providing flexibility to be applied in various learning environments.

매크로 행동을 이용한 내시 Q-학습의 성능 향상 기법 (A Performance Improvement Technique for Nash Q-learning using Macro-Actions)

  • 성연식;조경은;엄기현
    • 한국멀티미디어학회논문지
    • /
    • 제11권3호
    • /
    • pp.353-363
    • /
    • 2008
  • 단일 에이전트 환경에서는 Q-학습의 학습 시간을 줄이기 위해서 학습결과를 전파시키거나 일렬의 행동을 패턴으로 만들어 학습한다. 다중 에이전트 환경에서는 동적인 환경과 다수의 에이전트 상태를 고려해야하기 때문에 학습에 필요한 시간이 단일 에이전트 환경보다 길어지게 된다. 이 논문에서는 단일 에이전트 환경에서 시간 단축을 위해서 유한개의 행동으로 정책을 만들어 학습하는 매크로 행동을 다중 에이전트 환경에 적합한 내시 Q-학습에 적용함으로써 다중 에이전트 환경에서 Q-학습 시간을 줄이고 성능을 높이는 방법을 제안한다. 실험에서는 다중 에이전트 환경에서 매크로 행동을 이용한 에이전트와 기본 행동만 이용한 에이전트의 내시 Q-학습 성능을 비교했다. 이 실험에서 네 개의 매크로 행동을 이용한 에이전트가 목표를 수행할 성공률이 기본 행동만 이용한 에이전트 보다 9.46% 높은 결과를 얻을 수 있었다. 매크로 행동은 기본 행동만을 이용해서 적합한 이동 행동을 찾아도 매크로 행동을 이용한 더 낳은 방법을 찾기 때문에 더 많은 Q-값의 변화가 발생되었고 전체 Q-값 합이 2.6배 높은 수치를 보였다. 마지막으로 매크로 행동을 이용한 에이전트는 약 절반의 행동 선택으로도 시작위치에서 목표위치까지 이동함을 보였다. 결국 에이전트는 다중 에이전트 환경에서 매크로 행동을 사용함으로써 성능을 향상시키고 목표위치까지 이동하는 거리를 단축해서 학습 속도를 향상시킨다.

  • PDF

의사결정 트리를 이용한 학습 에이전트 단기주가예측 시스템 개발 (A Development for Short-term Stock Forecasting on Learning Agent System using Decision Tree Algorithm)

  • 서장훈;장현수
    • 대한안전경영과학회지
    • /
    • 제6권2호
    • /
    • pp.211-229
    • /
    • 2004
  • The basis of cyber trading has been sufficiently developed with innovative advancement of Internet Technology and the tendency of stock market investment has changed from long-term investment, which estimates the value of enterprises, to short-term investment, which focuses on getting short-term stock trading margin. Hence, this research shows a Short-term Stock Price Forecasting System on Learning Agent System using DTA(Decision Tree Algorithm) ; it collects real-time information of interest and favorite issues using Agent Technology through the Internet, and forms a decision tree, and creates a Rule-Base Database. Through this procedure the Short-term Stock Price Forecasting System provides customers with the prediction of the fluctuation of stock prices for each issue in near future and a point of sales and purchases. A Human being has the limitation of analytic ability and so through taking a look into and analyzing the fluctuation of stock prices, the Agent enables man to trace out the external factors of fluctuation of stock market on real-time. Therefore, we can check out the ups and downs of several issues at the same time and figure out the relationship and interrelation among many issues using the Agent. The SPFA (Stock Price Forecasting System) has such basic four phases as Data Collection, Data Processing, Learning, and Forecasting and Feedback.

원가 산정법에 기반한 인터넷 입찰 시스템의 효율적 입찰가 생성 에이전트 (An Efficient Bid Pricing Agent for Internet Bid Systems Based on Costing Methods)

  • 박성은;이용규
    • Journal of Information Technology Applications and Management
    • /
    • 제11권3호
    • /
    • pp.23-33
    • /
    • 2004
  • Internet bid systems have been widely used recently. In those systems, the bid price is provided by the seller. When the bid price is set too high compared with the normal price, the successful bid rate can be decreased. Otherwise, when it is set too low based on inaccurate information, it can result in a successful bid with no profit at all. To resolve this problem, we propose an agent that automatically generates bid prices for sellers based on various costing methods such as the high-low point method, the scatter diagram method, and the learning curve method. Through performance experiments, we have found that the number of successful bids with appropriate profit can be increased using the bid pricing agent. Among the costing methods, the learning curve method has shown the best performance. Also, we discuss about how to design and implement the bid pricing agent.

  • PDF