• Title/Summary/Keyword: 학습행동

Search Result 1,313, Processing Time 0.029 seconds

A Performance Improvement Technique for Nash Q-learning using Macro-Actions (매크로 행동을 이용한 내시 Q-학습의 성능 향상 기법)

  • Sung, Yun-Sik;Cho, Kyun-Geun;Um, Ky-Hyun
    • Journal of Korea Multimedia Society
    • /
    • v.11 no.3
    • /
    • pp.353-363
    • /
    • 2008
  • A multi-agent system has a longer learning period and larger state-spaces than a sin91e agent system. In this paper, we suggest a new method to reduce the learning time of Nash Q-learning in a multi-agent environment. We apply Macro-actions to Nash Q-learning to improve the teaming speed. In the Nash Q-teaming scheme, when agents select actions, rewards are accumulated like Macro-actions. In the experiments, we compare Nash Q-learning using Macro-actions with general Nash Q-learning. First, we observed how many times the agents achieve their goals. The results of this experiment show that agents using Nash Q-learning and 4 Macro-actions have 9.46% better performance than Nash Q-learning using only 4 primitive actions. Second, when agents use Macro-actions, Q-values are accumulated 2.6 times more. Finally, agents using Macro-actions select less actions about 44%. As a result, agents select fewer actions and Macro-actions improve the Q-value's update. It the agents' learning speeds improve.

  • PDF

State Space Tiling and Probabilistic Action Selection for Multi-Agent Reinforcement Learning (다중 에이전트 강화 학습을 위한 상태 공간 타일링과 확률적 행동 선택)

  • Duk Kwon-Ki;Cheol Kim-In
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.06b
    • /
    • pp.106-108
    • /
    • 2006
  • 강화 학습은 누적 보상 값을 최대화할 수 있는 행동 선택 전략을 학습하는 온라인 학습의 한 형태이다. 효과적인 강화학습을 위해 학습 에이전트가 매 순간 고민해야 하는 문제가 탐험(exploitation)과 탐색(exploration)의 문제이다. 경험과 학습이 충분치 않은 상태의 에이전트는 어느 정도의 보상 값을 보장하는 과거에 경험한 행동을 선택하느냐 아니면 보상 값을 예측할 수 없는 새로운 행동을 시도해봄으로써 학습의 폭을 넓힐 것이냐를 고민하게 된다. 특히 단일 에이전트에 비해 상태공간과 행동공간이 더욱 커지는 다중 에이전트 시스템의 경우, 효과적인 강화학습을 위해서는 상태 공간 축소방법과 더불어 탐색의 기회가 많은 행동 선택 전략이 마련되어야 한다. 본 논문에서는 로봇축구 Keepaway를 위한 효율적인 다중 에이전트 강화학습 방법을 설명한다. 이 방법의 특징은 상태 공간 축소를 위해 함수근사방법의 하나인 타일 코딩을 적용하였고, 다양한 행동 선택을 위해 룰렛 휠 선택 전략을 적용한 것이다. 본 논문에서는 이 방법의 효과를 입증하기 위한 실험결과를 소개한다.

  • PDF

A Study on Action Recognition based on RGB data (RGB 데이터 기반 행동 인식에 관한 연구)

  • Kim, Sang-Jo;Kim, Mi-Kyoung;Cha, Eui-Young
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2017.04a
    • /
    • pp.936-937
    • /
    • 2017
  • 최근 딥러닝을 통하여 영상의 카테고리 분류를 응용한 행동 인식이 활발히 연구되고 있다. 그러나 행동 인식을 위한 기존 연구 방법은 높은 수준의 하드웨어 사양을 요구하며 행동 인식에 대한 학습에 많은 시간이 소모되는 문제점을 지니고 있다. 또한, 행동 인식 테스트 결과를 얻기 위해 많은 시간이 소모되며 딥러닝 특성상 적은 수의 학습 데이터는 overfitting 문제를 일으킨다. 본 연구에서는 이러한 문제점을 해결하고자 행동인식을 위한 학습시간과 테스트 시간 감소를 위해 미리 학습된 VGG 모델을 사용해 얻어낸 RGB 데이터의 특징만을 학습에 사용하고 적은 수의 데이터로 행동 인식 테스트 결과를 높이기 위하여 RGB 데이터 증대를 통해 기존의 행동인식 연구보다 학습시간과 행동인식 테스트에 소모되는 시간을 줄인 방법을 행동 인식에 적용하였다. 이 방법을 UCF50 Dataset 에 적용하여 98.13%의 행동인식에 관한 정확성을 확인하였다.

The Relationships between Founders' Entrepreneurial Leadership, Team Learning Behavior, Team Boundary Spanning, and Perceived Performance in the Early-Stage Startups (초기 스타트업 창업가의 기업가적 리더십, 팀 학습 행동, 팀 경계 확장 행동 및 지각된 성과의 관계)

  • Park, Jungwoo;Kim, Jinmo
    • Korean small business review
    • /
    • v.42 no.1
    • /
    • pp.135-165
    • /
    • 2020
  • This study aimed to examine relationships between founders' entrepreneurial leadership, team learning behavior, team boundary spanning, and perceived performance in early-stage startups. The following results were recorded: (i) the indirect effects of entrepreneurial leadership on perceived performance via team learning behavior were statistically significant (β=.309, p<.05). (ii) relationships between team learning behavior and perceived performance were strengthened by team boundary spanning behavior (β=.259, p<.05). In this study, three practical implications are provided as follows: (i) startups need to seek team learning readiness and external learning stimulus to facilitate generative and transformative team learning; (ii) accelerators need to develop an entrepreneurial leadership program for founders; and (iii) startups need to explore external information by interacting with investors, R&D institutions, and other startups to strengthen the impact of team learning behavior on performance. Furthermore, two directions for future research are suggested as follows: (i) future researchers need to test causal relationships between entrepreneurial leadership and team learning behavior based on a newly designed time-series measurement plan; (ii) the actual effects of entrepreneurial leadership, team learning behavior and team boundary spanning on financial performance need to be tested two or three years later when the financial performance of early-stage startups usually becomes evident.

Neural Networks Intelligent Characters for Learning and Reacting to Action Patterns of Opponent Characters In Fighting Action Games (대전 게임에서 상대방 캐릭터의 행동 패턴을 학습하여 대응하는 신경망 지능 캐릭터)

  • 조병헌;정성훈;성영락;오하령
    • Journal of the Institute of Electronics Engineers of Korea CI
    • /
    • v.41 no.6
    • /
    • pp.69-80
    • /
    • 2004
  • This paper proposes a method to learn action patterns of opponent characters for intelligent characters. For learning action patterns, intelligent characters learn the past actions as well as the current actions of opponent characters. Therefore, intelligent characters react more properly than ones without the knowledge on action patterns. In addition, this paper proposes a method to learn moving actions whose fitness is hard to evaluate. To evaluate the performance of the proposed algorithm, we experiment with four repeated action patterns in a game similar to real games. The results show that intelligent characters learn the optimal actions for action patterns and react properly against to random action opponent characters. The proposed method can be applied to various games in which characters confront each other, e.g. massively multiple of line games.

Design and Implementation of an Adaptive Hypermedia Learning System based on Leamer Behavioral Model (학습자 행동모델기반의 적응적 하이퍼미디어 학습 시스템 설계 및 구현)

  • Kim, Young-Kyun;Kim, Young-Ji;Mun, Hyeon-Jeong;Woo, Yang-Tae
    • Journal of Korea Multimedia Society
    • /
    • v.12 no.5
    • /
    • pp.757-766
    • /
    • 2009
  • This study presents an adaptive hypermedia learning system which can provide individual learning environment using a learner behavioral model. This system proposes a LBML which can manage learners' learning behavioral information by tracking down such information real-time. The system consists of a collecting system of learning behavioral information and an adaptive learning support system. The collecting system of learning behavioral information uses Web 2.0 technologies and collects learners' learning behavioral information real-time based on a SCORM CMI data model. The collected information is stored as LBML instances of individual learners based on a LBML schema. With the adaptive learning support system, a rule-based learning supporting module and an interactive learning supporting module are developed by analysing LBML instances.

  • PDF

The Effect of Learning Behavior Styles on Academic Achievement and Learning Satisfaction in Tutoring Activities (튜터링 활동에서 학습행동양식이 학업성취도와 학습만족도에 미치는 효과)

  • Chu, Sung-Kyung;Byeon, So-Yeon;Yoon, Hae-Gyung
    • The Journal of the Korea Contents Association
    • /
    • v.21 no.10
    • /
    • pp.594-602
    • /
    • 2021
  • This study aims to identify the learning behavior patterns recognized by students to find effective tutoring operational methods, and further analyze the impact of learning behavior patterns on academic performance and learning satisfaction. To this end, 105 participants in the tutoring program at D University based in Busan Metropolitan City collected data and conducted descriptive statistics, correlation analysis and regression analysis according to research problems. First, the study found that students who participated in tutoring had the most environment-dependent and self-taught learning behavioral styles and environment-independent and self-taught learning behavioral style. Second, the correlation between learning behavioral styles and academic achievement and learning satisfaction shows that there is a high correlation between positive and cooperative learning behavioral styles and environment-independent and self-taught learning behavioral styles. Third, regression analysis on academic achievement and learning satisfaction showed that positive and cooperative learning behavioral styles significantly affects learning satisfaction, but environment-independent and self-taught learning behavioral style, environment-dependent and self-taught learning behavioral style, and passive learning behavioral style were not significant. These results suggest that from the school perspective, learning behavior can be recognized as an important factor in students' academic success and failure, so instructors need to check learners' learning behavior patterns and provide appropriate tutoring teaching and learning design plans.

SOM-Based State Generalization for Multiagent Reinforcement Learning (다중에이전트 강화학습을 위한 SOM기반의 상태 일한화)

  • 임문택;김인철
    • Proceedings of the Korea Inteligent Information System Society Conference
    • /
    • 2002.11a
    • /
    • pp.399-408
    • /
    • 2002
  • 다중 에이전트 학습이란 다중 에이전트 환경에서 에이전트간의 조정을 위한 행동전략을 학습하는 것을 말한다. 본 논문에서는 에이전트간의 통신이 불가능한 다중 에이전트 환경에서 각 에이전트들이 서로 독립적으로 대표적인 강화학습법인 Q학습을 전개함으로써 서로 효과적으로 협조할 수 있는 행동전략을 학습하려고 한다. 하지만 단일 에이전트 경우에 비해 보다 큰 상태-행동 공간을 갖는 다중 에이전트환경에서는 강화학습을 통해 효과적으로 최적의 행동 전략에 도달하기 어렵다는 문제점이 있다. 이 문제에 대한 기존의 접근방법은 크게 모듈화 방법과 일반화 방법이 제안되었으나 모두 나름의 제한을 가지고 있다. 본 논문에서는 대표적인 다중 에이전트 학습 문제의 예로서 먹이와 사냥꾼 문제(Prey and Hunters Problem)를 소개하고 이 문제영역을 통해 이와 같은 강화학습의 문제점을 살펴보고, 해결책으로 신경망 SOM을 이용한 일반화 방법인 QSOM 학습법을 제안한다. 이 방법은 기존의 일반화 방법과는 달리 군집화 기능을 제공하는 신경망 SOM을 이용함으로써 명확한 다수의 훈련 예가 없어도 효과적으로 이전에 경험하지 못했던 상태-행동들에 대한 Q값을 예측하고 이용할 수 있다는 장점이 있다. 또한 본 논문에서는 실험을 통해 QSOM 학습법의 일반화 효과와 성능을 평가하였다.

  • PDF

The study on environmental adaptation and expansion of the intelligent agent (지능형 에이전트의 환경 적응성 및 확장성에 대한 연구)

  • 백혜정;박영택
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.10a
    • /
    • pp.136-138
    • /
    • 2003
  • 로봇이나 가상 캐릭터와 같은 지능형 에이전트가 자율적으로 살아가기 위해서는 주어진 환경을 인식하고, 그에 맞는 최적의 행동을 선택하는 능력을 가지고 있어야 한다. 본 논문은 이러한 지능형 에이전트를 구현하기 위하여, 외부 환경에 적응하면서 최적의 행동을 배우고 선택하는 방법을 연구하였다. 본 논문에서 제안한 방식은 강화 학습을 이용한 행동기반 학습 방법과 기호 학습을 이용한 인지 학습 방법을 통합한 방식으로 다음과 같은 특징을 가진다. 첫째, 외부 환경의 적응성을 수행하기 위하여 강화 학습을 이용하였으며. 이는 지능형 에이전트가 변화하는 환경에 대한 유연성을 가지도록 하였다. 둘째. 경험들에서 귀납적 기계학습과 연관 규칙을 이용하여 규칙을 추출하여 에이전트의 목적에 맞는 환경 요인을 학습함으로 주어진 환경에서 보다 빠르게, 확장된 환경에서 보다 효율적으로 행동을 선택을 하도록 하였다. 제안한 통합방식은 기존의 강화 학습만을 고려한 학습 알고리즘에 비하여 학습 속도를 향상 시킬수 있으며, 기호 학습만을 고려한 학습 알고리즘에 비하여 환경에 유연성을 가지고 행동을 적용할 수 있는 장점을 가진다.

  • PDF

RBFN-based Policy Model for Efficient Multiagent Reinforcement Learning (효율적인 멀티 에이전트 강화학습을 위한 RBFN 기반 정책 모델)

  • Gwon, Gi-Deok;Kim, In-Cheol
    • Proceedings of the Korea Inteligent Information System Society Conference
    • /
    • 2007.11a
    • /
    • pp.294-302
    • /
    • 2007
  • 멀티 에이전트 강화학습에서 중요한 이슈 중의 하나는 자신의 성능에 영향을 미칠 수 있는 다른 에이전트들이 존재하는 동적 환경에서 어떻게 최적의 행동 정책을 학습하느냐 하는 것이다. 멀티 에이전트 강화 학습을 위한 기존 연구들은 대부분 단일 에이전트 강화 학습기법들을 큰 변화 없이 그대로 적용하거나 비록 다른 에이전트에 관한 별도의 모델을 이용하더라도 현실적이지 못한 가정들을 요구한다. 본 논문에서는 상대 에이전트에 대한RBFN기반의 행동 정책 모델을 소개한 뒤, 이것을 이용한 강화 학습 방법을 설명한다. 본 논문에서는 제안하는 멀티 에이전트 강화학습 방법은 기존의 멀티 에이전트 강화 학습 연구들과는 달리 상대 에이전트의 Q 평가 함수 모델이 아니라 RBFN 기반의 행동 정책 모델을 학습한다. 또한, 표현력은 풍부하나 학습에 시간과 노력이 많이 요구되는 유한 상태 오토마타나 마코프 체인과 같은 행동 정책 모델들에 비해 비교적 간단한 형태의 행동 정책 모델을 이용함으로써 학습의 효율성을 높였다. 본 논문에서는 대표적이 절대적 멀티 에이전트 환경인 고양이와 쥐 게임을 소개한 뒤, 이 게임을 테스트 베드 삼아 실험들을 전개함으로써 제안하는 RBFN 기반의 정책 모델의 효과를 분석해본다.

  • PDF