• Title/Summary/Keyword: Action Selection/Learning

검색결과 40건 처리시간 0.046초

동물 행동학 기반 행동 선택 메커니즘하에서의 교시 기반 행동 학습 방법 (Teaching-based Perception-Action Learning under an Ethology-based Action Selection Mechanism)

  • 문지섭;이상형;서일홍
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2008년도 하계종합학술대회
    • /
    • pp.1147-1148
    • /
    • 2008
  • In this paper, we propose action-learning method based on teaching. By adopting this method, we can handle an exception case which cannot be handled in an Ethology-based Action SElection mechanism. Our proposed method is verified by employing AIBO robot as well as EASE platform.

  • PDF

A Motivation-Based Action-Selection-Mechanism Involving Reinforcement Learning

  • Lee, Sang-Hoon;Suh, Il-Hong;Kwon, Woo-Young
    • International Journal of Control, Automation, and Systems
    • /
    • 제6권6호
    • /
    • pp.904-914
    • /
    • 2008
  • An action-selection-mechanism(ASM) has been proposed to work as a fully connected finite state machine to deal with sequential behaviors as well as to allow a state in the task program to migrate to any state in the task, in which a primitive node in association with a state and its transitional conditions can be easily inserted/deleted. Also, such a primitive node can be learned by a shortest path-finding-based reinforcement learning technique. Specifically, we define a behavioral motivation as having state-dependent value as a primitive node for action selection, and then sequentially construct a network of behavioral motivations in such a way that the value of a parent node is allowed to flow into a child node by a releasing mechanism. A vertical path in a network represents a behavioral sequence. Here, such a tree for our proposed ASM can be newly generated and/or updated whenever a new behavior sequence is learned. To show the validity of our proposed ASM, experimental results of a mobile robot performing the task of pushing- a- box-in to- a-goal(PBIG) will be illustrated.

지능로봇을 위한 행동선택 및 학습구조 (An Action Selection Mechanism and Learning Algorithm for Intelligent Robot)

  • 윤영민;이상훈;서일홍
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2004년도 학술대회 논문집 정보 및 제어부문
    • /
    • pp.496-498
    • /
    • 2004
  • An action-selection-mechanism is proposed to deal with sequential behaviors, where associations between some of stimulus and behaviors will be learned by a shortest-path-finding-based reinforcement team ins technique. To be specific, we define behavioral motivation as a primitive node for action selection, and then sequentially construct a network with behavioral motivations. The vertical path of the network represents a behavioral sequence. Here, such a tree fur our proposed ASM can be newly generated and/or updated. whenever a new sequential behaviors is learned. To show the validity of our proposed ASM, some experimental results on a "pushing-box-into-a-goal task" of a mobile robot will be illustrated.

  • PDF

A Novel Action Selection Mechanism for Intelligent Service Robots

  • Suh, Il-Hong;Kwon, Woo-Young;Lee, Sang-Hoon
    • 제어로봇시스템학회:학술대회논문집
    • /
    • 제어로봇시스템학회 2003년도 ICCAS
    • /
    • pp.2027-2032
    • /
    • 2003
  • For action selection as well as learning, simple associations between stimulus and response have been employed in most of literatures. But, for a successful task accomplishment, it is required that an animat can learn and express behavioral sequences. In this paper, we propose a novel action-selection-mechanism to deal with sequential behaviors. For this, we define behavioral motivation as a primitive node for action selection, and then hierarchically construct a network with behavioral motivations. The vertical path of the network represents behavioral sequences. Here, such a tree for our proposed ASM can be newly generated and/or updated, whenever a new sequential behaviors is learned. To show the validity of our proposed ASM, three 2-D grid world simulations will be illustrated.

  • PDF

지능로봇: 지능 에이전트를 기초로 한 접근방법 (Intelligent Robot Design: Intelligent Agent Based Approach)

  • 강진식
    • 한국지능시스템학회논문지
    • /
    • 제14권4호
    • /
    • pp.457-467
    • /
    • 2004
  • 본 논문에서는 로봇을 하나의 에이전트로 보고 로봇에 필요한 기능-환경인지, 지능, 행동-등을 부-에이전트로 하는 로봇 구조를 제안하였다. 각각의 부 에이전트들은 로봇 기능의 기초단위를 구성하는 마이크로 에이전트로 구성된다. 로봇의 제어 구조는 행위기반 반사행동 제어 형태와 행동 선택 에이전트로 구성되며, 행동 선택 에이전트에서의 행동 선택은 행동 우선순위, 수행성능, 강화학습에 의한 학습기능을 부가하였다. 제시된 로봇 구조는 다중 부-에이전트 구조로 각각의 기능에 대하여 지능을 부여하기 쉬우며 다중 로봇 제어를 위한 새로운 접근 방법이다. 제시된 로봇을 장애물을 회피와 chaotic한 탐색을 목표로 하여 모의실험을 수행하였으며 8bit 마이크로 콘트롤러를 이용하여 제작 실험하였다.

액션러닝을 활용한 취업캠프 개선방안 : P대학 학습공동체 사례를 중심으로 (Improvement Plan of Employment Camp using Action Learning : based on the case of learning community in P university)

  • 이지안;김효정;이윤아;정유섭;박수홍
    • 수산해양교육연구
    • /
    • 제29권3호
    • /
    • pp.677-688
    • /
    • 2017
  • The purpose of this study is to analyze the action learning lesson about the improvement process of the job support program of P university students. As a research method, we applied the related classes during the semester to the students who took courses in the course of 'Human Resource Development', which is a subject of P university, and analyzed the learner's reflection journal, interview data. As a result of the research, we went through the problem selection stage, the team construction and the team building stage. And then we searched for the root cause of the problem, clarified the problem, derived the possible solution, determined the priority and created the action plan. There are 10 solutions to the practical problems of poor job camps. Through two interviews with field experts it offered final solutions focused on promoting employment and Camp students participate in the management of post-employment into six camps. According to the first rank, job board integration, vendor selection upon student feedback, reflecting improved late questionnaire, public relations utilizing KakaoTalk, recruiting additional selection criteria, the camp provides recorded images in order. The results of this study suggest that the university's employment support program will strengthen the competitiveness of students' employment and become the basic data for the customized employment support program.

A Study of Cooperative Algorithm in Multi Robots by Reinforcement Learning

  • Hong, Seong-Woo;Park, Gyu-Jong;Bae, Jong-I1;Ahn, Doo-Sung
    • 제어로봇시스템학회:학술대회논문집
    • /
    • 제어로봇시스템학회 2001년도 ICCAS
    • /
    • pp.149.1-149
    • /
    • 2001
  • In multi robot environment, the action selection strategy is important for the cooperation and coordination of multi agents. However the overlap of actions selected individually by each robot makes the acquisition of cooperation behaviors less efficient. In addition to that, a complex and dynamic environment makes cooperation even more difficult. So in this paper, we propose a control algorithm which enables each robot to determine the action for the effective cooperation in multi-robot system. Here, we propose cooperative algorithm with reinforcement learning to determine the action selection In this paper, when the environment changes, each robot selects an appropriate behavior strategy intelligently. We employ ...

  • PDF

행동기반 제어방식을 위한 득점과 학습을 통한 행동선택기법 (Action Selection by Voting with Loaming Capability for a Behavior-based Control Approach)

  • 정석민;오상록;윤도영;유범재;정정주
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2002년도 합동 추계학술대회 논문집 정보 및 제어부문
    • /
    • pp.163-168
    • /
    • 2002
  • The voting algorithm for action selection performs self-improvement by Reinforcement learning algorithm in the dynamic environment. The proposed voting algorithm improves the navigation of the robot by adapting the eligibility of the behaviors and determining the Command Set Generator (CGS). The Navigator that using a proposed voting algorithm corresponds to the CGS for giving the weight values and taking the reward values. It is necessary to decide which Command Set control the mobile robot at given time and to select among the candidate actions. The Command Set was learnt online by means as Q-learning. Action Selector compares Q-values of Navigator with Heterogeneous behaviors. Finally, real-world experimentation was carried out. Results show the good performance for the selection on command set as well as the convergence of Q-value.

  • PDF

고위공직 후보자-엔지니어-최고경영자 교육 프로그램의 액션러닝 프로세스 분석 (An Analysis of Action Learning Process in Education Programs for Senior Officials, Engineers, Chief Executive Officers)

  • 정현곤;문승한
    • 디지털융복합연구
    • /
    • 제10권1호
    • /
    • pp.87-104
    • /
    • 2012
  • 본 연구의 목적은 교육프로그램의 액션러닝 프로세스를 분석한 연구로서, 과정별 액션러닝 프로세스의 오리엔테이션, 과제의 명료화, 자료 활동, 대안의 모색과 실행 안 선정, 실행과 결과를 파악한 연구이다. 고위공직 후보자 액션러닝 과정은 정책현장 방문, 체험사례 분석 등을 통한 성과가 제고되어야 하며, 포스코 엔지니어 액션러닝 과정은 액션러닝 문제해결에서 습득한 지식을 회사의 지적자산으로 체계화 하는 것이 중요하며, 이(異) 업종 융합 최고경영자 액션러닝 과정은 자사의 제품을 소비하는 소비자 그룹이나 주주 등을 가상의 과제후원자로 정하여 그들의 의견을 통해 방향이 설정되어야 한다.

강화 학습에서의 탐색과 이용의 균형을 통한 범용적 온라인 Q-학습이 적용된 에이전트의 구현 (Implementation of the Agent using Universal On-line Q-learning by Balancing Exploration and Exploitation in Reinforcement Learning)

  • 박찬건;양성봉
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제30권7_8호
    • /
    • pp.672-680
    • /
    • 2003
  • shopbot이란 온라인상의 판매자로부터 상품에 대한 가격과 품질에 관한 정보를 자동적으로 수집함으로써 소비자의 만족을 최대화하는 소프트웨어 에이전트이다 이러한 shopbot에 대응해서 인터넷상의 판매자들은 그들에게 최대의 이익을 가져다 줄 수 있는 에이전트인 pricebot을 필요로 할 것이다. 본 논문에서는 pricebot의 가격결정 알고리즘으로 비 모델 강화 학습(model-free reinforcement learning) 방법중의 하나인 Q-학습(Q-learning)을 사용한다. Q-학습된 에이전트는 근시안적인 최적(myopically optimal 또는 myoptimal) 가격 결정 전략을 사용하는 에이전트에 비해 이익을 증가시키고 주기적 가격 전쟁(cyclic price war)을 감소시킬 수 있다. Q-학습 과정 중 Q-학습의 수렴을 위해 일련의 상태-행동(state-action)을 선택하는 것이 필요하다. 이러한 선택을 위해 균일 임의 선택방법 (Uniform Random Selection, URS)이 사용될 경우 최적 값의 수렴을 위해서 Q-테이블을 접근하는 회수가 크게 증가한다. 따라서 URS는 실 세계 환경에서의 범용적인 온라인 학습에는 부적절하다. 이와 같은 현상은 URS가 최적의 정책에 대한 이용(exploitation)의 불확실성을 반영하기 때문에 발생하게 된다. 이에 본 논문에서는 보조 마르코프 프로세스(auxiliary Markov process)와 원형 마르코프 프로세스(original Markov process)로 구성되는 혼합 비정적 정책 (Mixed Nonstationary Policy, MNP)을 제안한다. MNP가 적용된 Q-학습 에이전트는 original controlled process의 실행 시에 Q-학습에 의해 결정되는 stationary greedy 정책을 사용하여 학습함으로써 auxiliary Markov process와 original controlled process에 의해 평가 측정된 최적 정책에 대해 1의 확률로 exploitation이 이루어질 수 있도록 하여, URS에서 발생하는 최적 정책을 위한 exploitation의 불확실성의 문제를 해결하게 된다. 다양한 실험 결과 본 논문에서 제한한 방식이 URS 보다 평균적으로 약 2.6배 빠르게 최적 Q-값에 수렴하여 MNP가 적용된 Q-학습 에이전트가 범용적인 온라인 Q-학습이 가능함을 보였다.