• 제목/요약/키워드: Imitation Learning

검색결과 45건 처리시간 0.02초

Self-Imitation Learning을 이용한 개선된 Deep Q-Network 알고리즘 (Improved Deep Q-Network Algorithm Using Self-Imitation Learning)

  • 선우영민;이원창
    • 전기전자학회논문지
    • /
    • 제25권4호
    • /
    • pp.644-649
    • /
    • 2021
  • Self-Imitation Learning은 간단한 비활성 정책 actor-critic 알고리즘으로써 에이전트가 과거의 좋은 경험을 활용하여 최적의 정책을 찾을 수 있도록 해준다. 그리고 actor-critic 구조를 갖는 강화학습 알고리즘에 결합되어 다양한 환경들에서 알고리즘의 상당한 개선을 보여주었다. 하지만 Self-Imitation Learning이 강화학습에 큰 도움을 준다고 하더라도 그 적용 분야는 actor-critic architecture를 가지는 강화학습 알고리즘으로 제한되어 있다. 본 논문에서 Self-Imitation Learning의 알고리즘을 가치 기반 강화학습 알고리즘인 DQN에 적용하는 방법을 제안하고, Self-Imitation Learning이 적용된 DQN 알고리즘의 학습을 다양한 환경에서 진행한다. 아울러 그 결과를 기존의 결과와 비교함으로써 Self-Imitation Leaning이 DQN에도 적용될 수 있으며 DQN의 성능을 개선할 수 있음을 보인다.

힘과 위치를 동시에 고려한 양팔 물체 조작 솜씨의 모방학습 (Imitation Learning of Bimanual Manipulation Skills Considering Both Position and Force Trajectory)

  • 권우영;하대근;서일홍
    • 로봇학회논문지
    • /
    • 제8권1호
    • /
    • pp.20-28
    • /
    • 2013
  • Large workspace and strong grasping force are required when a robot manipulates big and/or heavy objects. In that situation, bimanual manipulation is more useful than unimanual manipulation. However, the control of both hands to manipulate an object requires a more complex model compared to unimanual manipulation. Learning by human demonstration is a useful technique for a robot to learn a model. In this paper, we propose an imitation learning method of bimanual object manipulation by human demonstrations. For robust imitation of bimanual object manipulation, movement trajectories of two hands are encoded as a movement trajectory of the object and a force trajectory to grasp the object. The movement trajectory of the object is modeled by using the framework of dynamic movement primitives, which represent demonstrated movements with a set of goal-directed dynamic equations. The force trajectory to grasp an object is also modeled as a dynamic equation with an adjustable force term. These equations have an adjustable force term, where locally weighted regression and multiple linear regression methods are employed, to imitate complex non-linear movements of human demonstrations. In order to show the effectiveness our proposed method, a movement skill of pick-and-place in simulation environment is shown.

진화 알고리즘을 사용한 인간형 로봇의 동작 모방 학습 및 실시간 동작 생성 (Motion Imitation Learning and Real-time Movement Generation of Humanoid Using Evolutionary Algorithm)

  • 박가람;나성권;김창환;송재복
    • 제어로봇시스템학회논문지
    • /
    • 제14권10호
    • /
    • pp.1038-1046
    • /
    • 2008
  • This paper presents a framework to generate human-like movements of a humanoid in real time using the movement primitive database of a human. The framework consists of two processes: 1) the offline motion imitation learning based on an Evolutionary Algorithm and 2) the online motion generation of a humanoid using the database updated bγ the motion imitation teaming. For the offline process, the initial database contains the kinetic characteristics of a human, since it is full of human's captured motions. The database then develops through the proposed framework of motion teaming based on an Evolutionary Algorithm, having the kinetic characteristics of a humanoid in aspect of minimal torque or joint jerk. The humanoid generates human-like movements far a given purpose in real time by linearly interpolating the primitive motions in the developed database. The movement of catching a ball was examined in simulation.

호모 리플리쿠스(Homo replicus): 모방, 거울뉴런, 그리고 밈 (Homo replicus: imitation, mirror neurons, and memes)

  • 장대익
    • 인지과학
    • /
    • 제23권4호
    • /
    • pp.517-551
    • /
    • 2012
  • 우리는 모방하는 동물이다. '참된 모방(true imitation)'은 한 행위가 행해진 것을 보는 것으로부터 그 행위를 하는 법을 새롭게 배우는 것이라고 할 수 있다. 우리는 타 개체의 기술과 지식을 모방함으로써 다른 동물의 세계에서 찾아보기 힘든 문화와 문명을 이룩할 수 있었다. 이런 의미에서 모방 능력이 어떻게 진화하고 발달하는지를 묻는 것은 중요하다. 또한 인간이 아닌 다른 동물들이 참된 모방을 할 수 있는지, 그리고 모방 학습 측면에서 인간과 동물이 구체적으로 어떻게 다른지를 알아보는 작업도 매우 흥미로운 과제이다. 이 논문에서 나는 우선, 인간과 다른 동물들의 모방 능력에 대한 경험적 연구들을 검토해볼 것이다. 이런 비교 연구를 통해 동물과 인간의 모방 능력의 차이에 주목할 것이며, 그들에게서 보이는 복제 충실도의 차이가 왜 발생하는지에 대해 논의할 것이다. 그런 다음에 모방의 신경생물학적 메커니즘에 대한 최신 연구들을 검토할 것이다. 하전두회(inferior Frontal Gyrus, IFG)와 하두정엽(inferior Parietal Lobule, IPL)으로 구성된 인간의 거울 뉴런계(mirror neuron system)가 이 대목에서 가장 중요하게 등장한다. 거울 뉴런계는 타 개체의 행동을 이해하고 공감하고 따라하는 데에 필수적인 신경세포 다발이다. 나는 거울 뉴런계의 기능과 진화에 대한 최신 연구들을 소개할 것이다. 인간의 모방을 가능하게 하는 신경 메커니즘에 대한 연구는 처음에 거울 뉴런계와 후부상측두이랑(posterior Superior Temporal Sulcus, pSTS)로 구성된 '핵심 모방 회로'에 집중되어 있었다. 하지만 더 최신의 연구들은 핵심 모방 회로 밖에서도 모방의 신경 메커니즘이 작동한다는 사실을 말해준다. 마지막으로 나는 이러한 모방의 심리학과 생물학이 문화 진화에 어떤 함의를 지니는지를 탐구한다. 구체적으로 나는 밈과 거울뉴런계의 관계를 탐구한 최신 연구를 통해 문화 진화에 대한 밈학적 접근을 시도할 것이다.

  • PDF

긍정감정을 유도하기 위한 모방학습을 이용한 상호작용 시스템 프로토타입 개발 (Development of An Interactive System Prototype Using Imitation Learning to Induce Positive Emotion)

  • 오찬해;강창구
    • 한국정보전자통신기술학회논문지
    • /
    • 제14권4호
    • /
    • pp.239-246
    • /
    • 2021
  • 컴퓨터 그래픽스 및 HCI 분야에서 캐릭터를 만들고 자연스럽게 상호작용하는 시스템에 관한 많은 연구가 있었다. 이와 같은 연구들은 사용자의 행동에 대한 반응에 중점을 두었으며, 사용자에게 긍정적 감정을 끌어내기 위한 캐릭터의 행동 연구는 여전히 어려운 문제로 남아있다. 본 논문에서는 인공지능 기술을 이용하여 가상 캐릭터의 움직임에 따른 사용자의 긍정적 감정을 끌어내기 위한 상호작용 시스템 프로토타입을 개발한다. 제안된 시스템은 표정 인식과 가상 캐릭터의 동작 생성으로 구분된다. 표정 인식을 위해 깊이 카메라를 사용하며 인식된 사용자의 표정 데이터는 동작 생성으로 전달된다. 우리는 개인화된 상호작용 시스템 개발을 위하여 학습모델로서 모방학습을 사용한다. 동작 생성에서는 최초 사용자의 표정 데이터에 따라 무작위 행동을 수행하고 지속적인 모방학습을 통하여 사용자가 긍정적 감정을 끌어낼 수 있는 행동을 학습한다.

Active learning 기반 운전자 행동 모방 학습 기법 연구 (A Study on a Driving Behavior Imitation Learning Method Based on Active Learning)

  • 황카이스;문명운;박지선;성연식;조경은
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 춘계학술발표대회
    • /
    • pp.485-486
    • /
    • 2019
  • Simulated driving behavior is an important aspect of realistic simulation systems. To simulate natural driving behavior, this paper proposes an imitation learning method based on active learning that combines demonstration and experience. Driving demonstrations are collected from human drivers in a driving simulator. A driving behavior policy is learned from these demonstrations. The driving demonstration dataset is augmented with new demonstrations that the original demonstrations did not contain, in the form of behaviors from another driving behavior policy learned from experience. The final driving behavior policy is learned from an augmented demonstration dataset.

SNS상의 범죄행위 설명에 있어 사회학습이론과 보완적 논의의 검증 (An Empirical Test of Social Learning Theory and Complementary Approach in Explanation of University Students' Crimes in Social Network Services)

  • 이성식
    • 정보화정책
    • /
    • 제22권4호
    • /
    • pp.91-104
    • /
    • 2015
  • 이 연구는 SNS상의 범죄행위를 설명하기 위해 기존의 범죄학이론 중 사회학습이론을 중심으로 주 요인인 차별접촉, 정의, 차별강화, 그리고 모방의 영향력을 살펴보았다. 아울러 이 연구에서는 사회학습이론의 보완적 논의로 사회학습요인들이 낮은 자기통제력, 하위문화 환경, 그리고 기회요인들과 함께 작용할때더큰 영향력을 갖게 될 것이라는 점에서 그 상호작용효과를 검증하였다. 서울시 대학생 SNS이용자 486명을 조사한 본 연구에서는 사회학습요인들 중 차별접촉과 차별강화의 영향력은 대체로 유의미하지 않았던 반면 법위반에 호의적 정의와 모방의 경우는 어느 정도 SNS에서의 범죄행위에 유의미한 영향력을 갖는 것을 제시했다. 그리고 상호작용효과의 결과를 보면 어느 정도 본 연구의 가설을 지지하는 것으로 나타났다. 사회학습요인들 중에서 법위반에 대한 정의는 그것을 허용하는 하위문화 환경의 조건에서 범죄에 영향력을 갖는다는 것을 제시했고, 차별강화로서 보상은 기회요인과 함께 상호작용효과를, 그리고 모방은 자기통제력이 낮은 사람에게서 더 영향력을 갖는 것으로 나타났다.

비고츠키 이론의 수학교육적 적용에 관한 연구 (A study on application of Vygotsky's theory in mathematics education)

  • 조윤동;박배훈
    • 대한수학교육학회지:수학교육학연구
    • /
    • 제12권4호
    • /
    • pp.473-491
    • /
    • 2002
  • This article analyzes mathematics education from dialectical materialism acknowledging the objectivity of knowledge. The thesis that knowledge is objective advances to the recognition that knowledge will be internalized, and an idea of zone of proximal development(ZPD) is established as a practice program of internalization. The lower side of ZPD, i.e. the early stage of internalization takes imitation in a large portion. And in the process of internalization the mediational means play an important role. Hereupon the role of mathematics teacher, the object of imitation, stands out significantly. In this article, treating the contents of study as follows, I make manifest that teaching and learning in mathematics classroom are united dialectically: I hope to findout the method of teaching-learning to mathematical knowledge from the point of view that mathematical knowledge is objective; I look into how analysis into units, as the analytical method of Vygotsky, has been developed from the side of mathematical teaching-learning; I discuss the significance of mediational means to play a key role in attaining the internalization in connection with ZPD and re-illuminate imitation. Based on them, I propose how the role of mathematics teachers, and the principle of organization to mathematics textbook should be.

  • PDF

근골격 모델과 참조 모션을 이용한 이족보행 강화학습 (Reinforcement Learning of Bipedal Walking with Musculoskeletal Models and Reference Motions)

  • 전지웅;권태수
    • 한국컴퓨터그래픽스학회논문지
    • /
    • 제29권1호
    • /
    • pp.23-29
    • /
    • 2023
  • 본 논문은 강화학습을 통해 이족보행에 대한 모션 캡처를 통해 참조 모션의 데이터들을 기반으로 근골격 캐릭터의 시뮬레이션을 적은 비용으로 높은 품질의 결과를 얻을 방법을 소개한다. 우리는 참조 모션 데이터를 캐릭터 모델이 수행할 수 있게끔 재설정을 한 후, 강화학습을 통해 해당 모션을 학습하도록 훈련시킨다. 참조 모션 모방과 근육에 대한 최소한의 메타볼릭 에너지를 결합하여 원하는 방향으로 근골격 모델이 이족보행을 수행하게끔 학습한다. 이러한 방법으로 근골격 모델은 기존의 수동으로 설계된 컨트롤러보다 적은 비용으로 학습할 수 있으며 높은 품질의 이족보행을 수행할 수 있게 된다.

시각-언어 이동 에이전트를 위한 복합 학습 (Hybrid Learning for Vision-and-Language Navigation Agents)

  • 오선택;김인철
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제9권9호
    • /
    • pp.281-290
    • /
    • 2020
  • 시각-언어 이동 문제는 시각 이해와 언어 이해 능력을 함께 요구하는 복합 지능 문제이다. 본 논문에서는 시각-언어 이동 에이전트를 위한 새로운 학습 모델을 제안한다. 이 모델은 데모 데이터에 기초한 모방 학습과 행동 보상에 기초한 강화 학습을 함께 결합한 복합 학습을 채택하고 있다. 따라서 이 모델은 데모 데이터에 편향될 수 있는 모방 학습의 문제와 상대적으로 낮은 데이터 효율성을 갖는 강화 학습의 문제를 상호 보완적으로 해소할 수 있다. 또한, 제안 모델에서는 기존의 목표 기반 보상 함수들의 문제점을 해결하기 위해 설계된 새로운 경로 기반 보상 함수를 이용한다. 본 논문에서는 Matterport3D 시뮬레이션 환경과 R2R 벤치마크 데이터 집합을 이용한 다양한 실험들을 통해, 제안 모델의 높은 성능을 입증하였다.