Self-Imitation Learning은 간단한 비활성 정책 actor-critic 알고리즘으로써 에이전트가 과거의 좋은 경험을 활용하여 최적의 정책을 찾을 수 있도록 해준다. 그리고 actor-critic 구조를 갖는 강화학습 알고리즘에 결합되어 다양한 환경들에서 알고리즘의 상당한 개선을 보여주었다. 하지만 Self-Imitation Learning이 강화학습에 큰 도움을 준다고 하더라도 그 적용 분야는 actor-critic architecture를 가지는 강화학습 알고리즘으로 제한되어 있다. 본 논문에서 Self-Imitation Learning의 알고리즘을 가치 기반 강화학습 알고리즘인 DQN에 적용하는 방법을 제안하고, Self-Imitation Learning이 적용된 DQN 알고리즘의 학습을 다양한 환경에서 진행한다. 아울러 그 결과를 기존의 결과와 비교함으로써 Self-Imitation Leaning이 DQN에도 적용될 수 있으며 DQN의 성능을 개선할 수 있음을 보인다.
Large workspace and strong grasping force are required when a robot manipulates big and/or heavy objects. In that situation, bimanual manipulation is more useful than unimanual manipulation. However, the control of both hands to manipulate an object requires a more complex model compared to unimanual manipulation. Learning by human demonstration is a useful technique for a robot to learn a model. In this paper, we propose an imitation learning method of bimanual object manipulation by human demonstrations. For robust imitation of bimanual object manipulation, movement trajectories of two hands are encoded as a movement trajectory of the object and a force trajectory to grasp the object. The movement trajectory of the object is modeled by using the framework of dynamic movement primitives, which represent demonstrated movements with a set of goal-directed dynamic equations. The force trajectory to grasp an object is also modeled as a dynamic equation with an adjustable force term. These equations have an adjustable force term, where locally weighted regression and multiple linear regression methods are employed, to imitate complex non-linear movements of human demonstrations. In order to show the effectiveness our proposed method, a movement skill of pick-and-place in simulation environment is shown.
This paper presents a framework to generate human-like movements of a humanoid in real time using the movement primitive database of a human. The framework consists of two processes: 1) the offline motion imitation learning based on an Evolutionary Algorithm and 2) the online motion generation of a humanoid using the database updated bγ the motion imitation teaming. For the offline process, the initial database contains the kinetic characteristics of a human, since it is full of human's captured motions. The database then develops through the proposed framework of motion teaming based on an Evolutionary Algorithm, having the kinetic characteristics of a humanoid in aspect of minimal torque or joint jerk. The humanoid generates human-like movements far a given purpose in real time by linearly interpolating the primitive motions in the developed database. The movement of catching a ball was examined in simulation.
우리는 모방하는 동물이다. '참된 모방(true imitation)'은 한 행위가 행해진 것을 보는 것으로부터 그 행위를 하는 법을 새롭게 배우는 것이라고 할 수 있다. 우리는 타 개체의 기술과 지식을 모방함으로써 다른 동물의 세계에서 찾아보기 힘든 문화와 문명을 이룩할 수 있었다. 이런 의미에서 모방 능력이 어떻게 진화하고 발달하는지를 묻는 것은 중요하다. 또한 인간이 아닌 다른 동물들이 참된 모방을 할 수 있는지, 그리고 모방 학습 측면에서 인간과 동물이 구체적으로 어떻게 다른지를 알아보는 작업도 매우 흥미로운 과제이다. 이 논문에서 나는 우선, 인간과 다른 동물들의 모방 능력에 대한 경험적 연구들을 검토해볼 것이다. 이런 비교 연구를 통해 동물과 인간의 모방 능력의 차이에 주목할 것이며, 그들에게서 보이는 복제 충실도의 차이가 왜 발생하는지에 대해 논의할 것이다. 그런 다음에 모방의 신경생물학적 메커니즘에 대한 최신 연구들을 검토할 것이다. 하전두회(inferior Frontal Gyrus, IFG)와 하두정엽(inferior Parietal Lobule, IPL)으로 구성된 인간의 거울 뉴런계(mirror neuron system)가 이 대목에서 가장 중요하게 등장한다. 거울 뉴런계는 타 개체의 행동을 이해하고 공감하고 따라하는 데에 필수적인 신경세포 다발이다. 나는 거울 뉴런계의 기능과 진화에 대한 최신 연구들을 소개할 것이다. 인간의 모방을 가능하게 하는 신경 메커니즘에 대한 연구는 처음에 거울 뉴런계와 후부상측두이랑(posterior Superior Temporal Sulcus, pSTS)로 구성된 '핵심 모방 회로'에 집중되어 있었다. 하지만 더 최신의 연구들은 핵심 모방 회로 밖에서도 모방의 신경 메커니즘이 작동한다는 사실을 말해준다. 마지막으로 나는 이러한 모방의 심리학과 생물학이 문화 진화에 어떤 함의를 지니는지를 탐구한다. 구체적으로 나는 밈과 거울뉴런계의 관계를 탐구한 최신 연구를 통해 문화 진화에 대한 밈학적 접근을 시도할 것이다.
컴퓨터 그래픽스 및 HCI 분야에서 캐릭터를 만들고 자연스럽게 상호작용하는 시스템에 관한 많은 연구가 있었다. 이와 같은 연구들은 사용자의 행동에 대한 반응에 중점을 두었으며, 사용자에게 긍정적 감정을 끌어내기 위한 캐릭터의 행동 연구는 여전히 어려운 문제로 남아있다. 본 논문에서는 인공지능 기술을 이용하여 가상 캐릭터의 움직임에 따른 사용자의 긍정적 감정을 끌어내기 위한 상호작용 시스템 프로토타입을 개발한다. 제안된 시스템은 표정 인식과 가상 캐릭터의 동작 생성으로 구분된다. 표정 인식을 위해 깊이 카메라를 사용하며 인식된 사용자의 표정 데이터는 동작 생성으로 전달된다. 우리는 개인화된 상호작용 시스템 개발을 위하여 학습모델로서 모방학습을 사용한다. 동작 생성에서는 최초 사용자의 표정 데이터에 따라 무작위 행동을 수행하고 지속적인 모방학습을 통하여 사용자가 긍정적 감정을 끌어낼 수 있는 행동을 학습한다.
Simulated driving behavior is an important aspect of realistic simulation systems. To simulate natural driving behavior, this paper proposes an imitation learning method based on active learning that combines demonstration and experience. Driving demonstrations are collected from human drivers in a driving simulator. A driving behavior policy is learned from these demonstrations. The driving demonstration dataset is augmented with new demonstrations that the original demonstrations did not contain, in the form of behaviors from another driving behavior policy learned from experience. The final driving behavior policy is learned from an augmented demonstration dataset.
이 연구는 SNS상의 범죄행위를 설명하기 위해 기존의 범죄학이론 중 사회학습이론을 중심으로 주 요인인 차별접촉, 정의, 차별강화, 그리고 모방의 영향력을 살펴보았다. 아울러 이 연구에서는 사회학습이론의 보완적 논의로 사회학습요인들이 낮은 자기통제력, 하위문화 환경, 그리고 기회요인들과 함께 작용할때더큰 영향력을 갖게 될 것이라는 점에서 그 상호작용효과를 검증하였다. 서울시 대학생 SNS이용자 486명을 조사한 본 연구에서는 사회학습요인들 중 차별접촉과 차별강화의 영향력은 대체로 유의미하지 않았던 반면 법위반에 호의적 정의와 모방의 경우는 어느 정도 SNS에서의 범죄행위에 유의미한 영향력을 갖는 것을 제시했다. 그리고 상호작용효과의 결과를 보면 어느 정도 본 연구의 가설을 지지하는 것으로 나타났다. 사회학습요인들 중에서 법위반에 대한 정의는 그것을 허용하는 하위문화 환경의 조건에서 범죄에 영향력을 갖는다는 것을 제시했고, 차별강화로서 보상은 기회요인과 함께 상호작용효과를, 그리고 모방은 자기통제력이 낮은 사람에게서 더 영향력을 갖는 것으로 나타났다.
This article analyzes mathematics education from dialectical materialism acknowledging the objectivity of knowledge. The thesis that knowledge is objective advances to the recognition that knowledge will be internalized, and an idea of zone of proximal development(ZPD) is established as a practice program of internalization. The lower side of ZPD, i.e. the early stage of internalization takes imitation in a large portion. And in the process of internalization the mediational means play an important role. Hereupon the role of mathematics teacher, the object of imitation, stands out significantly. In this article, treating the contents of study as follows, I make manifest that teaching and learning in mathematics classroom are united dialectically: I hope to findout the method of teaching-learning to mathematical knowledge from the point of view that mathematical knowledge is objective; I look into how analysis into units, as the analytical method of Vygotsky, has been developed from the side of mathematical teaching-learning; I discuss the significance of mediational means to play a key role in attaining the internalization in connection with ZPD and re-illuminate imitation. Based on them, I propose how the role of mathematics teachers, and the principle of organization to mathematics textbook should be.
본 논문은 강화학습을 통해 이족보행에 대한 모션 캡처를 통해 참조 모션의 데이터들을 기반으로 근골격 캐릭터의 시뮬레이션을 적은 비용으로 높은 품질의 결과를 얻을 방법을 소개한다. 우리는 참조 모션 데이터를 캐릭터 모델이 수행할 수 있게끔 재설정을 한 후, 강화학습을 통해 해당 모션을 학습하도록 훈련시킨다. 참조 모션 모방과 근육에 대한 최소한의 메타볼릭 에너지를 결합하여 원하는 방향으로 근골격 모델이 이족보행을 수행하게끔 학습한다. 이러한 방법으로 근골격 모델은 기존의 수동으로 설계된 컨트롤러보다 적은 비용으로 학습할 수 있으며 높은 품질의 이족보행을 수행할 수 있게 된다.
시각-언어 이동 문제는 시각 이해와 언어 이해 능력을 함께 요구하는 복합 지능 문제이다. 본 논문에서는 시각-언어 이동 에이전트를 위한 새로운 학습 모델을 제안한다. 이 모델은 데모 데이터에 기초한 모방 학습과 행동 보상에 기초한 강화 학습을 함께 결합한 복합 학습을 채택하고 있다. 따라서 이 모델은 데모 데이터에 편향될 수 있는 모방 학습의 문제와 상대적으로 낮은 데이터 효율성을 갖는 강화 학습의 문제를 상호 보완적으로 해소할 수 있다. 또한, 제안 모델에서는 기존의 목표 기반 보상 함수들의 문제점을 해결하기 위해 설계된 새로운 경로 기반 보상 함수를 이용한다. 본 논문에서는 Matterport3D 시뮬레이션 환경과 R2R 벤치마크 데이터 집합을 이용한 다양한 실험들을 통해, 제안 모델의 높은 성능을 입증하였다.
본 웹사이트에 게시된 이메일 주소가 전자우편 수집 프로그램이나
그 밖의 기술적 장치를 이용하여 무단으로 수집되는 것을 거부하며,
이를 위반시 정보통신망법에 의해 형사 처벌됨을 유념하시기 바랍니다.
[게시일 2004년 10월 1일]
이용약관
제 1 장 총칙
제 1 조 (목적)
이 이용약관은 KoreaScience 홈페이지(이하 “당 사이트”)에서 제공하는 인터넷 서비스(이하 '서비스')의 가입조건 및 이용에 관한 제반 사항과 기타 필요한 사항을 구체적으로 규정함을 목적으로 합니다.
제 2 조 (용어의 정의)
① "이용자"라 함은 당 사이트에 접속하여 이 약관에 따라 당 사이트가 제공하는 서비스를 받는 회원 및 비회원을
말합니다.
② "회원"이라 함은 서비스를 이용하기 위하여 당 사이트에 개인정보를 제공하여 아이디(ID)와 비밀번호를 부여
받은 자를 말합니다.
③ "회원 아이디(ID)"라 함은 회원의 식별 및 서비스 이용을 위하여 자신이 선정한 문자 및 숫자의 조합을
말합니다.
④ "비밀번호(패스워드)"라 함은 회원이 자신의 비밀보호를 위하여 선정한 문자 및 숫자의 조합을 말합니다.
제 3 조 (이용약관의 효력 및 변경)
① 이 약관은 당 사이트에 게시하거나 기타의 방법으로 회원에게 공지함으로써 효력이 발생합니다.
② 당 사이트는 이 약관을 개정할 경우에 적용일자 및 개정사유를 명시하여 현행 약관과 함께 당 사이트의
초기화면에 그 적용일자 7일 이전부터 적용일자 전일까지 공지합니다. 다만, 회원에게 불리하게 약관내용을
변경하는 경우에는 최소한 30일 이상의 사전 유예기간을 두고 공지합니다. 이 경우 당 사이트는 개정 전
내용과 개정 후 내용을 명확하게 비교하여 이용자가 알기 쉽도록 표시합니다.
제 4 조(약관 외 준칙)
① 이 약관은 당 사이트가 제공하는 서비스에 관한 이용안내와 함께 적용됩니다.
② 이 약관에 명시되지 아니한 사항은 관계법령의 규정이 적용됩니다.
제 2 장 이용계약의 체결
제 5 조 (이용계약의 성립 등)
① 이용계약은 이용고객이 당 사이트가 정한 약관에 「동의합니다」를 선택하고, 당 사이트가 정한
온라인신청양식을 작성하여 서비스 이용을 신청한 후, 당 사이트가 이를 승낙함으로써 성립합니다.
② 제1항의 승낙은 당 사이트가 제공하는 과학기술정보검색, 맞춤정보, 서지정보 등 다른 서비스의 이용승낙을
포함합니다.
제 6 조 (회원가입)
서비스를 이용하고자 하는 고객은 당 사이트에서 정한 회원가입양식에 개인정보를 기재하여 가입을 하여야 합니다.
제 7 조 (개인정보의 보호 및 사용)
당 사이트는 관계법령이 정하는 바에 따라 회원 등록정보를 포함한 회원의 개인정보를 보호하기 위해 노력합니다. 회원 개인정보의 보호 및 사용에 대해서는 관련법령 및 당 사이트의 개인정보 보호정책이 적용됩니다.
제 8 조 (이용 신청의 승낙과 제한)
① 당 사이트는 제6조의 규정에 의한 이용신청고객에 대하여 서비스 이용을 승낙합니다.
② 당 사이트는 아래사항에 해당하는 경우에 대해서 승낙하지 아니 합니다.
- 이용계약 신청서의 내용을 허위로 기재한 경우
- 기타 규정한 제반사항을 위반하며 신청하는 경우
제 9 조 (회원 ID 부여 및 변경 등)
① 당 사이트는 이용고객에 대하여 약관에 정하는 바에 따라 자신이 선정한 회원 ID를 부여합니다.
② 회원 ID는 원칙적으로 변경이 불가하며 부득이한 사유로 인하여 변경 하고자 하는 경우에는 해당 ID를
해지하고 재가입해야 합니다.
③ 기타 회원 개인정보 관리 및 변경 등에 관한 사항은 서비스별 안내에 정하는 바에 의합니다.
제 3 장 계약 당사자의 의무
제 10 조 (KISTI의 의무)
① 당 사이트는 이용고객이 희망한 서비스 제공 개시일에 특별한 사정이 없는 한 서비스를 이용할 수 있도록
하여야 합니다.
② 당 사이트는 개인정보 보호를 위해 보안시스템을 구축하며 개인정보 보호정책을 공시하고 준수합니다.
③ 당 사이트는 회원으로부터 제기되는 의견이나 불만이 정당하다고 객관적으로 인정될 경우에는 적절한 절차를
거쳐 즉시 처리하여야 합니다. 다만, 즉시 처리가 곤란한 경우는 회원에게 그 사유와 처리일정을 통보하여야
합니다.
제 11 조 (회원의 의무)
① 이용자는 회원가입 신청 또는 회원정보 변경 시 실명으로 모든 사항을 사실에 근거하여 작성하여야 하며,
허위 또는 타인의 정보를 등록할 경우 일체의 권리를 주장할 수 없습니다.
② 당 사이트가 관계법령 및 개인정보 보호정책에 의거하여 그 책임을 지는 경우를 제외하고 회원에게 부여된
ID의 비밀번호 관리소홀, 부정사용에 의하여 발생하는 모든 결과에 대한 책임은 회원에게 있습니다.
③ 회원은 당 사이트 및 제 3자의 지적 재산권을 침해해서는 안 됩니다.
제 4 장 서비스의 이용
제 12 조 (서비스 이용 시간)
① 서비스 이용은 당 사이트의 업무상 또는 기술상 특별한 지장이 없는 한 연중무휴, 1일 24시간 운영을
원칙으로 합니다. 단, 당 사이트는 시스템 정기점검, 증설 및 교체를 위해 당 사이트가 정한 날이나 시간에
서비스를 일시 중단할 수 있으며, 예정되어 있는 작업으로 인한 서비스 일시중단은 당 사이트 홈페이지를
통해 사전에 공지합니다.
② 당 사이트는 서비스를 특정범위로 분할하여 각 범위별로 이용가능시간을 별도로 지정할 수 있습니다. 다만
이 경우 그 내용을 공지합니다.
제 13 조 (홈페이지 저작권)
① NDSL에서 제공하는 모든 저작물의 저작권은 원저작자에게 있으며, KISTI는 복제/배포/전송권을 확보하고
있습니다.
② NDSL에서 제공하는 콘텐츠를 상업적 및 기타 영리목적으로 복제/배포/전송할 경우 사전에 KISTI의 허락을
받아야 합니다.
③ NDSL에서 제공하는 콘텐츠를 보도, 비평, 교육, 연구 등을 위하여 정당한 범위 안에서 공정한 관행에
합치되게 인용할 수 있습니다.
④ NDSL에서 제공하는 콘텐츠를 무단 복제, 전송, 배포 기타 저작권법에 위반되는 방법으로 이용할 경우
저작권법 제136조에 따라 5년 이하의 징역 또는 5천만 원 이하의 벌금에 처해질 수 있습니다.
제 14 조 (유료서비스)
① 당 사이트 및 협력기관이 정한 유료서비스(원문복사 등)는 별도로 정해진 바에 따르며, 변경사항은 시행 전에
당 사이트 홈페이지를 통하여 회원에게 공지합니다.
② 유료서비스를 이용하려는 회원은 정해진 요금체계에 따라 요금을 납부해야 합니다.
제 5 장 계약 해지 및 이용 제한
제 15 조 (계약 해지)
회원이 이용계약을 해지하고자 하는 때에는 [가입해지] 메뉴를 이용해 직접 해지해야 합니다.
제 16 조 (서비스 이용제한)
① 당 사이트는 회원이 서비스 이용내용에 있어서 본 약관 제 11조 내용을 위반하거나, 다음 각 호에 해당하는
경우 서비스 이용을 제한할 수 있습니다.
- 2년 이상 서비스를 이용한 적이 없는 경우
- 기타 정상적인 서비스 운영에 방해가 될 경우
② 상기 이용제한 규정에 따라 서비스를 이용하는 회원에게 서비스 이용에 대하여 별도 공지 없이 서비스 이용의
일시정지, 이용계약 해지 할 수 있습니다.
제 17 조 (전자우편주소 수집 금지)
회원은 전자우편주소 추출기 등을 이용하여 전자우편주소를 수집 또는 제3자에게 제공할 수 없습니다.
제 6 장 손해배상 및 기타사항
제 18 조 (손해배상)
당 사이트는 무료로 제공되는 서비스와 관련하여 회원에게 어떠한 손해가 발생하더라도 당 사이트가 고의 또는 과실로 인한 손해발생을 제외하고는 이에 대하여 책임을 부담하지 아니합니다.
제 19 조 (관할 법원)
서비스 이용으로 발생한 분쟁에 대해 소송이 제기되는 경우 민사 소송법상의 관할 법원에 제기합니다.
[부 칙]
1. (시행일) 이 약관은 2016년 9월 5일부터 적용되며, 종전 약관은 본 약관으로 대체되며, 개정된 약관의 적용일 이전 가입자도 개정된 약관의 적용을 받습니다.