• 제목/요약/키워드: Q-learning system

검색결과 142건 처리시간 0.019초

A Study of Unmanned Aerial Vehicle Path Planning using Reinforcement Learning

  • Kim, Cheong Ghil
    • 반도체디스플레이기술학회지
    • /
    • 제17권1호
    • /
    • pp.88-92
    • /
    • 2018
  • Currently drone industry has become one of the fast growing markets and the technology for unmanned aerial vehicles are expected to continue to develop at a rapid rate. Especially small unmanned aerial vehicle systems have been designed and utilized for the various field with their own specific purposes. In these fields the path planning problem to find the shortest path between two oriented points is important. In this paper we introduce a path planning strategy for an autonomous flight of unmanned aerial vehicles through reinforcement learning with self-positioning technique. We perform Q-learning algorithm, a kind of reinforcement learning algorithm. At the same time, multi sensors of acceleraion sensor, gyro sensor, and magnetic are used to estimate the position. For the functional evaluation, the proposed method was simulated with virtual UAV environment and visualized the results. The flight history was based on a PX4 based drones system equipped with a smartphone.

Decision Support Method in Dynamic Car Navigation Systems by Q-Learning

  • 홍수정;홍언주;오경환
    • 한국지능시스템학회논문지
    • /
    • 제12권4호
    • /
    • pp.361-365
    • /
    • 2002
  • 오랜 세월동안 위대한 이동수단을 만들어내고자 하는 인간의 꿈은 오늘날 눈부신 각종 운송기구를 만들어 내는 결실을 얻고 있다. 자동차 네비게이션 시스템도 그러한 결실중의 한 예라고 할 수 있을 것이다. 지능적으로 판단하고 정보를 처리할 수 있는 자동차 네비게이션 시스템을 부착함으로써 한 단계 발전한 운송수단으로 진화할 수 있을 것이다. 이러한 자동차 네비게이션 시스템의 단점이라면 한정된 리소스만으로 여러 가지 작업을 수행해야만 하는 어려움이다. 그래서 네비게이션 시스템의 주요 작업중의 하나인 경로를 추출하는 경로추출(Route Planning) 작업은 한정된 리소스에서도 최적의 경로를 찾을 수 있는 지능적인 방법이어야만 한다. 이러한 경로를 추출하는 작업을 하는데 기존에 일반적으로 쓰였던 두 가지 방법에는 Dijkstra s algorithm과 A*algorithm이 있다. 이 두 방법은 최적의 경로를 찾아낸다는 점은 있지만 경로를 찾기 위해서 알고리즘의 특성상 각각, 넓은 영역에 대하여 탐색작업을 해야 하고 또한 수행시간이 많이 걸린다는 단점과 또한 경로를 계산하기 위해서 Heuristic function을 추가적인 정보로 계산을 해야 한다는 단점이 있다. 본 논문에서는 적은 탐색 영역을 가지면서 또한 최적의 경로를 추출하는데 드는 수행시간은 작으며 나아가 동적인 교통환경에서도 최적의 경로를 추출할 수 있는 최적 경로 추출방법을 강화학습의 일종인 Q- Learning을 이용하여 구현해 보고자 한다.

퍼지 로직을 적용한 로봇축구 전략 및 전술 (A Robot Soccer Strategy and Tactic Using Fuzzy Logic)

  • 이정준;지동민;이원창;강근택;주문갑
    • 한국지능시스템학회논문지
    • /
    • 제16권1호
    • /
    • pp.79-85
    • /
    • 2006
  • 본 논문은 인접한 두 로봇의 위치와 역할에 따라 로봇의 행동을 결정하는 퍼지 로직 중계자를 사용한 로봇 축구의 전략 및 전술을 제안한다. 기존의 Q 학습 알고리즘은 로봇의 수에 따라 상태의 수가 기하급수적으로 증가하여, 많은 연산을 필요로 하기 때문에 실시간 연산을 필요로 하는 로봇 축구 시스템에 알맞지 않다. Modular Q 학습 알고리즘은 해당 지역을 분할하는 방법으로 상태수를 줄였는데, 여기에는 로봇들 간의 협력을 위하여 따로 중재자 알고리즘이 사용되었다. 제안된 방법은 퍼지 규칙을 사용하여 로봇들 간의 협력을 위한 중재자 알고리즘을 구현하였고, 사용된 퍼지 규칙이 간단하기 때문에 계산 량이 작아 실시간 로봇 축구에 적합하다. MiroSot 시뮬레이션을 통하여 제안된 방법의 가능성을 보인다.

혼성 다중에이전트 학습 전략 (Hybrid Multi-agent Learning Strategy)

  • 김병천;이창훈
    • 한국인터넷방송통신학회논문지
    • /
    • 제13권6호
    • /
    • pp.187-193
    • /
    • 2013
  • 다중 에이전트 시스템에서 학습을 통해 여러 에이전트들의 행동을 어떻게 조절할 것인가는 매우 중요한 문제이다. 가장 중요한 문제는 여러 에이전트가 서로 효율적인 협동을 통해 목표를 성취하는 것과 다른 에이전트들과 충돌을 방지하는 것이다. 본 논문에서는 혼성 학습 전략을 제안하였다. 제안된 방법은 다중에이전트를 효율적으로 제어하기 위해 에이전트들 사이의 공간적 관계를 이용하였다. 실험을 통해 제안된 방법은 에이전트들과 충돌을 피하면서 에이전트들의 목표에 빠르게 수렴함을 알 수 있었다.

행위 기반 강화 학습 에이전트 구조 (An Agent Architecture for Behavior-Based Reinforcement Learning)

  • 황종근;김인철
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2007년도 추계학술대회
    • /
    • pp.284-293
    • /
    • 2007
  • 본 논문에서는 실시간 동정 환경에 효과적인 L-CAA 에이전트 구조를 제안한다. L-CAA 에이전트 구조는 변화하는 환경에 대한 적응성을 높이기 위해, 선행 연구를 통해 개발된 행위 기반 에이전트 구조인 CAA에 강화 학습 기능을 추가하여 확장한 것이다. 안정적인 성능을 위해 L-CAA에서 행위 선택 메커니즘은 크게 두 단계로 나뉜다. 첫 번째 단계에서는 사용자가 미리 정의한 각 행위의 수행 가능 조건과 효용성을 검사함으로써 행위 라이브러리로부터 실행할 행위들을 추출한다. 하지만 첫 번째 단계에서 다수의 행위가 추출되면, 두 번째 단계에서는 강화 학습의 도움을 받아 이들 중에서 실행할 하나의 행위를 선택한다. 즉, 강화 학습을 통해 갱신된 각 행위들의 Q 함수 값을 서로 비교함으로써, 가장 큰 기대 보상 값을 가진 행위를 선택하여 실행한다. 또한 L-CAA에서는 실행 중인 행위의 유지 가능 조건을 지속적으로 검사하여 환경의 동적 변화로 인해 일부 조건이 만족되지 않는 경우가 발생하면 현재 행위의 실행을 즉시 종료할 수 있다. 그 뿐 아니라, L-CAA는 행위 실행 중에도 효용성이 더 높은 다른 행위가 발생하면 현재의 행위를 일시 정지하였다가 복귀하는 기능도 제공한다. 본 논문에서는 L-CAA 구조의 효과를 분석하기 위해, 대표적인 동적 가상환경인 Unreal Tournament 게임에서 자율적을 동작하는 L-CAA기반의 UTBot 들을 구현하고, 이들을 이용하여 성능실험을 전개해본다.

  • PDF

Q-ILC를 이용한 액체추진제로켓엔진의 추력 및 혼합비 제어 (Thrust and Mixtrue Control of Liquid Propellant Rocket Engine using Q-ILC)

  • 정영석;임석희;조기주;오승협
    • 한국추진공학회:학술대회논문집
    • /
    • 한국추진공학회 2006년도 제27회 추계학술대회논문집
    • /
    • pp.139-145
    • /
    • 2006
  • 액체추진제로켓엔진(LRE)은 로켓의 궤도 및 동특성 제어에 있어서 가장 중용한 부분 중 하나이다. LRE 제어 목적은 주어진 추력 궤도에 맞추어 추력을 조절하는 것과 주연소실과 가스발생기 내의 연소가스의 온도가 일정 범위를 넘어가지 않도록 추진제의 혼합비를 일정하게 유지시키는 것이다. 이런 제어 목적을 가진 LRE는 LRE를 구성하고 있는 구성품 간의 상호간섭에 의하여 다중제어가 쉽게 이루어지지 않는다. 본 연구에서는 LRE에 대한 동특성 모델을 구성하였으며 PID 제어와 PID+Q-ILC 제어로직을 적용한 결과에 대해 해석하였다. 전산모사 결과, PID 제어 보다 PID+Q-ILC 제어 방식을 적용할 경우 오차를 더욱 더 줄일 수 있는 것을 확인하였다.

  • PDF

I-세대의 어패럴캐드 교육을 위한 블렌디드 러닝 활용 제안 (Apparel Pattern CAD Education Based on Blended Learning for I-Generation)

  • 최영림
    • 한국의류산업학회지
    • /
    • 제18권6호
    • /
    • pp.766-775
    • /
    • 2016
  • In the era of globalization and unlimited competition, Korean universities need a breakthrough in their education system according to the changing education landscape, such as lower graduation requirements to cultivate more multi-talented convergence leaders. While each student has different learning capabilities, which results in different performance and achievements in the same class, the uniform education that most universities are currently offering fails to accommodate such differences. Blended learning, synergically combining offline and online classes, enlarges learning space and enriches learning experiences through diversified tools and materials, including multimedia. Recently, universities are increasingly adopting video contents and on-offline convergence learning strategy. Thus, this study suggests a teaching method based on blended learning to more effectively teach existing pattern CAD and virtual CAD in the Apparel Pattern CAD class. To this end, this researcher developed a teaching-learning method and curriculum according to the blended learning phase and video-based contents. The curriculum consisted of 2D CAD (SuperAlpha: Plus) and 3D CAD (CLO) software learning for 15 weeks. Then, it was loaded to the Learning Management System (LMS) and operated for 15 weeks both online and offline. The performance analysis of LMS usage found that class materials, among online postings, were viewed the most. The discussion menu most accurately depicted students' participation, and students who did not participate in discussions were estimated to check postings less than participating students. A survey on the blended learning found that students prefer digital or more digitized classes, while preferring face to face for Q&As.

fNIRS 기반 실시간 집중력 모니터링 모바일 애플리케이션 (Mobile Application for Real-Time Monitoring of Concentration Based on fNIRS)

  • 강선화;이현주;나희원;동서연
    • 한국멀티미디어학회논문지
    • /
    • 제24권2호
    • /
    • pp.295-304
    • /
    • 2021
  • Learning assistance system that continuously measures user's concentration will be helpful to grasp the concentration pattern and adjust the learning method accordingly to improve the learning efficiency. Although a lot of various learning aids have been proposed, there have been few studies on the concentration monitoring system in real time. Therefore, in this study, we developed an Android-based mobile application that can measure concentration during study by using functional near-infrared spectroscopy, which is used to measure brain activity. First, the task accuracy was predicted at a maximum level of 93.75% from the prefrontal oxygenation characteristics measured while performing the visual Q&A task on 11 college students, and a concentration calculation formula based on a linear regression model was derived. Then, a survey on the usability of the mobile application was conducted, overall high satisfaction and positive opinions were obtained. From these findings, this application can be used as a customized learning aid application for users, and further, it can help educators improve the quality of classes based on the level of concentration of learners.

심층강화학습 기반 분산형 전력 시스템에서의 수요와 공급 예측을 통한 전력 거래시스템 (Power Trading System through the Prediction of Demand and Supply in Distributed Power System Based on Deep Reinforcement Learning)

  • 이승우;선준호;김수현;김진영
    • 한국인터넷방송통신학회논문지
    • /
    • 제21권6호
    • /
    • pp.163-171
    • /
    • 2021
  • 본 논문은 분산형 전력 시스템에서 심층강화학습 기반의 전력 생산 환경 및 수요와 공급을 예측하며 자원 할당 알고리즘을 적용해 전력거래 시스템 연구의 최적화된 결과를 보여준다. 전력 거래시스템에 있어서 기존의 중앙집중식 전력 시스템에서 분산형 전력 시스템으로의 패러다임 변화에 맞추어 전력거래에 있어서 공동의 이익을 추구하며 장기적인 거래의 효율을 증가시키는 전력 거래시스템의 구축을 목표로 한다. 심층강화학습의 현실적인 에너지 모델과 환경을 만들고 학습을 시키기 위해 날씨와 매달의 패턴을 분석하여 데이터를 생성하며 시뮬레이션을 진행하는 데 있어서 가우시안 잡음을 추가해 에너지 시장 모델을 구축하였다. 모의실험 결과 제안된 전력 거래시스템은 서로 협조적이며 공동의 이익을 추구하며 장기적으로 이익을 증가시킨 것을 확인하였다.

L-CAA : 행위 기반 강화학습 에이전트 구조 (L-CAA : An Architecture for Behavior-Based Reinforcement Learning)

  • 황종근;김인철
    • 지능정보연구
    • /
    • 제14권3호
    • /
    • pp.59-76
    • /
    • 2008
  • 본 논문에서는 실시간 동적 환경에 효과적인 L-CAA 에이전트 구조를 제안한다. L-CAA 에이전트 구조는 변화하는 환경에 대한 적응성을 높이기 위해, 선행 연구를 통해 개발된 행위기반 에이전트 구조인 CAA에 강화학습 기능을 추가하여 확장한 것이다. 안정적인 성능을 위해 L-CAA 구조에서는 행위 선택과 실행을 학습에 전적으로 의존하지 않고 학습을 보조적으로 이용한다. L-CAA에서 행위 선택 메커니즘은 크게 두 단계로 나뉜다. 첫 번째 단계에서는 사용자가 미리 정의한 각 행위의 적용 가능 조건과 효용성을 검사함으로써 행위 라이브러리로부터 실행할 행위들을 추출한다. 하지만 첫 번째 단계에서 다수의 행위가 추출되면, 두 번째 단계에서는 강화학습의 도움을 받아 이들 중에서 실행 할 하나의 행위를 선택한다. 즉, 강화학습을 통해 갱신된 각 행위들의 Q 함수값을 서로 비교함으로써, 가장 큰 기대 보상값을 가진 행위를 선택하여 실행한다. 또한 L-CAA에서는 실행 중인 행위의 유지 가능 조건을 지속적으로 검사하여 환경의 동적 변화로 인해 일부 조건이 만족되지 않는 경우가 발생하면 현재 행위의 실행을 즉시 종료할 수 있다. 그 뿐 아니라, L-CAA는 행위 실행 중에도 효용성이 더 높은 다른 행위가 발생하면 현재의 행위를 일시 정지하였다가 복귀하는 기능도 제공한다. 본 논문에서는 L-CAA 구조의 효과를 분석하기 위해, 대표적인 동적 가상환경인 Unreal Tournament 게임에서 자율적으로 동작하는 L-CAA 기반의 에이전트를 구현하고, 이를 이용한 성능 실험을 전개해본다.

  • PDF