• 제목/요약/키워드: reinforcement algorithms

검색결과 152건 처리시간 0.022초

강화학습을 이용한 트레이딩 전략 (Trading Strategies Using Reinforcement Learning)

  • 조현민;신현준
    • 한국산학기술학회논문지
    • /
    • 제22권1호
    • /
    • pp.123-130
    • /
    • 2021
  • 최근 컴퓨터 기술이 발전하면서 기계학습 분야에 관한 관심이 높아지고 있고 다양한 분야에 기계학습 이론을 적용하는 사례가 크게 증가하고 있다. 특히 금융 분야에서는 금융 상품의 미래 가치를 예측하는 것이 난제인데 80년대부터 지금까지 기술적 및 기본적 분석에 의존하고 있다. 기계학습을 이용한 미래 가치 예측 모형들은 다양한 잠재적 시장변수에 대응하기 위한 모형 설계가 무엇보다 중요하다. 따라서 본 논문은 기계학습의 하나인 강화학습 모형을 이용해 KOSPI 시장에 상장되어 있는 개별 종목들의 주가 움직임을 정량적으로 판단하여 이를 주식매매 전략에 적용한다. 강화학습 모형은 2013년 구글 딥마인드에서 제안한 DQN와 A2C 알고리즘을 이용하여 KOSPI에 상장된 14개 업종별 종목들의 과거 약 13년 동안의 시계열 주가에 기반한 데이터세트를 각각 입력 및 테스트 데이터로 사용한다. 데이터세트는 8개의 주가 관련 속성들과 시장을 대표하는 2개의 속성으로 구성하였고 취할 수 있는 행동은 매입, 매도, 유지 중 하나이다. 실험 결과 매매전략의 평균 연 환산수익률 측면에서 DQN과 A2C이 대안 알고리즘들보다 우수하였다.

마이크로그리드에서 강화학습 기반 에너지 사용량 예측 기법 (Prediction Technique of Energy Consumption based on Reinforcement Learning in Microgrids)

  • 선영규;이지영;김수현;김수환;이흥재;김진영
    • 한국인터넷방송통신학회논문지
    • /
    • 제21권3호
    • /
    • pp.175-181
    • /
    • 2021
  • 본 논문은 단기 에너지 사용량 예측을 위해 인공지능 기반의 접근법에 대해 분석한다. 본 논문에서는 단기 에너지 사용량 예측 기술에 자주 활용되는 지도학습 알고리즘의 한계를 개선하기 위해 강화학습 알고리즘을 활용한다. 지도학습 알고리즘 기반의 접근법은 충분한 성능을 위해 에너지 사용량 데이터뿐만 아니라 contextual information이 필요하여 높은 복잡성을 가진다. 데이터와 학습모델의 복잡성을 개선하기 위해 다중 에이전트 기반의 심층 강화학습 알고리즘을 제안하여 에너지 사용량 데이터로만 에너지 사용량을 예측한다. 공개된 에너지 사용량 데이터를 통해 시뮬레이션을 진행하여 제안한 에너지 사용량 예측 기법의 성능을 확인한다. 제안한 기법은 이상점의 특징을 가지는 데이터를 제외하고 실제값과 유사한 값을 예측하는 것을 보여준다.

강화학습 기반 피난 알고리즘 개발과 성능평가에 관한 기초연구 (A Basic Research on the Development and Performance Evaluation of Evacuation Algorithm Based on Reinforcement Learning)

  • 황광일;김별
    • 한국항해항만학회:학술대회논문집
    • /
    • 한국항해항만학회 2023년도 춘계학술대회
    • /
    • pp.132-133
    • /
    • 2023
  • 재난 상황에서 사람을 안전하게 피난시키는 것은 매우 중요하다. 인명 안전을 위한 다양한 피난 시뮬레이션 툴이 개발되어 사용되고 있지만, 대부분의 툴에 적용된 방식은 Map을 분석하여 최단 경로를 추출해 Agent를 결정된 경로를 따라 이동시키는 알고리즘으로 구현되었다. 이 방법은 재난 환경에 변화가 없는 조건에서 피난경로를 빠른 시간에 예측하기에 적합하다. 그러나 재난상황은 시시각각으로 변화하기 때문에 피난알고리즘은 이에 대응할 수 있어야 하지만 기존 알고리즘으로는 대응이 곤란한 실정이다. 강화학습을 기반으로 한 인공지능 기술을 활용하면 변화하는 재난에 대응 가능한 피난경로 알고리즘의 개발 가능할 것으로 예상된다. 이에 본 연구에서는 알고리즘 개발의 기초단계로서, 강화학습 기법으로 개발된 피난 알고리즘이 IMO MSC.1/Circ1533에서 요구하는 피난시뮬레이션 툴의 성능조건을 만족하는지 여부를 평가하였다.

  • PDF

강화 학습에 기반한 뉴럴-퍼지 제어기 (Neural-Fuzzy Controller Based on Reinforcement Learning)

  • 박영철;김대수;심귀보
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2000년도 춘계학술대회 학술발표 논문집
    • /
    • pp.245-248
    • /
    • 2000
  • 본 논문에서는 강화 학습 개념을 도입하여 자율이동 로봇의 성능을 개선하고자 한다. 본 논문에서 사용되는 시스템은 크게 두 부분으로 나눌 수가 있다. 즉, 뉴럴 퍼지 부분과 동적귀환 신경회로망이다. 뉴럴 퍼지 부분은 로봇의 다음 행동을 결정하는 부분이다. 또한 동적귀환 신경회로망으로부터 내부 강화 신호를 받아 학습을 하여 최적의 행동을 결정하게 된다. 동적 귀환신경회로망은 환경으로부터 외부 강화신호를 입력으로 받아 뉴럴 퍼지의 행동결정에 대해 평가를 한다. 또한 내부강화 신호 값을 결정하는 동적 귀환 신경회로망의 웨이트는 유전자 알고리즘에 의해 진화를 한다. 제안한 알고리즘 구조를 컴퓨터 시뮬레이션상에서 자율 이동 로봇의 제어에 적용을 함으로서 그 유효성을 증명하고자 한다.

  • PDF

강화학습 기반의 지능형 게임에 관한 연구 (A Study on the Intelligent Game based on Reinforcement Learning)

  • 우종우;이동훈
    • 한국컴퓨터정보학회논문지
    • /
    • 제11권4호
    • /
    • pp.17-25
    • /
    • 2006
  • 인공지능 기법을 이용한 컴퓨터 게임에 대한 학술적 연구는 오랫동안 이루어져 왔으며 주로 게임에 대한 숙련도를 높여서 인간에게 승리하는 것이 주요 연구 목적이었다. 그러나 최근의 상업용 게임에서는 게임의 흥미를 제공하기 위해서 사용자의 적응을 목적으로 개발하고 있다. 본 논문에서는 기존의 강화학습알고리즘을 수정하여 사용자 적응에 중점을 둔 적응형 강화 학습 알고리즘을 제안하였다. 실험대상으로는 많은 상태공간을 가진 오델로 게임을 대상영역으로 하여 시스템을 설계 및 구현하였다. 시스템의 성능측정은 두개의 강화학습 알고리즘이 각각 Min-Max 알고리즘과 대결하는 방식으로 실험을 하였으며, 결과는 기존의 강화 학습 알고리즘과의 대결에서도 향상된 학습율을 나타내었다.

  • PDF

스마트 TMD 제어를 위한 강화학습 알고리즘 성능 검토 (Performance Evaluation of Reinforcement Learning Algorithm for Control of Smart TMD)

  • 강주원;김현수
    • 한국공간구조학회논문집
    • /
    • 제21권2호
    • /
    • pp.41-48
    • /
    • 2021
  • A smart tuned mass damper (TMD) is widely studied for seismic response reduction of various structures. Control algorithm is the most important factor for control performance of a smart TMD. This study used a Deep Deterministic Policy Gradient (DDPG) among reinforcement learning techniques to develop a control algorithm for a smart TMD. A magnetorheological (MR) damper was used to make the smart TMD. A single mass model with the smart TMD was employed to make a reinforcement learning environment. Time history analysis simulations of the example structure subject to artificial seismic load were performed in the reinforcement learning process. Critic of policy network and actor of value network for DDPG agent were constructed. The action of DDPG agent was selected as the command voltage sent to the MR damper. Reward for the DDPG action was calculated by using displacement and velocity responses of the main mass. Groundhook control algorithm was used as a comparative control algorithm. After 10,000 episode training of the DDPG agent model with proper hyper-parameters, the semi-active control algorithm for control of seismic responses of the example structure with the smart TMD was developed. The simulation results presented that the developed DDPG model can provide effective control algorithms for smart TMD for reduction of seismic responses.

Q-learning을 이용한 이동 로봇의 실시간 경로 계획 (Real-Time Path Planning for Mobile Robots Using Q-Learning)

  • 김호원;이원창
    • 전기전자학회논문지
    • /
    • 제24권4호
    • /
    • pp.991-997
    • /
    • 2020
  • 강화학습은 주로 순차적인 의사 결정 문제에 적용되어 왔다. 특히 최근에는 신경망과 결합한 형태로 기존에는 해결하지 못한 분야에서도 성공적인 결과를 내고 있다. 하지만 신경망을 이용하는 강화학습은 현장에서 즉각적으로 사용하기엔 너무 복잡하다는 단점이 있다. 본 논문에서는 학습이 쉬운 강화학습 알고리즘 중 하나인 Q-learning을 이용하여 이동 로봇의 경로를 생성하는 알고리즘을 구현하였다. Q-table을 미리 만드는 방식의 Q-learning은 명확한 한계를 가지기 때문에 실시간으로 Q-table을 업데이트하는 실시간 Q-learning을 사용하였다. 탐험 전략을 조정하여 실시간 Q-learning에 필요한 학습 속도를 얻을 수 있었다. 마지막으로 실시간 Q-learning과 DQN의 성능을 비교하였다.

ON THE STRUCTURE AND LEARNING OF NEURAL-NETWORK-BASED FUZZY LOGIC CONTROL SYSTEMS

  • C.T. Lin;Lee, C.S. George
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 1993년도 Fifth International Fuzzy Systems Association World Congress 93
    • /
    • pp.993-996
    • /
    • 1993
  • This paper addresses the structure and its associated learning algorithms of a feedforward multi-layered connectionist network, which has distributed learning abilities, for realizing the basic elements and functions of a traditional fuzzy logic controller. The proposed neural-network-based fuzzy logic control system (NN-FLCS) can be contrasted with the traditional fuzzy logic control system in their network structure and learning ability. An on-line supervised structure/parameter learning algorithm dynamic learning algorithm can find proper fuzzy logic rules, membership functions, and the size of output fuzzy partitions simultaneously. Next, a Reinforcement Neural-Network-Based Fuzzy Logic Control System (RNN-FLCS) is proposed which consists of two closely integrated Neural-Network-Based Fuzzy Logic Controllers (NN-FLCS) for solving various reinforcement learning problems in fuzzy logic systems. One NN-FLC functions as a fuzzy predictor and the other as a fuzzy controller. As ociated with the proposed RNN-FLCS is the reinforcement structure/parameter learning algorithm which dynamically determines the proper network size, connections, and parameters of the RNN-FLCS through an external reinforcement signal. Furthermore, learning can proceed even in the period without any external reinforcement feedback.

  • PDF

강화 학습에 기초한 로봇 축구 에이전트의 설계 및 구현 (Design and implementation of Robot Soccer Agent Based on Reinforcement Learning)

  • 김인철
    • 정보처리학회논문지B
    • /
    • 제9B권2호
    • /
    • pp.139-146
    • /
    • 2002
  • 로봇 축구 시뮬레이션 게임은 하나의 동적 다중 에이전트 환경이다. 본 논문에서는 그러한 환경 하에서 각 에이전트의 동적 위치 결정을 위한 새로운 강화학습 방법을 제안한다. 강화학습은 한 에이전트가 환경으로부터 받는 간접적 지연 보상을 기초로 누적 보상값을 최대화할 수 있는 최적의 행동 전략을 학습하는 기계학습 방법이다. 따라서 강화학습은 입력-출력 쌍들이 훈련 예로 직접 제공되지 않는 다는 점에서 교사학습과 크게 다르다. 더욱이 Q-학습과 같은 비-모델 기반의 강화학습 알고리즘들은 주변 환경에 대한 어떤 모델도 학습하거나 미리 정의하는 것을 요구하지 않는다. 그럼에도 불구하고 이 알고리즘들은 에이전트가 모든 상태-행동 쌍들을 충분히 반복 경험할 수 있다면 최적의 행동전략에 수렴할 수 있다. 하지만 단순한 강화학습 방법들의 가장 큰 문제점은 너무 큰 상태 공간 때문에 보다 복잡한 환경들에 그대로 적용하기 어렵다는 것이다. 이런 문제점을 해결하기 위해 본 연구에서는 기존의 모듈화 Q-학습방법(MQL)을 개선한 적응적 중재에 기초한 모듈화 Q-학습 방법(AMMQL)을 제안한다. 종래의 단순한 모듈화 Q-학습 방법에서는 각 학습 모듈들의 결과를 결합하는 방식이 매우 단순하고 고정적이었으나 AMMQL학습 방법에서는 보상에 끼친 각 모듈의 기여도에 따라 모듈들에 서로 다른 가중치를 부여함으로써 보다 유연한 방식으로 각 모듈의 학습결과를 결합한다. 따라서 AMMQL 학습 방법은 큰 상태공간의 문제를 해결할 수 있을 뿐 아니라 동적인 환경변화에 보다 높은 적응성을 제공할 수 있다. 본 논문에서는 로봇 축구 에이전트의 동적 위치 결정을 위한 학습 방법으로 AMMQL 학습 방법을 사용하였고 이를 기초로 Cogitoniks 축구 에이전트 시스템을 구현하였다.

이중 학습에 의한 선형동기모터의 위치제어 (Position Control of Linear Synchronous Motor by Dual Learning)

  • 박정일;서성호;울루구벡
    • 한국정밀공학회지
    • /
    • 제29권1호
    • /
    • pp.79-86
    • /
    • 2012
  • This paper proposes PID and RIC (Robust Internal-loop Compensator) based motion controller using dual learning algorithm for position control of linear synchronous motor respectively. Its gains are auto-tuned by using two learning algorithms, reinforcement learning and neural network. The feedback controller gains are tuned by reinforcement learning, and then the feedforward controller gains are tuned by neural network. Experiments prove the validity of dual learning algorithm. The RIC controller has better performance than does the PID-feedforward controller in reducing tracking error and disturbance rejection. Neural network shows its ability to decrease tracking error and to reject disturbance in the stop range of the target position and home.