• 제목/요약/키워드: Deep Reinforcement Learning

검색결과 205건 처리시간 0.026초

A3C를 활용한 블록체인 기반 금융 자산 포트폴리오 관리 (Blockchain Based Financial Portfolio Management Using A3C)

  • 김주봉;허주성;임현교;권도형;한연희
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제8권1호
    • /
    • pp.17-28
    • /
    • 2019
  • 금융투자 관리 전략 중에서 여러 금융 상품을 선택하고 조합하여 분산 투자하는 것을 포트폴리오 관리 이론이라 부른다. 최근, 블록체인 기반 금융 자산, 즉 암호화폐들이 몇몇 유명 거래소에 상장되어 거래가 되고 있으며, 암호화폐 투자자들이 암호화폐에 대한 투자 수익을 안정적으로 올리기 위하여 효율적인 포트폴리오 관리 방안이 요구되고 있다. 한편 딥러닝이 여러 분야에서 괄목할만한 성과를 보이면서 심층 강화학습 알고리즘을 포트폴리오 관리에 적용하는 연구가 시작되었다. 본 논문은 기존에 발표된 심층강화학습 기반 금융 포트폴리오 투자 전략을 바탕으로 대표적인 비동기 심층 강화학습 알고리즘인 Asynchronous Advantage Actor-Critic (A3C)를 적용한 효율적인 금융 포트폴리오 투자 관리 기법을 제안한다. 또한, A3C를 포트폴리오 투자 관리에 접목시키는 과정에서 기존의 Cross-Entropy 함수를 그대로 적용할 수 없기 때문에 포트폴리오 투자 방식에 적합하게 기존의 Cross-Entropy를 변형하여 그 해법을 제시한다. 마지막으로 기존에 발표된 강화학습 기반 암호화폐 포트폴리오 투자 알고리즘과의 비교평가를 수행하여, 본 논문에서 제시하는 Deterministic Policy Gradient based A3C 모델의 성능이 우수하다는 것을 입증하였다.

DDPG 알고리즘을 이용한 양팔 매니퓰레이터의 협동작업 경로상의 특이점 회피 경로 계획 (Singularity Avoidance Path Planning on Cooperative Task of Dual Manipulator Using DDPG Algorithm)

  • 이종학;김경수;김윤재;이장명
    • 로봇학회논문지
    • /
    • 제16권2호
    • /
    • pp.137-146
    • /
    • 2021
  • When controlling manipulator, degree of freedom is lost in singularity so specific joint velocity does not propagate to the end effector. In addition, control problem occurs because jacobian inverse matrix can not be calculated. To avoid singularity, we apply Deep Deterministic Policy Gradient(DDPG), algorithm of reinforcement learning that rewards behavior according to actions then determines high-reward actions in simulation. DDPG uses off-policy that uses 𝝐-greedy policy for selecting action of current time step and greed policy for the next step. In the simulation, learning is given by negative reward when moving near singulairty, and positive reward when moving away from the singularity and moving to target point. The reward equation consists of distance to target point and singularity, manipulability, and arrival flag. Dual arm manipulators hold long rod at the same time and conduct experiments to avoid singularity by simulated path. In the learning process, if object to be avoided is set as a space rather than point, it is expected that avoidance of obstacles will be possible in future research.

Performance Improvement of Fuzzy C-Means Clustering Algorithm by Optimized Early Stopping for Inhomogeneous Datasets

  • Chae-Rim Han;Sun-Jin Lee;Il-Gu Lee
    • Journal of information and communication convergence engineering
    • /
    • 제21권3호
    • /
    • pp.198-207
    • /
    • 2023
  • Responding to changes in artificial intelligence models and the data environment is crucial for increasing data-learning accuracy and inference stability of industrial applications. A learning model that is overfitted to specific training data leads to poor learning performance and a deterioration in flexibility. Therefore, an early stopping technique is used to stop learning at an appropriate time. However, this technique does not consider the homogeneity and independence of the data collected by heterogeneous nodes in a differential network environment, thus resulting in low learning accuracy and degradation of system performance. In this study, the generalization performance of neural networks is maximized, whereas the effect of the homogeneity of datasets is minimized by achieving an accuracy of 99.7%. This corresponds to a decrease in delay time by a factor of 2.33 and improvement in performance by a factor of 2.5 compared with the conventional method.

가상 환경과 실제 환경의 병행 강화학습을 통한 실내 자율주행 (Indoor Autonomous Driving through Parallel Reinforcement Learning of Virtual and Real Environments)

  • 정유석;이창우
    • 한국산업정보학회논문지
    • /
    • 제26권4호
    • /
    • pp.11-18
    • /
    • 2021
  • 강화 학습을 통한 실내 자율주행을 위해 가상 환경과 실제 환경에서 학습을 병행하는 방법을 제안한다. 실제 환경에서만 학습을 진행했을 경우 80시간 정도의 소요 시간이 필요하지만, 실제 환경과 가상 환경을 병행하며 학습을 진행했을 경우 50시간의 소요 시간이 필요하다. 가상 환경과 실제 환경에서 학습을 병행하면서 빠른 학습으로 다양한 실험을 거쳐 최적화된 파라미터를 얻을 수 있는 이점이 있다. 실내복도 이미지를 이용하여 가상 환경을 구성한 후 데스크톱으로 선행학습을 진행하였고 실제 환경에서의 학습은 Jetson Xavier를 기반으로 다양한 센서와 연결하여 학습을 진행하였다. 또한, 실내복도 환경의 반복되는 텍스처에 따른 정확도 문제를 해결하기 위해 복도 벽의 아랫선을 강조하는 특징점 검출을 학습하여 복도 벽 객체를 판단하고 정확도를 높일 수 있었다. 학습을 진행할수록 실험 차량은 실내복도 환경에서 복도 중앙을 기준으로 주행하며 평균 70회의 조향명령을 통해 움직인다.

다양한 자율주행 이동체에 적용하기 위한 장애물 회피의사 결정 시스템 연구 (Decision Support System of Obstacle Avoidance for Mobile Vehicles)

  • 강병준;김종원
    • 한국산학기술학회논문지
    • /
    • 제19권6호
    • /
    • pp.639-645
    • /
    • 2018
  • 본 논문은 자율주행 자동차 및 자율주행이 가능한 이동체를 대상으로 광범위하게 적용 가능한 지능형 의사결정 모델을 개발하기 위한 연구이다. 개발된 모듈은 다양한 주행환경에 적용하기 위하여 독립적인 모듈 구성형태를 갖추고 이를 유기적으로 운영하기 위한 플랫폼을 기반으로 각 모듈을 Deep Learning 기법을 이용한 강화학습을 통해 이동체의 차선변경 의사 결정 및 안전 확보에 관하여 연구하였다. 운행 중인 자율주행 이동체는 주행상태의 변경을 위하여 기능별로 속도결정 모델과 차선변경 의사결정이 반드시 선행되어야 이동체의 다음 행동이 이루어 질 수 있는 특징을 갖고 있다. 또한, 일반 도로상에 주행 중인 이동체들이 모두 자율주행 기능을 갖춘 상태라면 특정 이동체의 돌발적인 변화 및 주변 환경의 변화가 발생하면 그에 따른 각각의 이동체들 사이에 발생할 수 있는 연쇄반응 요소는 고려되기 어려운 특징을 갖고 있다. 이런 부분을 함께 고려하여 자율주행 플랫폼에 적용하고 이를 위한 개별 이동체의 차선변경 의사결정 시스템 연구와 모듈형 학습 방법을 이용하여 시스템 복잡도를 줄이고 학습시간의 단축과 향후 모델의 교체를 할 수 있는 의사결정 모델을 연구하였다.

무인이동체와 딥러닝 기반 이미지 분석 기술을 활용한 철도교량 자동 손상 분석 방법 연구 (A Study of Railway Bridge Automatic Damage Analysis Method Using Unmanned Aerial Vehicle and Deep Learning-based Image Analysis Technology)

  • 나용현;박미연
    • 한국재난정보학회 논문집
    • /
    • 제17권3호
    • /
    • pp.556-567
    • /
    • 2021
  • 연구목적: 본 연구에서는 무인이동체를 활용한 철도교량의 외관조사 점검을 보다 효율적이고 신뢰성 있게 점검을 위하여 무인이동체를 통해 촬영된 이미지를 바탕으로 다양한 방식의 딥러닝 기반 자동 손상 분석기술을 검토하였다. 연구방법: 취득된 이미지를 바탕으로 손상항목을 정의하고 학습데이터로 추출하여 딥러닝 분석 모델을 생성하였다. 그리고 철도교량의 외관 손상 중 균열, 콘크리트 박리·박락, 누수, 철근노출에 대한 손상 이미지를 학습한 모델을 적용하여 자동 손상 분석 결과로 테스트하였다. 연구결과: 분석 결과 평균 95%이상 검측 재현율을 도출하는 분석 기법을 검토할 수 있었다. 이와 같은 분석 기술은 기존 육안점검 결과 대비 보다 객관적이고 정밀한 손상 검측이 가능하다. 결론: 본 연구를 통해 개발된 기술을 통해 철도 유지관리 분야에서 무인이동체를 활용한 정기점검 시 자동손상분석을 통한 객관적인 결과도출과 기존 대비 소요시간, 비용저감이 가능할 것으로 기대된다.

강화학습 기반 주식 투자 웹 서비스 (An Implementation of Stock Investment Service based on Reinforcement Learning)

  • 박정연;홍승식;박민규;이현
    • 문화기술의 융합
    • /
    • 제7권4호
    • /
    • pp.807-814
    • /
    • 2021
  • 코로나-19로 인해 경제 활동이 낮아지고 주식 시장이 침체하면서 주식 투자를 통해 또 다른 소득을 마련하기 위해 많은 사람이 주식 시장에 뛰어들고 있다. 사람들의 관심이 높아지면서 더 많은 수익을 얻기 위한 주가 분석 연구가 많이 진행되고 있다. 주가는 종목별 변동의 흐름이 다르므로 각 주가 종목별로 독립적이며 일관적으로 분석할 필요가 있다. 이러한 문제를 해결하고자 본 논문에서는 강화학습 기법 중 하나인 Asynchronous Advantage Actor-Critic(A3C)를 이용하여 주가를 분석할 수 있는 모델 및 서비스를 설계 및 구현하였다. 주식 시장 데이터로 종목별 주가 및 국채, 코스피와 같은 외부 요인들을 반영하였다. 또한 웹페이지 제작을 통해 시각화한 정보를 제공하여 투자자들이 투자 기업에 대한 재무제표를 비롯하여 국내외 경제 및 정치의 흐름을 모두 분석하지 않고도 안전한 투자를 할 수 있도록 서비스를 제공한다.

심층 신경망 기반 대화처리 기술 동향 (Trends in Deep-neural-network-based Dialogue Systems)

  • 권오욱;홍택규;황금하;노윤형;최승권;김화연;김영길;이윤근
    • 전자통신동향분석
    • /
    • 제34권4호
    • /
    • pp.55-64
    • /
    • 2019
  • In this study, we introduce trends in neural-network-based deep learning research applied to dialogue systems. Recently, end-to-end trainable goal-oriented dialogue systems using long short-term memory, sequence-to-sequence models, among others, have been studied to overcome the difficulties of domain adaptation and error recognition and recovery in traditional pipeline goal-oriented dialogue systems. In addition, some research has been conducted on applying reinforcement learning to end-to-end trainable goal-oriented dialogue systems to learn dialogue strategies that do not appear in training corpora. Recent neural network models for end-to-end trainable chit-chat systems have been improved using dialogue context as well as personal and topic information to produce a more natural human conversation. Unlike previous studies that have applied different approaches to goal-oriented dialogue systems and chit-chat systems respectively, recent studies have attempted to apply end-to-end trainable approaches based on deep neural networks in common to them. Acquiring dialogue corpora for training is now necessary. Therefore, future research will focus on easily and cheaply acquiring dialogue corpora and training with small annotated dialogue corpora and/or large raw dialogues.

MEC 환경에서 심층 강화학습을 이용한 오프로딩 기법의 성능비교 (Performance Comparison of Deep Reinforcement Learning based Computation Offloading in MEC)

  • 문성원;임유진
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 춘계학술발표대회
    • /
    • pp.52-55
    • /
    • 2022
  • 5G 시대에 스마트 모바일 기기가 기하급수적으로 증가하면서 멀티 액세스 엣지 컴퓨팅(MEC)이 유망한 기술로 부상했다. 낮은 지연시간 안에 계산 집약적인 서비스를 제공하기 위해 MEC 서버로 오프로딩하는 특히, 태스크 도착률과 무선 채널의 상태가 확률적인 MEC 시스템 환경에서의 오프로딩 연구가 주목받고 있다. 본 논문에서는 차량의 전력과 지연시간을 최소화하기 위해 로컬 실행을 위한 연산 자원과 오프로딩을 위한 전송 전력을 할당하는 심층 강화학습 기반의 오프로딩 기법을 제안하였다. Deep Deterministic Policy Gradient (DDPG) 기반 기법과 Deep Q-network (DQN) 기반 기법을 차량의 전력 소비량과 큐잉 지연시간 측면에서 성능을 비교 분석하였다.

RGB-D 환경인식 시각 지능, 목표 사물 경로 탐색 및 심층 강화학습에 기반한 사람형 로봇손의 목표 사물 파지 (Grasping a Target Object in Clutter with an Anthropomorphic Robot Hand via RGB-D Vision Intelligence, Target Path Planning and Deep Reinforcement Learning)

  • 류가현;오지헌;정진균;정환석;이진혁;;김태성
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제11권9호
    • /
    • pp.363-370
    • /
    • 2022
  • 다중 사물 환경에서 목표 사물만의 정밀한 파지를 위해서는 장애물과의 충돌 회피 지능과 정교한 파지 지능이 필요하다. 이 작업을 위해선 다중 사물 환경 인지, 목표 사물 인식, 경로 설정, 로봇손의 사물 파지 지능이 필요하다. 본 연구에서는 RGB-D 영상 센서를 이용하여 다중 사물 환경과 사물을 인지하고 3D 공간을 매핑한 후, 충돌 회피 경로 탐색 알고리즘을 활용하여 목표 사물까지의 경로를 탐색 및 설정하고, 강화학습을 통해 학습된 사람형 로봇손의 목표 사물 파지 지능을 활용해 최종적으로 시뮬레이션 및 하드웨어 사물 파지 시스템을 구현하고 검증하였다. 사람형 로봇손을 구현한 시뮬레이션 환경에서 5개의 사물 중 목표 사물을 지정하고 파지한 결과 경로 탐색 없는 파지 시스템이 평균 78.8%의 성공률과 34%의 충돌률을 보일 때, 경로 탐색 지능과 결합된 시스템은 평균 94%의 성공률과 평균 20%의 충돌률을 보였다. UR3와 QB-Soft Hand를 사용한 하드웨어 환경에서는 3개의 사물 중 목표 사물을 지정하고 파지한 결과 경로 탐색 없는 파지 시스템이 평균 30%의 성공률과 97%의 충돌률을 보일 때, 경로 탐색 지능과 결합된 시스템은 평균 90%의 성공률과 평균 23%의 충돌률을 보였다. 본 연구에서는 RGB-D 시각 지능, 충돌 회피 경로 탐색, 사물 파지 심층 강화학습 지능의 결합을 통하여, 사람형 로봇손의 목표 사물 파지가 가능함을 제시하였다.