• 제목/요약/키워드: Deep Q-Network(DQN)

검색결과 34건 처리시간 0.019초

해외선물 스캘핑을 위한 강화학습 알고리즘의 성능비교 (Performance Comparison of Reinforcement Learning Algorithms for Futures Scalping)

  • 정득교;이세훈;강재모
    • 문화기술의 융합
    • /
    • 제8권5호
    • /
    • pp.697-703
    • /
    • 2022
  • 최근 Covid-19 및 불안한 국제정세로 인한 경기 침체로 많은 투자자들이 투자의 한 수단으로써 파생상품시장을 선택하고 있다. 하지만 파생상품시장은 주식시장에 비해 큰 위험성을 가지고 있으며, 시장 참여자들의 시장에 대한 연구 역시 부족한 실정이다. 최근 인공지능 분야의 발달로 파생상품시장에서도 기계학습이 많이 활용되고 있다. 본 논문은 해외선물에 분 단위로 거래하는 스캘핑 거래의 분석을 위해 기계학습 기법 중 하나인 강화학습을 적용하였다. 데이터 세트는 증권사에서 거래되는 해외선물 상품들 중 4개 상품을 선정해, 6개월간 1분봉 및 3분봉 데이터의 종가, 이동평균선 및 볼린저 밴드 지표들을 이용한 21개의 속성으로 구성하였다. 실험에는 DNN 인공신경망 모델과 강화학습 알고리즘인 DQN(Deep Q-Network), A2C(Advantage Actor Critic), A3C(Asynchronous A2C)를 사용하고, 학습 데이터 세트와 테스트 데이터 세트를 통해 학습 및 검증 하였다. 에이전트는 스캘핑을 위해 매수, 매도 중 하나의 행동을 선택하며, 행동 결과에 따른 포트폴리오 가치의 비율을 보상으로 한다. 실험 결과 에너지 섹터 상품(Heating Oil 및 Crude Oil)이 지수 섹터 상품(Mini Russell 2000 및 Hang Seng Index)에 비해 상대적으로 높은 누적 수익을 보여 주었다.

Deep Reinforcement Learning based Tourism Experience Path Finding

  • Kyung-Hee Park;Juntae Kim
    • Journal of Platform Technology
    • /
    • 제11권6호
    • /
    • pp.21-27
    • /
    • 2023
  • In this paper, we introduce a reinforcement learning-based algorithm for personalized tourist path recommendations. The algorithm employs a reinforcement learning agent to explore tourist regions and identify optimal paths that are expected to enhance tourism experiences. The concept of tourism experience is defined through points of interest (POI) located along tourist paths within the tourist area. These metrics are quantified through aggregated evaluation scores derived from reviews submitted by past visitors. In the experimental setup, the foundational learning model used to find tour paths is the Deep Q-Network (DQN). Despite the limited availability of historical tourist behavior data, the agent adeptly learns travel paths by incorporating preference scores of tourist POIs and spatial information of the travel area.

  • PDF

객체인식과 작업 스케줄링 기반 스마트 AGV (Smart AGV based on Object Recognition and Task Scheduling)

  • 이세훈;박태영;최규현;소원빈
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2019년도 제60차 하계학술대회논문집 27권2호
    • /
    • pp.251-252
    • /
    • 2019
  • 본 논문에서는 기존의 AGV보다 높은 안전성과 Task Scheduling을 바탕으로 한 효율적인 AGV를 제안하였다. AGV는 객체인식 알고리즘인 YOLO로 다른 AGV를 인식하여 자동으로 피난처로 들어간다. 또한 마커인식 알고리즘인 ar_markers를 이용하여 그 위치가 적재소인지 생산 공정인지를 판단하여 각 마커마다 멈추고 피난처에 해당하는 Marker가 인식되고 다른 AGV가 인식되면 피난처로 들어가는 동작을 한다. 이 모든 로그는 Mobius를 이용해 Spring기반의 웹 홈페이지로 확인할 수 있으며, 작업스케줄 명령 또한 웹 홈페이지에서 내리게 된다. 위 작업스케줄은 외판원, 벨만-포드 알고리즘을 적용한 뒤 강화학습알고리즘 중 하나인 DQN을 이용해 최적 값을 도출해 내고 그 값을 DB에 저장해 AGV가 움직일 수 있도록 한다. 본 논문에서는 YOLO와 Marker 그리고 웹을 사용하는 AGV가 기존의 AGV에 비해 더욱 가볍고 큰 시설이 필요하지 않다는 점에서 우수함을 보인다.

  • PDF

강화학습 기반 임베디드 보드를 활용한 실내자율 주행 서비스 로봇 개발 (Development of Interior Self-driving Service Robot Using Embedded Board Based on Reinforcement Learning)

  • 오현택;백지훈;이승진;김상훈
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2018년도 추계학술발표대회
    • /
    • pp.537-540
    • /
    • 2018
  • 본 논문은 Jetson_TX2(임베디드 보드)의 ROS(Robot Operating System)기반으로 맵 지도를 작성하고, SLAM 및 DQN(Deep Q-Network)을 이용한 목적지까지의 이동명령(목표 선속도, 목표 각속도)을 자이로센서로 측정한 현재 각속도를 이용하여 Cortex-M3의 기반의 MCU(Micro Controllor Unit)에 하달하여 엔코더(encoder) 모터에서 측정한 현재 선속도와 자이로센서에서 측정한 각속도 값을 이용하여 PID제어를 통한 실내 자율주행 서비스 로봇.