• 제목/요약/키워드: PPO algorithm

검색결과 16건 처리시간 0.018초

카메라 기반 강화학습을 이용한 드론 장애물 회피 알고리즘 (Drone Obstacle Avoidance Algorithm using Camera-based Reinforcement Learning)

  • 조시훈;김태영
    • 한국컴퓨터그래픽스학회논문지
    • /
    • 제27권5호
    • /
    • pp.63-71
    • /
    • 2021
  • 드론 자율비행 기술 중 장애물 회피는 드론이나 주변 환경의 손상을 방지하고 위험을 예방할 수 있도록 하는 매우 중요한 기술이다. LiDAR 센서 기반 장애물 회피방식은 비교적 높은 정확도를 보여 최근 연구에서 많이 활용되고 있지만, 단가가 높고 시각 정보에 대한 처리 능력이 제한적인 단점이 있다. 따라서 본 논문은 단가가 상대적으로 저렴하고 시각 정보를 이용한 확장성이 높은 카메라 기반 PPO(Proximal Policy Optimization) 강화학습을 이용한 드론의 장애물 회피 알고리즘을 제안한다. 3차원 공간상의 학습환경에서 드론, 장애물, 목표지점 등을 무작위로 위치시키고, 가상 카메라를 이용하여 전면에 설치된 스테레오 카메라를 통해 스테레오 영상정보를 얻은 다음 YOLOv4Tiny 객체검출을 수행한다. 그리고 난 후 스테레오 카메라의 삼각측량법을 통해 드론과 검출된 객체간의 거리를 측정한다. 이 거리를 기반으로 장애물 유무를 판단하고, 만약 장애물이면 패널티를 책정하고 목표지점이면 보상을 부여한다. 본 방법을 실험한 결과 카메라 기반 장애물 회피 알고리즘은 LiDAR 기반 장애물 회피 알고리즘과 비교하여 충분히 비슷한 수준의 높은 정확도와 평균 목표지점 도달시간을 보여 활용 가능성이 높음을 알 수 있었다.

스테른 게를라흐(Stern-Gerlach)의 실험을 이용한 이동 예측 기법 (Prediction method of node movement using the Stern-Gerlach experiment)

  • 전일규;오영준;이강환
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2014년도 추계학술대회
    • /
    • pp.109-111
    • /
    • 2014
  • 본 논문에서는 노드의 속성정보를 통해 노드의 움직임을 예측하는 PPoP(The Path Prediction algorithm based on Probability) 알고리즘을 제안한다. 기존 이동 예측 알고리즘들은 GPS(Global Positioning System)를 사용해 노드의 이동을 학습을 통해 패턴화 하여 예측한다. 이때, 노드들이 이동 패턴을 벗어날 경우 예측률이 떨어진다. 따라서 본 논문에서는 스테른 게를라흐의 실험(Stern-Gerlach experiment)을 분석하여 노드의 이동성을 예측하는 알고리즘을 제안한다. 본 논문에서 제안된 알고리즘에서는 노드의 이동 경로를 staore-carry-forward 방식으로 상황 인지에 의한 경로 설정 변경 예측 방법으로 이동 예측 확률 기법이다. 모의실험 결과 제안한 방법을 사용하여 노드의 이동성 및 패턴을 벗어난 상황에서도 노드의 예측 하고자 한다.

  • PDF

심층 강화학습을 이용한 시변 비례 항법 유도 기법 (Time-varying Proportional Navigation Guidance using Deep Reinforcement Learning)

  • 채혁주;이단일;박수정;최한림;박한솔;안경수
    • 한국군사과학기술학회지
    • /
    • 제23권4호
    • /
    • pp.399-406
    • /
    • 2020
  • In this paper, we propose a time-varying proportional navigation guidance law that determines the proportional navigation gain in real-time according to the operating situation. When intercepting a target, an unidentified evasion strategy causes a loss of optimality. To compensate for this problem, proper proportional navigation gain is derived at every time step by solving an optimal control problem with the inferred evader's strategy. Recently, deep reinforcement learning algorithms are introduced to deal with complex optimal control problem efficiently. We adapt the actor-critic method to build a proportional navigation gain network and the network is trained by the Proximal Policy Optimization(PPO) algorithm to learn an evasion strategy of the target. Numerical experiments show the effectiveness and optimality of the proposed method.

표적의 이동을 고려한 강화학습 기반 무인항공기의 소노부이 최적 배치 (Optimal deployment of sonobuoy for unmanned aerial vehicles using reinforcement learning considering the target movement)

  • 배근영;강주환;홍정표
    • 한국음향학회지
    • /
    • 제43권2호
    • /
    • pp.214-224
    • /
    • 2024
  • 소노부이는 수중에서 음파를 활용하여 정보 수집을 수행하는 장치로, 엔진 소음이나 다양한 음향 특성을 감지하여 수중 표적을 정확하게 탐지하는 대잠전에 효과적인 탐지체계이다. 다중상태 시스템에서의 기존 소노부이 배치 방식은 고정된 패턴이나 휴리스틱 기반의 규칙에 의존하므로, 예측하기 힘든 수중 표적의 기동으로 인해 소노부이 투하 개수 및 작전 소요 시간 측면에서 효율적인 배치를 보장하지는 못한다. 본 논문에서는 기존 소노부이 배치 방식의 한계를 극복하기 위해, 수중 표적의 이동을 고려한 시뮬레이션 기반의 실험 환경에서 강화학습을 이용한 무인항공기의 소노부이 최적 배치를 제안한다. 제안한 방법은 Unity ML-Agents를 통해 Proximal Policy Optimization(PPO) 알고리즘을 이용하여 가상 작전환경과 실시간 상호작용하며 무인항공기를 학습한다. 소노부이 투하 개수 및 음원 및 수신기 간의 비용을 고려한 보상 함수를 설계하여 효과적인 학습이 가능하게 한다. 동일한 실험 환경에서 강화학습을 적용한 배치 방식과 기존 소노부이 배치 방식을 비교한 결과, 탐지 성공률, 투하된 소노부이 개수, 작전 소요 시간 측면에서 강화학습을 적용한 배치 방식이 가장 우수한 성능을 보였다.

자율운항기술 기반의 선박 통항 안전성 평가 방법론 개선 연구 (Study on Improving the Navigational Safety Evaluation Methodology based on Autonomous Operation Technology)

  • 박준모
    • 해양환경안전학회지
    • /
    • 제30권1호
    • /
    • pp.74-81
    • /
    • 2024
  • 곧 다가올 미래에는 자율운항선박, 육상 원격제어센터에서 제어되는 선박, 그리고 항해사가 탑승하여 운항하는 선박이 함께 공존하며 해상을 운항할 것이며, 이러한 상황이 도래했을 때 해상 교통 환경의 안전을 평가할 수 있는 방법이 필요할 것으로 사료된다. 이에 본 연구에서는 자율운항기술을 사용하여 항해사가 직접 조종하는 선박과 자율운항선박이 공존하는 해상환경 하에서 선박조종시뮬레이션을 통해 통항 안전성을 평가하기 위한 방안을 제시하였다. 자선은 6-자유도 운동 기반의 MMG 모델을 심층 강화학습기법 중 하나인 PPO 알고리즘으로 학습하여 자율운항 기능을 갖출 수 있도록 설계하였다. 타선은 평가 대상 해역의 해상 교통 모델링 자료로부터 선박이 생성되도록 하였고, 기 학습된 선박모델을 기반으로 자율운항 기능을 구현되도록 하였다. 그리고 해양기상 자료 데이터베이스로부터 조위, 파랑, 조류, 바람에 대한 자료를 수집하여 수치 모델을 수립하고 이를 기반으로 해양기상 모델을 생성하여 시뮬레이터 상에서 해양 기상이 재현되도록 설계하였다. 마지막으로 안전성 평가는 기존의 평가 방법을 그대로 유지하되, 선박조종시뮬레이션에서 해상교통류 시뮬레이션을 통한 충돌 위험성 평가가 가능하도록 하는 시스템을 제안하였다.

ATM상의 TCP 패킷 폐기정책에 따른 공정성 개선에 관한 연구 (A Study on Improving the Fairness by Dropping Scheme of TCP over ATM)

  • 육동철;박승섭
    • 한국정보처리학회논문지
    • /
    • 제7권11S호
    • /
    • pp.3723-3731
    • /
    • 2000
  • 최근 초고속 인터넷 상에서 여러 가지 응용프로그램과 서비스들의 증가로, ATM 백본 네트워크는 주된 해결책이 되어 왔다. TCP는 현재 인터넷의 상위 어플리케이션을 지원하는 표준 프로토콜이고, 트랜스포트 계층에서 윈도우 기반 프로토콜 흐름제어를 사용하고 있다. TCP의 데이터가 ATM상의 UBR 서비스를 사용할 경우, ATM 스위치 버퍼관리에 의해서 제어되며, 하나의 셀 손실은 전체 패킷의 손실을 가져온다. 이러한 현상은 대부분 TCP 성능 저하를 가져오고, 충분한 QoS를 제공하지 못한다. 이런 문제를 해결하기 위해 Tail Drop, EPD, PPD, SPD, FBA와 같은 셀 폐기 정책이 ATM 상의 TCP 성능을 개선하기 위해서 제안되어져 왔다. 본 논문에서는 종단간의 TCP 공정성 개선을 위해서, 두 개의 고정된 임계치를 사용한 폐기 정책 알고리즘을 제안하고, 동일한 시뮬레이션 환경 하에서 기존의 알고리즘들과 비교하였다. VC의 수가 증가하더라도, 제안한 알고리즘이 각 VC에 대해 다른 알고리즘과 비교해서 대역폭 할당이 보다 공정하게 이루어짐을 시뮬레이션 결과로 알 수 있었다.

  • PDF