• 제목/요약/키워드: policy gradient

검색결과 73건 처리시간 0.02초

Kernel-based actor-critic approach with applications

  • Chu, Baek-Suk;Jung, Keun-Woo;Park, Joo-Young
    • International Journal of Fuzzy Logic and Intelligent Systems
    • /
    • 제11권4호
    • /
    • pp.267-274
    • /
    • 2011
  • Recently, actor-critic methods have drawn significant interests in the area of reinforcement learning, and several algorithms have been studied along the line of the actor-critic strategy. In this paper, we consider a new type of actor-critic algorithms employing the kernel methods, which have recently shown to be very effective tools in the various fields of machine learning, and have performed investigations on combining the actor-critic strategy together with kernel methods. More specifically, this paper studies actor-critic algorithms utilizing the kernel-based least-squares estimation and policy gradient, and in its critic's part, the study uses a sliding-window-based kernel least-squares method, which leads to a fast and efficient value-function-estimation in a nonparametric setting. The applicability of the considered algorithms is illustrated via a robot locomotion problem and a tunnel ventilation control problem.

지열자료 정보 D/B 구축 요소 (Geothermal properties for Database)

  • 김형찬;박정민
    • 한국신재생에너지학회:학술대회논문집
    • /
    • 한국신재생에너지학회 2006년도 추계학술대회
    • /
    • pp.28-31
    • /
    • 2006
  • It is require to construct geothermal database to develop geothermal energy as renewable energy policy. It must be consist of geologic data, borehole data and geophysical data for geothermal database. In aspect of geology, there are included the distribution of geology, structural geology, geological time, rock name, density of rock, porosity, thermal diffusivity, specific capacity and thermal conductivity In order to calculate the heat general ion, it is needed to analysis the radioactivity elements as U, Th and K of rock. In aspect of borehole data, there are included temperature of depth, surface temperature and geothermal gradient And also there is geotherrnornetry using chemical components of groundwater as Na Ca, K and $SiO_2$. In aspect of geophysical data, there are some thematic map as booger gravity anomaly data and magnetic survey data and etc. In addition, it is important to descript the distribution of hot spring and water temperature.

  • PDF

SeqGAN 모델을 이용한 한국어 시 자동 생성 (Automatic Generation of Korean Poetry using Sequence Generative Adversarial Networks)

  • 박요한;정혜지;강일민;박천용;최용석;이공주
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.580-583
    • /
    • 2018
  • 본 논문에서는 SeqGAN 모델을 사용하여 한국어 시를 자동 생성해 보았다. SeqGAN 모델은 문장 생성을 위해 재귀 신경망과 강화 학습 알고리즘의 하나인 정책 그라디언트(Policy Gradient)와 몬테카를로 검색(Monte Carlo Search, MC) 기법을 생성기에 적용하였다. 시 문장을 자동 생성하기 위한 학습 데이터로는 사랑을 주제로 작성된 시를 사용하였다. SeqGAN 모델을 사용하여 자동 생성된 시는 동일한 구절이 여러번 반복되는 문제를 보였지만 한국어 텍스트 생성에 있어 SeqGAN 모델이 적용 가능함을 확인하였다.

  • PDF

Controller Learning Method of Self-driving Bicycle Using State-of-the-art Deep Reinforcement Learning Algorithms

  • Choi, Seung-Yoon;Le, Tuyen Pham;Chung, Tae-Choong
    • 한국컴퓨터정보학회논문지
    • /
    • 제23권10호
    • /
    • pp.23-31
    • /
    • 2018
  • Recently, there have been many studies on machine learning. Among them, studies on reinforcement learning are actively worked. In this study, we propose a controller to control bicycle using DDPG (Deep Deterministic Policy Gradient) algorithm which is the latest deep reinforcement learning method. In this paper, we redefine the compensation function of bicycle dynamics and neural network to learn agents. When using the proposed method for data learning and control, it is possible to perform the function of not allowing the bicycle to fall over and reach the further given destination unlike the existing method. For the performance evaluation, we have experimented that the proposed algorithm works in various environments such as fixed speed, random, target point, and not determined. Finally, as a result, it is confirmed that the proposed algorithm shows better performance than the conventional neural network algorithms NAF and PPO.

Actor-Critic 모델을 이용한 포트폴리오 자산 배분에 관한 연구 (A Study on Portfolio Asset Allocation Using Actor-Critic Model)

  • 칼리나 바야르체첵;이주홍;송재원
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 춘계학술발표대회
    • /
    • pp.439-441
    • /
    • 2020
  • 기존의 균등배분, 마코위츠, Recurrent Reinforcement Learning 방법들은 수익들을 최대화하거나 위험을 최소화하고, Risk Budgeting 방법은 각 자산에 목표 리스크를 배분하여 최적의 포트폴리오를 찾는다. 그러나 이 방법들은 미래의 최적화된 포트폴리오를 잘 찾아주지 못하는 문제점들이 있다. 본 논문은 자산 배분을 위한 Deterministic Policy Gradient 기반의 Actor Critic 모델을 개발하였고, 기존의 방법들보다 성능이 우수함을 검증한다.

MEC 환경에서 심층 강화학습을 이용한 오프로딩 기법의 성능비교 (Performance Comparison of Deep Reinforcement Learning based Computation Offloading in MEC)

  • 문성원;임유진
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 춘계학술발표대회
    • /
    • pp.52-55
    • /
    • 2022
  • 5G 시대에 스마트 모바일 기기가 기하급수적으로 증가하면서 멀티 액세스 엣지 컴퓨팅(MEC)이 유망한 기술로 부상했다. 낮은 지연시간 안에 계산 집약적인 서비스를 제공하기 위해 MEC 서버로 오프로딩하는 특히, 태스크 도착률과 무선 채널의 상태가 확률적인 MEC 시스템 환경에서의 오프로딩 연구가 주목받고 있다. 본 논문에서는 차량의 전력과 지연시간을 최소화하기 위해 로컬 실행을 위한 연산 자원과 오프로딩을 위한 전송 전력을 할당하는 심층 강화학습 기반의 오프로딩 기법을 제안하였다. Deep Deterministic Policy Gradient (DDPG) 기반 기법과 Deep Q-network (DQN) 기반 기법을 차량의 전력 소비량과 큐잉 지연시간 측면에서 성능을 비교 분석하였다.

Computation Offloading with Resource Allocation Based on DDPG in MEC

  • Sungwon Moon;Yujin Lim
    • Journal of Information Processing Systems
    • /
    • 제20권2호
    • /
    • pp.226-238
    • /
    • 2024
  • Recently, multi-access edge computing (MEC) has emerged as a promising technology to alleviate the computing burden of vehicular terminals and efficiently facilitate vehicular applications. The vehicle can improve the quality of experience of applications by offloading their tasks to MEC servers. However, channel conditions are time-varying due to channel interference among vehicles, and path loss is time-varying due to the mobility of vehicles. The task arrival of vehicles is also stochastic. Therefore, it is difficult to determine an optimal offloading with resource allocation decision in the dynamic MEC system because offloading is affected by wireless data transmission. In this paper, we study computation offloading with resource allocation in the dynamic MEC system. The objective is to minimize power consumption and maximize throughput while meeting the delay constraints of tasks. Therefore, it allocates resources for local execution and transmission power for offloading. We define the problem as a Markov decision process, and propose an offloading method using deep reinforcement learning named deep deterministic policy gradient. Simulation shows that, compared with existing methods, the proposed method outperforms in terms of throughput and satisfaction of delay constraints.

가상환경과 DDPG 알고리즘을 이용한 자율 비행체의 소노부이 최적 배치 연구 (Research on Optimal Deployment of Sonobuoy for Autonomous Aerial Vehicles Using Virtual Environment and DDPG Algorithm)

  • 김종인;한민석
    • 한국정보전자통신기술학회논문지
    • /
    • 제15권2호
    • /
    • pp.152-163
    • /
    • 2022
  • 본 논문에서는 대잠전의 필수 요소인 소노부이를 무인항공기가 최적의 배치로 투하할 수 있게 하는 방법을 제시한다. 이를 위해 Unity 게임엔진을 통해 음향 탐지 성능 분포도를 모사한 환경을 구성하고 Unity ML-Agents를 활용해 직접 구성한 환경과 외부에서 Python으로 작성한 강화학습 알고리즘이 서로 통신을 주고받으며 학습할 수 있게 하였다. 특히, 잘못된 행동이 누적되어 학습에 영향을 미치는 경우를 방지하고 비행체가 목표지점으로 최단 시간에 비행함과 동시에 소노부이가 최대 탐지 영역을 확보하기 위해 강화학습을 도입하고. 심층 확정적 정책 그래디언트(Deep Deterministic Policy Gradient: DDPG) 알고리즘을 적용하여 소노부이의 최적 배치를 달성하였다. 학습 결과 에이전트가 해역을 비행하며 70개의 타겟 후보들 중 최적 배치를 달성하기 위한 지점들만을 통과하였고 탐지 영역을 확보한 모습을 보면 겹치는 영역 없이 최단 거리에 있는 지점을 따라 비행하였음을 알 수 있다. 이는 최적 배치의 요건인 최단 시간, 최대 탐지 영역으로 소노부이를 배치하는 자율 비행체를 구현하였음을 의미한다.

전송률 분할 다중 접속 기술을 활용한 비면허 대역의 트래픽과 공정성 최대화 기법 (Unlicensed Band Traffic and Fairness Maximization Approach Based on Rate-Splitting Multiple Access)

  • 전장우;김승욱
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제12권10호
    • /
    • pp.299-308
    • /
    • 2023
  • 다양한 서비스가 등장으로 인해 스펙트럼 부족 문제가 가속하됨에 따라, 면허 대역에서 통신하던 사용자들을 비면허 대역에서 통신하는 NR-U(New Radio-Unlicensed)가 등장하였다. 하지만 NR-U 네트워크 사용자로 인해 동일한 비면허 대역에서 통신하는 Wi-Fi 네트워크 사용자의 성능이 감소하게 된다. 본 논문에서는 NR-U 네트워크 사용자와 WiFi 네트워크 사용자가 공존해있는 비면허 대역의 처리량과 비면허 대역의 사용에 대한 공평성을 동시에 최대화하는 것을 목표로 한다. 먼저 비면허 대역에서 전송률 분할 다중 접속 기술을 활용한 NR-U 네트워크의 합-전송 속도 (Sum of Rate)를 최대화하기 위해 강화 학습의 몬테 카를로 정책 하강법(Monte Carlo Policy Gradient)을 활용한 최적의 전력 할당 기법을 제안하였다. 그 뒤, 동일한 비면허 대역에서 NR-U 네트워크와 WiFi 네트워크의 공존을 위해 시스템 처리량과 공정성을 동시에 최대화할 수 있는 게임 이론의 순차적 라이파 협상 해법(Sequential Raiffa Bargaining Solution)을 활용한 채널 점유 시간 분할 알고리즘을 제안하였다. 시뮬레이션 결과에서 동일한 전력 할당 기법을 사용하였을 때, 본 논문에서 제안한 전송률 분할 다중 접속 기술이 기존의 다중 접속 기술들보다 더 빠른 합-전송속도를 보임을 확인하였다. 또한 비면허 대역 네트워크의 전송량과 공평성을 비교해본 결과 본 논문의 순차적 라이파 협상 해법을 활용한 채널 점유 시간 분할 알고리즘이 타 알고리즘보다 처리량과 공정성을 동시에 만족함을 입증하였다.

인구밀도경사함수를 이용한 도시축소현상 진단 - 영주시를 사례로 - (A Diagnosis of Shrinking City Using Population Gradient Curve: A Case Study on the City of Yeong-ju)

  • 김민석;변태근;이상호
    • 지역연구
    • /
    • 제35권4호
    • /
    • pp.33-45
    • /
    • 2019
  • 전 세계적인 저성장 기조로 인하여 주요 선진국에서는 도시축소문제가 도시정책의 주요 이슈로 대두되고 있다. 국토연구원의 연구결과(2016)에 따르면 우리나라 77개 도시 중 23개 도시가 지속적 또는 일시적 축소도시로 진단되었다. 그러나 축소도시를 진단하는 기준은 단순한 인구통계학적인 측면에 머물러 있으며, 도시의 공간적 축소패턴은 고려되지 않고 있다. 따라서, 본 연구에서는 도시공간구조 분석방법의 하나인 인구밀도경사함수를 이용하여 다핵도시인 영주시의 특성을 고려한 도시축소현상을 진단하였다. 진단결과, 영주시는 CBD의 인구밀도 및 인구밀도경사도가 증가하는 축소도시의 특성을 보이고 있다. 동지역의 경우 CBD의 인구밀도 및 인구밀도경사도가 감소하는 스프롤(sprawl) 현상이 나타났다. 또한, 풍기읍의 경우 CBD의 인구밀도만 감소하는 단순축소 현상이 나타났다. 본 연구결과는 한 도시 내에서도 중심지마다 공간변화의 패턴이 상이하게 나타날 수 있다는 것을 보여주었으며, 다핵구조를 갖는 도시의 경우에는 도시 전체뿐만 아니라 세부 지역에 대한 개별적인 진단이 필요하다는 시사점을 도출하였다.