• Title/Summary/Keyword: DQnA

검색결과 63건 처리시간 0.029초

심층 강화학습을 이용한 모바일 로봇의 맵 기반 장애물 회피 알고리즘 (Map-Based Obstacle Avoidance Algorithm for Mobile Robot Using Deep Reinforcement Learning)

  • 선우영민;이원창
    • 전기전자학회논문지
    • /
    • 제25권2호
    • /
    • pp.337-343
    • /
    • 2021
  • 심층 강화학습은 학습자가 가공되지 않은 고차원의 입력 데이터를 기반으로 최적의 행동을 선택할 수 있게 하는 인공지능 알고리즘이며, 이를 이용하여 장애물들이 존재하는 환경에서 모바일 로봇의 최적 이동 경로를 생성하는 연구가 많이 진행되었다. 본 논문에서는 복잡한 주변 환경의 이미지로부터 모바일 로봇의 이동 경로를 생성하기 위하여 우선 순위 경험 재사용(Prioritized Experience Replay)을 사용하는 Dueling Double DQN(D3QN) 알고리즘을 선택하였다. 가상의 환경은 로봇 시뮬레이터인 Webots를 사용하여 구현하였고, 시뮬레이션을 통해 모바일 로봇이 실시간으로 장애물의 위치를 파악하고 회피하여 목표 지점에 도달하는 것을 확인하였다.

납기 위반 및 셋업 최소화를 위한 강화학습 기반의 설비 일정계획 모델 (Machine Scheduling Models Based on Reinforcement Learning for Minimizing Due Date Violation and Setup Change)

  • 유우식;서주혁;김다희;김관호
    • 한국전자거래학회지
    • /
    • 제24권3호
    • /
    • pp.19-33
    • /
    • 2019
  • 최근 제조업체들은 제품의 생산방식이 고도화 되고, 복잡해지면서 생산 장비를 효율적으로 사용하는데 어려움을 겪고 있다. 제조공정의 효율성을 방해하는 대표적인 요인들로는 작업물 종류 변경(job change)으로 인한 작업 준비 비용(Setup Cost) 등이 있다. 특히 반도체/LCD 공정과 같이 고가의 생산 장비를 사용하는 공정의 경우 장비의 효율적인 사용이 매우 중요한데, 상호 충돌하는 의사결정인 납기 준수를 최대화 하는 것과 작업물 종류 변경으로 인한 작업 준비 비용을 최소화 하는 것 사이에서 균형을 유지하는 것은 매우 어려운 일이다. 본 연구에서는 납기와 작업 준비 비용이 있는 병렬기계에서 강화학습을 활용하여 납기 및 셋업 비용의 최소화 목표를 달성하는 일정계획 모델을 개발하였다. 제안하는 모델은 DQN(Deep Q-Network) 일정계획 모델로 강화학습기반의 모델이다. 제안모델의 효율성을 측정하기 위해 DQN 모델과 기존에 개발하였던 심층 신경망 기반의 일정계획 생성기법과 휴리스틱 원칙의 결과를 비교하였다. 비교 결과 DQN 일정계획 생성기법이 심층신경망 방식과 휴리스틱 원칙에 비하여 납기 및 셋업 비용이 적은 것을 확인할 수 있었다.

데이터 품질평가를 위한 수학적 모델 및 개선을 위한 분석 모형 개발 (The Development of a Mathematical model to evaluate Data Quality and an Analysis model to improve the Quality)

  • 김용원;김종기
    • 인터넷정보학회논문지
    • /
    • 제9권5호
    • /
    • pp.109-116
    • /
    • 2008
  • 컴퓨터와 인터넷 환경의 급속한 변화는 방대한 데이터와 다양한 품질의 데이터를 생산해내고 있다. 이러한 환경의 변화는 데이터의 품질에 따른 수준 평가를 요구한다. 이는 데이터 품질이 기업과 조직에 미치는 영향이 크기 때문이다. 따라서 본 연구는 데이터 품질 기준에 따른 품질 평가 모델을 수학적 모델로 제시하고, 이를 기반으로 데이터의 품질을 분석하고 데이터의 품질을 유지 보완하기 위한 분석 모형을 제안하고자한다.

  • PDF

심층 큐 신경망을 이용한 게임 에이전트 구현 (Deep Q-Network based Game Agents)

  • 한동기;김명섭;김재윤;김정수
    • 로봇학회논문지
    • /
    • 제14권3호
    • /
    • pp.157-162
    • /
    • 2019
  • The video game Tetris is one of most popular game and it is well known that its game rule can be modelled as MDP (Markov Decision Process). This paper presents a DQN (Deep Q-Network) based game agent for Tetris game. To this end, the state is defined as the captured image of the Tetris game board and the reward is designed as a function of cleared lines by the game agent. The action is defined as left, right, rotate, drop, and their finite number of combinations. In addition to this, PER (Prioritized Experience Replay) is employed in order to enhance learning performance. To train the network more than 500000 episodes are used. The game agent employs the trained network to make a decision. The performance of the developed algorithm is validated via not only simulation but also real Tetris robot agent which is made of a camera, two Arduinos, 4 servo motors, and artificial fingers by 3D printing.

Atari Deep Q Network Model을 이용한 장애물 회피에 특화된 실내 자율주행 적용에 관한 연구 (A Study about Application of Indoor Autonomous Driving for Obstacle Avoidance Using Atari Deep Q Network Model)

  • 백지훈;오현택;이승진;김상훈
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2018년도 추계학술발표대회
    • /
    • pp.715-718
    • /
    • 2018
  • 최근 다층의 인공신경망 모델이 수많은 분야에 대한 해결 방안으로 제시되고 있으며 2015년 Mnih이 고안한 DQN(Deep Q Network)는 Atari game에서 인간 수준의 성능을 보여주며 많은 이들에게 놀라움을 자아냈다. 본 논문에서는 Atari DQN Model을 실내 자율주행 모바일 로봇에 적용하여 신경망 모델이 최단 경로를 추종하며 장애물 회피를 위한 행동을 학습시키기 위해 로봇이 가지는 상태 정보들을 84*84 Mat로 가공하였고 15가지의 행동을 정의하였다. 또한 Virtual world에서 신경망 모델이 실제와 유사한 현재 상태를 입력받아 가장 최적의 정책을 학습하고 Real World에 적용하는 방법을 연구하였다.

강화학습 적용 동물 웨어러블 로봇 설계 및 개발 (Apply reinforcement learning of animal wearable robot design and development)

  • 이상수;김영찬;권인아;이준영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.824-825
    • /
    • 2023
  • 본 연구는 동물을 위한 웨어러블 로봇을 개발하고, 이를 상황에 따라 적절한 보행을 제어할 수 있도록 강화학습(DQN 알고리즘)을 적용한다. 다양한 센서를 동물에 부착하여 얻은 데이터를 DQN 알고리즘에 입력으로 사용한다. 이 알고리즘은 수집된 데이터를 분석하여 어떤 상황에서 어떤 종류의 보행이 가장 적절한지를 판단하고, 이를 로봇에 적용하여 동물의 보행을 자연스럽게 구현한다

협력적인 차량 엣지 컴퓨팅에서의 태스크 마이그레이션 (Task Migration in Cooperative Vehicular Edge Computing)

  • 문성원;임유진
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제10권12호
    • /
    • pp.311-318
    • /
    • 2021
  • 최근 사물인터넷의 기술이 빠르게 발전하면서 실시간 및 고성능의 처리를 요구하는 서비스들을 위해 멀티 액세스 엣지 컴퓨팅(MEC)이 차세대 기술로 부상하고 있다. 제한적인 서비스 영역을 가지는 MEC 사이에서 사용자들의 잦은 이동성은 MEC 환경에서 다뤄야 할 문제 중 하나이다. 본 논문에서는 이동성이 많은 차량 엣지 컴퓨팅 환경(VEC)을 고려하였으며, 강화 학습 기법의 일종인 DQN을 이용하여 마이그레이션 여부와 대상을 결정하는 태스크 마이그레이션 기법을 제안하였다. 제안한 기법의 목표는 차량 엣지 컴퓨팅 서버(VECS)들의 큐잉 지연시간의 차이를 이용한 로드 밸런싱을 고려하여 QoS 만족도 향상과 시스템의 처리량을 향상시키는 것이다. 제안한 기법을 다른 기법들과의 성능 비교를 통해 QoS 만족도 측면에서 약 14-49%, 서비스 거절률 측면에서는 약 14-38%로 더 좋은 성능을 보임을 확인하였다.

강화학습을 이용한 트레이딩 전략 (Trading Strategies Using Reinforcement Learning)

  • 조현민;신현준
    • 한국산학기술학회논문지
    • /
    • 제22권1호
    • /
    • pp.123-130
    • /
    • 2021
  • 최근 컴퓨터 기술이 발전하면서 기계학습 분야에 관한 관심이 높아지고 있고 다양한 분야에 기계학습 이론을 적용하는 사례가 크게 증가하고 있다. 특히 금융 분야에서는 금융 상품의 미래 가치를 예측하는 것이 난제인데 80년대부터 지금까지 기술적 및 기본적 분석에 의존하고 있다. 기계학습을 이용한 미래 가치 예측 모형들은 다양한 잠재적 시장변수에 대응하기 위한 모형 설계가 무엇보다 중요하다. 따라서 본 논문은 기계학습의 하나인 강화학습 모형을 이용해 KOSPI 시장에 상장되어 있는 개별 종목들의 주가 움직임을 정량적으로 판단하여 이를 주식매매 전략에 적용한다. 강화학습 모형은 2013년 구글 딥마인드에서 제안한 DQN와 A2C 알고리즘을 이용하여 KOSPI에 상장된 14개 업종별 종목들의 과거 약 13년 동안의 시계열 주가에 기반한 데이터세트를 각각 입력 및 테스트 데이터로 사용한다. 데이터세트는 8개의 주가 관련 속성들과 시장을 대표하는 2개의 속성으로 구성하였고 취할 수 있는 행동은 매입, 매도, 유지 중 하나이다. 실험 결과 매매전략의 평균 연 환산수익률 측면에서 DQN과 A2C이 대안 알고리즘들보다 우수하였다.

DeNERT: Named Entity Recognition Model using DQN and BERT

  • Yang, Sung-Min;Jeong, Ok-Ran
    • 한국컴퓨터정보학회논문지
    • /
    • 제25권4호
    • /
    • pp.29-35
    • /
    • 2020
  • 본 논문에서는 새로운 구조의 개체명 인식 DeNERT 모델을 제안한다. 최근 자연어처리 분야는 방대한 양의 말뭉치로 사전 학습된 언어 표현 모델을 활용하는 연구가 활발하다. 특히 자연어처리 분야 중 하나인 개체명인식은 대부분 지도학습 방식을 사용하는데, 충분히 많은 양의 학습 데이터 세트와 학습 연산량이 필요하다는 단점이 있다. 강화학습은 초기 데이터 없이 시행착오 경험을 통해 학습하는 방식으로 다른 기계학습 방법론보다 조금 더 사람이 학습하는 과정에 가까운 알고리즘으로 아직 자연어처리 분야에는 많이 적용되지 않은 분야이다. 아타리 게임이나 알파고 등 시뮬레이션 가능한 게임 환경에서 많이 사용된다. BERT는 대량의 말뭉치와 연산량으로 학습된 구글에서 개발한 범용 언어 모델이다. 최근 자연어 처리 연구 분야에서 높은 성능을 보이고 있는 언어 모델이며 많은 자연어처리 하위분야에서도 높은 정확도를 나타낸다. 본 논문에서는 이러한 DQN, BERT 두가지 딥러닝 모델을 이용한 새로운 구조의 개체명 인식 DeNERT 모델을 제안한다. 제안하는 모델은 범용 언어 모델의 장점인 언어 표현력을 기반으로 강화학습 모델의 학습 환경을 만드는 방법으로 학습된다. 이러한 방식으로 학습된 DeNERT 모델은 적은 양의 학습 데이터세트로 더욱 빠른 추론시간과 높은 성능을 갖는 모델이다. 마지막으로 제안하는 모델의 개체명 인식 성능평가를 위해 실험을 통해서 검증한다.

NFV 환경에서의 Deep Q-Networks 기반 오토 스케일링 기술 연구 (A study on Deep Q-Networks based Auto-scaling in NFV Environment)

  • 이도영;유재형;홍원기
    • KNOM Review
    • /
    • 제23권2호
    • /
    • pp.1-10
    • /
    • 2020
  • 5G 네트워크의 핵심 기술 중 하나인 네트워크 기능 가상화 (NFV, Network Function Virtualization)는 유연하고 민첩한 네트워크 구축 및 운용을 가능하게 만드는 장점이 있다. 하지만, 한편으로는 수 많은 가상 자원을 생성하기 때문에 네트워크 관리를 복잡하게 만드는 원인이 된다. 일반적으로, NFV 환경에서는 가상 네트워크 기능(VNF, Virtual Network Function)들로 구성된 서비스 펑션 체이닝 (SFC, Service Function Chaining)을 통해 일련의 네트워크 기능들을 트래픽에 적용한다. 따라서 서비스 요구사항을 만족시킬 수 있도록 동적으로 SFC에 알맞은 양의 컴퓨팅 자원 또는 인스턴스를 할당하는 것이 필요하다. 본 논문에서는 SFC에서 적절한 수의 VNF 인스턴스를 운용하기 위해 강화학습 알고리즘의 하나인 Deep Q-Networks (DQN)을 이용한 Auto-scaling 방법을 제안한다. 제안하는 방법은 SFC로 유입되는 트래픽의 증감에 따라 SFC를 구성하는 다계층 (Multi-tier) 구조에서 스케일링(Scaling)이 필요한 계층을 선택하고, 스케일링을 통해 효과적으로 VNF 인스턴스들 개수를 조절한다.