• 제목/요약/키워드: 경로 보상

검색결과 376건 처리시간 0.029초

강화학습을 이용한 무인 자율주행 차량의 지역경로 생성 기법 (Local Path Generation Method for Unmanned Autonomous Vehicles Using Reinforcement Learning)

  • 김문종;최기창;오병화;양지훈
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제3권9호
    • /
    • pp.369-374
    • /
    • 2014
  • 무인 자율주행 차량에서의 경로 생성 기법은 차량이 자동적으로 안전하고 효율적인 경로를 생성하고 주행할 수 있도록 해 준다. 경로에는 크게 전역경로와 지역경로가 있다. 전역경로는 차량이 출발점으로부터 도착점까지 가기 위해 주행해야 하는 구간을, 지역경로는 전역경로에서 얻은 구간을 주행하기 위해서 차량이 실제로 주행해야 할 경로를 의미한다. 본 논문에서는 지역경로 생성을 위하여 효율성 높은 곡선 함수를 사용하는 기존연구에서 더 나아가 학습을 통해 경로를 생성하는 방법을 제안한다. 먼저 강화학습을 통해서 후보경로에 대한 예측 보상 값을 얻고 보상 값이 최고가 되는 경로를 찾는 작업을 한다. 또한 인공 신경망을 통해서는 생성된 경로에 최적화된 조향 명령을 주기 위해 조향 각을 학습하는 작업을 한다. 더 나아가 주행하는 경로에 장애물이 발견되더라도 이를 효율적으로 회피하는 최적의 경로를 학습 기법을 통해 만들어낸다. 본 논문에서 제안된 알고리즘의 우수성은 실제 주행 환경으로 모델링한 시뮬레이션 실험을 통해 검증되었다.

시각-언어 이동 에이전트를 위한 모방 학습과 강화 학습의 결합 (Combining Imitation Learning and Reinforcement Learning for Visual-Language Navigation Agents)

  • 오선택;김인철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 춘계학술발표대회
    • /
    • pp.559-562
    • /
    • 2020
  • 시각-언어 이동 문제는 시각 이해와 언어 이해 능력을 함께 요구하는 복합 지능 문제이다. 본 논문에서는 시각-언어 이동 에이전트를 위한 새로운 학습 모델을 제안한다. 이 모델은 데모 데이터에 기초한 모방 학습과 행동 보상에 기초한 강화 학습을 함께 결합한 복합 학습을 채택하고 있다. 따라서 이 모델은 데모 데이타에 편향될 수 있는 모방 학습의 문제와 상대적으로 낮은 데이터 효율성을 갖는 강화 학습의 문제를 상호 보완적으로 해소할 수 있다. 또한, 제안 모델은 서로 다른 두 학습 간에 발생 가능한 학습 불균형도 고려하여 손실 정규화를 포함하고 있다. 또, 제안 모델에서는 기존 연구들에서 사용되어온 목적지 기반 보상 함수의 문제점을 발견하고, 이를 해결하기 위해 설계된 새로은 최적 경로 기반 보상 함수를 이용한다. 본 논문에서는 Matterport3D 시뮬레이션 환경과 R2R 벤치마크 데이터 집합을 이용한 다양한 실들을 통해, 제안 모델의 높은 성능을 입증하였다.

인터넷쇼핑 상황에서 보상프로그램이 브랜드충성도에 미치는 영향에 관한 연구 (Effects of Reward Programs on Brand Loyalty in Online Shopping Contexts)

  • 김지헌;강현모
    • Asia Marketing Journal
    • /
    • 제14권2호
    • /
    • pp.39-63
    • /
    • 2012
  • 보상프로그램에 관한 기존 연구들은 프로그램에 대한 소비자의 지각된 가치가 높을수록 브랜드충성도가 증가할 것이라는 가정 하에, 소비자가 가장 선호하는 보상프로그램을 설계하는 데 초점을 맞추어왔다. 또한 이들은 연구대상으로 인터넷쇼핑몰보다는 주로 오프라인 매장을 사용하였다. 이는 인터넷쇼핑 상황에서 보상프로그램에 대한 소비자의 가치인식이 브랜드충성도에 미치는 효과가 실제로 유의한지 그렇다면 어떠한 경로를 통해 영향을 미치는 지에 대한 연구가 미흡함을 의미한다. 한편, 소비자는 인터넷쇼핑몰을 이용할 때 필요한 물건을 구매하고자 하는 실용적 동기와 쇼핑 그 자체를 즐기고자 하는 쾌락적 동기를 가지게 되며, 인터넷쇼핑몰은 소비자들의 이러한 양면적 동기를 충족시킬 수 있는 가치(실용적 또는 쾌락적 가치)있는 경험들을 제공함으로써 브랜드충성도를 증가시킬 수 있다. 이는 인터넷쇼핑몰이 제공하는 보상의 유형이 실용적인지, 쾌락적 인지에 따라 다른 유형의 쇼핑 가치를 강화함으로써 브랜드충성도에 영향을 미치는 경로가 달라질 수 있음을 의미한다. 따라서 본 연구는 다음과 같은 세 가지 목적을 가지고 수행되었다. 첫째, 인터넷쇼핑 상황에서의 보상프로그램이 오프라인 쇼핑상황에서와 동일하게 브랜드충성도를 제고하는데 효과적인지 알아보고자 하였다. 둘째, 기존 연구에서 고려하지 않은 "보상프로그램 가치인식 → 브랜드신뢰, 브랜드감정 → 브랜드충성도" 경로를 추가한 연구모형을 제안하고 분석함으로써, 보상프로그램 가치인식이 브랜드충성도에 미치는 또 다른 경로가 있음을 보이고자 하였다. 마지막으로, 보상의 유형(실용적 vs. 쾌락적)에 따라 "보상프로그램 가치인식 → 브랜드신뢰, 브랜드감정 → 브랜드충성도" 관계가 조절될 수 있는지 확인하고자 하였다. 이를 위해 문헌연구를 통해 10개의 가설 및 연구모형을 도출하였으며, 20대 남녀220명을 대상으로 설문조사를 실시하여 데이터를 수집한 후, 구조방정식모델을 이용해 가설들을 검정함으로써 다음과 같은 시사점들을 제공하였다. 먼저, 본 연구는 오프라인 매장을 중심으로 연구되어온 브랜드충성도에 대한 보상프로그램의 효과가 인터넷쇼핑 상황에서도 유의함을 보여줌으로써 인터넷쇼핑몰이 보상프로그램을 운영해야 할 논리적 근거를 마련해주고 있다. 하지만 기존 연구를 통해 확인된 "보상프로그램 가치인식 → 프로그램 충성도 → 브랜드충성도"의 경로가 인터넷쇼핑 상황에서는 유의하지 않은 것으로 나타났다. 반면 "보상프로그램 가치인식 → 브랜드신뢰, 브랜드감정 → 브랜드충성도"의 경로가 유의하게 나타나 인터넷쇼핑몰이 제공하는 보상프로그램에 대한 가치인식은 오프라인 매장과는 다른 경로를 통해 브랜드충성도에 영향을 미치고 있음을 알 수 있다. 한편, 인터넷쇼핑몰이 제공하는 보상프로그램에 대한 가치인식이 브랜드 신뢰에 미치는 영향은 쾌락적 보상보다는 실용적 보상이 더 크게 나타난 반면, (통계적으로 유의하지는 않았지만) 보상프로그램에 대한 가치인식이 브랜드감정에 미치는 영향은 실용적 보상 보다는 쾌락적 보상이 더 큰 것으로 나타났다. 이는 해당 인터넷쇼핑몰을 이용할 때 소비자가 상대적으로 더 추구하는 가치의 유형(실용적 vs. 쾌락적)을 파악하여 이를 강화할 수 있는 유형의 보상을 제공하거나 소비자가 스스로 보상의 유형을 선택할 수 있는 권한을 부여할 경우, 브랜드신뢰와 브랜드감정을 효과적으로 증가시켜 브랜드충성도를 제고할 수 있음을 말해준다.

  • PDF

강화학습 기반 3D 객체복원 데이터 획득 시뮬레이션 설계 (Designing a Reinforcement Learning-Based 3D Object Reconstruction Data Acquisition Simulation)

  • 진영훈
    • 사물인터넷융복합논문지
    • /
    • 제9권6호
    • /
    • pp.11-16
    • /
    • 2023
  • 물체나 공간을 디지털화하는 기술인 3D 복원은 주로 포인트 클라우드 데이터를 활용한다. 본 논문은 강화학습을 활용하여 주어진 환경에서 포인트 클라우드의 획득을 목표로 한다. 이를 위해 시뮬레이션 환경은 유니티를 이용하여 구성하고, 강화학습은 유니티 패키지인 ML-Agents를 활용한다. 포인트 클라우드 획득 과정은 먼저 목표를 설정하고, 목표 주변을 순회할 수 있는 경로를 계산한다. 순회 경로는 일정 비율로 분할하여 각 스텝마다 보상한다. 이때 에이전트의 경로 이탈을 방지하기 위해 보상을 증가시킨다. 에이전트가 순회하는 동안 목표를 응시할 때마다 보상을 부여하여 각 순회 스텝에서 포인트 클라우드의 획득 시점을 학습하도록 한다. 실험결과, 순회 경로가 가변적이지만 상대적으로 정확한 포인트 클라우드를 획득할 수 있었다.

협대역 이동통신시스템에서 TTIB를 이용한 페이딩 보상 시스템의 설계 및 구현 (Design and Implementation of a TTIB Fading Compensation Systems for Narrowband Mobile Communication Systems)

  • 이병로;임영회;임동민
    • 전자공학회논문지S
    • /
    • 제35S권10호
    • /
    • pp.19-26
    • /
    • 1998
  • 본 논문에서는 TTIB SSB 방식을 이용한 협대역 이동통신시스템에서 페이딩 보상 시스템의 설계 및 구현에 관한 연구를 수행하였다. 다중경로 페이딩 갖는 이동통신채널은 무선통신시스템의 성능을 필연적으로 제한하게 한다. 이러한 다중경로 페이딩은 TTIB SSB 방식에서 파일럿 톤을 이용하여 보상할 수 있다. DSP(digital signal processor)를 이용하여 TTIB SSB 송 ${\cdot}$ 수신기를 구현하였으며 또한 페이딩 보상은 DSP 알고리즘 형태로 수신기에 구현하였다. TTIB SSB 송 ${\cdot}$ 수신기에서 페이딩 보상 성능을 평가하기 위하여 먼저 시뮬레이션을 이용하였다. 시뮬레이션의 결과로 TTIB SSB 송 ${\cdot}$ 수신기에서 페이딩을 보상할 수 있음을 알 수 있었다. 두 번째로 DSP 보드를 이용하여 TTIB SSB 송 ${\cdot}$ 수신기 구현에 대한 실험을 하였고 다음으로 중심 주파수가 145MHz인 RF 회로를 포함하여 실험하였다. 이 실험을 통하여 TTIB SSB 송 ${\cdot}$ 수신기에서 페이딩 보상 성능은 시뮬레이션을 통하여 얻은 결과와 같은 결과를 얻을 수 있었다.

  • PDF

LINC 전력 증폭기의 경로 오차 영향 분석 및 보상에 관한 연구 (Analysis and Compensation of RF Path Imbalance in LINC System)

  • 임종균;강원실;구현철
    • 한국전자파학회논문지
    • /
    • 제21권8호
    • /
    • pp.857-864
    • /
    • 2010
  • 본 논문에서는 LINC(LInear amplification with Nonlinear Component) 시스템의 두 경로 간의 이득 및 위상 오차의 발생에 의한 신호 왜곡을 분석하고, 이를 기반으로 생성한 LUT(Look Up Table)를 활용하여 효율적으로 경로 오차를 제거하는 기법을 제안한다. LINC 시스템은 Outphasing 기법을 활용하기 때문에 경로 오차에 의한 EVM (Error Vector Magnitude) 및 ACPR(Adjacent Channel Power Ratio)의 성능 저하가 커진다. 이득 오차, 위상 오차를 두 개의 변수로 하여 EVM과 ACPR을 구하는 방법을 도출하였다. 도출한 방법을 기반으로 EVM, ACPR에 관한 2차원 LUT를 생성하고, 파일럿 신호 없이 효율적으로 경로 오차를 도출하는 기법을 제안하였다. DSP(Digital Signal Processing) 기반의 경로 보상기를 포함한 LINC 시스템을 구축하고 성능을 검증하였다. 대역폭 1.5 MHz, 4.7 dB의 PAPR(Peak to Average Power Ratio)을 갖는 16QAM 신호에 대하여 보상 전에 경로 간 95 %의 이득 비율과 $19.33^{\circ}$의 위상 지연을 가지고 있는 LINC 시스템에 대하여 제안된 기법을 적용한 경우, 경로 간 이득 비율은 99 % 이상, 위상 지연 값은 $0.5^{\circ}$ 이하로 보정되었으며, ACPR은 18.1 dB 향상됨을 확인하였다.

강화학습을 이용한 주행경로 최적화 알고리즘 개발 (Optimal Route Finding Algorithms based Reinforcement Learning)

  • 정희석;이종수
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2003년도 춘계 학술대회 학술발표 논문집
    • /
    • pp.157-161
    • /
    • 2003
  • 본 논문에서는 차량의 주행경로 최적화를 위해 강화학습 개념을 적용하고자 한다. 강화학습의 특징은 관심 대상에 대한 구체적인 지배 규칙의 정보 없이도 최적화된 행동 방식을 학습시킬 수 있는 특징이 있어서, 실제 차량의 주행경로와 같이 여러 교통정보 및 시간에 따른 변화 등에 대한 복잡한 고려가 필요한 시스템에 적합하다. 또한 학습을 위한 강화(보상, 벌칙)의 정도 및 기준을 조절해 즘으로써 다양한 최적주행경로를 제공할 수 있다. 따라서, 본 논문에서는 강화학습 알고리즘을 이용하여 다양한 최적주행경로를 제공해 주는 시스템을 구현한다.

  • PDF

Deep Q 학습 기반의 다중경로 시스템 경로 선택 알고리즘 (Path selection algorithm for multi-path system based on deep Q learning)

  • 정병창;박혜숙
    • 한국정보통신학회논문지
    • /
    • 제25권1호
    • /
    • pp.50-55
    • /
    • 2021
  • 다중경로 시스템은 유선망, LTE망, 위성망 등 다양한 망을 동시에 활용하여 데이터를 전송하는 시스템으로, 통신망의 전송속도, 신뢰도, 보안성 등을 높이기 위해 제안되었다. 본 논문에서는 이 시스템에서 각 망의 지연시간을 보상으로 하는 강화학습 기반 경로 선택 방안을 제안하고자 한다. 기존의 강화학습 모델과는 다르게, deep Q 학습을 이용하여 망의 변화하는 환경에 즉각적으로 대응하도록 알고리즘을 설계하였다. 네트워크 환경에서는 보상 정보를 일정 지연시간이 지나야 얻을 수 있으므로 이를 보정하는 방안 또한 함께 제안하였다. 성능을 평가하기 위해, 분산 데이터베이스와 텐서플로우 모듈 등을 포함한 테스트베드 학습 서버를 개발하였다. 시뮬레이션 결과, 제안 알고리즘이 RTT 감소 측면에서 최저 지연시간을 선택하는 방안보다 20% 가량 좋은 성능을 가지는 것을 확인하였다.

Diversity를 이용한 IEEE802.11a에서 권고된 OFDM 시스템의 BER 성능 분석 (BER Performance of OFDM System for IEEE802.11a using Diversity Scheme)

  • 오규호;고예윤;조규섭
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2000년도 추계종합학술대회 논문집(1)
    • /
    • pp.233-236
    • /
    • 2000
  • 본 논문에서는 다중 경로 페이딩에 의한 성능의 손실을 보상하기 위하여 간단한 equal gain combining diversity를 갖는 802.11a 무선 LAN용 OFDM 시스템의 HER 성능을 다중경로 환경 하에서 분석하였다. 모의 실험 결과에 따르면, 다중경로채널에서 전송 파워를 살펴보면, 2branch equal gain combining diversity를 사용한 무선 LAN용 OFDM시스템이 diversity를 사용하지 않는 OFDM 시스템보다 BER 10/sup -3/에서 3㏈ 정도의 이득을 줄 수 있었다. Branch 수를 3개를 사용한 경우에는 BER 10/sup -3/에서 branch 2개를 사용한 경우보다 약 2㏈정도 이득을 줄 수 있었다.

  • PDF

보상프로그램과 고객만족간의 관계에 있어 고객유형의 조절효과에 관한 연구(제2보) (A Study on the Moderating Effect of Customer Type in Reward Programs and Customer Satisfaction Relations)

  • 강용수
    • 경영과정보연구
    • /
    • 제30권3호
    • /
    • pp.133-151
    • /
    • 2011
  • 본 연구는 이동통신사의 멤버십카드를 소지한 고객을 대상으로 이동통신사가 제공하는 보상이 통신사만족에 영향을 미치는데 있어 고객유형의 조절효과를 확인하는 연구로서, AMOS의 개별모수 차이검증을 통해 보상프로그램 가치와 통신사 만족간의 관계에서 고객유형별(거래지향형/촉진둔감형) 차이가 있는 지를 밝히고 보상프로그램 가치들 간의 상대적 영향력의 차이를 비교하였다. 분석결과 먼저, 보상 실용성과 통신사 만족, 보상 쾌락성과 통신사 만족 간의 경로계수값이 유의한 차이를 보이지 않아 고객유형이 조절효과를 가지고 있다라고 보기는 어려웠다. 그러나 보상프로그램 가치들 간의 상대적 영향력에서 있어서 거래지향형 고객과 촉진둔감형 고객 둘 다 보상 실용성이 보상 쾌락성보다 더 크게 영향을 미쳤고, 보상 실용성의 경우 촉진둔감형 고객이 거래지향형 고객보다 더 큰 영향을 미침을 확인하였다.

  • PDF