• 제목/요약/키워드: 마르코프결정과정

검색결과 15건 처리시간 0.02초

Generative Adversarial Network 학습을 통한 감정 텍스트 생성에 관한 연구 (A Study on the Emotional Text Generation using Generative Adversarial Network)

  • 김우성;김현철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 춘계학술발표대회
    • /
    • pp.380-382
    • /
    • 2019
  • GAN(Generative Adversarial Network)은 정해진 학습 데이터에서 정해진 생성자와 구분자가 서로 각각에게 적대적인 관계를 유지하며 동시에 서로에게 생산적인 관계를 유지하며 가능한 긍정적인 영향을 주며 학습하는 기계학습 분야이다. 전통적인 문장 생성은 단어의 통계적 분포를 기반으로 한 마르코프 결정 과정(Markov Decision Process)과 순환적 신경 모델(Recurrent Neural Network)을 사용하여 학습시킨다. 이러한 방법은 문장 생성과 같은 연속된 데이터를 기반으로 한 모델들의 표준 모델이 되었다. GAN은 표준모델이 존재하는 해당 분야에 새로운 모델로써 다양한 시도가 시도되고 있다. 하지만 이러한 모델의 시도에도 불구하고, 지금까지 해결하지 못하고 있는 다양한 문제점이 존재한다. 이 논문에서는 다음과 같은 두 가지 문제점에 집중하고자 한다. 첫째, Sequential 한 데이터 처리에 어려움을 겪는다. 둘째, 무작위로 생성하기 때문에 사용자가 원하는 데이터만 출력되지 않는다. 본 논문에서는 이러한 문제점을 해결하고자, 부분적인 정답 제공을 통한 조건별 생산적 적대 생성망을 설계하여 이 방법을 사용하여 해결하였다. 첫째, Sequence to Sequence 모델을 도입하여 Sequential한 데이터를 처리할 수 있도록 하여 원시적인 텍스트를 생성할 수 있게 하였다. 둘째, 부분적인 정답 제공을 통하여 문장의 생성 조건을 구분하였다. 결과적으로, 제안하는 기법들로 원시적인 감정 텍스트를 생성할 수 있었다.

버스의 정차시간을 고려한 장기 도착시간 예측 모델 (Long-Term Arrival Time Estimation Model Based on Service Time)

  • 박철영;김홍근;신창선;조용윤;박장우
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제6권7호
    • /
    • pp.297-306
    • /
    • 2017
  • 버스정보 시스템을 이용하는 시민들은 더 정확한 예측 정보를 원한다. 하지만 평균 기반 단기간 예측 알고리즘을 사용하는 대부분의 버스정보시스템에서는 교통흐름, 신호주기, 정차시간 등의 영향이 고려되지 않기 때문에 많은 오차를 포함하고 있는 실정이다. 따라서 본 논문에서는 오차의 영향요인 분석을 통해 예측정보의 정밀도를 향상시켜 시민들의 편의를 도모하고자 한다. 이에 현재 운영되고 있는 버스정보 시스템의 자료를 토대로 오차의 영향요인을 분석했다. 분석 데이터에서 시간대별 특성과 지리적 여건에 의한 영향이 복합적으로 나타나고, 정차시간과 단위구간속도에 미치는 영향도가 다름을 보였다. 이에 따라 정차시간은 일반화 가법 모형을 사용하여 시간, GPS 좌표, 통과 노선수의 설명변수로 패턴을 구축하고, 단위구간에 대해 은닉 마르코프 모델을 사용하여 교통흐름에 따른 영향도를 고려한 패턴을 구축했다. 패턴 구축의 결과로 정밀한 실시간예측이 가능하고, 노선 통행속도의 장기간 예측이 가능했다. 마지막으로 관측 데이터와 예측 데이터의 통계적 검정 과정을 통해 전구간 예측에 적합한 모델임을 보였다. 본 논문의 결과로 시민들에게 더 정확한 예측 정보를 제공하고, 장기간 예측은 배차시간 등의 의사결정에 중요한 역할을 수행할 수 있으리라 생각한다.

마르코프 결정 과정에서 시뮬레이션 기반 정책 개선의 효율성 향상을 위한 시뮬레이션 샘플 누적 방법 연구 (A Simulation Sample Accumulation Method for Efficient Simulation-based Policy Improvement in Markov Decision Process)

  • 황시랑;최선한
    • 한국멀티미디어학회논문지
    • /
    • 제23권7호
    • /
    • pp.830-839
    • /
    • 2020
  • As a popular mathematical framework for modeling decision making, Markov decision process (MDP) has been widely used to solve problem in many engineering fields. MDP consists of a set of discrete states, a finite set of actions, and rewards received after reaching a new state by taking action from the previous state. The objective of MDP is to find an optimal policy, that is, to find the best action to be taken in each state to maximize the expected discounted reward of policy (EDR). In practice, MDP is typically unknown, so simulation-based policy improvement (SBPI), which improves a given base policy sequentially by selecting the best action in each state depending on rewards observed via simulation, can be a practical way to find the optimal policy. However, the efficiency of SBPI is still a concern since many simulation samples are required to precisely estimate EDR for each action in each state. In this paper, we propose a method to select the best action accurately in each state using a small number of simulation samples, thereby improving the efficiency of SBPI. The proposed method accumulates the simulation samples observed in the previous states, so it is possible to precisely estimate EDR even with a small number of samples in the current state. The results of comparative experiments on the existing method demonstrate that the proposed method can improve the efficiency of SBPI.

R-Trader: 강화 학습에 기반한 자동 주식 거래 시스템 (R-Trader: An Automatic Stock Trading System based on Reinforcement learning)

  • 이재원;김성동;이종우;채진석
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제29권11호
    • /
    • pp.785-794
    • /
    • 2002
  • 자동 주식 거래 시스템은 시장 추세의 예측, 투자 종목의 선정, 거래 전략 등 매우 다양한 최적화 문제를 통합적으로 해결할 수 있어야 한다. 그러나 기존의 감독 학습 기법에 기반한 거래 시스템들은 이러한 최적화 요소들의 효과적인 결합에는 큰 비중을 두지 않았으며, 이로 인해 시스템의 궁극적인 성능에 한계를 보인다. 이 논문은 주가의 변동 과정이 마르코프 의사결정 프로세스(MDP: Markov Decision Process)라는 가정 하에, 강화 학습에 기반한 자동 주식 거래 시스템인 R-Trader를 제안한다. 강화 학습은 예측과 거래 전략의 통합적 학습에 적합한 학습 방법이다. R-Trader는 널리 알려진 두 가지 강화 학습 알고리즘인 TB(Temporal-difference)와 Q 알고리즘을 사용하여 종목 선정과 기타 거래 인자의 최적화를 수행한다. 또한 기술 분석에 기반하여 시스템의 입력 속성을 설계하며, 가치도 함수의 근사를 위해 인공 신경망을 사용한다. 한국 주식 시장의 데이타를 사용한 실험을 통해 제안된 시스템이 시장 평균을 초과하는 수익을 달성할 수 있고, 수익률과 위험 관리의 두 가지 측면 모두에서 감독 학습에 기반한 거래 시스템에 비해 우수한 성능 보임을 확인한다.

평가의 시간 순서를 고려한 강화 학습 기반 협력적 여과 (A Reinforcement Learning Approach to Collaborative Filtering Considering Time-sequence of Ratings)

  • 이정규;오병화;양지훈
    • 정보처리학회논문지B
    • /
    • 제19B권1호
    • /
    • pp.31-36
    • /
    • 2012
  • 최근 사용자의 흥미에 맞는 아이템이나 서비스를 추천해 주는 추천 시스템에 대한 관심이 높아지고 있다. 최근 종료된 Netflix 경연대회(Netflix Prize)가 이 분야에 대한 연구자들의 연구 의욕을 고취시켰고, 특히 협력적 여과(Collaborative Filtering) 방법은 아이템의 종류에 상관없이 적용 가능한 범용성 때문에 활발히 연구되고 있다. 본 논문은 강화 학습을 이용해서 추천 시스템의 협력적 여과 문제를 푸는 방법을 제안한다. 강화 학습을 통해, 영화 평점 데이터에서 각 사용자가 평점을 매긴 순서에 따른 평점 간의 연관 관계를 학습하고자 하였다. 이를 위해 협력적 여과문제를 마르코프 결정 과정(Markov Decision Process)로 수학적으로 모델링하였고, 강화 학습의 가장 대표적인 알고리즘인 Q-learning을 사용해서 평가의 순서의 연관 관계를 학습하였다. 그리고 실제로 평가의 순서가 평가에 미치는 영향이 있음을 실험을 통해서 검증하였다.