통합 검색 | Korea Science

이창훈
- 한국인터넷방송통신학회논문지
- /
- 제10권5호
- /
- pp.265-270
- /
- 2010
강화학습(reinforcement learning)은 동적 환경과 시행-착오를 통해 상호 작용하면서 학습을 수행한다. 그러므로 동적 환경에서 TD-학습과 TD(${\lambda}$)-학습과 같은 강화학습 방법들은 전통적인 통계적 학습 방법보다 더 빠르게 학습을 할 수 있다. 그러나 제안된 대부분의 강화학습 알고리즘들은 학습을 수행하는 에이전트(agent)가 목표 상태에 도달하였을 때만 강화 값(reinforcement value)이 주어지기 때문에 최적 해에 매우 늦게 수렴한다. 본 논문에서는 미로 환경(maze environment)에서 최단 경로를 빠르게 찾을 수 있는 강화학습 방법(GORLS : Goal-Directed Reinforcement Learning System)을 제안하였다. GDRLS 미로 환경에서 최단 경로가 될 수 있는 후보 상태들을 선택한다. 그리고 나서 최단 경로를 탐색하기 위해 후보 상태들을 학습한다. 실험을 통해, GDRLS는 미로 환경에서 TD-학습과 TD(${\lambda}$)-학습보다 더 빠르게 최단 경로를 탐색할 수 있음을 알 수 있다.
PDF KSCI

이병두
- 한국게임학회 논문지
- /
- 제9권6호
- /
- pp.117-125
- /
- 2009
본 논문은 포석 바둑을 위해, 패턴 지식을 근간으로 바둑 용어 지식을 수행할 수 있는 뉴로-퍼지 추론에 대한 실험 결과를 설명하였다. 즉, 포석 시 최선의 착점을 결정하기 위한 뉴로-퍼지 추론 시스템의 구현을 논하였다. 또한 추론 시스템의 성능을 시험하기 위하여 시차 학습(TD($\lambda$) learning) 시스템과의 대결을 벌였다. 대결 결과에 의하면 단순한 뉴로-퍼지 추론 시스템조차 시차 학습 모델과 충분히 대결할 만하며, 뉴로-퍼지 추론 시스템이 실제 바둑 게임에도 적용될 수 있는 잠재력을 보였다.
PDF

김병천;김삼근;윤병주
- 정보처리학회논문지B
- /
- 제9B권2호
- /
- pp.155-162
- /
- 2002
강화 학습(reinforcement teaming)은 시행-착오(trial-and-er개r)를 통해 동적 환경과 상호작용하면서 학습을 수행하는 학습 방법으로, 실시간 강화 학습(online reinforcement learning)과 지연 강화 학습(delayed reinforcement teaming)으로 분류된다. 본 논문에서는 미로 환경에서 최단 경로를 빠르게 탐색할 수 있는 실시간 강화 학습 시스템(ONRELS : Outline REinforcement Learning System)을 제안한다. ONRELS는 현재 상태에서 상태전이를 하기 전에 선택 가능한 모든 (상태-행동) 쌍에 대한 평가 값을 갱신하고 나서 상태전이를 한다. ONRELS는 미로 환경의 상태 공간을 압축(compression)하고 나서 압축된 환경과 시행-착오를 통해 상호 작용하면서 학습을 수행한다. 실험을 통해 미로 환경에서 ONRELS는 TD -오류를 이용한 Q-학습과 $TD(\lambda{)}$를 이용한 $Q(\lambda{)}$-학습보다 최단 경로를 빠르게 탐색할 수 있음을 알 수 있었다.
https://doi.org/10.3745/KIPSTB.2002.9B.2.155 인용 PDF KSCI

한정수
- 한국통신학회논문지
- /
- 제30권5B호
- /
- pp.304-309
- /
- 2005
본 논문에서는 TD(temporal differences) 기법을 사용한 localized QoS 라우팅 기법을 제안하였다. 이 기법은 이웃노드로부터 얻어지는 성공 기댓값을 통해 라우팅 정책을 결정하는 기법이다. 이에 본 논문에서는 라우팅 성공 기댓값을 기반으로 한 다양한 탐색기법으로 경로 선택 시 라우팅 성능을 비교 평가하였으며, 특히 Exploration Bonus를 적용한 탐색 기법이 다른 탐색 기법에 비해 더욱 우수한 성능을 보여주고 있는데, 이는 다른 탐색 기법에 비해 네트워크 상황에 더 적응적으로 경로를 선택할 수 있기 때문이다.
PDF KSCI

최진영
- 산업경영시스템학회지
- /
- 제34권4호
- /
- pp.189-196
- /
- 2011
In this paper, we propose a logical control-based actor-critic algorithm as an efficient approach for the approximation of the capacitated fab scheduling problem. We apply the average reward temporal-difference learning method for estimating the relative value functions of system states, while avoiding deadlock situation by Banker's algorithm. We consider the Intel mini-fab re-entrant line for the evaluation of the suggested algorithm and perform a numerical experiment by generating some sample system configurations randomly. We show that the suggested method has a prominent performance compared to other well-known heuristics.
PDF KSCI