• 제목/요약/키워드: Ant-Q learning

검색결과 4건 처리시간 0.02초

Ant-Q 학습을 이용한 Gale-Shapley 문제 해결에 관한 연구 (Solving the Gale-Shapley Problem by Ant-Q learning)

  • 김현;정태충
    • 정보처리학회논문지B
    • /
    • 제18B권3호
    • /
    • pp.165-172
    • /
    • 2011
  • 본 논문에서는 생물학의 개미들이 학습을 통해 목표를 획득하는 방법을 응용한 Ant-Q 알고리즘(Ant Q learning System)[1]을 Gale-Shapley[2]알고리즘을 통해 제시되었던 안정된 결혼문제(SMP: Stable Marriage Problem)[3]의 새로운 해법을 찾기 위해 적용 하였다. SMP는 남성($m_i$)들과 여성($w_j$)들은 각자 자신이 좋아하는 이상형에 대한 선호도(PL: preference list)를 바탕으로 안정이면서도 최선의 짝을 찾는 것을 목표로 하고 있다. Gale-Shapley 알고리즘은 남성(혹은 여성) 위주로 안정적(stability)인 짝(Matching)을 성사시키므로 다양한 조건을 수용하지 못한다. 본 논문에 적용된 Ant-Q는 개미(Ant)의 페로몬을 활용한 학습인 ACS(Ant colony system)에 강화학습의 일종인 Q-학습[9]을 추가한 방법으로, SMP의 새로운 해법을 찾을 수 있었다.

개미 집단 시스템에서 TD-오류를 이용한 강화학습 기법 (A Reinforcement Loaming Method using TD-Error in Ant Colony System)

  • 이승관;정태충
    • 정보처리학회논문지B
    • /
    • 제11B권1호
    • /
    • pp.77-82
    • /
    • 2004
  • 강화학습에서 temporal-credit 할당 문제 즉, 에이전트가 현재 상태에서 어떤 행동을 선택하여 상태전이를 하였을 때 에이전트가 선택한 행동에 대해 어떻게 보상(reward)할 것인가는 강화학습에서 중요한 과제라 할 수 있다. 본 논문에서는 조합최적화(hard combinational optimization) 문제를 해결하기 위한 새로운 메타 휴리스틱(meta heuristic) 방법으로, greedy search뿐만 아니라 긍정적 반응의 탐색을 사용한 모집단에 근거한 접근법으로 Traveling Salesman Problem(TSP)를 풀기 위해 제안된 Ant Colony System(ACS) Algorithms에 Q-학습을 적용한 기존의 Ant-Q 학습방범을 살펴보고 이 학습 기법에 다양화 전략을 통한 상태전이와 TD-오류를 적용한 학습방법인 Ant-TD 강화학습 방법을 제안한다. 제안한 강화학습은 기존의 ACS, Ant-Q학습보다 최적해에 더 빠르게 수렴할 수 있음을 실험을 통해 알 수 있었다.

Temporal Difference 학습을 이용한 다중 집단 강화.다양화 상호작용 개미 강화학습 (Multi Colony Intensification.Diversification Interaction Ant Reinforcement Learning Using Temporal Difference Learning)

  • 이승관
    • 한국콘텐츠학회논문지
    • /
    • 제5권5호
    • /
    • pp.1-9
    • /
    • 2005
  • 본 논문에서는 Temporal Difference 학습을 적용한 Ant-Q 기반 개미 모델을 이용한 다중 집단 상호작용 개미 강화학습 모델을 제안한다. 이 모델은 몇 개의 독립적 개미시스템 집단으로 이루어져 있으며, 상호작용은 집단간 엘리트 전략(강화, 다양화 전략)에 따라 임무를 수행한다. 강화 전략은 다른 에이전트 집단의 휴리스틱 정보를 이용해 좋은 경로 선택을 가능하게 한다. 이것은 집단간 긍정적 상호작용을 통해 에이전트들의 방문 빈도가 높은 간선을 선택하게 한다. 다양화 전략은 에이전트들이 다른 에이전트 집단의 탐색 정보에 의해 부정적 상호작용을 수행함으로써 방문 빈도수가 높은 간선의 선택을 회피하게 만든다. 이러한 전략을 통해 제안한 강화학습은 기존의 개미집단시스템, Ant-Q학습보다 최적해에 더 빠르게 수렴할 수 있음을 실험을 통해 알 수 있었다.

  • PDF

멀티에이전트 전략을 위한 방향벡터 함수 활용과 동적 환경에 적응하는 경로 추천시스템에 관한 연구 (The Application of Direction Vector Function for Multi Agents Strategy and The Route Recommendation System Research in A Dynamic Environment)

  • 김현;정태충
    • 전자공학회논문지CI
    • /
    • 제48권2호
    • /
    • pp.78-85
    • /
    • 2011
  • 본 논문에서는 운전자의 특성, 도로상황, 경로 추천을 담당하는 에이전트와 같은 동적환경정보(DEI:Dynamic Environment Information)를 반영하여 실시간으로 운전자에게 경로를 추천할 수 있는 시스템을 위해 멀티에이전트에 관한 연구를 수행하였다. DEI는 n개의 멀티 에이전트이며 운전자에게 최적화된 경로를 제공할 수 있는 경로추천시스템에 활용되는 환경변수이다. DEI가 반영되는 경로추천 시스템은 멀티 에이전트 연구의 새로운 연구 분야라 할 수 있겠다. 이를 위하여 멀티에이전트 연구의 대표적 실험 환경인 먹이추적문제를 이용하여 새로운 해법을 찾고자 하였다. 본 논문에서는 기존의 먹이추적 실험은 현실성이 결여된 멀티에이전트 연구였기에 기존의 실험환경과 달리 현실세계와 비슷한 실험환경을 제안을 하며 새로운 전략인 Ant-Q 학습을 적용한 알고리즘과 기존의 방향벡터를 활용한 전략과의 비교를 통해 새로운 환경에서의 성능의 향상을 입증할 수 있었다.