• 제목/요약/키워드: Adaptive multi-agent systems

검색결과 15건 처리시간 0.019초

유비쿼터스 시스템을 위한 시맨틱 다중 에이전트 (Semantic Multi-agents Framework for Ubiquitous Systems)

  • 최정화;박영택
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제32권3호
    • /
    • pp.192-201
    • /
    • 2005
  • 지난 10여년 동안 유비쿼터스 컴퓨팅 연구는 '언제나, 어디에서나, 어느 것이나 컴퓨팅 환경'이라는 신기술 체계의 확립을 목표로 진행되었다. 이를 통하여 칩의 소형화 기술, 장치기술, 네트워킹 기술, 인간 중심의 인터페이스 기술, 응용기술 등의 기술혁신의 필요성을 알게 되었다. 본 논문에서는 인간중심의 인터페이스 기술 측면에서 인간과 에이전트와의 상호작용 및 에이전트 스스로 인간이 원하는 서비스를 처리하고 제공하기 위하여, 다음 네 가지 단계를 제안한다. 첫째, 유비쿼터스 서비스를 사용자 요구에 맞게 서비스하기 위하여 정보자원 간에 의미적 연관성을 고려한 시맨틱 웹 기술을 이용한다. 둘째, 시맨틱 웹 기술 개발에 핵심이 되는 온톨로지를 구축하여 컴퓨터가 웹 문서의 내용을 인식할 수 있도록 한다. 셋째, W3C에서 표준화 작업 중인 차세대 웹 OWL 온톨로지 언어를 이용하여 컴퓨터와 컴퓨터 간에 메시지를 교환한다. 넷째, 컴퓨터로 전송된 메시지 분석 및 정보 수집을 위하여 FIPA의 JADE를 이용하여 다중 에이전트를 기능별로 구축한다. 본 논문에서 제안하는 시맨틱 다중 에이전트는 온톨로지 기반의 시맨틱 웹 기술을 적용하여 시맨틱 상황을 추론한다. 다중 에이전트가 OWL 온톨로지 언어를 이용하여 커뮤니케이션함으로써 같은 상황이더라도 사용자에 따라서 제공되는 서비스가 다르게 추론된다. 따라서 기존의 상황 정보 시스템보다 에이전트에게 보다 의미 있는 정보의 예측을 가능하게 하였다.

Dynamic Positioning of Robot Soccer Simulation Game Agents using Reinforcement learning

  • Kwon, Ki-Duk;Cho, Soo-Sin;Kim, In-Cheol
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2001년도 The Pacific Aisan Confrence On Intelligent Systems 2001
    • /
    • pp.59-64
    • /
    • 2001
  • The robot soccer simulation game is a dynamic multi-agent environment. In this paper we suggest a new reinforcement learning approach to each agent's dynamic positioning in such dynamic environment. Reinforcement learning is the machine learning in which an agent learns from indirect, delayed reward an optimal policy to chose sequences of actions that produce the greatest cumulative reward. Therefore the reinforcement learning is different from supervised learning in the sense that there is no presentation of input pairs as training examples. Furthermore, model-free reinforcement learning algorithms like Q-learning do not require defining or learning any models of the surrounding environment. Nevertheless it can learn the optimal policy if the agent can visit every state- action pair infinitely. However, the biggest problem of monolithic reinforcement learning is that its straightforward applications do not successfully scale up to more complex environments due to the intractable large space of states. In order to address this problem. we suggest Adaptive Mediation-based Modular Q-Learning (AMMQL)as an improvement of the existing Modular Q-Learning (MQL). While simple modular Q-learning combines the results from each learning module in a fixed way, AMMQL combines them in a more flexible way by assigning different weight to each module according to its contribution to rewards. Therefore in addition to resolving the problem of large state effectively, AMMQL can show higher adaptability to environmental changes than pure MQL. This paper introduces the concept of AMMQL and presents details of its application into dynamic positioning of robot soccer agents.

  • PDF

군집 적응형 시스템의 목표 기반 테스트를 위한 태스크 기반 테스트 모델 적용 타당성 연구 (A Feasibility Study of Goal-based Testing with a Task-based Test Model for Collective Adaptive Systems)

  • 이정현;지은경;임유진;배두환
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제22권8호
    • /
    • pp.393-398
    • /
    • 2016
  • 군집 적응형 시스템(Collective Adaptive System, CAS)은 다수의 에이전트를 포함하는 적응형 시스템으로, 에이전트들 간의 헙업을 통해 목표를 수행한다. 협업을 기반으로 시스템의 목표를 수행하는 CAS는 복수의 에이전트들 간의 상호작용에 대한 테스트가 필수적이다. 본 연구에서는 CAS를 테스트하기 위한 하나의 방법으로 태스크 기반의 테스트 모델을 적용하여 모델 기반 테스팅을 하는 것에 대한 타당성을 분석한다. 분석을 위해 CAS의 한 사례로 스마트 홈 시스템을 적용하였고, 그 결과 태스크 모델을 수정 및 확장하면 CAS의 목표 달성 여부를 판별할 수 있는 체계적인 테스트 케이스 생성이 가능한 것을 확인하였다.

인터넷 거래에서 신뢰도의 계산적 모델 및 적용 (A Computational Model of Trust and Its Applications in Internet Transactions)

  • 노상욱
    • 인터넷정보학회논문지
    • /
    • 제8권4호
    • /
    • pp.137-147
    • /
    • 2007
  • 웹 기반의 온라인 커뮤니티가 급속하게 증가함에 따라 사회적인 집단(커뮤니티)에서의 에이전트들은 안전하고 성공적인 상호거래를 위하여 서로의 신뢰도를 계산할 수 있는 형태의 믿음으로 알 수 있어야 한다. 본 논문은 온라인 커뮤니티에서 주어진 피드백으로 형성된 신뢰도의 계산적 모델을 제안한다. 신뢰도는 과거의 상호작용에 기반한 평가수치의 축적으로 정의할 수 있으며, 평균 신뢰도는 믿을 수 있는 값과 믿을 수 없는 값의 분포를 고려한 중심값으로 나타낸다. 온라인 커뮤니티에서의 명성, 신뢰도, 평균 신뢰도의 관계를 구체적인 예를 통하여 설명하며, 정의한 신뢰도 모델이 어떻게 온라인 커뮤니티에서 에이전트의 이성적인 거래를 가능하게 하는가를 보여준다.

  • PDF

강화 학습에서의 탐색과 이용의 균형을 통한 범용적 온라인 Q-학습이 적용된 에이전트의 구현 (Implementation of the Agent using Universal On-line Q-learning by Balancing Exploration and Exploitation in Reinforcement Learning)

  • 박찬건;양성봉
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제30권7_8호
    • /
    • pp.672-680
    • /
    • 2003
  • shopbot이란 온라인상의 판매자로부터 상품에 대한 가격과 품질에 관한 정보를 자동적으로 수집함으로써 소비자의 만족을 최대화하는 소프트웨어 에이전트이다 이러한 shopbot에 대응해서 인터넷상의 판매자들은 그들에게 최대의 이익을 가져다 줄 수 있는 에이전트인 pricebot을 필요로 할 것이다. 본 논문에서는 pricebot의 가격결정 알고리즘으로 비 모델 강화 학습(model-free reinforcement learning) 방법중의 하나인 Q-학습(Q-learning)을 사용한다. Q-학습된 에이전트는 근시안적인 최적(myopically optimal 또는 myoptimal) 가격 결정 전략을 사용하는 에이전트에 비해 이익을 증가시키고 주기적 가격 전쟁(cyclic price war)을 감소시킬 수 있다. Q-학습 과정 중 Q-학습의 수렴을 위해 일련의 상태-행동(state-action)을 선택하는 것이 필요하다. 이러한 선택을 위해 균일 임의 선택방법 (Uniform Random Selection, URS)이 사용될 경우 최적 값의 수렴을 위해서 Q-테이블을 접근하는 회수가 크게 증가한다. 따라서 URS는 실 세계 환경에서의 범용적인 온라인 학습에는 부적절하다. 이와 같은 현상은 URS가 최적의 정책에 대한 이용(exploitation)의 불확실성을 반영하기 때문에 발생하게 된다. 이에 본 논문에서는 보조 마르코프 프로세스(auxiliary Markov process)와 원형 마르코프 프로세스(original Markov process)로 구성되는 혼합 비정적 정책 (Mixed Nonstationary Policy, MNP)을 제안한다. MNP가 적용된 Q-학습 에이전트는 original controlled process의 실행 시에 Q-학습에 의해 결정되는 stationary greedy 정책을 사용하여 학습함으로써 auxiliary Markov process와 original controlled process에 의해 평가 측정된 최적 정책에 대해 1의 확률로 exploitation이 이루어질 수 있도록 하여, URS에서 발생하는 최적 정책을 위한 exploitation의 불확실성의 문제를 해결하게 된다. 다양한 실험 결과 본 논문에서 제한한 방식이 URS 보다 평균적으로 약 2.6배 빠르게 최적 Q-값에 수렴하여 MNP가 적용된 Q-학습 에이전트가 범용적인 온라인 Q-학습이 가능함을 보였다.