• Title/Summary/Keyword: 상대 정책 모델

Search Result 22, Processing Time 0.031 seconds

RBFN-based Policy Model for Efficient Multiagent Reinforcement Learning (효율적인 멀티 에이전트 강화학습을 위한 RBFN 기반 정책 모델)

  • Gwon, Gi-Deok;Kim, In-Cheol
    • Proceedings of the Korea Inteligent Information System Society Conference
    • /
    • 2007.11a
    • /
    • pp.294-302
    • /
    • 2007
  • 멀티 에이전트 강화학습에서 중요한 이슈 중의 하나는 자신의 성능에 영향을 미칠 수 있는 다른 에이전트들이 존재하는 동적 환경에서 어떻게 최적의 행동 정책을 학습하느냐 하는 것이다. 멀티 에이전트 강화 학습을 위한 기존 연구들은 대부분 단일 에이전트 강화 학습기법들을 큰 변화 없이 그대로 적용하거나 비록 다른 에이전트에 관한 별도의 모델을 이용하더라도 현실적이지 못한 가정들을 요구한다. 본 논문에서는 상대 에이전트에 대한RBFN기반의 행동 정책 모델을 소개한 뒤, 이것을 이용한 강화 학습 방법을 설명한다. 본 논문에서는 제안하는 멀티 에이전트 강화학습 방법은 기존의 멀티 에이전트 강화 학습 연구들과는 달리 상대 에이전트의 Q 평가 함수 모델이 아니라 RBFN 기반의 행동 정책 모델을 학습한다. 또한, 표현력은 풍부하나 학습에 시간과 노력이 많이 요구되는 유한 상태 오토마타나 마코프 체인과 같은 행동 정책 모델들에 비해 비교적 간단한 형태의 행동 정책 모델을 이용함으로써 학습의 효율성을 높였다. 본 논문에서는 대표적이 절대적 멀티 에이전트 환경인 고양이와 쥐 게임을 소개한 뒤, 이 게임을 테스트 베드 삼아 실험들을 전개함으로써 제안하는 RBFN 기반의 정책 모델의 효과를 분석해본다.

  • PDF

A Naive Bayesian-based Model of the Opponent's Policy for Efficient Multiagent Reinforcement Learning (효율적인 멀티 에이전트 강화 학습을 위한 나이브 베이지만 기반 상대 정책 모델)

  • Kwon, Ki-Duk
    • Journal of Internet Computing and Services
    • /
    • v.9 no.6
    • /
    • pp.165-177
    • /
    • 2008
  • An important issue in Multiagent reinforcement learning is how an agent should learn its optimal policy in a dynamic environment where there exist other agents able to influence its own performance. Most previous works for Multiagent reinforcement learning tend to apply single-agent reinforcement learning techniques without any extensions or require some unrealistic assumptions even though they use explicit models of other agents. In this paper, a Naive Bayesian based policy model of the opponent agent is introduced and then the Multiagent reinforcement learning method using this model is explained. Unlike previous works, the proposed Multiagent reinforcement learning method utilizes the Naive Bayesian based policy model, not the Q function model of the opponent agent. Moreover, this learning method can improve learning efficiency by using a simpler one than other richer but time-consuming policy models such as Finite State Machines(FSM) and Markov chains. In this paper, the Cat and Mouse game is introduced as an adversarial Multiagent environment. And then effectiveness of the proposed Naive Bayesian based policy model is analyzed through experiments using this game as test-bed.

  • PDF

Policy Modeling for Efficient Reinforcement Learning in Adversarial Multi-Agent Environments (적대적 멀티 에이전트 환경에서 효율적인 강화 학습을 위한 정책 모델링)

  • Kwon, Ki-Duk;Kim, In-Cheol
    • Journal of KIISE:Software and Applications
    • /
    • v.35 no.3
    • /
    • pp.179-188
    • /
    • 2008
  • An important issue in multiagent reinforcement learning is how an agent should team its optimal policy through trial-and-error interactions in a dynamic environment where there exist other agents able to influence its own performance. Most previous works for multiagent reinforcement teaming tend to apply single-agent reinforcement learning techniques without any extensions or are based upon some unrealistic assumptions even though they build and use explicit models of other agents. In this paper, basic concepts that constitute the common foundation of multiagent reinforcement learning techniques are first formulated, and then, based on these concepts, previous works are compared in terms of characteristics and limitations. After that, a policy model of the opponent agent and a new multiagent reinforcement learning method using this model are introduced. Unlike previous works, the proposed multiagent reinforcement learning method utilize a policy model instead of the Q function model of the opponent agent. Moreover, this learning method can improve learning efficiency by using a simpler one than other richer but time-consuming policy models such as Finite State Machines(FSM) and Markov chains. In this paper. the Cat and Mouse game is introduced as an adversarial multiagent environment. And effectiveness of the proposed multiagent reinforcement learning method is analyzed through experiments using this game as testbed.

Cyber-Salesman : An Agent negotiating with Customers (가상점원 : 고객과의 협상을 위한 에이전트)

  • 조의성;조근식
    • Proceedings of the Korea Inteligent Information System Society Conference
    • /
    • 1999.03a
    • /
    • pp.217-225
    • /
    • 1999
  • 협상은 상거래에 있어서 매우 중요한 요소 중 하나이다. 현재의 웹 기반 전자상거래 시스템은 이러한 중요한 협상 구조를 상거래에 잘 반영하지 못하는 문제점을 가지고 있다. 이러한 문제점중 기업과 소비자간의 미비한 협상 구조를 보안하기 위해 실세계 상거래에서 존재하는 점원을 전자상거래상의 가상점원으로 모델링하여 회사의 정책과 구매자의 특성을 반영하여 구매자와 전략적으로 자동 협상을 수행할 수 있는 에이전트의 구조를 설계하고 표현하고, 그 제안에 대한 평가 내용과 결정사항을 전달할 수 있는 언어적인 구조가 필요하며, 협상의 대상이 되는 사안들의 특성을 반영할 수 있는 표현 구조도 요구된다. 또한 이러한 협상에서 전략을 세우고 알맞은 제안을 제시하며 상대의 제안에 대하여 전략적으로 반응할 수 있는 의사결정 모델이 요구된다. 본 논문에서는 회사의 정책 모델과 구매자의 모델을 정의하고 이를 이용한 협상 모델을 설계 구현하였다. 협상 구조의 모델링을 위해 KQML(Knowledge Query Manipulation Language)을 기반으로 전자상거래 프로토콜로 설계하고, 논쟁 기반 협상 모델을 기초로 협상언어를 설계하였다. 또한 협상에서의 전략적인 의사결정을 위해 게임이론을 이용하고, 규칙 기반 시스템으로 이를 보충하였다. 마지막으로 가상점원 모델을 바탕으로 조립 컴퓨터 판매를 위한 가상점원으로 구현하였고, 이에 대한 실험을 통하여 가상점원의 유용성을 보였다.

  • PDF

Cyber-Salesman : An Agent negotiating with Customers (가상점원 : 고객과의 협상을 위한 에이전트)

  • 조의성;조근식
    • Proceedings of the Korea Database Society Conference
    • /
    • 1999.06a
    • /
    • pp.217-225
    • /
    • 1999
  • 협상은 상거래에 있어서 매우 중요한 요소 중 하나이다. 현재의 웹 기반 전자상거래 시스템은 이러한 중요한 협상 구조를 상거래에 잘 반영하지 못하는 문제점을 가지고 있다. 이러한 문제점중 기업과 소비자간의 미비한 협상 구조를 보안하기 위해 실세계 상거래에서 존재하는 점원을 전자상거래상의 가상점원으로 모델링하여 회사의 정책과 구매자의 특성을 반영하여 구매자와 전략적으로 자동 협상을 수행할 수 있는 에이전트의 구조를 설계하고 구현하였다. 협상은 매우 복잡한 구조를 가지고 있다. 이러한 협상 구조를 지원하기 위해서는 상호간의 제안을 표현하고, 그 제안에 대한 평가 내용과 결정사항을 전달할 수 있는 언어적인 조가 필요하며, 협상의 대상이 되는 사안들의 특성을 반영할 수 있는 표현 구조도 요구된다. 또한 이러한 협상에서 전략을 세우고 알맞은 제안을 제시하며 상대의 제안에 대하여 전략적으로 반응할 수 있는 의사결정 모델이 요구된다. 본 논문에서는 회사의 정책 모델과 구매자의 모델을 정의하고 이를 이용한 협상 모델을 설계 구현하였다. 협상 구조의 모델링을 위해 KQML(Knowledge Query Manipulation Language)을 기반으로 전자상거래 프로토콜로 설계하고, 논쟁 기반 협상 모델을 기초로 협상언어를 설계하였다. 또한 협상에서의 전략적인 의사결정을 위해 게임이론을 이용하고, 규칙 기반 시스템으로 이를 보충하였다. 마지막으로 가상점원 모델을 바탕으로 조립 컴퓨터 판매를 위한 가상점원을 구현하였고, 이에 대한 실험을 통하여 가상점원의 유용성을 보였다.

  • PDF

Cyber-Salesperson agent for automated negotiation with customers in EC (전자거래상에서의 구매자와 자동협상 수행을 위한 가상점원 시스템)

  • 조의성;조근식
    • Journal of Intelligence and Information Systems
    • /
    • v.5 no.2
    • /
    • pp.63-78
    • /
    • 1999
  • 협상은 상거래에 있어서 매우 중요한 요소 중 하나이다. 현재의 웹 기반 전자상거래 시스템은 이러한 중요한 협상 구조를 상거래에 잘 반영하지 못하는 문제점을 가지고 있다. 이러한 문제점중 기업과 소비자간의 미비한 협상 구조를 보안하기 위해 실세계 상거래에서 존재하는 점원을 전자상거래상의 가상점원으로 모델링하여 회사의 정책과 구매자의 특성을 반영하여 구매자와 전략적으로 자동 협상을 수행할 수 있는 에이전트의 구조를 설계하고 구현하였다. 협상은 매우 복잡한 구조를 가지고 있다. 이러한 협상 구조를 지원하기 위해서는 상호간의 제안을 표현하고, 그 제안에 대한 평가 내용과 결정사항을 전달할 수 있는 언어적인 구조가 필요하며, 협상의 대상이 되는 사안들의 특성을 반영할 수 있는 표현 구조도 요구된다. 또한 이러한 협상에서 전략을 세우고 알맞은 제안을 제시하며 상대의 제안에 대하여 전략적으로 반응할 수 있는 의사결정 모델이 요구된다. 본 논문에서는 회사의 정책 모델과 구매자의 모델을 정의하고 이를 이용한 협상 모델을 설계 구현하였다. 협상 구조의 모델링을 위해 KQML(Knowledge Query Manipulation Language)을 기반으로 전자상거래 프로토콜로 설계하고, 논쟁 기반 협상 모델을 기초로 협상언로를 설계하였다. 또한 협상에서의 전략적인 의사결정을 위해 게임이론을 이용하고, 규칙 기반 시스템으로 이를 보충하였다. 마지막으로 가상점원 모델을 바탕으로 조립 컴퓨터 판매를 위한 가상점원을 구현하였고, 이에 대한 실험을 통하여 가상점원의 유용성을 보였다.

  • PDF

Deep Learning Model for Mental Fatigue Discrimination System based on EEG (뇌파기반 정신적 피로 판별을 위한 딥러닝 모델)

  • Seo, Ssang-Hee
    • Journal of Digital Convergence
    • /
    • v.19 no.10
    • /
    • pp.295-301
    • /
    • 2021
  • Individual mental fatigue not only reduces cognitive ability and work performance, but also becomes a major factor in large and small accidents occurring in daily life. In this paper, a CNN model for EEG-based mental fatigue discrimination was proposed. To this end, EEG in the resting state and task state were collected and applied to the proposed CNN model, and then the model performance was analyzed. All subjects who participated in the experiment were right-handed male students attending university, with and average age of 25.5 years. Spectral analysis was performed on the measured EEG in each state, and the performance of the CNN model was compared and analyzed using the raw EEG, absolute power, and relative power as input data of the CNN model. As a result, the relative power of the occipital lobe position in the alpha band showed the best performance. The model accuracy is 85.6% for training data, 78.5% for validation, and 95.7% for test data. The proposed model can be applied to the development of an automated system for mental fatigue detection.

Polygonal Model Analysis on Occupational Exposure Record of Radiation Workers by Work Field (업종별 방사선작업종사자 피폭 기록 다각형 모델 분석 연구)

  • Je-Wan Park;Ji-Young Han;Yong-Min Kim
    • Journal of the Korean Society of Radiology
    • /
    • v.17 no.2
    • /
    • pp.277-284
    • /
    • 2023
  • Since the radiological risk is different depending on the working environment, protection measures and policies must be developed through analysis of the field area environment. Evaluating the characteristics of the field area that uses radiation should be conducted through comparative analysis with other industries, not just the numerical value of the field area. In this study, evaluation factors were derived from exposure records by the department to compare radiation occupational exposure records by sector. And then, we developed a polygonal model for comparative analysis and applied them to eight work fields through ten evaluation factors. Based on the occupational exposure record in 2020, a polygonal model was applied to compare and evaluate the characteristics of the radiation work area. Through this, the usefulness of the polygonal model was confirmed, and protection policy measures for the industry were proposed.

A three-dimensional patent evaluation model that considers the factors for calculating the internal and external value of a patent: Arrhenius chemical reaction kinetics-based patent lifespan prediction (특허의 내적.외적 가치산정요인을 고려한 입체적 특허평가모델: 아레니우스 화학반응속도론 기반의 특허수명예측)

  • Choi, Yong Muk;LEE, JAEWON;Cho, Daemyeong
    • Journal of Digital Convergence
    • /
    • v.19 no.6
    • /
    • pp.113-132
    • /
    • 2021
  • This study is a new evaluation using the Arrhenius equation, which is known as the chemical reaction rate estimation equation, to evaluate the intrinsic and extrinsic value elements of patents as a model. The performance of the evaluation model was superior to the SVM, Logistic reg. and ANN models that were used as patent evaluation models in prior studies. In addition, there was a strong correlation between the predicted lifespan of the patent and the actual lifespan of the patent. These evaluation models may be used for evaluation purposes only, or if an evaluation is required, including a commercialization entity or technical characteristics.

공공부문의 MIS 도입에 관한 연구

  • 서의호;최현아;이영민;서창교
    • Proceedings of the Korean Operations and Management Science Society Conference
    • /
    • 1993.10a
    • /
    • pp.6-7
    • /
    • 1993
  • MIS는 1970년대부터 국내기업에 도입되어 초기에는 단순한 데이타 처리용(TPS:Transaction Process System)으로 수립, 실행, 평가하는데 없어서는 안 될 요인이 되었다. 그러한 반면에 정부의 정보시스템 (IS:Information System)의 도입은 매우 저조한 수준에 머무르고 있다. 정부는 이익집단이 아니라는 이유 때문에 정부업무의 효율성을 위한 정보시스템 도입 방안-기자재의 도입, 새로운 시스템 구축, 우수한 인력의 도입-이 번번히 좌절되고 있다. 아울러 정부의 최고 의사결정자인 각료층의 잦은 교체도 IS 도입의 걸림돌이 되고 있다. 그러나 정부는 기업전체를 포함하여 국민을 전체 고객으로 상대하는 기관이라는 점에서 비록 이익집단은 아니더라도 전폭적인 투자가 필요하다. 가장 시급한 것은 각 부처의 정보를 종합한 통합된 데이타베이스의 구축이다. 이 중앙 데이타베이스에 의해서 정부는 보다 일관성 있고 신속하며 신뢰성 있는 정책을 결정하고 수행할 수 있을 것이다. 본 논문에서는 정부를 포함한 공공기관에 있어서 정보시스템 도입의 필요성에 대해서 분석해 보았다. 또 이를 토대로 정부 각 부처에 분산되어 있는 정보를 수집하여 통합된 데이타베이스를 구축하는데 필요한 개발모델을 세워보았다. 아울러 이러한 통합시스템의 파급효과 및 운용방법도 예측, 분석해 보았다.

  • PDF