• 제목/요약/키워드: 학습 정책

검색결과 1,338건 처리시간 0.022초

적대적 멀티 에이전트 환경에서 효율적인 강화 학습을 위한 정책 모델링 (Policy Modeling for Efficient Reinforcement Learning in Adversarial Multi-Agent Environments)

  • 권기덕;김인철
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제35권3호
    • /
    • pp.179-188
    • /
    • 2008
  • 멀티 에이전트 강화 학습에서 해결해야 할 중요한 문제는 자신의 작업 성능에 영향을 미칠 수 있는 다른 에이전트들이 존재하는 동적 환경에서 한 에이전트가 시행착오적 상호작용을 통해 어떻게 자신의 최적 행동 정책을 학습할 수 있느냐 하는 것이다. 멀티 에이전트 강화 학습을 위한 기존 연구들은 대부분 단일 에이전트 MDP 기반의 강화 학습기법들을 큰 변화 없이 그대로 적용하거나 비록 다른 에이전트에 관한 별도의 모델을 이용하더라도 다른 에이전트에 관해 요구되는 정보나 가정이 현실적이지 못하다는 한계점을 가지고 있다. 본 논문에서는 멀티 에이전트 강화 학습기술에 기초가 되는 기본 개념들을 정형화하고 이들을 기초로 기존 연구들의 특징과 한계점을 비교한다. 그리고 새로운 행동 정책 모델을 소개한 뒤, 이것을 이용한 강화 학습 방법을 설명한다. 본 논문에서 제안하는 멀티 에이전트 강화학습 방법은 상대 모델을 이용하는 기존의 멀티 에이전트 강화 학습 연구들에서 주로 시도되었던 상대 에이전트의 Q 평가 함수 모델 대신 상대 에이전트의 행동 정책 모델을 학습하며, 표현력은 풍부하나 학습에 시간과 노력이 많이 요구되는 유한 상태 오토마타나 마코프 체인과 같은 행동 정책 모델들에 비해 비교적 간단한 형태의 행동 정책 모델을 이용함으로써 학습의 효율성을 높였다. 또한, 본 논문에서는 대표적인 적대적 멀티 에이전트 환경인 고양이와 쥐게임을 소개하고, 이 게임을 테스베드삼아 비교 실험들을 수행하고 그 결과를 설명함으로써 본 논문에서 제안하는 정책 모델 기반의 멀티 에이전트 강화 학습의 효과를 분석해본다.

구조방정식을 이용한 사이버 가정학습 몰입 모형에 관한 연구

  • 백현기;하태현
    • 한국디지털정책학회:학술대회논문집
    • /
    • 한국디지털정책학회 2007년도 춘계학술대회
    • /
    • pp.361-375
    • /
    • 2007
  • 본 논문은 국내 사이버가정학습에서의 학습자 몰입을 형성하는 조건과 몰입, 그리고 학습 성과에 대한 영향간의 관계에 대하여 연구하였다. 이러한 탐구를 위해 Csikszentmihalyi(1990)의 몰입이론(flow theory)을 이론적 기반으로 삼았으며, 컴퓨터 매개 환경(Computer-Mediated Environment)에서의 학습활동에 참여하고 있는 사이버가정학습 수강자 310명으로부터 자료를 얻어 실증적 연구를 수행하였다. 사이버가정학습 학습자의 몰입은 '즐거움', '원격현존감', '주의집중', '관여', '시간왜곡'의 5가지 하위구인으로 정의하였고, 몰입 선행 조건은 학습에 필요한 '기술'과 과제수행의 '도전' 정도에 대한 개인의 인지도의 차이로 정의되었다. 실증적 연구를 위해 사이버가정학습 몰입측정 도구(Cyber-class Flow Measure)를 활용하였으며, 실제 몰입도 측정 후 몰입도가 높은 학습자 집단과 낮은 학습자 집단의 특성을 비교 분석하였다. 자료 분석결과 사이버가정학습 몰입도는 학습만족도 평가에 유의미한 영향을 미침을 보여주었다.

  • PDF

확장된 강화학습 시스템의 정형모델 (Formal Model of Extended Reinforcement Learning (E-RL) System)

  • 전도영;송명호;김수동
    • 인터넷정보학회논문지
    • /
    • 제22권4호
    • /
    • pp.13-28
    • /
    • 2021
  • 강화학습은 한 환경에서 에이전트가 정책에 따라 액션을 취하고 보상 함수를 통해 액션을 평가 및 정책 최적화 과정을 반복하는 Closed-Loop 구조로 이루어진 알고리즘이다. 이러한 강화학습의 주요 장점은 액션의 품질을 평가하고 정책을 지속적으로 최적화 하는 것이다. 따라서, 강화학습은 지능형 시스템, 자율제어 시스템 개발에 효과적으로 활용될 수 있다. 기존의 강화학습은, 단일 정책, 단일 보상함수 및 비교적 단순한 정책 업데이트 기법을 제한적인 문제에 대해 제시하고 적용하였다. 본 논문에서는 구성요소의 복수성을 지원하는 확장된 강화학습 모델을 제안한다. 제안되는 확정 강화학습의 주요 구성 요소들을 정의하고, 그들의 컴퓨팅 모델을 포함하는 정형 모델을 제시한다. 또한, 이 정형모델을 기반으로 시스템 개발을 위한 설계 기법을 제시한다. 제안한 모델을 기반으로 자율 최적화 자동차 내비게이터 시스템에 적용 및 실험을 진행한다. 제시된 정형 모델과 설계 기법을 적용한 사례연구로, 복수의 자동차들이 최적 목적지에 단 시간에 도착할 수 있는 진화된 내비게이터 시스템 설계 및 구현을 진행한다.

효율적인 경로 선택을 위한 Q-Learning 정책 및 보상 설계 (Q-Learning Policy and Reward Design for Efficient Path Selection)

  • 용성중;박효경;유연휘;문일영
    • 한국항행학회논문지
    • /
    • 제26권2호
    • /
    • pp.72-77
    • /
    • 2022
  • 강화학습의 기법 중 Q-Learning은 주어진 상태에서 행동을 수행하면서 미래의 효율적인 기댓값을 예측하는 Q 함수를 학습하면서 최적의 정책을 학습하는 것이다. Q-Learning은 강화학습의 기본적인 알고리즘으로 많이 활용하고 있다. 본 논문에서는 Q-Learning을 바탕으로 정책과 보상을 설계하여 효율적인 경로를 선택하고 학습하는 효용성에 대하여 연구하였다. 또한 Frozen Lake 게임의 8x8 그리드 환경에 동일한 학습 횟수를 적용하여 기존 알고리즘 및 처벌 보상 정책과 제시한 처벌강화 정책의 결과를 비교하였다. 해당 비교를 통해 본 논문에서 제시한 Q-Learning의 처벌강화 정책이 통상적인 알고리즘의 적용보다 학습 속도를 상당히 높일 수 있는 것으로 분석되었다.

범죄피해자 보호정책의 결정요인에 관한 연구 -경찰조직을 중심으로- (A Study on the Help for the Victims of Crime -Focusing on the Police Community in Korea-)

  • 안황권
    • 시큐리티연구
    • /
    • 제9호
    • /
    • pp.261-288
    • /
    • 2005
  • 본 연구는 피해자보호정책에 영향을 미치는 요인을 인구사회학적 특성에 따라 비교해 보고, 아울러 이 요인들이 범죄피해자보호에 어떠한 영향을 미치는가를 밝히는 것이 연구 목적이다. 그 결과를 보면 다음과 같다. 조직학습에 대한 인구사회학적 변수와 직무만족의 영향을 보면, 인구사회학적 변수에서는 근무지를 제외한 나머지 변수들은 직무몰입과 근무지향 그리고 직무만족에 대체로 유의미한 영향을 미치지 않지만, 조직학습의 요인들은 대체로 직무몰입과 근무지향 그리고 직무만족에 유의미한 영향을 미치는 것으로 나타났다. 즉, 조직구조의 신축성이 높을수록, 학습문화의 정도가 높을수록 그리고 시스템적 사고를 할수록 직무만족이 높은 것이다. 피해자보호정책 대응은 여성 그리고 경찰청에 근무하며 월평균수입이 높을수록 피해자 보호 정책 대응에 보다 적극적인 것이라고 할 수 있다. 따라서 여성 경찰공무원의 고용과 월평균 수입을 높임으로써 경찰공무원으로 하여금 피해자보호정책에 보다 적극적으로 대응할 수 있게 할 수 있을 것이다. 다음으로 조직학습, 직무마족의 영향을 보면, 조직학습이 직접적으로 피해자보호정책 대응에 영향을 준다기 보다는 직무만족을 통해 간접적으로 영향을 미치고 있기 때문이라고 생각한다. 따라서 조직학습을 통하여 직무만족을 높임으로써 피해자보호 정책에 보다 적극적으로 대응할 수 있게 할 수 있다는 생각이다.

  • PDF

구조화된 학습부진아 진단 자료 입력을 위한 온톨로지 개발 (Building an Ontology for Structured Diagnosis Data Entry of Educating Underachieving Students)

  • 하태현;백현기
    • 한국디지털정책학회:학술대회논문집
    • /
    • 한국디지털정책학회 2005년도 춘계학술대회
    • /
    • pp.545-555
    • /
    • 2005
  • 본 연구는 학습 부진아 진단 지식을 온톨로지로 표현함으로써 교사와 학생 간에 발생하는 학습 용어의 불일치성을 해소할 수 있으며 진단 과정에 있어 학습 부진아의 정보를 기반으로 한 추론을 기능하도록 한다. 또한 특정한 진단을 보여주는 일반적인 학습부진아 진단시스템과는 달리, 이러한 지식베이스를 이용하여 사용자에게 정확한 개념어(정답어)를 습득하게끔 해주고, 사용자의 인지 체계 속에 내포되어 있는 개념적 지식을 더욱 더 표면적으로 확장해 나갈 수 있는 온톨로지를 구축하는 방안을 제시한다.

  • PDF

초점기획- 1. STEPI 국제심포지움 「신흥공업국의 기술혁신과 경쟁력」주제발표(요약)자료

  • 과학기술정책연구원
    • 과학기술정책
    • /
    • 제7권7호통권100호
    • /
    • pp.22-36
    • /
    • 1997
  • 목차 1. 학습경제에서의 발전 전략 2. 개발도상국의 산업화과정에서 연구개발과 기술이전의 역할 3. 전환기를 맞은 한국의 기술혁신시스템 4. 동아시아와 동남아시아의 기술혁신시스템 5. 수요기업의 진입과 한국 자본재산업의 발전 6. 계약, 기업능력 그리고 경제발전: 신흥공업국에 대한 함의 7. 인터넷 기반의 국가혁신시스템이 아시아에 주는 의미 8. 국제기술협력과 기업의 동력 :NIEs의 의미 9. 삼성반도체의 동태적 기술경영능력에 대한 사례연구 10. 수평적 기술정책에 대한 학습론적 접근: 진화론적 인식 11. 아시아 신흥공업경제국가들의 효과적인 기술혁신 12. 한국의 산업발전과정에서 과학기술정책의 역할

  • PDF

정책 기울기 값 강화학습을 이용한 적응적인 QoS 라우팅 기법 연구 (A Study of Adaptive QoS Routing scheme using Policy-gradient Reinforcement Learning)

  • 한정수
    • 한국컴퓨터정보학회논문지
    • /
    • 제16권2호
    • /
    • pp.93-99
    • /
    • 2011
  • 본 논문에서는 강화학습(RL : Reinforcement Learning) 환경 하에서 정책 기울기 값 기법을 사용하는 적응적인 QoS 라우팅 기법을 제안하였다. 이 기법은 기존의 강화학습 환경 하에 제공하는 기법에 비해 기대 보상값의 기울기 값을 정책에 반영함으로써 빠른 네트워크 환경을 학습함으로써 보다 우수한 라우팅 성공률을 제공할 수 있는 기법이다. 이를 검증하기 위해 기존의 기법들과 비교 검증함으로써 그 우수성을 확인하였다.

행정규제정책순응에 미치는 학습지능과 사회지능의 영향력 비교 (The Comparison of the Impact of IQ and Social Intelligence on the Compliance with Administrative Regulatory Policies.)

  • 하옥현;오세윤
    • 한국컴퓨터정보학회논문지
    • /
    • 제14권11호
    • /
    • pp.247-256
    • /
    • 2009
  • 본 연구의 목적은 학습지능과 사회지능이 행정규제정책순응에 미치는 영향을 비교해보는 것이다. 분석결과 발견된 내용은 크게 두 가지이다. 하나는 학습지능과 사회지능 사이의 상관성이 극히 낮다는 것이다. 즉, 아무리 학습지능이 높다고 하더라도 사회지능이 이에 비례해서 높아지는 것은 아니라는 것이다. 다른 하나는 사회지능이 학습지능보다 정책순응에 미치는 영향력이 크다는 것이다. 정책의 효율적인 집행을 위해서 사회지능을 무시해서는 성공할 수 없는 시대가 되었다. 따라서 행정규제정책의 전반적인 순환과정에 사회지능적 요소가 적극적으로 관여되도록 정책 당국과 시민사회 모두의 노력이 있어야 할 것으로 사료된다.

강화 학습에서의 탐색과 이용의 균형을 통한 범용적 온라인 Q-학습이 적용된 에이전트의 구현 (Implementation of the Agent using Universal On-line Q-learning by Balancing Exploration and Exploitation in Reinforcement Learning)

  • 박찬건;양성봉
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제30권7_8호
    • /
    • pp.672-680
    • /
    • 2003
  • shopbot이란 온라인상의 판매자로부터 상품에 대한 가격과 품질에 관한 정보를 자동적으로 수집함으로써 소비자의 만족을 최대화하는 소프트웨어 에이전트이다 이러한 shopbot에 대응해서 인터넷상의 판매자들은 그들에게 최대의 이익을 가져다 줄 수 있는 에이전트인 pricebot을 필요로 할 것이다. 본 논문에서는 pricebot의 가격결정 알고리즘으로 비 모델 강화 학습(model-free reinforcement learning) 방법중의 하나인 Q-학습(Q-learning)을 사용한다. Q-학습된 에이전트는 근시안적인 최적(myopically optimal 또는 myoptimal) 가격 결정 전략을 사용하는 에이전트에 비해 이익을 증가시키고 주기적 가격 전쟁(cyclic price war)을 감소시킬 수 있다. Q-학습 과정 중 Q-학습의 수렴을 위해 일련의 상태-행동(state-action)을 선택하는 것이 필요하다. 이러한 선택을 위해 균일 임의 선택방법 (Uniform Random Selection, URS)이 사용될 경우 최적 값의 수렴을 위해서 Q-테이블을 접근하는 회수가 크게 증가한다. 따라서 URS는 실 세계 환경에서의 범용적인 온라인 학습에는 부적절하다. 이와 같은 현상은 URS가 최적의 정책에 대한 이용(exploitation)의 불확실성을 반영하기 때문에 발생하게 된다. 이에 본 논문에서는 보조 마르코프 프로세스(auxiliary Markov process)와 원형 마르코프 프로세스(original Markov process)로 구성되는 혼합 비정적 정책 (Mixed Nonstationary Policy, MNP)을 제안한다. MNP가 적용된 Q-학습 에이전트는 original controlled process의 실행 시에 Q-학습에 의해 결정되는 stationary greedy 정책을 사용하여 학습함으로써 auxiliary Markov process와 original controlled process에 의해 평가 측정된 최적 정책에 대해 1의 확률로 exploitation이 이루어질 수 있도록 하여, URS에서 발생하는 최적 정책을 위한 exploitation의 불확실성의 문제를 해결하게 된다. 다양한 실험 결과 본 논문에서 제한한 방식이 URS 보다 평균적으로 약 2.6배 빠르게 최적 Q-값에 수렴하여 MNP가 적용된 Q-학습 에이전트가 범용적인 온라인 Q-학습이 가능함을 보였다.