• 제목/요약/키워드: Q learning

검색결과 431건 처리시간 0.045초

양호교사의 성교육에 대한 태도 유형분석 : Q방법론적 접근 (An Analysis of School Health Nurses' Attitude Toward Sex Education: A Q-methodological Approach)

  • 정영숙
    • 지역사회간호학회지
    • /
    • 제6권2호
    • /
    • pp.197-211
    • /
    • 1995
  • This study was designed to identify school health nurses' attitudes toward sex education through a Q-methodological approach. Research was done from Apr. 3, 1995 to Oct. 15, 1995. A final Q-sample was selected to 37 statements out of initial 128 statements after consultation from counselors, educators and writers related to sex education. The P -sample was consisted with 32 school health nurses in Chonbuk province. The collected data were analyzed by Quanal program on PC. The results of the study were as follows: School health nurses are categorized into 6 types. The first type, receiving type with cognition deficiency about general learning objectives of sex education were consisted with 4 subjects. The second type, valuing type with cognition deficiency about general learning objectives of sex education were consisted with 6 subjects. The third type, adopting behavior type with cognition deficiency about specific learning objectives of sex education were consisted with 5 subjects. The fourth type, receiving type with cognition deficiency about specific learning objectives of sex education were consisted with 5 subjects. The fifth type, making sense of information type with cognition deficiency about specific learning objectives of sex education were consisted with 5 subjects. The sixth type, adopting behavior type with cognition deficiency about general learning objectives of sex education were consisted with 7 subjects. As a result of this study, we may realize necessity of prepared sex educators. Sex the educators must be fully cognitive and affective toward sex education before practicing sex education.

  • PDF

Ant-Q 학습을 이용한 Gale-Shapley 문제 해결에 관한 연구 (Solving the Gale-Shapley Problem by Ant-Q learning)

  • 김현;정태충
    • 정보처리학회논문지B
    • /
    • 제18B권3호
    • /
    • pp.165-172
    • /
    • 2011
  • 본 논문에서는 생물학의 개미들이 학습을 통해 목표를 획득하는 방법을 응용한 Ant-Q 알고리즘(Ant Q learning System)[1]을 Gale-Shapley[2]알고리즘을 통해 제시되었던 안정된 결혼문제(SMP: Stable Marriage Problem)[3]의 새로운 해법을 찾기 위해 적용 하였다. SMP는 남성($m_i$)들과 여성($w_j$)들은 각자 자신이 좋아하는 이상형에 대한 선호도(PL: preference list)를 바탕으로 안정이면서도 최선의 짝을 찾는 것을 목표로 하고 있다. Gale-Shapley 알고리즘은 남성(혹은 여성) 위주로 안정적(stability)인 짝(Matching)을 성사시키므로 다양한 조건을 수용하지 못한다. 본 논문에 적용된 Ant-Q는 개미(Ant)의 페로몬을 활용한 학습인 ACS(Ant colony system)에 강화학습의 일종인 Q-학습[9]을 추가한 방법으로, SMP의 새로운 해법을 찾을 수 있었다.

미로 환경에서 최단 경로 탐색을 위한 실시간 강화 학습 (Online Reinforcement Learning to Search the Shortest Path in Maze Environments)

  • 김병천;김삼근;윤병주
    • 정보처리학회논문지B
    • /
    • 제9B권2호
    • /
    • pp.155-162
    • /
    • 2002
  • 강화 학습(reinforcement teaming)은 시행-착오(trial-and-er개r)를 통해 동적 환경과 상호작용하면서 학습을 수행하는 학습 방법으로, 실시간 강화 학습(online reinforcement learning)과 지연 강화 학습(delayed reinforcement teaming)으로 분류된다. 본 논문에서는 미로 환경에서 최단 경로를 빠르게 탐색할 수 있는 실시간 강화 학습 시스템(ONRELS : Outline REinforcement Learning System)을 제안한다. ONRELS는 현재 상태에서 상태전이를 하기 전에 선택 가능한 모든 (상태-행동) 쌍에 대한 평가 값을 갱신하고 나서 상태전이를 한다. ONRELS는 미로 환경의 상태 공간을 압축(compression)하고 나서 압축된 환경과 시행-착오를 통해 상호 작용하면서 학습을 수행한다. 실험을 통해 미로 환경에서 ONRELS는 TD -오류를 이용한 Q-학습과 $TD(\lambda{)}$를 이용한 $Q(\lambda{)}$-학습보다 최단 경로를 빠르게 탐색할 수 있음을 알 수 있었다.

강화학습을 이용한 n-Queen 문제의 수렴속도 향상 (The Improvement of Convergence Rate in n-Queen Problem Using Reinforcement learning)

  • 임수연;손기준;박성배;이상조
    • 한국지능시스템학회논문지
    • /
    • 제15권1호
    • /
    • pp.1-5
    • /
    • 2005
  • 강화학습(Reinforcement-Learning)의 목적은 환경으로부터 주어지는 보상(reward)을 최대화하는 것이며, 강화학습 에이전트는 외부에 존재하는 환경과 시행착오를 통하여 상호작용하면서 학습한다 대표적인 강화학습 알고리즘인 Q-Learning은 시간 변화에 따른 적합도의 차이를 학습에 이용하는 TD-Learning의 한 종류로서 상태공간의 모든 상태-행동 쌍에 대한 평가 값을 반복 경험하여 최적의 전략을 얻는 방법이다. 본 논문에서는 강화학습을 적용하기 위한 예를 n-Queen 문제로 정하고, 문제풀이 알고리즘으로 Q-Learning을 사용하였다. n-Queen 문제를 해결하는 기존의 방법들과 제안한 방법을 비교 실험한 격과, 강화학습을 이용한 방법이 목표에 도달하기 위한 상태전이의 수를 줄여줌으로써 최적 해에 수련하는 속도가 더욱 빠름을 알 수 있었다.

강화학습 기반 무인항공기 이동성 모델에 관한 연구 (Research on Unmanned Aerial Vehicle Mobility Model based on Reinforcement Learning)

  • 김경훈;조민규;박창용;김정호;김수현;선영규;김진영
    • 한국인터넷방송통신학회논문지
    • /
    • 제23권6호
    • /
    • pp.33-39
    • /
    • 2023
  • 최근 비행 애드-훅 네트워크(Flying Ad-hoc Network) 환경에서 강화학습을 이용한 통신 성능 개선과 이동성 모델 설계에 관한 연구가 진행되고 있다. 무인항공기(UAV)에서의 이동성 모델은 움직임을 예측하고 제어하기 위한 핵심요소로 주목받고 있다. 본 논문에서는 무인항공기가 운용되는 3차원 가상 환경을 구현하고, 무인항공기의 경로 최적화를 위해 푸리에 기저 함수 근사를 적용한 Q-learning과 DQN 두 가지 강화학습 알고리즘을 적용하여 모델을 설계 및 성능을 분석하였다. 실험 결과를 통해 3차원 가상 환경에서 DQN 모델이 Q-learning 모델 대비 최적의 경로 탐색에 적합한 것을 확인하였다.

복수의 부분작업을 처리할 수 있는 확정된 Q-Learning (Extended Q-Learning under Multiple Subtasks)

  • 오도훈;이현숙;오경환
    • 인지과학
    • /
    • 제12권1_2호
    • /
    • pp.25-34
    • /
    • 2001
  • 지식을 관리하는 것에 주력했던 기존의 인공지능 연구 방향은 동적으로 움직이는 외부 환경에서 적응할 수 있는 시스템 구축으로 변화하고 있다. 이러한 시스템의 기본 능력을 이루는 많은 학습방법 중에서 비교적 최근에 제시된 강화학습은 일반적인 사례에 적용하기 쉽고 동적인 환경에서 뛰어난 적응 능력을 보여주었다. 이런 장점을 바탕으로 강화학습은 에이전트 연구에 많이 사용되고 있다. 하지만, 현재까지 연구결과는 강화학습으로 구축된 에이전트로 해결할 수 있는 작업의 난이도에 한계가 있음을 보이고 있다. 특히, 복수의 부분 작업으로 구성되어 있는 작업을 처리할 경우에 기본의 강화학습 방법은 문제 해결에 한계를 보여주고 있다. 본 논문에서는 복수의 부분 작업으로 구성된 작업이 왜 처리하기 힘든가를 분석하고, 이런 문제를 처리할 수 있는 방안을 제안한다. 본 논문에서 제안하고 있는 EQ-Learning의 강화학습 방법의 대표적인 Q-Learning을 확장시켜 문제를 해결한다. 이 방법은 각각의 부분 작업 해결 방안을 학습시키고 그 학습 결과들의 적절한 순서를 찾아내 전체 작업을 해결한다. EQ-Learning의 타당성을 검증하기 위해 격자 공간에서 복수의 부분작업으로 구성된 미로 문제를 통하여 실험하였다.

  • PDF

Multi-regional Anti-jamming Communication Scheme Based on Transfer Learning and Q Learning

  • Han, Chen;Niu, Yingtao
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제13권7호
    • /
    • pp.3333-3350
    • /
    • 2019
  • The smart jammer launches jamming attacks which degrade the transmission reliability. In this paper, smart jamming attacks based on the communication probability over different channels is considered, and an anti-jamming Q learning algorithm (AQLA) is developed to obtain anti-jamming knowledge for the local region. To accelerate the learning process across multiple regions, a multi-regional intelligent anti-jamming learning algorithm (MIALA) which utilizes transferred knowledge from neighboring regions is proposed. The MIALA algorithm is evaluated through simulations, and the results show that the it is capable of learning the jamming rules and effectively speed up the learning rate of the whole communication region when the jamming rules are similar in the neighboring regions.

단말간 직접 통신 네트워크를 위한 심층 강화학습 기반 분산적 스케쥴링 알고리즘 (A Distributed Scheduling Algorithm based on Deep Reinforcement Learning for Device-to-Device communication networks)

  • 정무웅;김륜우;반태원
    • 한국정보통신학회논문지
    • /
    • 제24권11호
    • /
    • pp.1500-1506
    • /
    • 2020
  • 본 논문에서는 오버레이 단말 간 직접 (Device-to-Device : D2D) 통신 네트워크를 위한 강화학습 기반 스케쥴링 문제를 연구한다. 강화학습 모델 중 하나인 Q-learning을 이용한 D2D 통신 기술들이 연구되었지만, Q-learning은 상태와 행동의 개수가 증가함에 따라서 높은 복잡도를 유발한다. 이러한 문제를 해결하기 위하여 Deep Q Network (DQN) 기반 D2D 통신 기술들이 연구되었다. 본 논문에서는 무선 통신 시스템 특성을 고려한 DQN 모델을 디자인하고, 피드백 및 시그널링 오버헤드를 줄일 수 있는 DQN 기반 분산적 스케쥴링 방식을 제안한다. 제안 방식은 중앙집중식으로 변수들을 학습시키고, 최종 학습된 파라미터를 모든 단말들에게 전달한다. 모든 단말들은 최종 학습된 파라미터를 이용하여 각자의 행동을 개별적으로 결정한다. 제안 방식의 성능을 컴퓨터 시뮬레이션을 통하여 분석하고, 최적방식, 기회주의적 선택 방식, 전체 전송 방식과 비교한다.

Adapative Modular Q-Learning for Agents´ Dynamic Positioning in Robot Soccer Simulation

  • Kwon, Ki-Duk;Kim, In-Cheol
    • 제어로봇시스템학회:학술대회논문집
    • /
    • 제어로봇시스템학회 2001년도 ICCAS
    • /
    • pp.149.5-149
    • /
    • 2001
  • The robot soccer simulation game is a dynamic multi-agent environment. In this paper we suggest a new reinforcement learning approach to each agent´s dynamic positioning in such dynamic environment. Reinforcement learning is the machine learning in which an agent learns from indirect, delayed reward an optimal policy to choose sequences of actions that produce the greatest cumulative reward. Therefore the reinforcement learning is different from supervised learning in the sense that there is no presentation of input-output pairs as training examples. Furthermore, model-free reinforcement learning algorithms like Q-learning do not require defining or learning any models of the surrounding environment. Nevertheless ...

  • PDF

Priority-based learning automata in Q-learning random access scheme for cellular M2M communications

  • Shinkafi, Nasir A.;Bello, Lawal M.;Shu'aibu, Dahiru S.;Mitchell, Paul D.
    • ETRI Journal
    • /
    • 제43권5호
    • /
    • pp.787-798
    • /
    • 2021
  • This paper applies learning automata to improve the performance of a Q-learning based random access channel (QL-RACH) scheme in a cellular machine-to-machine (M2M) communication system. A prioritized learning automata QL-RACH (PLA-QL-RACH) access scheme is proposed. The scheme employs a prioritized learning automata technique to improve the throughput performance by minimizing the level of interaction and collision of M2M devices with human-to-human devices sharing the RACH of a cellular system. In addition, this scheme eliminates the excessive punishment suffered by the M2M devices by controlling the administration of a penalty. Simulation results show that the proposed PLA-QL-RACH scheme improves the RACH throughput by approximately 82% and reduces access delay by 79% with faster learning convergence when compared with QL-RACH.