• 제목/요약/키워드: Q-Learning

검색결과 432건 처리시간 0.029초

사전 지식에 의한 강화학습 에이전트의 학습 속도와 경향성 변화 (How the Learning Speed and Tendency of Reinforcement Learning Agents Change with Prior Knowledge)

  • 김지수;이은헌;김현철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 춘계학술발표대회
    • /
    • pp.512-515
    • /
    • 2020
  • 학습 속도가 느린 강화학습을 범용적으로 활용할 수 있도록 연구가 활발하게 이루어지고 있다. 사전 지식을 제공해서 학습 속도를 높일 수 있지만, 잘못된 사전 지식을 제공했을 위험이 존재한다. 본 연구는 불확실하거나 잘못된 사전 지식이 학습에 어떤 영향을 미치는지 살펴본다. OpenAI Gym 라이브러리를 이용해서 만든 Gamble 환경, Cliff 환경, 그리고 Maze 환경에서 실험을 진행했다. 그 결과 사전 지식을 통해 에이전트의 행동에 경향성을 부여할 수 있다는 것을 확인했다. 또한, 경로탐색에 있어서 잘못된 사전 지식이 얼마나 학습을 방해하는지 알아보았다.

Methodology for Apartment Space Arrangement Based on Deep Reinforcement Learning

  • Cheng Yun Chi;Se Won Lee
    • Architectural research
    • /
    • 제26권1호
    • /
    • pp.1-12
    • /
    • 2024
  • This study introduces a deep reinforcement learning (DRL)-based methodology for optimizing apartment space arrangements, addressing the limitations of human capability in evaluating all potential spatial configurations. Leveraging computational power, the methodology facilitates the autonomous exploration and evaluation of innovative layout options, considering architectural principles, legal standards, and client re-quirements. Through comprehensive simulation tests across various apartment types, the research demonstrates the DRL approach's effec-tiveness in generating efficient spatial arrangements that align with current design trends and meet predefined performance objectives. The comparative analysis of AI-generated layouts with those designed by professionals validates the methodology's applicability and potential in enhancing architectural design practices by offering novel, optimized spatial configuration solutions.

해외선물 스캘핑을 위한 강화학습 알고리즘의 성능비교 (Performance Comparison of Reinforcement Learning Algorithms for Futures Scalping)

  • 정득교;이세훈;강재모
    • 문화기술의 융합
    • /
    • 제8권5호
    • /
    • pp.697-703
    • /
    • 2022
  • 최근 Covid-19 및 불안한 국제정세로 인한 경기 침체로 많은 투자자들이 투자의 한 수단으로써 파생상품시장을 선택하고 있다. 하지만 파생상품시장은 주식시장에 비해 큰 위험성을 가지고 있으며, 시장 참여자들의 시장에 대한 연구 역시 부족한 실정이다. 최근 인공지능 분야의 발달로 파생상품시장에서도 기계학습이 많이 활용되고 있다. 본 논문은 해외선물에 분 단위로 거래하는 스캘핑 거래의 분석을 위해 기계학습 기법 중 하나인 강화학습을 적용하였다. 데이터 세트는 증권사에서 거래되는 해외선물 상품들 중 4개 상품을 선정해, 6개월간 1분봉 및 3분봉 데이터의 종가, 이동평균선 및 볼린저 밴드 지표들을 이용한 21개의 속성으로 구성하였다. 실험에는 DNN 인공신경망 모델과 강화학습 알고리즘인 DQN(Deep Q-Network), A2C(Advantage Actor Critic), A3C(Asynchronous A2C)를 사용하고, 학습 데이터 세트와 테스트 데이터 세트를 통해 학습 및 검증 하였다. 에이전트는 스캘핑을 위해 매수, 매도 중 하나의 행동을 선택하며, 행동 결과에 따른 포트폴리오 가치의 비율을 보상으로 한다. 실험 결과 에너지 섹터 상품(Heating Oil 및 Crude Oil)이 지수 섹터 상품(Mini Russell 2000 및 Hang Seng Index)에 비해 상대적으로 높은 누적 수익을 보여 주었다.

인지 무선 시스템에서 강화학습 기반 협력 센싱 기법 (Reinforce Learning Based Cooperative Sensing for Cognitive Radio Networks)

  • 김도윤;최영준;;최증원
    • 한국전자통신학회논문지
    • /
    • 제13권5호
    • /
    • pp.1043-1050
    • /
    • 2018
  • 본 논문은 인지 무선(CR, Cognitive Radio) 네트워크에서 우선 사용자(Primary User)의 존재 유무를 2차 사용자(Secondary User)가 결정하기 위하여 협력 센싱을 사용하는 환경에서 스펙트럼 센싱의 감지 성능을 높이기 위해 강화 학습(Reinforce learning) 기반으로 최적의 인지 무선 사용자 선택하는 협력 센싱 방안을 제안한다. 협력 센싱을 통해 파악한 전역 센싱 결과와 인지 무선 사용자의 센싱 결과 간의 유사도에 따라 정확도가 높은 사용자를 파악한다. 이 정확도를 강화학습의 보상으로 사용하여 협력 센싱을 수행할수록 전역 결정과 일치하는 센싱 정보를 전송하는 사용자를 선택할 수 있다. 실험 결과 제안한 기법이 기존 협력 센싱 대비 향상된 스펙트럼 감지 성능을 보임을 확인할 수 있다.

fNIRS 기반 실시간 집중력 모니터링 모바일 애플리케이션 (Mobile Application for Real-Time Monitoring of Concentration Based on fNIRS)

  • 강선화;이현주;나희원;동서연
    • 한국멀티미디어학회논문지
    • /
    • 제24권2호
    • /
    • pp.295-304
    • /
    • 2021
  • Learning assistance system that continuously measures user's concentration will be helpful to grasp the concentration pattern and adjust the learning method accordingly to improve the learning efficiency. Although a lot of various learning aids have been proposed, there have been few studies on the concentration monitoring system in real time. Therefore, in this study, we developed an Android-based mobile application that can measure concentration during study by using functional near-infrared spectroscopy, which is used to measure brain activity. First, the task accuracy was predicted at a maximum level of 93.75% from the prefrontal oxygenation characteristics measured while performing the visual Q&A task on 11 college students, and a concentration calculation formula based on a linear regression model was derived. Then, a survey on the usability of the mobile application was conducted, overall high satisfaction and positive opinions were obtained. From these findings, this application can be used as a customized learning aid application for users, and further, it can help educators improve the quality of classes based on the level of concentration of learners.

일, 노동, 당신은 어떻게 생각하십니까?: Q방법론을 활용하여 (Work, Labor! What do you think about ? ; Using the Q-methodology)

  • 이순희;정명자;이도희
    • 한국콘텐츠학회논문지
    • /
    • 제20권12호
    • /
    • pp.547-554
    • /
    • 2020
  • 본 연구는 우리가 하고 있는 일상의 업무, 일, 노동에 대하여 과연 어떻게 생각하고 있으며, 어떤 의미가 있는지를 고찰하고자 하였다. 특히, 본 연구에서는 '질적연구'의 하나인 'Q방법론'을 활용하여 일반 근로자를 대상으로 자신의 일, 노동에 대한 생각에서 출발하였다. 이에 일련의 Q분석과정을 거치면서, 다음과 같은 분석 결과를 도출하였다. 첫째, 유형화 분석결과 3개의 유형이 추출되었고, 각 유형별로 강조하고 있는 Q진술문을 바탕으로 다음과 같이 명명하였다. <유형I>은 일, 노동은 '축복/행복', '휴식', '애인', '보람'과 같은 진술문을 강조하고 있어, 「긍정형」으로 명명하였다. <유형II>는 '괴로움', '하루시작', '의무', '전쟁'과 같은 진술문이 강조하고 있어, 「부정형」으로 명명하였다. <유형III>은 '동료 및 벗'과 '학습' 등이 긍정진술문으로 나타났고, '하루시작', '의무', '휴식'등은 부정진술문으로 나타나고 있어, 「긍정중립형」으로 명명하였다. 분석결과에서 볼 수 있듯이, 우리의 일상에서 빼놓을 수 없는 존재인 '일', '노동'은 꼭 해야만 하는 축복이고 행복이며, 동료나 벗이기도 하지만, 그 존재의 가치는 적당한 '휴식'을 전제할 때 가능한 것임을 알 수 있다. 더불어 Q방법론이 가설발견적 접근방법으로써의 유용성과 더불어, 향후 실증연구로의 확장연구를 기대한다.

사춘기 자녀를 둔 부모의 양육경험에 관한 주관성 연구 (A Study on the Subjectivity of Parenting Experience of Parents with Adolescent Children)

  • 김영희;최향
    • 문화기술의 융합
    • /
    • 제10권4호
    • /
    • pp.373-381
    • /
    • 2024
  • 우리는 최근 상담 현장에서 이슈가 되고 있는 아동학대 피해 아동이 10~17세가 가장 높았고, 부모에 의한 발생 건수가 가장 많음을 확인하였다. 우리는 자녀성장에 중요한 역할을 하는 사춘기 부모 양육경험의 어려움에 대해 이해하기 위해 상담 및 부모교육을 진행하면서 사춘기 자녀를 둔 부모의 고충을 이해하고자 하였다. 따라서 본 연구에서는 Q 방법론을 활용하여 사춘기 자녀를 둔 부모의 양육경험에 관한 주관적 인식유형과 유형별 특성을 분석하고자 하였다. Q 모집단을 구성하여 Q 표본 33문항 진술문을 추출한 후, P 표본 사춘기 자녀를 둔 부모 35명을 대상으로 Q 표본 분류하여, QUANL 프로그램으로 인식유형 분석을 실시하였다. 우리의 연구결과, 유형 1은 자녀를 끝없이 이해하는 과정이라고 인식하는 '무조건적인 사랑과 이해형', 유형 2는 자녀와의 공감, 소통과 부모의 성찰 및 변화에 대해 인식하는 '성찰과 변화형', 유형 3은 자녀양육에 대해 배우며 자녀의 심리적 독립과 성장을 돕고 자신도 행복해야 한다고 인식하는 '학습과 심리적 독립 조력형', 유형 4는 어린시절 자녀양육에 대한 후회와 부모로서 정체성 혼란에 대해 인식하는 '후회와 정체성 혼란형' 으로 나타났다. 우리의 연구는 실제 사춘기 자녀를 둔 부모가 지각하는 양 육경험에 대해 주관적 인식구조를 유형별로 분류하였다는데 의의가 있다. 이러한 양육경험에 관한 주관성 연구는 사춘기 자녀를 양육하는 부모교육과 부모상담의 기초자료로 활용될 것을 기대한다.

심층 강화학습 기반의 대학 전공과목 추천 시스템 (Recommendation System of University Major Subject based on Deep Reinforcement Learning)

  • 임덕선;민연아;임동균
    • 한국인터넷방송통신학회논문지
    • /
    • 제23권4호
    • /
    • pp.9-15
    • /
    • 2023
  • 기존의 단순 통계 기반 추천 시스템은 학생들의 수강 이력 데이터만을 활용하기 때문에 선호하는 수업을 찾는 것에 많은 어려움을 겪고 있다. 이를 해결하기 위해, 본 연구에서는 심층 강화학습 기반의 개인화된 전공과목 추천 시스템을 제안한다. 이 시스템은 학생의 학과, 학년, 수강 이력 등의 정형 데이터를 기반으로 학생들 간의 유사도를 측정하며, 이를 통해 각 전공과목에 대한 정보와 학생들의 강의 평가를 종합적으로 고려하여 가장 적합한 전공과목을 추천한다. 본 논문에서는 이 DRL 기반의 추천 시스템을 통해 대학생들이 전공과목을 선택하는 데에 유용한 정보를 제공하며, 이를 통계 기반 추천 시스템과 비교하였을 때 더 우수한 성능을 보여주는 것을 확인하였다. 시뮬레이션 결과, 심층 강화학습 기반의 추천 시스템은 통계 기반 추천 시스템에 비해 수강 과목 예측률에서 약 20%의 성능 향상을 보였다. 이러한 결과를 바탕으로, 학생들의 강의 평가를 반영하여 개인화된 과목 추천을 제공하는 새로운 시스템을 제안한다. 이 시스템은 학생들이 자신의 선호와 목표에 맞는 전공과목을 찾는 데에 큰 도움이 될 것으로 기대한다.

미국 국립공원 주니어레인저 워크북 특성 및 국내 지형교육에의 시사점 (Characteristics of Junior Ranger Activity Books of U.S. National Parks and Their Implications for Geomorphological Education in Korea)

  • 김태호
    • 한국지형학회지
    • /
    • 제28권1호
    • /
    • pp.101-114
    • /
    • 2021
  • Junior Ranger is a self-directed interpretation program for young visitors at national parks in the United States. The success of this program can be largely attributed to the role of an activity book which is given an applicant free of charge at a visitor center. This study aims to analyze the main characteristics of activity books for 14 national parks' Junior Ranger and to draw some implications for Korean geomorphological education. Although the activity books are varied in size, volume and printing, all of them offer diverse activities which are composed of different contents related to park resources in four fields and are performed in different ways such as Q&A, picture and word game, and creative activity. The time-consuming activities including attendance at a ranger-led program prevent the participant from making a superficial visit to be a junior ranger. The implications of the study are as follows: Firstly, the geomorphological education for children is needed to be strongly based on field experience learning and to be more carried out using a way of game rather than conventional Q&A, suggesting that it encourages students not to lose their interest for learning. Secondly, it is also necessary for the learning contents to be focused on various resources related to landform as well as landform itself. In addition, a creative activity such as writing verse or drawing feeling should be more applied to the geomorphological education in order to enhance their effects on affective domain beyond cognitive one. It is likely to be an alternative approach to understand landform by internalizing a sense of landform.

강화학습을 이용한 트레이딩 전략 (Trading Strategies Using Reinforcement Learning)

  • 조현민;신현준
    • 한국산학기술학회논문지
    • /
    • 제22권1호
    • /
    • pp.123-130
    • /
    • 2021
  • 최근 컴퓨터 기술이 발전하면서 기계학습 분야에 관한 관심이 높아지고 있고 다양한 분야에 기계학습 이론을 적용하는 사례가 크게 증가하고 있다. 특히 금융 분야에서는 금융 상품의 미래 가치를 예측하는 것이 난제인데 80년대부터 지금까지 기술적 및 기본적 분석에 의존하고 있다. 기계학습을 이용한 미래 가치 예측 모형들은 다양한 잠재적 시장변수에 대응하기 위한 모형 설계가 무엇보다 중요하다. 따라서 본 논문은 기계학습의 하나인 강화학습 모형을 이용해 KOSPI 시장에 상장되어 있는 개별 종목들의 주가 움직임을 정량적으로 판단하여 이를 주식매매 전략에 적용한다. 강화학습 모형은 2013년 구글 딥마인드에서 제안한 DQN와 A2C 알고리즘을 이용하여 KOSPI에 상장된 14개 업종별 종목들의 과거 약 13년 동안의 시계열 주가에 기반한 데이터세트를 각각 입력 및 테스트 데이터로 사용한다. 데이터세트는 8개의 주가 관련 속성들과 시장을 대표하는 2개의 속성으로 구성하였고 취할 수 있는 행동은 매입, 매도, 유지 중 하나이다. 실험 결과 매매전략의 평균 연 환산수익률 측면에서 DQN과 A2C이 대안 알고리즘들보다 우수하였다.