• 제목/요약/키워드: Q-최적 실험

검색결과 86건 처리시간 0.035초

이산 시간 스위칭 선형 시스템의 적응 LQ 준최적 제어를 위한 Q-학습법 (Q-learning for Adaptive LQ Suboptimal Control of Discrete-time Switched Linear System)

  • 전태윤;최윤호;박진배
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2011년도 제42회 하계학술대회
    • /
    • pp.1874-1875
    • /
    • 2011
  • 본 논문에서는 스위칭 선형 시스템의 적응 LQ 준최적 제어를 위한 Q-학습법 알고리즘을 제안한다. 제안된 제어 알고리즘은 안정성이 증명된 기존 Q-학습법에 기반하며 스위칭 시스템 모델의 변수를 모르는 상황에서도 준최적 제어가 가능하다. 이 알고리즘을 기반으로 기존에 스위칭 시스템에서 고려하지 않았던 각 시스템의 불확실성 및 최적 적응 제어 문제를 해결하고 컴퓨터 모의실험을 통해 제안한 알고리즘의 성능과 결과를 검증한다.

  • PDF

d-q축 등가회로 해석기법을 이용한 180 W급 IPMSM 설계에 관한 연구 (A Study of Design for Interior Permanent Magnet Synchronous Motor by using d-q Axis Equivalent Circuit Method)

  • 김영균
    • 한국자기학회지
    • /
    • 제27권2호
    • /
    • pp.54-62
    • /
    • 2017
  • 본 논문은 압축기 구동용 180 W급 매입형 영구자석 동기 전동기의 설계에 관하여 기술하였다. 먼저 전동기의 초기설계는 d-q 등가회로 모델을 이용한 해석기법을 이용하여 전동기 파라메타범위를 선정하고 이를 만족하는 초기형상을 도출하였다. 그리고, 전동기의 토크 리플을 저감하기 위해서 최적설계를 수행하였다. 최적설계는 실험계획법과 반응표면법을 이용하였으며, 끝으로 설계결과에 대한 타당성은 실험을 통해서 검증하였다.

강화 학습에서의 탐색과 이용의 균형을 통한 범용적 온라인 Q-학습이 적용된 에이전트의 구현 (Implementation of the Agent using Universal On-line Q-learning by Balancing Exploration and Exploitation in Reinforcement Learning)

  • 박찬건;양성봉
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제30권7_8호
    • /
    • pp.672-680
    • /
    • 2003
  • shopbot이란 온라인상의 판매자로부터 상품에 대한 가격과 품질에 관한 정보를 자동적으로 수집함으로써 소비자의 만족을 최대화하는 소프트웨어 에이전트이다 이러한 shopbot에 대응해서 인터넷상의 판매자들은 그들에게 최대의 이익을 가져다 줄 수 있는 에이전트인 pricebot을 필요로 할 것이다. 본 논문에서는 pricebot의 가격결정 알고리즘으로 비 모델 강화 학습(model-free reinforcement learning) 방법중의 하나인 Q-학습(Q-learning)을 사용한다. Q-학습된 에이전트는 근시안적인 최적(myopically optimal 또는 myoptimal) 가격 결정 전략을 사용하는 에이전트에 비해 이익을 증가시키고 주기적 가격 전쟁(cyclic price war)을 감소시킬 수 있다. Q-학습 과정 중 Q-학습의 수렴을 위해 일련의 상태-행동(state-action)을 선택하는 것이 필요하다. 이러한 선택을 위해 균일 임의 선택방법 (Uniform Random Selection, URS)이 사용될 경우 최적 값의 수렴을 위해서 Q-테이블을 접근하는 회수가 크게 증가한다. 따라서 URS는 실 세계 환경에서의 범용적인 온라인 학습에는 부적절하다. 이와 같은 현상은 URS가 최적의 정책에 대한 이용(exploitation)의 불확실성을 반영하기 때문에 발생하게 된다. 이에 본 논문에서는 보조 마르코프 프로세스(auxiliary Markov process)와 원형 마르코프 프로세스(original Markov process)로 구성되는 혼합 비정적 정책 (Mixed Nonstationary Policy, MNP)을 제안한다. MNP가 적용된 Q-학습 에이전트는 original controlled process의 실행 시에 Q-학습에 의해 결정되는 stationary greedy 정책을 사용하여 학습함으로써 auxiliary Markov process와 original controlled process에 의해 평가 측정된 최적 정책에 대해 1의 확률로 exploitation이 이루어질 수 있도록 하여, URS에서 발생하는 최적 정책을 위한 exploitation의 불확실성의 문제를 해결하게 된다. 다양한 실험 결과 본 논문에서 제한한 방식이 URS 보다 평균적으로 약 2.6배 빠르게 최적 Q-값에 수렴하여 MNP가 적용된 Q-학습 에이전트가 범용적인 온라인 Q-학습이 가능함을 보였다.

KFD 회귀를 이용한 뉴럴-큐 기법 (Neural-Q method based on KFD regression)

  • 조원희;김영일;박주영
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2003년도 춘계 학술대회 학술발표 논문집
    • /
    • pp.85-88
    • /
    • 2003
  • 강화학습의 한가지 방법인 Q-learning은 최근에 Linear Quadratic Regulation(이하 LQR) 문제에 성공적으로 적용된 바 있다. 특히, 시스템 모델의 파라미터에 대한 구체적인 정보없이 적절한 입ㆍ출력만으로 학습을 통해 문제의 해결이 가능하므로 상황에 따라 매우 실용적인 방법이 될 수 있다. 뉴럴-큐 기법은 이러한 Q-learning의 Q-value를 MLP(multilayer perceptron) 신경망의 출력으로 대치시켜, 비선형 시스템의 최적제어 문제를 다룰 수 있게 한 방법이다. 그러나, 뉴럴-큐 기법은 신경망의 구조를 먼저 결정한 후 역전파 알고리즘을 이용해 학습하는 절차를 행하므로, 시행착오를 통해 신경망 구조를 결정해야 한다는 점, 역전파 알고리즘의 적용에 따라 신경망의 연결강도 값들이 지역적 최적해로 수렴한다는 점등의 문제점이 있다. 본 논문에서는 뉴럴-큐 학습의 도구로 KFD회귀를 이용하여 Q 함수의 근사 기법을 제안하고 관련 수식을 유도하였다. 그리고, 모의 실험을 통하여, 제안된 뉴럴-큐 방법의 적용 가능성을 알아보았다.

  • PDF

$\varepsilon$-SVR을 이용한 Neural-Q 기법 (Neural -Q met,hod based on $\varepsilon$-SVR)

  • 조원희;김영일;박주영
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2002년도 추계학술대회 및 정기총회
    • /
    • pp.162-165
    • /
    • 2002
  • Q-learning은 강화학습의 한 방법으로서, 여러 분야에 널리 응용되고 있는 기법이다. 최근에는 Linear Quadratic Regulation(이하 LQR) 문제에 성공적으로 적용된 바 있는데, 특히, 시스템모델의 파라미터에 대한 구체적인 정보가 없는 상태에서 적절한 입력과 출력만을 가지고 학습을 통해 문제를 해결할 수 있어서 상황에 따라서 매우 실용적인 대안이 될 수 있다. Neural Q-learning은 이러한 Q-learning의 Q-value를 MLP(multilayer perceptron) 신경망의 출력으로 대치시킴으로써, 비선형 시스템의 최적제어 문제를 다룰 수 있게 한 방법이다. 그러나, Neural Q방식은 신경망의 구조를 먼저 결정한 후 역전파 알고리즘을 이용하여 학습하는 절차를 취하기 때문에, 시행착오를 통하여 신경망 구조를 결정해야 한다는 점, 역전파 알고리즘의 적용으로 인해 신경망의 연결강도 값들이 지역적 최적해로 수렴한다는 점등의 문제점을 상속받는 한계가 있다. 따라서, 본 논문에서는 Neural-0 학습의 도구로, 역전파 알고리즘으로 학습되는 MLP 신경망을 사용하는 대신 최근 들어 여러 분야에서 그 성능을 인정받고 있는 서포트 벡터 학습법을 사용하는 방법을 택하여, $\varepsilon$-SVR(Epsilon Support Vector Regression)을 이용한 Q-value 근사 기법을 제안하고 관련 수식을 유도하였다. 그리고, 모의 실험을 통하여, 제안된 서포트 벡터학습 기반 Neural-Q 방법의 적용 가능성을 알아보았다.

다항회귀모형에 대한 최소편의 실험계획 (Minimum Bias Design for Polynomial Regression)

  • 장대흥;김영일
    • 응용통계연구
    • /
    • 제28권6호
    • /
    • pp.1227-1234
    • /
    • 2015
  • 전통적으로 최적실험을 위한 실험기준들은 기본적으로 가정된 모형에 의존한다. 따라서 모형에 대한 완벽한 정보를 가지지 않는 경우 실험자는 곤란에 빠질 수 밖애 없다. Box와 Draper (1959) 이런 상황에 대비해 적분된 평균제곱오차의 편의부분에 해당하는 적분된 편의를 최소화하는 실험기준을 제안하고 필요충분조건을 명시하였다. 그러나 간단한 예제를 제외하고는 문헌에서는 이러한 필요충분조건을 만족하는 실험에 대한 구채적인 예제는 계산상의 문제로 예상외로 많이 연구가 되어 있지 않다. 비록 수치적인 해이긴 하지만 다항회귀모형을 중심으로 최소편의를 만족하는 실험의 성격을 파악하였는데 결론적으로 양극단에서 안쪽 방향으로 이탈되는 위치에서 받힘점이 형성되는 것을 알 수 있었다.

함수근사와 규칙추출을 위한 클러스터링을 이용한 강화학습 (Reinforcement Learning with Clustering for Function Approximation and Rule Extraction)

  • 이영아;홍석미;정태충
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제30권11호
    • /
    • pp.1054-1061
    • /
    • 2003
  • 강화학습의 대표적인 알고리즘인 Q-Learning은 상태공간의 모든 상태-행동 쌍(state-action pairs)의 평가값이 수렴할 때까지 반복해서 경험하여 최적의 전략(policy)을 얻는다. 상태공간을 구성하는 요소(feature)들이 많거나 요소의 데이타 형태가 연속형(continuous)인 경우, 상태공간은 지수적으로 증가하게 되어, 모든 상태들을 반복해서 경험해야 하고 모든 상태-행동 쌍의 Q값을 저장하는 것은 시간과 메모리에 있어서 어려운 문제이다. 본 논문에서는 온라인으로 학습을 진행하면서 비슷한 상황의 상태들을 클러스터링(clustering)하고 새로운 경험에 적응해서 클러스터(cluster)의 수정(update)을 반복하여, 분류된 최적의 전략(policy)을 얻는 새로운 함수근사(function approximation)방법인 Q-Map을 소개한다. 클러스터링으로 인해 정교한 제어가 필요한 상태(state)는 규칙(rule)으로 추출하여 보완하였다. 미로환경과 마운틴 카 문제를 제안한 Q-Map으로 실험한 결과 분류된 지식을 얻을 수 있었으며 가시화된(explicit) 지식의 형태인 규칙(rule)으로도 쉽게 변환할 수 있었다.

이산시간 Q 매개변수화 제어를 이용한 자기축수 시스템에 대한 부상과 불평형보정의 실험적 평가 (Experimental Evaluation of Levitation and Imbalance Compensation for the Magnetic Bearing System Using Discrete Time Q-Parameterization Control)

  • 이준호;;이기서
    • 소음진동
    • /
    • 제8권5호
    • /
    • pp.964-973
    • /
    • 1998
  • 본 논문에서 자기 축수 시스템의 부상과 불평형 보상 제어기를 제안한다. 특정한 동작속도에서 불균형 진동과 부상을 제어하기위해 우리는 이산시간 Q 매개변수화 제어를 사용한다. 회전자의 속도가 p=0일 때, 회전소도와 같은 주파수로 회전자의 불균형은 없다. 그래서 부상을 만들기 위해 우리는 제어기가 z=1의 단위원에서 극점을 가지는 Q매개변수화 Q를 선택한다. 그러나 회전자의 속도가 p$\neq$0일 때, 회전속도와 같은 주파수로 정현파의 외란이 존재하게 된다. 그래서 이 외란의 점근적인 소멸을 하기위해 Q 매개화변수 제어기 자유 변수 Q가 제어기가 어떠한 회전속도 p에 대한 z=expjpTs에 있는 단위 원에서 극점을 가지도록 선택된다. 첫째로, 우리는 이 연구에서 적용된 실험적인 구성을 소개한다. 두 번째로, 우리는 차분 방정식의 형태로 자기축수 시스템의 수학적인 모델을 제안한다. 세 번째로 우리는 제안된 이산 시간 Q매개변수화 제어기 설계방법을 설명한다. 제어기의 자유 매개변수 Q는 안정한 전달함수가 된다고 가정한다. 네 번째로, 우리는 설계목적을 만족하는 자유 매개변수가 복잡한 최적문제를 풀기보다는 선형 방정식을 구함으로서 만족될 수 있다. 마지막으로 몇 개의 시뮬레이션과 실험적인 결과가 제언된 제어기를 평가하기 위해 구해진다. 획득된 결과는 회전설계 속도에서의 불균형 진동을 제어하는 제안된 제어기의 효과를 나타낸다.

  • PDF

음향구동 냉동 온도차의 주파수 및 위치 의존 특성 (Frequency and Position Dependences of Acoustically Driven Refrigerating Temperature Differences)

  • 김용태;서상준;정성수;조문재
    • 한국음향학회지
    • /
    • 제18권4호
    • /
    • pp.3-10
    • /
    • 1999
  • '음향열 기울기 온도 측정장치'[1]를 길이 68cm인 직관 내에서 위치를 변화시키면서 음파의 열수송 온도차를 조사하였다. 확성기 구동 전력을 50W로 고정하고 주파수를 150Hz에서 300Hz까지 10Hz 간격으로 변화시키면서 실험하여 이론값과 비교하였다. 수치 시뮬레이션을 통해 Q-값에 따른 열음향 냉동 온도차의 주파수-위치 분포를 살펴보았다. 이 분포를 이용하여 최적 구동 주파수와 열음향 교환기의 최적 위치를 결정할 수 있다.

  • PDF

감독 지식을 융합하는 강화 학습 기법을 사용하는 셀룰러 네트워크에서 동적 채널 할당 기법 (A Dynamic Channel Assignment Method in Cellular Networks Using Reinforcement learning Method that Combines Supervised Knowledge)

  • 김성완;장형수
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제14권5호
    • /
    • pp.502-506
    • /
    • 2008
  • 최근에 제안된 강화 학습 기법인 "potential-based" reinforcement learning(RL) 기법은 다수 학습들과 expert advice들을 감독 지식으로 강화 학습 알고리즘에 융합하는 것을 가능하게 했고 그 효용성은 최적 정책으로의 이론적 수렴성 보장으로 증명되었다. 본 논문에서는 potential-based RL 기법을 셀룰러 네트워크에서의 채널 할당 문제에 적용한다. Potential-based RL 기반의 동적 채널 할당 기법이 기존의 fixed channel assignment, Maxavail, Q-learning-based dynamic channel assignment 채널 할당 기법들보다 효율적으로 채널을 할당한다. 또한, potential-based RL 기법이 기존의 강화 학습 알고리즘인 Q-learning, SARSA(0)에 비하여 최적 정책에 더 빠르게 수렴함을 실험적으로 보인다.