통합 검색 | Korea Science

액터-크리틱 퍼지 강화학습을 이용한 기는 로봇의 제어 (Control of Crawling Robot using Actor-Critic Fuzzy Reinforcement Learning)

문영준;이재훈;박주영
- 한국지능시스템학회논문지
- /
- 제19권4호
- /
- pp.519-524
- /
- 2009
최근에 강화학습 기법은 기계학습 분야에서 많은 관심을 끌어왔다. 강화학습 관련 연구에서 가장 유력하게 사용되어 온 방법들로는 가치함수를 활용하는 기법, 제어규칙(policy) 탐색 기법 및 액터-크리틱 기법 등이 있는데, 본 논문에서는 이들 중 연속 상태 및 연속 입력을 갖는 문제를 위하여 액터-크리틱 기법의 틀에서 제안된 알고리즘들과 관련된 내용을 다룬다. 특히 본 논문은 퍼지 이론에 기반을 둔 액터-크리틱 계열 강화학습 기법인 ACFRL 알고리즘과, RLS 필터와 NAC(natural actor-critic) 기법에 기반을 둔 RLS-NAC 기법을 접목하는 방안을 집중적으로 고찰한다. 고찰된 방법론은 기는 로봇의 제어문제에 적용되고, 학습 성능의 비교로부터 얻어진 몇 가지 결과가 보고된다.
https://doi.org/10.5391/JKIIS.2009.19.4.519 인용 PDF KSCI

운반차-막대 시스템을 위한 적응비평학습에 의한 CMAC 제어계 (CMAC Controller with Adaptive Critic Learning for Cart-Pole System)

권성규
- 한국지능시스템학회논문지
- /
- 제10권5호
- /
- pp.466-477
- /
- 2000
이 논문에서는 운반차-막대 시스템을 제어하기 위한 CMAC을 이용한 적응 학습 제어계를 개발하기 위하여, 적응비평학습을 이용하는 신경망 제어계에 관한 여러 연구 문헌들을 조사하고, ASE 요소를 이용하는 적응비평학습 기법을 CMAC을 바탕으로 하는 제어계에 통합하였다. 적응비평학습 기법을 CMAC에 구현하는데 있어서의 변환 문제를 검토하고, CMAC 제어계와 ASE 제어계가 운반차-막대 문제를 학습하는 속도를 비교하여, CMAC 제어계의 학습 속도가 빠르기는 하지만, 입력 공간의 더 넓은 영역에 대해서는 학습효과를 발휘하지 못하는 문제의 관점에서 적응비평학습 방법이 CMAC의 특성과 어울리는지를 고찰하였다.
PDF

CRITIC 기법을 활용한 침수예측 정확도 검토 (Accuracy review of inundation prediction using CRITIC method)

김영인;김동현;이승오
- 한국수자원학회:학술대회논문집
- /
- 한국수자원학회 2019년도 학술발표회
- /
- pp.120-120
- /
- 2019
국내에서는 예측 불가능한 재난으로 인한 침수 피해 발생사례가 증가하였다. 따라서 침수 피해 예측이 더욱 중요해지고 있는 실정이다. 기존에는 주로 수치모형을 통한 침수예측을 하였고, 정보통신기술도 발달해왔지만 아직까지 수치모의에 많은 시간이 소요되기 때문에 침수 피해의 실시간 예측이 힘든 상황이다. 이에 국립재난안전연구원(2017)에서 침수예측을 위한 보간 모델인 SIND(Scientific Interpolation for Natural Disaster) Model을 개발하였다. 이는 보간을 이용한 모델이기 때문에 그동안 사용해왔던 물리 모형보다 간단하다. 그러나 정확한 값이 아닌 보간을 이용한 모델이기 때문에 정확도를 검토할 필요가 있다. 따라서 본 연구에서는 Mapping분야에서 사용하는 CRITIC(CRiteria Importance Through Intercriteria Correlation) 기법을 활용하여 지도의 정확도 검토를 수행하였다. CRITIC은 형상기준, 위치기준, 면적기준을 이용하여 형상유사도를 산정하는 방법이며, 이 기법을 활용하여 국가가 제공한 침수예상도(국립해양조사원, 2010)와 SIND모델 결과 지도를 비교하였다. 형상기준은 지도의 형상을 나타내는 형상지수를 비교하고, 위치기준은 지도의 무게중심의 일치정도, 면적기준은 형상 면적을 비교하는 것이다. 지도는 총 300여개의 매칭 객체 쌍을 가지고 수행하였고, 위험도 등급은 Grade 1부터 Grade 5 까지 분류하여 나타내었다. 연구 대상지역은 ${{\bigcirc}{\bigcirc}}$시이다. 그 결과, 형상유사도는 약 200여개의 매체쌍이 0.80 이상의 값을 나타냈고, 나머지 매체 쌍은 0.75이하의 값을 나타내었다. 위험도 등급이 낮을수록 형상유사도 값은 크게 나타나고, 위험도 등급이 높을수록 형상유사도 값이 작게 나타나는 경향을 보였다. 이는 위험도 등급이 높은 곳의 경우, 해안선의 복잡한 지형형태 때문으로 판단된다. Mapping 분야에서 형상유사도 적합성 기준이 0.75이므로 결과는 60%이상이 정확하다고 판단할 수 있다. 따라서 본 연구에서 검토를 수행했던 간단한 방정식을 이용한 SIND 모델은 정확하다고 판단할 수 있다. 다만, 복잡한 지형과 현재 고려되고 있는 영향인자 외에 다양한 구조물 등을 고려한다면 형상유사도가 향상될 것이라 기대된다.
PDF

기지국 상태 조정을 위한 강화 학습 기법 분석 (Analysis of Reinforcement Learning Methods for BS Switching Operation)

박혜빈;임유진
- 예술인문사회 융합 멀티미디어 논문지
- /
- 제8권2호
- /
- pp.351-358
- /
- 2018
강화 학습은 변화하는 환경에서의 최적의 보상을 얻을 수 있는 행동을 결정하기 위한 정책을 얻는 기계 학습 기법이다. 하지만 기존에 연구되어 온 강화 학습은 불확실하고 연속적인 실제 환경에서 최적의 행동을 얻기 위해 발생되는 높은 계산 복잡도 문제와 학습된 결과를 얻기 위해서는 많은 시간이 소요 된다는 문제점을 가지고 있다. 앞에서 언급한 문제를 해결하기 위해, 높은 계산 복잡도 문제를 해결을 위해서는 강화 학습을 구성하는 가치 함수와 정책을 독립적으로 구성하는 AC(actor-critic) 기법이 제안되었다. 그리고 빠른 학습 결과를 얻기 위해 기 학습된 지식을 새로운 환경에서 이용하여 기존 학습보다 빠르게 학습 결과를 얻을 수 있는 전이 학습(transfer learning) 기법이 제안되었다. 본 논문에서는 기존에 연구되어 왔던 기계 학습 기법의 향상 기법인 AC 기법과 전이 학습 기법에 대해 소개하고, 이를 무선 액세스 네트워크 환경에서 기지국 상태 조정을 위해 적용되고 있는 사례를 소개한다.
https://doi.org/10.21742/AJMAHS.2018.02.32 인용

多入力 시스템의 자율학습제어를 위한 차등책임 적응비평학습 (Differentially Responsible Adaptive Critic Learning ( DRACL ) for the Self-Learning Control of Multiple-Input System)

김형석
- 전자공학회논문지S
- /
- 제36S권2호
- /
- pp.28-37
- /
- 1999
재 강화 학습 방법을 다수의 제어입력을 가진 시스템에 대한 자율적 제어 기법 습득에 활용하기 위해서 차등책임 적응비평 학습구조를 제안하였다. 재 강화 학습은 여러 단계의 제어동작 끝에 얻어지는 최종 비평값을 활용하여 그 전에 행해졌던 제어 동작을 강화 혹은 약화 학습하는 자율적 학습방법이다. 대표적인 재강화학습 방법은 적응비평학습 구조를 이용하는 방법인데 비평모듈과 동작모듈을 이용하여 외부 비평 값을 최대로 활용함으로써 학습효과를 극대화시키는 방법이다. 이 학습방법에서는 단일한 제어입력을 갖는 시스템으로만 적용이 제한된다는 단점이 있다. 제안한 차등책임 적응비평 학습 구조에서는 비평함수를 제어 입력 인자의 함수로 구축한 다음 제어인자에 대한 차별 화된 비평 값을 부분미분을 통하여 산출함으로써 다수의 제어입력을 가진 시스템의 제어기술 학습이 가능하게 하였다. 제안한 학습제어 구조는 학습속도가 빠른 CMAC 신경회로망을 이용하여 구축하였으며 2개의 제어입력을 갖는 2-D Cart-Pole 시스템과 3 개의 제어입력을 갖는 인간구조 로봇시스템의 앉는 동작의 학습제어 시뮬레이션을 통하여 효용성을 확인하였다.
PDF

RLS기반 Natural Actor-Critic 알고리즘을 이용한 트레이딩 전략 (Trading Strategy Using RLS-Based Natural Actor-Critic algorithm)

강대성;김종호;박주영;박경욱
- 한국지능시스템학회:학술대회논문집
- /
- 한국퍼지및지능시스템학회 2005년도 추계학술대회 학술발표 논문집 제15권 제2호
- /
- pp.238-241
- /
- 2005
최근 컴퓨터를 이용하여 효과적인 트레이드를 하려는 투자자들이 늘고 있다. 본 논문에서는 많은 인공지능 방법론 중에서 강화학습(reinforcement learning)을 이용하여 효과적으로 트레이딩하는 방법에 대해서 다루려한다. 특히 강화학습 중에서 natural policy gradient를 이용하여 actor의 파라미터를 업데이트하고, value function을 효과적으로 추정하기 위해 RLS(recursive least-squares) 기법으로 critic 부분을 업데이트하는 RLS 기반 natural actor-critic 알고리즘을 이용하여 트레이딩을 수행하는 전략에 대한 가능성을 살펴 보기로 한다.
PDF

강화학습에 의한 현가장치의 제어 (Suspension Control using Reinforcement Learning)

정규백;문영준;박주영
- 한국지능시스템학회:학술대회논문집
- /
- 한국지능시스템학회 2007년도 추계학술대회 학술발표 논문집
- /
- pp.163-166
- /
- 2007
최근에 국내외의 인공지능 분야에서는, 강화학습(reinforcement learning)에 관한 연구가 활발히 진행되고 있다. 본 논문에서는 능동형 현가장치(active-suspension)의 제어를 위하여 RLS 기반 NAC(natural actor-critic)을 활용한 강화학습 기법을 적용해보고, 그 성능을 시뮬레이션을 통해 확인해본다.
PDF

강화학습에 의해 학습된 기는 로봇의 성능 비교 (Performance Comparison of Crawling Robots Trained by Reinforcement Learning Methods)

박주영;정규백;문영준
- 한국지능시스템학회:학술대회논문집
- /
- 한국퍼지및지능시스템학회 2007년도 춘계학술대회 학술발표 논문집 제17권 제1호
- /
- pp.33-36
- /
- 2007
최근에 인공지능 분야에서는, 국내외적으로 강화학습(reinforcement learning)에 관한 관심이 크게 증폭되고 있다. 강화학습의 최근 경향을 살펴보면, 크게 가치함수를 직접 활용하는 방법(value function-based methods), 제어 전략에 대한 탐색을 활용하는 방법(policy search methods), 그리고 액터-크리틱 방법(actor-critic methods)의 세가지 방향으로 발전하고 있음을 알 수 있다. 본 논문에서는 이중 세 번째 부류인 액터-크리틱 방법 중 NAC(natural actor-critic) 기법의 한 종류인 RLS-NAC(recursive least-squares based natural actor-critic) 알고리즘을 다양한 트레이스 감쇠계수를 사용하여 연속제어입력(real-valued control inputs)으로 제어되는 Kimura의 기는 로봇에 대해 적용해보고, 그 성능을 기존의 SGA(stochastic gradient ascent) 알고리즘을 이용하여 학습한 경우와 비교해보도록 한다.
PDF

통합 ELECTRE-CRITIC-ISM법 기반 해양사고 발생건수를 이용한 해사법원 설치 우선순위 평가에 관한 연구 (A Study on Evaluation of the Priority Orders for the Establishment of Maritime Courts Using Maritime Casualties Counts Based on Integrated ELECTRE-CRITIC-ISM)

장운재
- 해양환경안전학회지
- /
- 제26권6호
- /
- pp.624-633
- /
- 2020
최근 인천, 부산 등 지자체를 중심으로 해사법원의 설치에 대해 논의 중이다. 본 연구의 목적은 통합 ELECTRE-CRITIC-ISM기법 기반 해양사고 발생건수를 이용하여 해사법원의 설치 우선순위 평가 모델을 개발하고, 우리나라 해사법원의 설치에 적용하여 유용성을 확인하기 위한 것이다. 이를 위해 먼저 31개의 무역항 중에서 해양사고 데이터가 통합 관리되는 9개의 무역항을 제외한 22개의 무역항을 대상으로 6개의 고등법원 관할에 매칭하였다. 두번째는 CRITIC법은 평가항목인 5년간의 해양사고 발생건수에 대하여 중요도를 산정하고 ELECTRE법과 결합하기 위해 이용되었다. 마지막으로 ELECTRE&ISM법은 해양사고 발생건수의 변동 폭을 고려한 고등법원 간 선호도 및 비선호도를 분석하고 우선순위를 평가하기 위해 이용되었다. 해양사고 발생건수의 변동 폭을 중간으로 고려하여 최종순위를 평가한 결과 부산고등법원이 1위, 광주고등법원은 2위, 서울고등법원 3위, 대전 및 대구고등법원은 4위, 수원고등법원은 6위로 우선순위가 높게 나타났다. 따라서 부산고등법원에 해사법원의 우선설치가 필요하다.
https://doi.org/10.7837/kosomes.2020.26.6.624 인용 PDF KSCI

RPO 기반 강화학습 알고리즘을 이용한 로봇제어 (Robot Control via RPO-based Reinforcement Learning Algorithm)

김종호;강대성;박주영
- 한국지능시스템학회논문지
- /
- 제15권4호
- /
- pp.505-510
- /
- 2005
제어 입력 선택 문제에 있어서 확률적 전략을 활용하는 RPO(randomized policy optimizer) 기법은 최근에 개발된 강화학습 기법으로써, 많은 적용 사례를 통해서 그 가능성이 입증되고 있다 본 논문에서는, 수정된 RPO 알고리즘을 제안하는데, 이 수정된 알고리즘의 크리틱 네트워크 부분은 RLS(recursive least square) 기법을 통하여 갱신된다. 수정된 RPO 기법의 효율성을 확인하기 위해 Kimura에 의해서 연구된 로봇에 적용하여 매우 우수한 성능을 관찰하였다. 또한, 매트랩 애니메이션 프로그램의 개발을 통해서, 로봇의 이동이 시간에 따라 가속되는 학습 알고리즘의 효과를 시각적으로 확인 할 수 있었다.
https://doi.org/10.5391/JKIIS.2005.15.4.505 인용 PDF KSCI

검색결과 21건 처리시간 0.029초

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)