통합 검색 | Korea Science

인간 피드백 기반 강화학습 (RLHF)에서 보상 모델의 효과적인 훈련 방법에 관한 연구 (A Study about Efficient Method for Training the Reward Model in RLHF)

김정욱;;임희석
- 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
- /
- 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
- /
- pp.245-250
- /
- 2023
RLHF(Reinforcement Learning from Human Feedback, 인간 피드백 기반 강화학습) 방법론이 최근 고성능 언어 모델에 많이 적용되고 있다. 이 방법은 보상 모델과 사람의 피드백을 활용하여 언어 모델로 하여금 사람이 선호할 가능성이 높은 응답을 생성하도록 한다. 하지만 상업용 언어 모델에 적용된 RLHF의 경우 구현 방법에 대하여 정확히 밝히고 있지 않다. 특히 강화학습에서 환경(environment)을 담당하는 보상 모델을 어떻게 설정하는지가 가장 중요하지만 그 부분에 대하여 오픈소스 모델들의 구현은 각각 다른 실정이다. 본 연구에서는 보상 모델을 훈련하는 큰 두 가지 갈래인 '순위 기반 훈련 방법'과 '분류 기반 훈련 방법'에 대하여 어떤 방법이 더 효율적인지 실험한다. 또한 실험 결과 분석을 근거로 효율성의 차이가 나는 이유에 대하여 추정한다.
PDF

학습피드백으로서 보상과 처벌 관련 두뇌 활성화 연구 (Learning-associated Reward and Penalty in Feedback Learning: an fMRI activation study)

김진희;강은주
- 인지과학
- /
- 제28권1호
- /
- pp.65-90
- /
- 2017
본 연구의 목적은 학습상황에서 피드백으로 주어지는 금전적 획득/손실(학습 피드백)과 비학습적 상황에서 우연히 제시되는 의사 피드백(무선 피드백)을 비교하는 방법을 사용하여, 금전적 보상과 처벌의 학습 피드백으로서만 가지는 정보처리에 어느 두뇌 영역이 관여하는지를 규명하는 데 있다. 이를 위해 정상 성인(n = 22)을 대상으로 fMRI scan 동안 단서 자극에 대한 범주 버튼 반응(좌/우)의 정확 여부에 따라 피드백이 제시되는 시행(학습시행)과 단서 자극의 위치판단 반응과 무관하게 피드백이 제시되는 시행(무선시행)을 사건 관련 fMRI 방략으로 제시하였다. 두 시행 간 보상과 처벌과 같은 동기적 사건에 대한 두뇌 반응이 변별적으로 나타나는지를 알아보기 위해 시행 유형(학습 vs. 무선)과 피드백 유형(보상 vs, 처벌)을 두 독립변인으로 한 반복측정 이원분산분석을 하였다(voxel-wise FWE p < .001). 그 결과, 좌측 배외측 전두피질(dorsolateral prefrontal cortex), 좌측 전측 도(anterior insular), 배내측 전두피질(dorsomedial prefrontal cortex) 등의 영역에서 유의한 상호작용 효과가 관찰되었는데, 이들 영역은 모두 학습-보상 피드백 및 무선-처벌 피드백보다 학습-처벌 피드백에 대해 증가한 두뇌 활성을 보였다. 본 연구 결과는 학습상황에서 주어지는 처벌 피드백에 대한 기존 전략의 변경이나 재평가를 위한 집행적 처리, 적절하지 못하거나 틀린 행동에 대한 오류처리 과정 그리고 실패 경험에 대한 부정적 정서처리가 위에서 언급한 피질신경망을 중심으로 이루어질 가능성을 보여준다. 따라서 학습의 처벌 피드백은 보상과 달리 위와 같은 추가적 정보처리 과정이 존재할 가능성을 시사한다.
https://doi.org/10.19066/cogsci.2017.28.1.004 인용 PDF

전압 피드백 보상에 의한 과변조 성능 향상 (Improvement of Overmodulation Performances by Voltage Feedback Compensation)

정혜인;김상훈
- 전력전자학회:학술대회논문집
- /
- 전력전자학회 2018년도 추계학술대회
- /
- pp.181-182
- /
- 2018
본 논문에서는 전압 피드백 보상에 의한 동적 과변조 기법의 성능 향상 방법을 제안한다. 전동기 구동 시스템에서 인버터는 선형 변조 영역에서 동작할 경우 단순히 전압 이득이 1인 전압 증폭기로 볼 수 있다. 그러나 과변조 영역에서는 기존의 동적 과변조 기법 적용 시 지령 전압에 대한 인버터 출력 전압의 비선형성으로 인해 전압 이득이 1보다 작아진다. 따라서 과변조 성능이 저하되는데 본 논문에서는 제한된 전압을 피드백 보상하여 과변조 성능을 향상시켰다. 이로 인해 구동 전동기의 출력 토크 성능 및 전류 제어 동특성이 향상될 수 있다. 제안된 방법을 800W PMSM(Permanent Magnet Synchronous Motor)의 약자속 제어에 적용하여 그 효용성을 확인하였다.
PDF

서비스 조직 구성원의 통제지각과 행동통제과정: 피드백, 비금전적 보상 및 역기능간의 관계를 중심으로

김재영;한동철;안승호
- Asia Marketing Journal
- /
- 제1권3호
- /
- pp.109-119
- /
- 1999
서비스마케팅에 있어서 종업원의 행동통제와 결과통제에 대한 중요성이 증대하고 있다. 그 중에서 행동통제를 보다 효율적으로하기 위하여 많은 연구가 진행되고 있다. 본 연구는 마케팅조직 종업원의 행동통제 지각이 조직내 종업원이 행동에 어떠한 영향을 주는지를 조사하였다. 종업원이 느끼는 통제지각, 상사의 피드백, 비금전적 보상 그리고 종업원의 역기능 행동 간의 다섯가지 관계에 대하여 가설이 설정되었다. 병원간호사 120 명의 설문응답에 근거하여서 가설검증을 하였다. 다섯 개의 가설중 세 개는 지지되었고, 두 개의 가설은 현재의 자료로는 지지되지 않았다. 가설검증 결과에 근거하여서 시사점과 결론이 제시되었다.
PDF

다중 반송파 통신 시스템에서 효과적인 CFO와 STO추정 및 보상방법 (Efficient Estimation and Compensation of CFO and STO in Multi-carrier Communication System)

이희규;유흥균
- 한국통신학회논문지
- /
- 제36권5A호
- /
- pp.441-449
- /
- 2011
Orthogonal frequency division multiplexing (OFDM) 환경에서 sample timing offset(STO)과 carrier frequency offset(CFO)은 inter-symbol interference (ISI), inter-carrier interference (ICI) and phase error를 발생 시키는 원인으로 작용하고 있다. OFDM의 특성상 STO와 CFO에 민감하고, 특히 ICI 가 발생될 경우 보상이 어렵다. 또한 보상을 위해 많은 복잡도를 가진 equalizer가 요구된다. 이 논문에서는 블록 파일럿과 동기화 신호를 가지고, feedback방법을 이용해 STO와 CFO의 효과적인 정정 방법을 제시한다. 주파수 축에서 동기화 신호와 pilot을 이용해 추정한 값들을 시간 축으로 피드백 시킨 후, 시간 영역에서 sample & holder의 시간 타이밍과 oscillator의 주파수의 교정을 통해 정정한다. 시뮬레이션 결과 보상기 없이 피드백 구조만으로 STO와 CFO를 보상하여 성능을 개선 시켰다.
https://doi.org/10.7840/KICS.2011.36A.5.441 인용 PDF KSCI

배전선로용 단상 무효전력 보상기의 무효전력제어 (Reactive Power Control of Single-Phase Reactive Power Compensator for Distribution Line)

심우식;조종민;김지찬;차한주
- 전력전자학회:학술대회논문집
- /
- 전력전자학회 2019년도 전력전자학술대회
- /
- pp.35-37
- /
- 2019
본 논문은 배전선로 안정화 구현을 위한 무효전력 보상기의 새로운 무효전력 제어기법을 제안하였으며, 시뮬레이션 및 실험을 통해 무효전력제어 알고리즘의 성능을 검증하였다. 무효전력 제어는 동기좌표계 d축 전류성분 제어를 통해 수행되고, DC 링크 전압을 일정하게 유지하기 위한 전압 제어와 이에 필요한 유효전력은 q축 전류성분 제어를 통해 구현된다. 제안된 무효전력 제어기법에 포함된 DC 리플 보상방식은 추출된 DC 전압의 오프셋 성분을 제거하는 HPF(high pass filter)부와 HPF 위상 특성으로 인해 발생한 위상변화 특성을 보상하기 위한 지연함수부로 구성되며, 리플성분이 보상된 전압을 전압제어기 피드백 성분으로 적용하였다. 시뮬레이션 및 실험을 통해 DC 전압 리플 보상방식이 적용된 무효전력 제어 기법이 적용된 경우 전류 THD가 크게 향상된 결과로부터 제안된 알고리즘의 성능을 검증하였다.
PDF

피드백 선형화 보상기와 외란 관측기를 이용한 2개 유압 실린더의 동기 제어 (Synchronization Control of Two Hydraulic Cylinders Using Feedback Linearization Compensator and Disturbance Observer)

감주성;오동훈;이일영;김지웅;이현철
- 드라이브 ㆍ 컨트롤
- /
- 제10권3호
- /
- pp.14-20
- /
- 2013
In the study, a control strategy using a feedback linearization compensator and a disturbance observer was suggested and applied to the synchronization control of two hydraulic cylinders. The hydraulic system consists of a proportional directional control valve with overlap characteristic near the neutral position, a conventional hydraulic cylinder and an external load. The control performances of the system were verified through numerical simulations. From the simulations, it was ascertained that excellent control performances were obtained with the suggested control strategy.
https://doi.org/10.7839/ksfc.2013.10.3.014 인용 PDF KSCI

이중 피드백 필터 기반의 반복 등화기 구조 및 성능 (An Iterative Equalization with Double Feedback Filters)

차유진;최정민;서종수
- 한국방송∙미디어공학회:학술대회논문집
- /
- 한국방송공학회 2013년도 추계학술대회
- /
- pp.105-107
- /
- 2013
단일 반송파 시스템은 다중경로를 가지는 무선채널을 통과할 때 심볼 간 간섭(Inter-symbol Interference, ISI)에 의한 영향을 크게 받으며 이를 보상하기 위한 등화방식은 그동안 많이 연구되어왔다. 본 논문에서는 단일 반송파 시스템에서 심볼 간 간섭의 영향을 보상하기 위해서 잡음 예측기와 결합된 이중 피드백 구조의 등화 방식을 제안한다. 또한, 제안된 등화 방식이 기존 반복 결정 궤환 등화기에 비해 향상된 성능을 가지는 것을 이론적 분석과 모의실험을 통해서 분석한다.
PDF

분산 동영상 부호화 시스템에서 피드백 채널 제거를 위한 Wyner-Ziv 비트 전송량 제어 방법 (Wyner-Ziv Bit Rate Control Method for Removing Feedback Channel of Distributed Video Coding System)

문학수;이창우
- 한국방송∙미디어공학회:학술대회논문집
- /
- 한국방송공학회 2011년도 하계학술대회
- /
- pp.287-290
- /
- 2011
분산 동영상 부호화 시스템에서는 복호기에서 움직임 보상 보간 기법을 이용하여 부가정보를 생성한다. 생성된 부가정보와 원 Wyner-Ziv 프레임간의 차이를 채널 부호로 오류 정정하게 되는데 이때 부호기에서는 복호기에서의 오류 정정을 위하여 패리티 비트인 Wyner-Ziv 비트를 복호기로 보내게 되고 복호기에서는 이 Wyner-Ziv 비트를 이용하여 Wyner-Ziv 프레임을 복원하는데 더 많은 Wyner-Ziv 비트가 필요할 경우 피드백 채널을 통해 Wyner-Ziv 비트를 요청하게 된다. 이때 부호기에서 조건부 엔트로피를 구할 수 있다면 이를 이용하여 Wyner-Ziv 비트 전송량을 제어함으로써 피드백 채널을 제거 할 수 있다. 이를 위해 부호기에서도 부가정보를 알아야하는데 복호기에서 사용하는 부가정보 생성 기법은 복잡도가 높기 때문에 사용할 수 없다. 본 논문에서는 부호기에서 간단한 부가정보를 생성하는 방법을 제안하고 분산 동영상 부호화 시스템에 적용하여 피드백 채널을 제거하였을 때의 성능을 분석하였다.
PDF

더블김벌을 장착한 바이어스 모멘텀 위성의 자세제어기 설계 (Attitude Controller Design for a Bias Momentum Satellite with Double Gimbal)

박영웅;방효충
- 한국항공우주학회지
- /
- 제32권4호
- /
- pp.34-42
- /
- 2004
본 논문에서 위성의 롤/요 자세제어를 위해 더블 김벌을 이용하며 2 종류의 피드백 제어기를 설계하였다. 하나는 롤과 요 제어압력에 위상 차이가 없는 PD 제어기이고 다른 하나는 요 제어입력에 위상지연이 있는 PD 제어기이다. 위상지연 보상기는 요각 제어를 위한 1차 시스템으로 설계하였다. 일정한 외란과 초기 뉴테이션 오차가 있는 경우에 대해 시뮬레이션하여 요각의 정상상태 오차와 rising time 의 결과로부터 위상지연 보상기가 효과적임을 검증하였다. 본 시뮬레이션에 사용된 변수 값은 무궁화위성 1호를 대상으로 하였다.
https://doi.org/10.5139/JKSAS.2004.32.4.034 인용 PDF KSCI

검색결과 96건 처리시간 0.035초

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)