• 제목/요약/키워드: 응답보상

검색결과 281건 처리시간 0.035초

인간 피드백 기반 강화학습 (RLHF)에서 보상 모델의 효과적인 훈련 방법에 관한 연구 (A Study about Efficient Method for Training the Reward Model in RLHF)

  • 김정욱;;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.245-250
    • /
    • 2023
  • RLHF(Reinforcement Learning from Human Feedback, 인간 피드백 기반 강화학습) 방법론이 최근 고성능 언어 모델에 많이 적용되고 있다. 이 방법은 보상 모델과 사람의 피드백을 활용하여 언어 모델로 하여금 사람이 선호할 가능성이 높은 응답을 생성하도록 한다. 하지만 상업용 언어 모델에 적용된 RLHF의 경우 구현 방법에 대하여 정확히 밝히고 있지 않다. 특히 강화학습에서 환경(environment)을 담당하는 보상 모델을 어떻게 설정하는지가 가장 중요하지만 그 부분에 대하여 오픈소스 모델들의 구현은 각각 다른 실정이다. 본 연구에서는 보상 모델을 훈련하는 큰 두 가지 갈래인 '순위 기반 훈련 방법'과 '분류 기반 훈련 방법'에 대하여 어떤 방법이 더 효율적인지 실험한다. 또한 실험 결과 분석을 근거로 효율성의 차이가 나는 이유에 대하여 추정한다.

  • PDF

유압 인버터 엘리베이터를 위한 부하 보상 및 속도 제어기 (Load compensation and Speed Controller for Hydraulic Inverter-fed Elevator)

  • 한상수
    • 전자공학회논문지
    • /
    • 제51권2호
    • /
    • pp.163-167
    • /
    • 2014
  • 유압 인버터 엘리베이터의 비선형성과 유압 펌프의 누유량으로 인한 진동 및 속도 편차를 줄이기 위한 부하 보상 및 속도 제어기를 제안하였다. 부하보상 제어기는 PI제어기로 구성하였으며 속도제어기는 PID 제어기를 이용하여 구성하였다. 제어기 제어 변수 이득은 시스템 전달함수의 주파수 응답 방법을 이용하였다. 제안한 제어기의 효용성은 실험을 통해 입증하였고 실험 결과 제안한 제어기는 부하 변동에 강인하고 비선형인 유압 엘리베이터 시스템에 안정하고 좋은 속도 및 가속도 응답 특성을 갖는다.

동적전압보상장치를 위한 양방향 충/방전 시스템의 디지털 제어 (Digital Control of Bidirectional Charger/Discharger for Dynamic Voltage Restorer System)

  • 이정임;이종현;정안열;이춘호;박종후;전희종
    • 전력전자학회:학술대회논문집
    • /
    • 전력전자학회 2009년도 정기총회 및 추계학술대회 논문집
    • /
    • pp.75-77
    • /
    • 2009
  • 양방향 DC-DC컨버터는 일반적으로 아날로그방식이 사용되고 있다. 그러나 충 방전기로 사용하게 되면 모드전환 시 과도 응답특성이 좋지 않은 문제가 있다. 이에 대한 대안으로 디지털 제어기를 사용하게 되면 진보된 알고리즘들을 이용하여 시스템의 성능을 향상 시킬 수 있다. 본 본문에서는 전기이중층 콘덴서(EDLC)를 이용한 동적전압보상장치(DVR)의 양방향 충/방전 시스템을, Buck/Boost 양방향 컨버터를 이용하여 구현하고, DSP(TI사 TMS320F28335)를 이용한 디지털 제어기를 적용하였다. 모의실험 및 하드웨어를 구성하여 실험한 결과, 양방향 시스템의 과도응답특성 개선과 시스템 성능 향상을 보여준다.

  • PDF

교류 전기철도 전원의 불평형률 향상을 위한 모델예측기법 연구 (A Study on a Model Predictive Control to Improve the Imbalace of AC Electric Railway Power)

  • 이정현;조종민;신창훈;차한주
    • 전력전자학회:학술대회논문집
    • /
    • 전력전자학회 2020년도 전력전자학술대회
    • /
    • pp.175-177
    • /
    • 2020
  • 본 논문은 부하의 유동성이 큰 철도 시스템의 특성으로 발생하는 전력 불평형을 개선하기 위해 전력보상장치의 전력품질 및 안정도 향상을 위한 기법을 제안하였다. 철도 부하의 경우 3상의 전력을 공급받아 스코트 변압기를 통해 2개의 단상 선로 M, T상에 공급해주는 형식으로 이때 2개의 단상 측에서 서로 다른 부하가 발생할 경우 3상측에서 불평형이 발생한다. 스위칭 과정에서 발생하는 전력손실 감소를 위해 600Hz의 낮은 스위치 주파수를 이용하며, 전력품질 및 안정도 향상을 위해 12kHz의 샘플링 주파수를 이용하여 샘플링과 제어간의 오차를 감소시켰으며, 빠른 응답성을 갖는 모델예측제어를 제안하였다. 위와 같은 내용을 실험을 통해 전력보상장치의 전류 불평형률을 4.46%까지 감소시켰으며, 불평형을 60Hz 한주기 내에 해결하는 빠른 응답성을 검증하였다.

  • PDF

평균전류모드제어의 전류응답예측을 위한 새로운 이산시간 소신호 모델 (New Discrete-time Small Signal Model of Average Current Mode Control for Current Response Prediction)

  • 정영석
    • 전력전자학회논문지
    • /
    • 제10권3호
    • /
    • pp.219-225
    • /
    • 2005
  • 본 논문에서는 평균전류모드제어를 이용하는 컨버터의 전류응답을 예측할 수 있는 새로운 이산시간 소신호 모델을 구한다. 평균전류모드제어는 최대전류모드제어와 달리 전류제어를 위해 복잡한 보상기 회로를 사용하므로 컨버터의 동작 특성 해석이 어렵다. 평균전류모드제어를 사용하는 컨버터의 소신호 전류응답을 예측하기 위해 샘플러모델을 제안하고, 이 모델로부터 새로운 이산시간 소신호 모델을 구한다. 제안된 방식은 기존 방식과 달리 복잡한 형태의 보상기를 사용하는 컨버터에도 적용 가능하다. 제안한 새로운 이산시간 소신호 모델을 이용한 예측 결과를 스위칭 모델 시뮬레이션 프로그램인 PSIM을 이용한 시뮬레이션 결과 및 실험결과와 비교하여 제안한 새로운 이산시간 소신호 모델의 우수성을 보인다.

스트레인 게이지식 로드셀의 고정밀 크립보상 (High Accurate Creep Compensation of the Loadcell using the Strain Gauge)

  • 서해준;정행섭;류기주;조태원
    • 전기전자학회논문지
    • /
    • 제16권1호
    • /
    • pp.34-44
    • /
    • 2012
  • 본 논문은 스트레인 게이지(strain gauge)식 로드셀(loadcell)의 대표적인 크립오차(creep error)에 대해서 디지털 신호처리방식을 사용한 실용적인 보상법(compensation method)을 제안한다. 신호의 보상방법은 로드셀의 출력응답을 실측해서 보상상수(시정수)와 보상계수를 결정한 후 마이크로프로세서의 내부메모리에 보상상수와 보상계수를 저장한 후 중량값을 디지털로 표시할 시점에 마이크로프로세서에서 연산처리한 크립에러 보상처리값을 로드셀의 출력신호에서 실측한 에러값과 서로 상쇠시키는 보상방법이다. 추가적으로 보상방법을 디지털전자저울에 직접 적용 시험하기 위해서 전용의 보상소프트웨어를 제작한 후 디지털전자저울의 크립특성을 실측해서 보상전 정격출력의 크립오차 0.03%의 로드셀을 정밀디지털전자저울의 허용오차 범위인 0.01%~0.001%이상으로 복잡한 연산처리 없이 정확하게 직접 보상처리하는 실용적인 방법을 제안했다.

PSCAD/EMTDC를 이용한 전압 Sag 보상을 위한 배전용 정지형 보상기의 LQR 제어기 설계 (Design of LQR Controller of DSIATCOM for Compensating Voltage Sag Using PSCAD/EMTDC)

  • 이명언;정수영;최규하
    • 에너지공학
    • /
    • 제13권1호
    • /
    • pp.68-74
    • /
    • 2004
  • 본 논문에서는 전압 sag 보상을 위한 배전용 정지형 보상기 (DSTATCOM) 제어기를 설계하고 PSCAD/EMTDC로 확인하였다. DSIATCOM의 전류성분을 dq분해 해석을 통하여 상태방정식을 유도하고 부하모델과 네트워크의 제약조건을 고려하여 결합 모델을 제시하였다. 1선 지락 사고시 PI 제어기보다 LQR 제어기의 응답 특성이 우수함을 검증하고 전압 Sag가 개선됨을 보였다.

능동형 진동 절연을 위한 압전 구동기의 보상기 설계

  • 문준희;박희재
    • 한국정밀공학회:학술대회논문집
    • /
    • 한국정밀공학회 2004년도 춘계학술대회 논문요약집
    • /
    • pp.198-198
    • /
    • 2004
  • 압전 구동기는 여러 가지 적용에 있어서 높은 응답 속도와 큰 힘, 작은 크기 둥의 장점을 가지고 미세 구동에서 독보적인 위치를 차지하고 있다. 하지만, 히스테리시스, 크? 등의 압전 소자 자체의 비선형성과 이의 구동을 위한 증폭기 등의 한계로 압전 소자의 동적인 특성은 비교적 열악한 것으로 알려져 있다. 특히, 구동 속도가 빨라질 수록 히스테리시스 곡선의 모양이 달라게 되어 구동 궤적의 정확한 예측이 어려우며, 증폭기의 최대 발생 전류가 충분치 않을 경우 압전 구동기가 지령치를 따르지 못하게 된다.(중략)

  • PDF

서비스 조직 구성원의 통제지각과 행동통제과정: 피드백, 비금전적 보상 및 역기능간의 관계를 중심으로

  • 김재영;한동철;안승호
    • Asia Marketing Journal
    • /
    • 제1권3호
    • /
    • pp.109-119
    • /
    • 1999
  • 서비스마케팅에 있어서 종업원의 행동통제와 결과통제에 대한 중요성이 증대하고 있다. 그 중에서 행동통제를 보다 효율적으로하기 위하여 많은 연구가 진행되고 있다. 본 연구는 마케팅조직 종업원의 행동통제 지각이 조직내 종업원이 행동에 어떠한 영향을 주는지를 조사하였다. 종업원이 느끼는 통제지각, 상사의 피드백, 비금전적 보상 그리고 종업원의 역기능 행동 간의 다섯가지 관계에 대하여 가설이 설정되었다. 병원간호사 120 명의 설문응답에 근거하여서 가설검증을 하였다. 다섯 개의 가설중 세 개는 지지되었고, 두 개의 가설은 현재의 자료로는 지지되지 않았다. 가설검증 결과에 근거하여서 시사점과 결론이 제시되었다.

  • PDF

능동형 전자식 개인피폭선량계의 저에너지 X선 영역별 최적화를 위한 에너지보상 필터 두께에 대한 연구 (The Study of Energy Compensation Filter Thickness for Each Energy Area of Low Energy X-ray Beam Optimization on Active Electronic Personal Dosimeter)

  • 김정수;박연현;채현식
    • 한국방사선학회논문지
    • /
    • 제16권5호
    • /
    • pp.519-526
    • /
    • 2022
  • 능동형 전자식 개인피폭선량는 개인의 피폭 선량을 실시간으로 확인할 수 있는 장점을 가진 보조선량계이다. 하지만 국내에 사용되고 있는 다수의 능동형 개인피폭 선량계는 의료기관에서 사용하는 진단방사선 영역에서 큰 오차와 낮은 응답성을 가진다. 이에 본 연구에서는 Si 포토다이오드 검출기를 사용하는 능동형 전자식 개인선량계에서 저에너지 영역의 응답특성을 향상시키기 위한 에너지 보상 두께를 평가하였다. 40 kVp에서 80 kVp 영역에서는 Al 0.2 mm + Sn 1.0 mm 필터에서 우수한 응답특성을 보였고 80 kVp에서 120 kVp 영역에서는 Al 0.2 mm + Sn 1.6 mm 필터에서 우수한 응답특성을 보였다.