• 제목/요약/키워드: Q-value model

검색결과 215건 처리시간 0.026초

Q-value Initialization을 이용한 Reinforcement Learning Speedup Method (Reinforcement learning Speedup method using Q-value Initialization)

  • 최정환
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2001년도 하계종합학술대회 논문집(3)
    • /
    • pp.13-16
    • /
    • 2001
  • In reinforcement teaming, Q-learning converges quite slowly to a good policy. Its because searching for the goal state takes very long time in a large stochastic domain. So I propose the speedup method using the Q-value initialization for model-free reinforcement learning. In the speedup method, it learns a naive model of a domain and makes boundaries around the goal state. By using these boundaries, it assigns the initial Q-values to the state-action pairs and does Q-learning with the initial Q-values. The initial Q-values guide the agent to the goal state in the early states of learning, so that Q-teaming updates Q-values efficiently. Therefore it saves exploration time to search for the goal state and has better performance than Q-learning. 1 present Speedup Q-learning algorithm to implement the speedup method. This algorithm is evaluated. in a grid-world domain and compared to Q-teaming.

  • PDF

불연속지반의 연속체 모델 적용범위에 대한 수치해석적 연구 (A Study on Application Range of Continuum Model to Discontinuous Rock mass with Numerical Analysis)

  • 이경우;노상림;윤지선
    • 한국지반공학회:학술대회논문집
    • /
    • 한국지반공학회 2002년도 봄 학술발표회 논문집
    • /
    • pp.197-204
    • /
    • 2002
  • In this study, multivariate analysis based on domestic data(958 EA) of road tunnel, and suggest the easy prediction equation of Q-system. We generate applicable Q-value to numerical analysis method with using the equation and investigate the behavior as variable Q-value of rock mass induced excavation with discontinuum numerical analysis method, UDEC. In the result of the experiment, we research the application range of Q-value to apply the continuum model to discontinuous rock mass is below 0.7 and we testify the applicability of continuum model as researched Q-value with continuum numerical analysis method, FLAC.

  • PDF

지능형 로보트 시스템을 위한 영역기반 Q-learning (Region-based Q-learning for intelligent robot systems)

  • 김재현;서일홍
    • 제어로봇시스템학회논문지
    • /
    • 제3권4호
    • /
    • pp.350-356
    • /
    • 1997
  • It is desirable for autonomous robot systems to possess the ability to behave in a smooth and continuous fashion when interacting with an unknown environment. Although Q-learning requires a lot of memory and time to optimize a series of actions in a continuous state space, it may not be easy to apply the method to such a real environment. In this paper, for continuous state space applications, to solve problem and a triangular type Q-value model\ulcorner This sounds very ackward. What is it you want to solve about the Q-value model. Our learning method can estimate a current Q-value by its relationship with the neighboring states and has the ability to learn its actions similar to that of Q-learning. Thus, our method can enable robots to move smoothly in a real environment. To show the validity of our method, navigation comparison with Q-learning are given and visual tracking simulation results involving an 2-DOF SCARA robot are also presented.

  • PDF

Solving Survival Gridworld Problem Using Hybrid Policy Modified Q-Based Reinforcement

  • Montero, Vince Jebryl;Jung, Woo-Young;Jeong, Yong-Jin
    • 전기전자학회논문지
    • /
    • 제23권4호
    • /
    • pp.1150-1156
    • /
    • 2019
  • This paper explores a model-free value-based approach for solving survival gridworld problem. Survival gridworld problem opens up a challenge involving taking risks to gain better rewards. Classic value-based approach in model-free reinforcement learning assumes minimal risk decisions. The proposed method involves a hybrid on-policy and off-policy updates to experience roll-outs using a modified Q-based update equation that introduces a parametric linear rectifier and motivational discount. The significance of this approach is it allows model-free training of agents that take into account risk factors and motivated exploration to gain better path decisions. Experimentations suggest that the proposed method achieved better exploration and path selection resulting to higher episode scores than classic off-policy and on-policy Q-based updates.

Reliability analysis of piles based on proof vertical static load test

  • Dong, Xiaole;Tan, Xiaohui;Lin, Xin;Zhang, Xuejuan;Hou, Xiaoliang;Wu, Daoxiang
    • Geomechanics and Engineering
    • /
    • 제29권5호
    • /
    • pp.487-496
    • /
    • 2022
  • Most of the pile's vertical static load tests in construction sites are the proof load tests, which is difficult to accurately estimate the ultimate bearing capacity and analyze the reliability of piles. Therefore, a reliability analysis method based on the proof load-settlement (Q-s) data is proposed in this study. In this proposed method, a simple ultimate limit state function based on the hyperbolic model is established, where the random variables of reliability analysis include the model factor of the ultimate bearing capacity and the fitting parameters of the hyperbolic model. The model factor M = RuR / RuP is calculated based on the available destructive Q-s data, where the real value of the ultimate bearing capacity (RuR) is obtained by the complete destructive Q-s data; the predicted value of the ultimate bearing capacity (RuP) is obtained by the proof Q-s data, a part of the available destructive Q-s data, that before the predetermined load determined by the pile test report. The results demonstrate that the proposed method can easy and effectively perform the reliability analysis based on the proof Q-s data.

Protein Adsorption on Ion Exchange Resin: Estimation of Equilibrium Isotherm Parameters from Batch Kinetic Data

  • Chu K.H.;Hashim M.A.
    • Biotechnology and Bioprocess Engineering:BBE
    • /
    • 제11권1호
    • /
    • pp.61-66
    • /
    • 2006
  • The simple Langmuir isotherm is frequently employed to describe the equilibrium behavior of protein adsorption on a wide variety of adsorbents. The two adjustable parameters of the Langmuir isotherm - the saturation capacity, or $q_m$, and the dissociation constant, $K_d$ - are usually estimated by fitting the isotherm equation to the equilibrium data acquired from batch equilibration experiments. In this study, we have evaluated the possibility of estimating $q_m$ and $K_d$ for the adsorption of bovine serum albumin to a cation exchanger using batch kinetic data. A rate model predicated on the kinetic form of the Langmuir isotherm, with three adjustable parameters ($q_m,\;K_d$, and a rate constant), was fitted to a single kinetic profile. The value of $q_m$ determined as the result of this approach was quantitatively consistent with the $q_m$ value derived from the traditional batch equilibrium data. However, the $K_d$ value could not be retrieved from the kinetic profile, as the model fit proved insensitive to this parameter. Sensitivity analysis provided significant insight into the identifiability of the three model parameters.

Biosorption of Lead $(Pb^{2+})$ from Aqueous Solution by Rhodotorula aurantiaca

  • Cho, Dae-Haeng;Yoo, Man-Hyong;Kim, Eui-Yong
    • Journal of Microbiology and Biotechnology
    • /
    • 제14권2호
    • /
    • pp.250-255
    • /
    • 2004
  • The aim of this work was to investigate the adsorption isotherm and kinetic model for the biosorption of lead $(Pb^{2+})$ by Rhodotorula aurantiaca and to examine the environmental factors for this metal removal. Within five minutes of contact, $Pb^{2+}$ sorption reached nearly 86% of the total $Pb^{2+}$ sorption. The optimum initial pH value for removal of $Pb^{2+}$ was 5.0. The percentage sorption increased steeply with the biomass concentration up to 2 g/l and thereafter remained more or less constant. The Langmuir sorption model provided a good fit throughout the concentration range. The conformity of these data to the Langmuir model indicated that biosorption of $Pb^{2+}$ by R. aurantiaca could be characterized as a monolayer, single-site type phenomenon with no interaction between ions adsorbed in neighboring sites. The maximum $Pb^{2+}$ sorption capacity $(q_{max})$ and Langmuir constant (b) were 46.08 mg/g of biomass and 0.04 l/mg, respectively. The pseudo second-order equation was well fitted to the experimental data. The correlation coefficients for the linear plots of t/q against t for the second-order equation were 0.999 for all the initial concentrations of biosorbent for contact times of 180 min. The theoretical $q_{eq}$ value was very close to the experimental $q_{eq}$ value.

오염된 연약지반의 측방유동에 관한 연구 (A Study on the Lateral Flow in Polluted Soft Soils)

  • 안종필;박상범
    • 지질공학
    • /
    • 제11권2호
    • /
    • pp.175-190
    • /
    • 2001
  • 오염된 연약지반에 편재하중이 작용하는 경우에 있어서 지반의 소성화에 따른 측방유동에 대한 거동을 규명하기 위하여 기존의 이론적인 배경을 고찰하고, 모형실험을 통하여 실측한 결과를 상호 비교.분석하였다. 모형실험은 모형재하장치인 토조와 재하틀 및 재하판을 제작하여 토조 안에 함수비를 일정하게 유지한 상태에서 자연지반의 시료와 오염물질을 점진적으로 증가시킨 지반시료에 대하여 일정한 시간 간격으로 편재하중을 증가시키면서 침하량과 측방변위량 및 융기량 등을 관측하였다. 그 결과 한계하중은 실험값이 Tschebotarioff(q$_{cr}$=3.0$_{cu}$)의 제안값과 Meyerhof(q$_{cr}$=(B/2H+$\pi$/2)$_{cu}$)의 제안값에 근접하여 q$_{cr}$=2.78$_{cu}$값을 나타냈고, 극한하중은 Prandtl의 제안값에 근접하여 q$_{ult}$=4.84$_{cu}$값을 나타냈다. 측방유동압은 Matsui.Hong의 이론식에 의해서 산정함이 비교적 적절하며, 측방유동압의 최대값은 토층두께(H)의 0.3H 부근에서 발생하였으며, 복합형과 Poulos의 분포형태 및 오염되지 않는 연약점토(CL, CH)지반 보다 지표면측으로 상승하여 발생하였다. 안정관리방법은 지반의 측방유동에 의한 소성변위량을 많이 이용하고 있는 부영.교본, 자전.관구, 송미.천촌 등의 안정관리도에 적용한 결과 송미.천촌의{S$_{v}$-(Y$_{m}$/S$_{v}$)}관리도와 자전.관구의 {(q/Y$_{m}$)-q}관리도에서 얻어진 극한하중은 하중-침하량곡선 (q-S$_{v}$)에서 얻어진 극한하중 보다 적은 경향을 나타냈다.

  • PDF

포스트 코로나 시대의 효과적인 광고 방향에 관한 연구 (Effective Advertising Direction in the post-COVID-19 Era)

  • 이제영;정조
    • 한국콘텐츠학회논문지
    • /
    • 제22권7호
    • /
    • pp.89-101
    • /
    • 2022
  • 코로나19는 소비자들의 수요와 습관을 크게 변화시키고 있다. 본 연구는 포스트 코로나 시대의 소비자 특성을 파악하고 효과적인 광고 방향을 찾아내기 위해, 광고 수용자의 주관적 관점에서 시장 변화, 기술 변혁 등에 대해 더욱 민감하고 소비 욕구가 높은 젊은 소비층을 실험 대상으로 하고, 그들의 포스트 코로나 시대의 광고에 대한 인지실태를 Q방법론을 통해 고찰하여 포스트 코로나 시대의 광고 발전 모델을 탐색적으로 도출하였다. 이 모델은 소비자 수요를 중시하고 온라인 쇼핑 경로에 적응하는 '수요 발굴형 온라인 광고', 파생가치와 소비자 경험을 중시하는 '부가가치 창출형 체험 광고' 그리고 실용주의와 감성가치에 기반한 '실용 및 감정적 가치 창출형 광고' 등 크게 세 가지 유형의 광고로 구성되었다. 아울러 본 연구도 '다차원적 가치 추구', '소비자 경험 확장', '수요 발굴 및 선도' 등 다양한 측면에서 포스트 코로나 시대 광고의 지속가능한 실천을 위해 제언하였다.

국제회계기준 도입이 기업가치에 영향을 미치는가?: 토빈의 Q 모형을 이용한 한국과 중국의 실증비교연구 (The Impact of IFRS Adoption on Firm Value in Korea and China - Evidence using Tobin's Q)

  • 장지경
    • 한국콘텐츠학회논문지
    • /
    • 제14권7호
    • /
    • pp.427-434
    • /
    • 2014
  • 본 연구의 목적은 국제회계기준을 도입함에 있어 상이한 도입과정을 보인 한국과 중국을 대상으로 하여 국제회계기준의 도입효과를 비교분석하는 것이다. 한국은 2011년부터 일시에 국제회계기준을 도입하였으나, 중국은 2007년부터 국제회계기준의 적용범위를 순차적으로 확대하고 자국의 회계기준과 일치시키기 위한 개정작업을 지속하는 등 점진적인 도입양상을 보였다. 이처럼 양국의 국제회계기준 수용과정 상의차이는 양국의 회계기준 변경 효과 측면에서도 차이를 발생시킬 것으로 기대하였으며 본 연구의 실증분석 결과는 다음과 같다. 첫째, 한국의 경우 토빈의 Q값이 국제회계기준 도입이전 기간에 비해 도입이후 기간에 통계적으로 유의하게 증대되는 것으로 확인되었다. 둘째, 중국의 경우 토빈의 Q값이 전반적으로 증대되는 추세에 있는 것으로 나타났으나 국제회계기준을 전후하여 유의한 차이는 확인되지 않았다. 본 연구는 국제회계기준의 도입효과를 검증함에 있어 국가별 도입과정의 이해가 중요함을 밝혔다는 점에서 의의가 있다.