• Title/Summary/Keyword: 강화

Search Result 19,386, Processing Time 0.043 seconds

Improved the action recognition performance of hierarchical RNNs through reinforcement learning (강화학습을 통한 계층적 RNN의 행동 인식 성능강화)

  • Kim, Sang-Jo;Kuo, Shao-Heng;Cha, Eui-Young
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2018.07a
    • /
    • pp.360-363
    • /
    • 2018
  • 본 논문에서는 계층적 RNN의 성능 향상을 위하여 강화학습을 통한 계층적 RNN 내 파라미터를 효율적으로 찾는 방법을 제안한다. 계층적 RNN 내 임의의 파라미터에서 학습을 진행하고 얻는 분류 정확도를 보상으로 하여 간소화된 강화학습 네트워크에서 보상을 최대화하도록 강화학습 내부 파라미터를 수정한다. 기존의 강화학습을 통한 내부 구조를 찾는 네트워크는 많은 자원과 시간을 소모하므로 이를 해결하기 위해 간소화된 강화학습 구조를 적용하였고 이를 통해 적은 컴퓨터 자원에서 학습속도를 증가시킬 수 있었다. 간소화된 강화학습을 통해 계층적 RNN의 파라미터를 수정하고 이를 행동 인식 데이터 세트에 적용한 결과 기존 알고리즘 대비 높은 성능을 얻을 수 있었다.

  • PDF

Relative Effects of Positive and Negative Reinforcement on the Customer Service Behaviors (정적강화와 부적강화가 고객 서비스 행동에 미치는 상대적 효과)

  • Choi, Shinjeong;Lee, Kyehoon;Moon, Kwangsu;Oah, Shezeen
    • The Journal of the Korea Contents Association
    • /
    • v.14 no.1
    • /
    • pp.423-434
    • /
    • 2014
  • This study examined the relative effects of positive and negative reinforcement on customer service behaviors. In addition, we examined whether the intervention would lead to response generalization on non-target behaviors. Five employees at three different convenient stores participated and ABC/ACB within-subject design was adopted. For the three participants, followed by the baseline(A), the positive reinforcement was first introduced(B) and the negative reinforcement(C) was introduced for the next phase. For the remaining two participants, the negative reinforcement(C) was first introduced after baseline(A) and the positive reinforcement (B) was introduced. Results showed a greater improvement in target behaviors under the positive reinforcement condition than that of the negative reinforcement condition. In addition, both reinforcement condition cause response generalization on non-targeted service behaviors, however, the comparable effects was found between two reinforcement conditions. Post-interview indicated that participants experienced positive emotions under positive reinforcement condition and negative emotions under negative reinforcement condition. These results suggest that the he techniques using positive reinforcement can be more effective and efficient to improve the work performance.

심층 강화 학습 기술 동향

  • Kim, Jung-Heon
    • Broadcasting and Media Magazine
    • /
    • v.27 no.2
    • /
    • pp.26-34
    • /
    • 2022
  • 강화 학습 기술은 많은 분야에서 매우 적극적으로 활용되는 기계 학습 기술 중의 하나이며 최근 이를 사용한 많은 연구 결과를 다양한 기관에서 활발하게 보여주고 있다. 본 고에서는 이러한 강화 학습 기술에 대한 기본적인 소개와 해당 기술의 심층 강화 학습으로의 발전에 대해서 논한다. 더불어 이러한 심층 강화 학습의 많은 분야 중에서 최근 활발히 논의되는 모방 학습에 대해서 알아보고 그 활용성에 대해서 논한다.

Dry Sliding Wear Behavior of Carbide-Particle-Reinforced 7075 Al Alloy Matrix Composites (탄화물(SiC, TiC, $B_4C$ ) 입자 강화 7075 Al 합금 기지 복합재료의 건식 미끄럼 마멸 거동)

  • 강석하;박형철;강신철;김용석
    • Proceedings of the Materials Research Society of Korea Conference
    • /
    • 2003.03a
    • /
    • pp.27-27
    • /
    • 2003
  • 무가압침투법으로 제조된 부피분율 10~24% SiC, TiC, B$_4$C 탄화물 입자강화 7075 Al 합금 기지 복합재료의 건식 미끄럼 마멸거동을 강화입자의 종류, 크기 및 부피 분율을 변수로 연구하였다. 미끄럼 마멸 시험은 pin-on-disk 형태의 마멸 시험기를 사용하여, AISI 52100 베어링강을 상대재로 상온 대기 중에서 실시되었다. 마멸특성의 분석과 마멸기구의 규명을 위하여 마멸면과 마멸단면을 SEM, EDS를 이용하여 분석하였다. 제조된 복합재료의 압축 시험을 통하여 측정된 항복강도와 가공경화지수는 서로 반비례하였고, 각 시편간의 경도 차는 크지 않았다. 마멸 시험결과, 크기 및 부피 분율이 7$\mu\textrm{m}$ !0%인 SiC 입자로 강화된 복합재료를 제외하고, 전체 복합재료 시편은 7075 Al 기지 합금에 비해 낮은 마멸 속도를 보였다. 10N 이하의 저하 중에서는 강화상의 종류와 상관없이 복합재료는 낮은 마멸 속도를 보였고, 25N 이상의 고하중에서는 TiC 입자강화 복합재료가 가장 낮은 마멸 속도를, SiC 입자강화 복합재료가 가장 높은 마멸 속도를 나타내었다. 강화 입자의 크기 및 부피 분율이 동일한 경우 SiC 입자로 강화된 복합재료가 가장 낮은 내마멸성을 나타내었다. 강화상의 크기 및 부피 분율이 증가함에 따라 미소 마멸에서 격렬 마멸로의 천이 하중이 증가하였다.

  • PDF

The Final Alternative Choice According to the Change of Product Attribute Information (제품 속성정보 강화에 따른 소비자 대안선택 변화에 관한 연구)

  • Kim, Sang-cheol
    • Journal of Distribution Science
    • /
    • v.4 no.1
    • /
    • pp.103-120
    • /
    • 2006
  • This study is composed of analyses about whether intensifying the attribute level of alternatives presented to consumers makes the effect of intensifying attributes and there is any significant difference among effects of the intensified attributes. For this, the most favorite alternative is extracted from each group of computers and jeans through conjoint analysis, which is used as a standard alternative during the process of experimentation. In conclusion, this research suggests that in terms of business, by intensifying the latter attribute of products rather than the early attribute, an enterprise acquire distinct and competitive superiority over similar competing products (esp. functional products), and theoretically, by expanding and analyzing decision models it can predict consumers' behaviors more correctly.

  • PDF

Optimal Route Finding Algorithms based Reinforcement Learning (강화학습을 이용한 주행경로 최적화 알고리즘 개발)

  • 정희석;이종수
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2003.05a
    • /
    • pp.157-161
    • /
    • 2003
  • 본 논문에서는 차량의 주행경로 최적화를 위해 강화학습 개념을 적용하고자 한다. 강화학습의 특징은 관심 대상에 대한 구체적인 지배 규칙의 정보 없이도 최적화된 행동 방식을 학습시킬 수 있는 특징이 있어서, 실제 차량의 주행경로와 같이 여러 교통정보 및 시간에 따른 변화 등에 대한 복잡한 고려가 필요한 시스템에 적합하다. 또한 학습을 위한 강화(보상, 벌칙)의 정도 및 기준을 조절해 즘으로써 다양한 최적주행경로를 제공할 수 있다. 따라서, 본 논문에서는 강화학습 알고리즘을 이용하여 다양한 최적주행경로를 제공해 주는 시스템을 구현한다.

  • PDF

Hierachical Reinforcement Learning with Exploration Bonus (탐색 강화 계층적 강화 학습)

  • 이승준;장병탁
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10b
    • /
    • pp.151-153
    • /
    • 2001
  • Q-Learning과 같은 기본적인 강화 학습 알고리즘은 문제의 사이즈가 커짐에 따라 성능이 크게 떨어지게 된다. 그 이유들로는 목표와의 거리가 멀어지게 되어 학습이 어려워지는 문제와 비 지향적 탐색을 사용함으로써 효율적인 탐색이 어려운 문제를 들 수 있다. 이들을 해결하기 위해 목표와의 거리를 줄일 수 있는 계층적 강화 학습 모델과 여러 가지 지향적 탐색 모델이 있어 왔다. 본 논문에서는 이들을 결합하여 계층적 강화 학습 모델에 지향적 탐색을 가능하게 하는 탐색 보너스를 도입한 강화 학습 모델을 제시한다.

  • PDF

Advanced FMO for ROI enhancement of the Cyclic-FGS (Cyclic FGS 기반에서 개선된 FMO를 통한 화질 개선)

  • Lee, Kyung-Il;Park, Gwang-Hoon
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.11b
    • /
    • pp.853-855
    • /
    • 2005
  • 현재 표준화가 진행중인 SVC(Scalable Video Codec)에는 기존의 FGS방법이 아닌 Cyclic-FGS를 사용하여 영상을 강화하고 있다. 이 Cyclic-FGS 블록간에 Stocking Effect를 줄일 수 있고 넓은 영역을 강화할 수 있다는 장점이 있다. 하지만 널은 영역을 강화하기 때문에 기존의 FGS와 달리 ROI를 강화하는데는 적합하지 않다. 따라서 본 논문에서는 Cyclic-FGS에 적합한 새로운 Ordering 방법을 제안한다. 이 방법을 사용하면 기존의 FGS에서 사용한 Bit-shift방법을 사용하지 않고도 비슷한 효과를 낼 수 있으며, 우리가 원하는 ROI를 강화시킬 수 있다. ROI를 중점적으로 강화를 하다 보면 전체 영상에 대한 화질은 떨어질 수 있다. 그러나 두 가지 모드를 두어서 중점강화 또는 전체영상과 비교해 화질열화가 거의 없는 강화를 할 수 있게 하였다.

  • PDF

RBFN-based Policy Model for Efficient Multiagent Reinforcement Learning (효율적인 멀티 에이전트 강화학습을 위한 RBFN 기반 정책 모델)

  • Gwon, Gi-Deok;Kim, In-Cheol
    • Proceedings of the Korea Inteligent Information System Society Conference
    • /
    • 2007.11a
    • /
    • pp.294-302
    • /
    • 2007
  • 멀티 에이전트 강화학습에서 중요한 이슈 중의 하나는 자신의 성능에 영향을 미칠 수 있는 다른 에이전트들이 존재하는 동적 환경에서 어떻게 최적의 행동 정책을 학습하느냐 하는 것이다. 멀티 에이전트 강화 학습을 위한 기존 연구들은 대부분 단일 에이전트 강화 학습기법들을 큰 변화 없이 그대로 적용하거나 비록 다른 에이전트에 관한 별도의 모델을 이용하더라도 현실적이지 못한 가정들을 요구한다. 본 논문에서는 상대 에이전트에 대한RBFN기반의 행동 정책 모델을 소개한 뒤, 이것을 이용한 강화 학습 방법을 설명한다. 본 논문에서는 제안하는 멀티 에이전트 강화학습 방법은 기존의 멀티 에이전트 강화 학습 연구들과는 달리 상대 에이전트의 Q 평가 함수 모델이 아니라 RBFN 기반의 행동 정책 모델을 학습한다. 또한, 표현력은 풍부하나 학습에 시간과 노력이 많이 요구되는 유한 상태 오토마타나 마코프 체인과 같은 행동 정책 모델들에 비해 비교적 간단한 형태의 행동 정책 모델을 이용함으로써 학습의 효율성을 높였다. 본 논문에서는 대표적이 절대적 멀티 에이전트 환경인 고양이와 쥐 게임을 소개한 뒤, 이 게임을 테스트 베드 삼아 실험들을 전개함으로써 제안하는 RBFN 기반의 정책 모델의 효과를 분석해본다.

  • PDF

Evaluating a successor representation-based reinforcement learning algorithm in the 2-stage Markov decision task (2-stage 마르코프 의사결정 상황에서 Successor Representation 기반 강화학습 알고리즘 성능 평가)

  • Kim, So-Hyeon;Lee, Jee Hang
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2021.11a
    • /
    • pp.910-913
    • /
    • 2021
  • Successor representation (SR) 은 두뇌 내 해마의 공간 세포가 인지맵을 구성하여 환경을 학습하고, 이를 활용하여 변화하는 환경에서 유연하게 최적 전략을 수립하는 기전을 모사한 강화학습 방법이다. 특히, 학습한 환경 정보를 활용, 환경 구조 안에서 목표가 변화할 때 강인하게 대응하여 일반 model-free 강화학습에 비해 빠르게 보상 변화에 적응하고 최적 전략을 찾는 것으로 알려져 있다. 본 논문에서는 SR 기반 강화학습 알고리즘이 보상의 변화와 더불어 환경 구조, 특히 환경의 상태 천이 확률이 변화하여 보상의 변화를 유발하는 상황에서 어떠한 성능을 보이는 지 확인하였다. 벤치마크 알고리즘으로 SR 의 특성을 목적 기반 강화학습으로 통합한 SR-Dyna 를 사용하였고, 환경 상태 천이 불확실성과 보상 변화가 동시에 나타나는 2-stage 마르코프 의사결정 과제를 실험 환경으로 사용하였다. 시뮬레이션 결과, SR-Dyna 는 환경 내 상태 천이 확률 변화에 따른 보상 변화에는 적절히 대응하지 못하는 결과를 보였다. 본 결과를 통해 두뇌의 강화학습과 알고리즘 강화학습의 차이를 이해하여, 환경 변화에 강인한 강화학습 알고리즘 설계를 기대할 수 있다.