• 제목/요약/키워드: reinforcement algorithms

검색결과 149건 처리시간 0.043초

조선소 병렬 기계 공정에서의 납기 지연 및 셋업 변경 최소화를 위한 강화학습 기반의 생산라인 투입순서 결정 (Reinforcement Learning for Minimizing Tardiness and Set-Up Change in Parallel Machine Scheduling Problems for Profile Shops in Shipyard)

  • 남소현;조영인;우종훈
    • 대한조선학회논문집
    • /
    • 제60권3호
    • /
    • pp.202-211
    • /
    • 2023
  • The profile shops in shipyards produce section steels required for block production of ships. Due to the limitations of shipyard's production capacity, a considerable amount of work is already outsourced. In addition, the need to improve the productivity of the profile shops is growing because the production volume is expected to increase due to the recent boom in the shipbuilding industry. In this study, a scheduling optimization was conducted for a parallel welding line of the profile process, with the aim of minimizing tardiness and the number of set-up changes as objective functions to achieve productivity improvements. In particular, this study applied a dynamic scheduling method to determine the job sequence considering variability of processing time. A Markov decision process model was proposed for the job sequence problem, considering the trade-off relationship between two objective functions. Deep reinforcement learning was also used to learn the optimal scheduling policy. The developed algorithm was evaluated by comparing its performance with priority rules (SSPT, ATCS, MDD, COVERT rule) in test scenarios constructed by the sampling data. As a result, the proposed scheduling algorithms outperformed than the priority rules in terms of set-up ratio, tardiness, and makespan.

Analysis of trends in deep learning and reinforcement learning

  • Dong-In Choi;Chungsoo Lim
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권10호
    • /
    • pp.55-65
    • /
    • 2023
  • 본 논문에서는 딥러닝 및 강화학습 연구에 대해 KeyBERT(Keyword extraction with Bidirectional Encoder Representations of Transformers) 알고리즘 기반의 토픽 추출 및 토픽 출현 빈도 분석으로 급변하는 딥러닝 관련 연구 동향 분석을 파악하고자 한다. 딥러닝 알고리즘과 강화학습에 대한 논문초록을 크롤링하여 전반기와 후반기로 나누고, 전처리를 진행한 후 KeyBERT를 사용해 토픽을 추출한다. 그 후 토픽 출현 빈도로 동향 변화에 대해 분석한다. 분석된 알고리즘 모두 전반기와 후반기에 대한 뚜렷한 동향 변화가 나타났으며, 전반기에 비해 후반기에 들어 어느 주제에 대한 연구가 활발한지 확인할 수 있었다. 이는 KeyBERT를 활용한 토픽 추출 후 출현 빈도 분석으로 연구 동향변화 분석이 가능함을 보였으며, 타 분야의 연구 동향 분석에도 활용 가능할 것으로 예상한다. 또한 딥러닝의 동향을 제공함으로써 향후 딥러닝의 발전 방향에 대한 통찰력을 제공하며, 최근 주목 받는 연구 주제를 알 수 있게 하여 연구 주제 및 방법 선정에 직접적인 도움을 준다.

학습방법개선과 후처리 분석을 이용한 자동문서분류의 성능향상 방법 (Reinforcement Method for Automated Text Classification using Post-processing and Training with Definition Criteria)

  • 최윤정;박승수
    • 정보처리학회논문지B
    • /
    • 제12B권7호
    • /
    • pp.811-822
    • /
    • 2005
  • 자동문서분류는 문서의 내용에 기반하여 미리 정의된 항목에 자동으로 할당하는 작업으로서 효율적인 정보관리 및 검색등에 필수적인 작업이다. 기존의 문서분류성능 향상을 위한 연구들은 대부분 분류모델 자체를 개선시키는 데 주력해왔으며 통계적인 방법으로 그 범위가 제한되어왔다. 본 연구에서는 자동문서분류의 성능향상을 위해 데이터마이닝 기법과 결함허용방법을 이용하는 개선된 학습알고리즘과 후처 리 방법에 의한 RTPost 시스템을 제안한다. RTPost 시스템은 학습문서 선택작업 이전에 분류항목 설정의 문제를 다루며, 분류함수의 성능보다는 지정방식의 문제점을 감안하여 학습과 분류 후처리 프로세스를 개선하려는 것이다. 이를 통해 분류결과에 중요한 영향을 미쳐왔던 학습문서의 수와 선택방법, 분류모델의 성능등에 의존하지 않는 안정적인 분류가 가능하였고, 이를 분류오류율이 높은 경계선 인접영역에 위치한 문서들에 적용한 결과 높은 정확율을 얻을 수 있었다. 뿐만 아니라, RTPost 프로세스를 진행하는 동안 능동학습방법의 장점을 수용하여 학습효과는 높이며 비용을 감소시킬 수 있는 자가학습방법(self learning)방법의 효과를 기대할 수 있다.

실시간 진화 알고리듬을 통한 신경망의 적응 학습제어 (Adaptive Learning Control of Neural Network Using Real-Time Evolutionary Algorithm)

  • 장성욱;이진걸
    • 대한기계학회논문집A
    • /
    • 제26권6호
    • /
    • pp.1092-1098
    • /
    • 2002
  • This paper discusses the composition of the theory of reinforcement teaming, which is applied in real-time teaming, and evolutionary strategy, which proves its the superiority in the finding of the optimal solution at the off-line teaming method. The individuals are reduced in order to team the evolutionary strategy in real-time, and new method that guarantee the convergence of evolutionary mutations are proposed. It is possible to control the control object varied as time changes. As the state value of the control object is generated, applied evolutionary strategy each sampling time because of the teaming process of an estimation, selection, mutation in real-time. These algorithms can be applied, the people who do not have knowledge about the technical tuning of dynamic systems could design the controller or problems in which the characteristics of the system dynamics are slightly varied as time changes. In the future, studies are needed on the proof of the theory through experiments and the characteristic considerations of the robustness against the outside disturbances.

동적신경망을 이용한 비선형 다변수 시스템의 제어기 설계 (Design of Controller for Nonlinear Multivariable System Using Dynamic Neural Unit)

  • 조현섭
    • 한국산학기술학회논문지
    • /
    • 제9권5호
    • /
    • pp.1178-1183
    • /
    • 2008
  • 슬라이딩 모드를 가진 가변 구조 제어(VSC)는 비선형 시스템의 현대제어에서 중요하고 흥미로운 주제이다. 그러나, VSC에서의 불연속적인 제어 법칙은 실제로 바람직하지 못한 떨림 현상을 발생시킨다. 본 논문에서는 이러한 문제점을 해결하기 위해 신경망 슬라이딩 곡면을 갖는 VSC 구조를 제안한다. 불연속 제어 법칙을 해결하기 위해 경계층을 가진 신경망 슬라이딩 곡면이 도입된다. 제안된 제어기는 보편적인 VSC의 떨림 현상 문제를 해결할 수 있다. 제안된 제어 구조의 효과는 시뮬레이션을 통해 증명하였다.

IRPO 기반 Actor-Critic 학습 기법을 이용한 로봇이동 (Robot locomotion via IRPO based Actor-Critic Learning Method)

  • 김종호;강대성;박주영
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2005년도 제36회 하계학술대회 논문집 D
    • /
    • pp.2933-2935
    • /
    • 2005
  • The IRPO(Intensive Randomized Policy Optimizer) algorithm is a recently developed tool in the area of reinforcement leaming. And it has been shown to be very successful in several application problems. To compare with a general RL method, IRPO has some difference in that policy utilizes the entire history of agent -environment interaction. The policy is derived from the history directly, not through any kind of a model of the environment. In this paper, we consider a robot-control problem utilizing a IRPO algorithm. We also developed a MATLAH-based animation program, by which the effectiveness of the training algorithms were observed.

  • PDF

기계학습 및 기본 알고리즘 연구 (A Study on Machine Learning and Basic Algorithms)

  • 김동현;이태호;이병준;김경태;윤희용
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2018년도 제58차 하계학술대회논문집 26권2호
    • /
    • pp.35-36
    • /
    • 2018
  • 본 논문에서는 기계학습 및 기계학습 기법 중에서도 Markov Decision Process (MDP)를 기반으로 하는 강화학습에 대해 알아보고자 한다. 강화학습은 기계학습의 일종으로 주어진 환경 안에서 의사결정자(Agent)는 현재의 상태를 인식하고 가능한 행동 집합 중에서 보상을 극대화할 수 있는 행동을 선택하는 방법이다. 일반적인 기계학습과는 달리 강화학습은 학습에 필요한 사전 지식을 요구하지 않기 때문에 불명확한 환경 속에서도 반복 학습이 가능하다. 본 연구에서는 일반적인 강화학습 및 강화학습 중에서 가장 많이 사용되고 있는 Q-learning 에 대해 간략히 설명한다.

  • PDF

직접 대역 확산 시스템에서 신경망을 이용한 간섭 신호 제어 (Direct-band spread system for neural network with interference signal control)

  • 조현섭
    • 한국산학기술학회논문지
    • /
    • 제14권3호
    • /
    • pp.1372-1377
    • /
    • 2013
  • 본 논문은 신경망을 이용한 간섭 신호 제어로써 합성 다층 퍼셉트론에 입각하여 셀룰라 이동 통신에서의 수신된 신호들을 역전파 학습알고리즘을 이용하여 검파하는 것에 대하여 소개하였다. 그리고 컴퓨터 시뮬레이션 결과를 통하여 공동 간섭과 협대역 간섭의 실제 음색에서 기존에 쓰여진 레이크 수신기보다 더 낮은 비트 오차 확률을 가지는 NNAC(neural network adaptive correlator)에 대하여 분석 하였다.

Reinforcement Learning-based Duty Cycle Interval Control in Wireless Sensor Networks

  • Akter, Shathee;Yoon, Seokhoon
    • International journal of advanced smart convergence
    • /
    • 제7권4호
    • /
    • pp.19-26
    • /
    • 2018
  • One of the distinct features of Wireless Sensor Networks (WSNs) is duty cycling mechanism, which is used to conserve energy and extend the network lifetime. Large duty cycle interval introduces lower energy consumption, meanwhile longer end-to-end (E2E) delay. In this paper, we introduce an energy consumption minimization problem for duty-cycled WSNs. We have applied Q-learning algorithm to obtain the maximum duty cycle interval which supports various delay requirements and given Delay Success ratio (DSR) i.e. the required probability of packets arriving at the sink before given delay bound. Our approach only requires sink to compute Q-leaning which makes it practical to implement. Nodes in the different group have the different duty cycle interval in our proposed method and nodes don't need to know the information of the neighboring node. Performance metrics show that our proposed scheme outperforms existing algorithms in terms of energy efficiency while assuring the required delay bound and DSR.

상태 행동 가치 기반 다중 에이전트 강화학습 알고리즘들의 비교 분석 실험 (Comparative Analysis of Multi-Agent Reinforcement Learning Algorithms Based on Q-Value)

  • 김주봉;최호빈;한연희
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 춘계학술발표대회
    • /
    • pp.447-450
    • /
    • 2021
  • 시뮬레이션을 비롯한 많은 다중 에이전트 환경에서는 중앙 집중 훈련 및 분산 수행(centralized training with decentralized execution; CTDE) 방식이 활용되고 있다. CTDE 방식 하에서 중앙 집중 훈련 및 분산 수행 환경에서의 다중 에이전트 학습을 위한 상태 행동 가치 기반(state-action value; Q-value) 다중 에이전트 알고리즘들에 대한 많은 연구가 이루어졌다. 이러한 알고리즘들은 Independent Q-learning (IQL)이라는 강력한 벤치 마크 알고리즘에서 파생되어 다중 에이전트의 공동의 상태 행동 가치의 분해(Decomposition) 문제에 대해 집중적으로 연구되었다. 본 논문에서는 앞선 연구들에 관한 알고리즘들에 대한 분석과 실용적이고 일반적인 도메인에서의 실험 분석을 통해 검증한다.