• 제목/요약/키워드: Q learning

검색결과 426건 처리시간 0.028초

순환인공신경망을 활용한 터널굴착면 전방 Q값 예측에 관한 연구 (Study on Q-value prediction ahead of tunnel excavation face using recurrent neural network)

  • 홍창호;김진;류희환;조계춘
    • 한국터널지하공간학회 논문집
    • /
    • 제22권3호
    • /
    • pp.239-248
    • /
    • 2020
  • 터널 굴착 시 정확한 암반 분류는 적합한 지보패턴을 설치하는 데 도움을 준다. 암반의 분류를 위해 주로 RMR (Rock Mass Ration)과 Q값을 산정하여 수행되며, 페이스 매핑(face mapping)을 바탕으로 산정된다. 점보드릴 및 프로브드릴의 기계 데이터을 활용하거나 딥러닝을 활용한 굴착면 사진 분석 등의 방법이 암반등급 분류를 예측하기 위해 사용되고 있으나, 분석 시 오랜 시간이 소요되거나, 굴착면 전방의 암반등급을 파악할 수 없다는 점에서 한계를 갖는다. 본 연구에서는 순환인공신경망(Recurrent neural network, RNN)을 활용하여 굴착면 전방의 Q값을 예측하는 방법을 개발하였고 페이스 매핑으로부터 획득한 Q값과 비교/검증하였다. 4,600여개의 굴착면 데이터 중 70%를 학습에 활용하였고, 나머지 30%는 검증에 사용하였다. 학습의 횟수와 학습에 활용한 이전굴착면의 개수를 변경하여 학습을 수행하였다. 예측된 Q값과 실제 Q값의 유사도는 RMSE (root mean square error)를 기준으로 비교하였다. 현재 굴착면과 바로 직전의 굴착면의 Q값을 활용하여 600회 학습하여 예측한 Q값의 RMSE값이 가장 작은 것을 확인하였다. 본 연구의 결과는 학습에 사용한 데이터 값 등이 변화하는 경우 변화할 수 있으나 터널에서의 이전 지반상태가 앞으로의 지반상태에 영향을 미치는 시스템을 이해하고, 이를 통해 터널 굴착면 전방의 Q값의 예측이 가능할 것으로 판단된다.

The Hidden Object Searching Method for Distributed Autonomous Robotic Systems

  • Yoon, Han-Ul;Lee, Dong-Hoon;Sim, Kwee-Bo
    • 제어로봇시스템학회:학술대회논문집
    • /
    • 제어로봇시스템학회 2005년도 ICCAS
    • /
    • pp.1044-1047
    • /
    • 2005
  • In this paper, we present the strategy of object search for distributed autonomous robotic systems (DARS). The DARS are the systems that consist of multiple autonomous robotic agents to whom required functions are distributed. For instance, the agents should recognize their surrounding at where they are located and generate some rules to act upon by themselves. In this paper, we introduce the strategy for multiple DARS robots to search a hidden object at the unknown area. First, we present an area-based action making process to determine the direction change of the robots during their maneuvers. Second, we also present Q learning adaptation to enhance the area-based action making process. Third, we introduce the coordinate system to represent a robot's current location. In the end of this paper, we show experimental results using hexagon-based Q learning to find the hidden object.

  • PDF

Reinforcement Learning-based Duty Cycle Interval Control in Wireless Sensor Networks

  • Akter, Shathee;Yoon, Seokhoon
    • International journal of advanced smart convergence
    • /
    • 제7권4호
    • /
    • pp.19-26
    • /
    • 2018
  • One of the distinct features of Wireless Sensor Networks (WSNs) is duty cycling mechanism, which is used to conserve energy and extend the network lifetime. Large duty cycle interval introduces lower energy consumption, meanwhile longer end-to-end (E2E) delay. In this paper, we introduce an energy consumption minimization problem for duty-cycled WSNs. We have applied Q-learning algorithm to obtain the maximum duty cycle interval which supports various delay requirements and given Delay Success ratio (DSR) i.e. the required probability of packets arriving at the sink before given delay bound. Our approach only requires sink to compute Q-leaning which makes it practical to implement. Nodes in the different group have the different duty cycle interval in our proposed method and nodes don't need to know the information of the neighboring node. Performance metrics show that our proposed scheme outperforms existing algorithms in terms of energy efficiency while assuring the required delay bound and DSR.

Semi-supervised Cross-media Feature Learning via Efficient L2,q Norm

  • Zong, Zhikai;Han, Aili;Gong, Qing
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제13권3호
    • /
    • pp.1403-1417
    • /
    • 2019
  • With the rapid growth of multimedia data, research on cross-media feature learning has significance in many applications, such as multimedia search and recommendation. Existing methods are sensitive to noise and edge information in multimedia data. In this paper, we propose a semi-supervised method for cross-media feature learning by means of $L_{2,q}$ norm to improve the performance of cross-media retrieval, which is more robust and efficient than the previous ones. In our method, noise and edge information have less effect on the results of cross-media retrieval and the dynamic patch information of multimedia data is employed to increase the accuracy of cross-media retrieval. Our method can reduce the interference of noise and edge information and achieve fast convergence. Extensive experiments on the XMedia dataset illustrate that our method has better performance than the state-of-the-art methods.

군집 로봇의 협조 행동을 위한 강화 학습 기반의 진화 및 학습 알고리즘 (Reinforcement Learning Based Evolution and Learning Algorithm for Cooperative Behavior of Swarm Robot System)

  • 서상욱;김호덕;심귀보
    • 한국지능시스템학회논문지
    • /
    • 제17권5호
    • /
    • pp.591-597
    • /
    • 2007
  • 군집 로봇시스템에서 개개의 로봇은 스스로 주위의 환경과 자신의 상태를 스스로 판단하여 행동하고, 필요에 따라서는 다른 로봇과 협조를 통하여 어떤 주어진 일을 수행할 수 있어야 한다. 따라서 개개의 로봇은 동적으로 변화하는 환경에 잘 적응할 수 있는 학습과 진화능력을 갖는 것이 필수적이다 이를 위하여 본 논문에서는 새로운 Polygon 기반의 Q-learning 알고리즘과 분산유전알고리즘을 이용한 새로운 자율이동로봇의 행동학습 및 진화방법을 제안한다. 또한 개개의 로봇이 통신을 통하여 염색체를 교환하는 분산유전알고리즘은 각기 다른 환경에서 학습한 우수한 염색체로부터 자신의 능력을 향상시킨다. 특히 본 논문에서는 진화의 성능을 향상시키기 위하여 강화학습의 특성을 이용한 선택 교배방법을 채택하였다. 제안된 방법은 협조탐색 문제에 적용하여 컴퓨터 모의실험을 통하여 그 유효성을 검증한다.

기계학습을 활용한 이종망에서의 Wi-Fi 성능 개선 연구 동향 분석 (Research Trends in Wi-Fi Performance Improvement in Coexistence Networks with Machine Learning)

  • 강영명
    • Journal of Platform Technology
    • /
    • 제10권3호
    • /
    • pp.51-59
    • /
    • 2022
  • 최근 혁신적으로 발전하고 있는 기계학습은 다양한 최적화 문제를 해결할 수 있는 중요한 기술이 되었다. 본 논문에서는 기계학습을 활용하여 이종망의 채널 공용화 문제를 해결하는 최신 연구 논문들을 소개하고 주된 기술의 특성을 분석하여 향후 연구 방향에 대해 가이드를 제시한다. 기존 연구들은 대체로 온라인 및 오프라인으로 빠른 학습이 가능한 Q-learning을 활용하는 경우가 많았다. 반면 다양한 공존 시나리오를 고려하지 않거나 망 성능에 큰 영향을 줄 수 있는 기계학습 컨트롤러의 위치에 대한 고려는 제한적이었다. 이런 단점을 극복할 수 있는 유력한 방안으로는 ITU에서 제안한 기계학습용 논리적 망구조를 기반으로 망 환경 변화에 따라 기계학습 알고리즘을 선택적으로 사용할 수 있는 방법이 있다.

기계학습 및 기본 알고리즘 연구 (A Study on Machine Learning and Basic Algorithms)

  • 김동현;이태호;이병준;김경태;윤희용
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2018년도 제58차 하계학술대회논문집 26권2호
    • /
    • pp.35-36
    • /
    • 2018
  • 본 논문에서는 기계학습 및 기계학습 기법 중에서도 Markov Decision Process (MDP)를 기반으로 하는 강화학습에 대해 알아보고자 한다. 강화학습은 기계학습의 일종으로 주어진 환경 안에서 의사결정자(Agent)는 현재의 상태를 인식하고 가능한 행동 집합 중에서 보상을 극대화할 수 있는 행동을 선택하는 방법이다. 일반적인 기계학습과는 달리 강화학습은 학습에 필요한 사전 지식을 요구하지 않기 때문에 불명확한 환경 속에서도 반복 학습이 가능하다. 본 연구에서는 일반적인 강화학습 및 강화학습 중에서 가장 많이 사용되고 있는 Q-learning 에 대해 간략히 설명한다.

  • PDF

Reinforcement Learning-Based Intelligent Decision-Making for Communication Parameters

  • Xie, Xia.;Dou, Zheng;Zhang, Yabin
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제16권9호
    • /
    • pp.2942-2960
    • /
    • 2022
  • The core of cognitive radio is the problem concerning intelligent decision-making for communication parameters, the objective of which is to find the most appropriate parameter configuration to optimize transmission performance. The current algorithms have the disadvantages of high dependence on prior knowledge, large amount of calculation, and high complexity. We propose a new decision-making model by making full use of the interactivity of reinforcement learning (RL) and applying the Q-learning algorithm. By simplifying the decision-making process, we avoid large-scale RL, reduce complexity and improve timeliness. The proposed model is able to find the optimal waveform parameter configuration for the communication system in complex channels without prior knowledge. Moreover, this model is more flexible than previous decision-making models. The simulation results demonstrate the effectiveness of our model. The model not only exhibits better decision-making performance in the AWGN channels than the traditional method, but also make reasonable decisions in the fading channels.

A biologically inspired model based on a multi-scale spatial representation for goal-directed navigation

  • Li, Weilong;Wu, Dewei;Du, Jia;Zhou, Yang
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제11권3호
    • /
    • pp.1477-1491
    • /
    • 2017
  • Inspired by the multi-scale nature of hippocampal place cells, a biologically inspired model based on a multi-scale spatial representation for goal-directed navigation is proposed in order to achieve robotic spatial cognition and autonomous navigation. First, a map of the place cells is constructed in different scales, which is used for encoding the spatial environment. Then, the firing rate of the place cells in each layer is calculated by the Gaussian function as the input of the Q-learning process. The robot decides on its next direction for movement through several candidate actions according to the rules of action selection. After several training trials, the robot can accumulate experiential knowledge and thus learn an appropriate navigation policy to find its goal. The results in simulation show that, in contrast to the other two methods(G-Q, S-Q), the multi-scale model presented in this paper is not only in line with the multi-scale nature of place cells, but also has a faster learning potential to find the optimized path to the goal. Additionally, this method also has a good ability to complete the goal-directed navigation task in large space and in the environments with obstacles.

대학생 조리실무 교과목의 플립드러닝(Flipped learning) 적용사례 연구 (A Case Study of Flipped Llearning of Cooking Practice Subject of University Students)

  • 김학주;김찬우
    • 한국콘텐츠학회논문지
    • /
    • 제20권9호
    • /
    • pp.129-139
    • /
    • 2020
  • 본 연구는 조리실무 교과목에 플립드러닝 교수학습방법을 적용함으로서 조리전공 대학생들의 주관적 인식유형을 분석하여 조리실무 관련 수업의 보다 나은 교육효율성 제고를 위해 연구되었다. 또한 소규모 학생들의 주관적 인식에 대한 연구를 위해 Q방법론을 이용하여 주관적 태도와 인식 속에 나타나는 공통된 구조를 파악하고자 하였으며, 분석결과 총 4가지 유형을 도출하였다. 제 1유형(N=5) : 문제해결능력효과 (Problem solving ability effect), 제 2유형(N=6) : 자기주도학습효과 (Self-directed learning effect), 제 3유형(N=3) : 상호협력실습효과 (Mutual cooperation practice effect), 제 4유형(N=6) : 이론학습효과 (Theory learning effect)로 각 각 독특한 특징의 유형으로 분석되었다. 조리실무 수업에 플립드러닝 적용은 기존의 수업 방식을 떠나 학습자가 중심이 되는 교육으로서 학습자는 수업 전 시간상 규제를 받지 않고 완전학습을 이행 할 수 있는 것을 발견하였으며, 수업 중 개별 및 조별 활동에 대한 흥미도, 학습자들 간의 의견 공유, 학습 성과에 매우 긍정적인 영향을 미치는 것으로 나타났다. 하지만 학생 전원이 플립드러닝 수업 참여에 대한 운영방안과 조별학습에서의 무임승차 평가 방식 등의 문제는 추가적인 해결방안의 모색이 필요함이 나타났다.