• 제목/요약/키워드: balance of exploration and exploitation

검색결과 24건 처리시간 0.04초

양손잡이 전략균형이 벤처기업 경영성과에 미치는 영향 (The effect of ambidextrous strategic balance on the management performance of venture businesses)

  • 유세종;조용석;김우형
    • 무역학회지
    • /
    • 제48권1호
    • /
    • pp.83-126
    • /
    • 2023
  • 본 연구는 벤처산업 생태계의 환경변화와 이에 따른 기업의 최적전략을 복잡계 관점에서 고찰해보고, 기업 및 업종 간 상호의존도가 심화됨에 따라 험난해지는 적합도지형의 국소최적점을 탈출하기 위해서는 탐험과 활용전략을 균형 있게 사용하는 양손잡이 전략이 필요하다는 가설을 설정하였다. 가설을 검증하기 위해서 신기술, 기업가, 소비자로 이루어진 행위자기반모형을 설계하여 슘페터 마크1/마크2와 같은 가상의 산업 환경에서 시뮬레이션 실험을 수행한 결과, 탐험과 활용을 균형 있게 사용하는 양손잡이 전략이 4개 환경 중 3개 환경에서 가장 높은 점수를 획득하며, 가장 우월한 전략임을 확인하였다. 행위자 기반 모델링 결과의 실증검증을 위하여 617개사의 벤처천억기업의 통계자료에서 활용과 탐험성향을 측정할 수 있는 지표를 선정해서 이를 기반으로 기업전략성향을 분석한 결과, 82%에 해당하는 기업들이 활용전략으로 분류되었으며, 양손잡이와 탐험전략으로 분류된 기업은 각각 9% 수준을 보였다. 가장 높은 성과를 보이는 전략은 양손잡이 전략이었으며 활용전략이 가장 낮은 성과를 보이는 것으로 나타났다.

A new PSRO algorithm for frequency constraint truss shape and size optimization

  • Kaveh, A.;Zolghadr, A.
    • Structural Engineering and Mechanics
    • /
    • 제52권3호
    • /
    • pp.445-468
    • /
    • 2014
  • In this paper a new particle swarm ray optimization algorithm is proposed for truss shape and size optimization with natural frequency constraints. These problems are believed to represent nonlinear and non-convex search spaces with several local optima and therefore are suitable for examining the capabilities of new algorithms. The proposed algorithm can be viewed as a hybridization of Particle Swarm Optimization (PSO) and the recently proposed Ray Optimization (RO) algorithms. In fact the exploration capabilities of the PSO are tried to be promoted using some concepts of the RO. Five numerical examples are examined in order to inspect the viability of the proposed algorithm. The results are compared with those of the PSO and some other existing algorithms. It is shown that the proposed algorithm obtains lighter structures in comparison to other methods most of the time. As will be discussed, the algorithm's performance can be attributed to its appropriate exploration/exploitation balance.

강화 학습에서의 탐색과 이용의 균형을 통한 범용적 온라인 Q-학습이 적용된 에이전트의 구현 (Implementation of the Agent using Universal On-line Q-learning by Balancing Exploration and Exploitation in Reinforcement Learning)

  • 박찬건;양성봉
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제30권7_8호
    • /
    • pp.672-680
    • /
    • 2003
  • shopbot이란 온라인상의 판매자로부터 상품에 대한 가격과 품질에 관한 정보를 자동적으로 수집함으로써 소비자의 만족을 최대화하는 소프트웨어 에이전트이다 이러한 shopbot에 대응해서 인터넷상의 판매자들은 그들에게 최대의 이익을 가져다 줄 수 있는 에이전트인 pricebot을 필요로 할 것이다. 본 논문에서는 pricebot의 가격결정 알고리즘으로 비 모델 강화 학습(model-free reinforcement learning) 방법중의 하나인 Q-학습(Q-learning)을 사용한다. Q-학습된 에이전트는 근시안적인 최적(myopically optimal 또는 myoptimal) 가격 결정 전략을 사용하는 에이전트에 비해 이익을 증가시키고 주기적 가격 전쟁(cyclic price war)을 감소시킬 수 있다. Q-학습 과정 중 Q-학습의 수렴을 위해 일련의 상태-행동(state-action)을 선택하는 것이 필요하다. 이러한 선택을 위해 균일 임의 선택방법 (Uniform Random Selection, URS)이 사용될 경우 최적 값의 수렴을 위해서 Q-테이블을 접근하는 회수가 크게 증가한다. 따라서 URS는 실 세계 환경에서의 범용적인 온라인 학습에는 부적절하다. 이와 같은 현상은 URS가 최적의 정책에 대한 이용(exploitation)의 불확실성을 반영하기 때문에 발생하게 된다. 이에 본 논문에서는 보조 마르코프 프로세스(auxiliary Markov process)와 원형 마르코프 프로세스(original Markov process)로 구성되는 혼합 비정적 정책 (Mixed Nonstationary Policy, MNP)을 제안한다. MNP가 적용된 Q-학습 에이전트는 original controlled process의 실행 시에 Q-학습에 의해 결정되는 stationary greedy 정책을 사용하여 학습함으로써 auxiliary Markov process와 original controlled process에 의해 평가 측정된 최적 정책에 대해 1의 확률로 exploitation이 이루어질 수 있도록 하여, URS에서 발생하는 최적 정책을 위한 exploitation의 불확실성의 문제를 해결하게 된다. 다양한 실험 결과 본 논문에서 제한한 방식이 URS 보다 평균적으로 약 2.6배 빠르게 최적 Q-값에 수렴하여 MNP가 적용된 Q-학습 에이전트가 범용적인 온라인 Q-학습이 가능함을 보였다.

온라인 배너 광고 강화학습의 최적 탐색-활용 전략: 구전효과의 영향 (Optimal Exploration-Exploitation Strategies in Reinforcement Learning for Online Banner Advertising: The Impact of Word-of-Mouth Effects)

  • 김범수;유건재;이준겸
    • 서비스연구
    • /
    • 제14권2호
    • /
    • pp.1-17
    • /
    • 2024
  • 온라인 배너 광고 산업에서는 일반적으로 복수의 배너 대안이 제작된다. 이때 중요한 의사결정은 어떤 광고 배너 대안을 선택해서 고객에게 노출하느냐 하는 것이다. 각 배너 대안을 고객이 클릭할 확률을 미리 알 수 없기 때문에 경영자는 실험적으로 여러 대안을 노출한 후, 고객의 클릭 여부에 따라 각 대안의 클릭 확률을 추정하며 최적의 대안을 찾아야 하고 이것은 온라인 광고와 관련된 강화학습 프로세스이다. 이 과정에서의 주요 의사결정 문제는 축적된 추정 클릭 확률 지식을 이용해서 최적의 대안을 노출하는 활용 전략과, 잠재적으로 더 우수한 대안을 찾기 위해 새로운 대안을 시도해보는 탐색 전략의 최적 균형점을 찾는 것이다. 본 연구는 구전효과와 대안의 수가 이러한 최적 탐색-활용 전략에 미치는 영향을 분석하였다. 이는 고객이 노출된 배너를 클릭하는 경우 관련 제품을 주위에 홍보하는 과정을 통해 광고 배너의 클릭률이 높아지는 구전효과를 온라인 광고 관련 강화학습에 추가하여 구현한 것이다. 분석을 위해 Multi-Armed Bandit 모형을 이용한 시뮬레이션 기법을 사용하였다. 분석 결과, 구전효과의 크기가 커지고 배너 대안의 수가 적을수록 광고 강화학습의 최적 탐색 수준이 높아지는 것이 관측되었다. 이는 구전효과에 의해 고객이 광고 배너를 클릭할 확률이 증가함에 따라 기존에 축적했던 추정 클릭률 지식의 가치가 낮아지고, 따라서 새로운 대안을 탐색하는 것의 가치가 증가하기 때문으로 분석되었다. 또한 광고 대안의 수가 작을 경우에는 구전효과 크기가 커질 때 최적 탐색 수준이 더 큰 폭으로 증가하는 경향을 발견하였다. 최근 온라인 구전으로 인해 구전효과의 영향이 커지는 시점에서 본 연구는 의미 있는 시사점을 제공한다.

Hybrid Fireworks Algorithm with Dynamic Coefficients and Improved Differential Evolution

  • Li, Lixian;Lee, Jaewan
    • 인터넷정보학회논문지
    • /
    • 제22권2호
    • /
    • pp.19-27
    • /
    • 2021
  • Fireworks Algorithm (FWA) is a new heuristic swarm intelligent algorithm inspired by the natural phenomenon of the fireworks explosion. Though it is an effective algorithm for solving optimization problems, FWA has a slow convergence rate and less information sharing between individuals. In this paper, we improve the FWA. Firstly, explosion operator and explosion amplitude are analyzed in detail. The coefficient of explosion amplitude and explosion operator change dynamically with iteration to balance the exploitation and exploration. The convergence performance of FWA is improved. Secondly, differential evolution and commensal learning (CDE) significantly increase the information sharing between individuals, and the diversity of fireworks is enhanced. Comprehensive experiment and comparison with CDE, FWA, and VACUFWA for the 13 benchmark functions show that the improved algorithm was highly competitive.

Discrete optimal sizing of truss using adaptive directional differential evolution

  • Pham, Anh H.
    • Advances in Computational Design
    • /
    • 제1권3호
    • /
    • pp.275-296
    • /
    • 2016
  • This article presents an adaptive directional differential evolution (ADDE) algorithm and its application in solving discrete sizing truss optimization problems. The algorithm is featured by a new self-adaptation approach and a simple directional strategy. In the adaptation approach, the mutation operator is adjusted in accordance with the change of population diversity, which can well balance between global exploration and local exploitation as well as locate the promising solutions. The directional strategy is based on the order relation between two difference solutions chosen for mutation and can bias the search direction for increasing the possibility of finding improved solutions. In addition, a new scaling factor is introduced as a vector of uniform random variables to maintain the diversity without crossover operation. Numerical results show that the optimal solutions of ADDE are as good as or better than those from some modern metaheuristics in the literature, while ADDE often uses fewer structural analyses.

Enhanced Particle Swarm Optimization for Short-Term Non-Convex Economic Scheduling of Hydrothermal Energy Systems

  • Jadoun, Vinay Kumar;Gupta, Nikhil;Niazi, K. R.;Swarnkar, Anil
    • Journal of Electrical Engineering and Technology
    • /
    • 제10권5호
    • /
    • pp.1940-1949
    • /
    • 2015
  • This paper presents an Enhanced Particle Swarm Optimization (EPSO) to solve short-term hydrothermal scheduling (STHS) problem with non-convex fuel cost function and a variety of operational constraints related to hydro and thermal units. The operators of the conventional PSO are dynamically controlled using exponential functions for better exploration and exploitation of the search space. The overall methodology efficiently regulates the velocity of particles during their flight and results in substantial improvement in the conventional PSO. The effectiveness of the proposed method has been tested for STHS of two standard test generating systems while considering several operational constraints like system power balance constraints, power generation limit constraints, reservoir storage volume limit constraints, water discharge rate limit constraints, water dynamic balance constraints, initial and end reservoir storage volume limit constraints, valve-point loading effect, etc. The application results show that the proposed EPSO method is capable to solve the hard combinatorial constraint optimization problems very efficiently.

Adaptive symbiotic organisms search (SOS) algorithm for structural design optimization

  • Tejani, Ghanshyam G.;Savsani, Vimal J.;Patel, Vivek K.
    • Journal of Computational Design and Engineering
    • /
    • 제3권3호
    • /
    • pp.226-249
    • /
    • 2016
  • The symbiotic organisms search (SOS) algorithm is an effective metaheuristic developed in 2014, which mimics the symbiotic relationship among the living beings, such as mutualism, commensalism, and parasitism, to survive in the ecosystem. In this study, three modified versions of the SOS algorithm are proposed by introducing adaptive benefit factors in the basic SOS algorithm to improve its efficiency. The basic SOS algorithm only considers benefit factors, whereas the proposed variants of the SOS algorithm, consider effective combinations of adaptive benefit factors and benefit factors to study their competence to lay down a good balance between exploration and exploitation of the search space. The proposed algorithms are tested to suit its applications to the engineering structures subjected to dynamic excitation, which may lead to undesirable vibrations. Structure optimization problems become more challenging if the shape and size variables are taken into account along with the frequency. To check the feasibility and effectiveness of the proposed algorithms, six different planar and space trusses are subjected to experimental analysis. The results obtained using the proposed methods are compared with those obtained using other optimization methods well established in the literature. The results reveal that the adaptive SOS algorithm is more reliable and efficient than the basic SOS algorithm and other state-of-the-art algorithms.

소분자 도킹에서의 탐색알고리듬의 현황 (Recent Development of Search Algorithm on Small Molecule Docking)

  • 정환원;조승주
    • 통합자연과학논문집
    • /
    • 제2권2호
    • /
    • pp.55-58
    • /
    • 2009
  • A ligand-receptor docking program is an indispensible tool in modern pharmaceutical design. An accurate prediction of small molecular docking pose to a receptor is essential in drug design as well as molecular recognition. An effective docking program requires the ability to locate a correct binding pose in a surprisingly complex conformational space. However, there is an inherent difficulty to predict correct binding pose. The odds are more demanding than finding a needle in a haystack. This mainly comes from the flexibility of both ligand and receptor. Because the searching space to consider is so vast, receptor rigidity has been often applied in docking programs. Even nowadays the receptor may not be considered to be fully flexible although there have been some progress in search algorithm. Improving the efficiency of searching algorithm is still in great demand to explore other applications areas with inherently flexible ligand and/or receptor. In addition to classical search algorithms such as molecular dynamics, Monte Carlo, genetic algorithm and simulated annealing, rather recent algorithms such as tabu search, stochastic tunneling, particle swarm optimizations were also found to be effective. A good search algorithm would require a good balance between exploration and exploitation. It would be a good strategy to combine algorithms already developed. This composite algorithms can be more effective than an individual search algorithms.

  • PDF

복합 유전자 알고리즘에서의 국부 탐색을 위한 셀룰러 학습 전략 (A Cellular Learning Strategy for Local Search in Hybrid Genetic Algorithms)

  • 고명숙;길준민
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제28권9호
    • /
    • pp.669-680
    • /
    • 2001
  • 유전자 알고리즘(GA:Genetic Algorithm)은 최적화 문제를 풀기 위해 생물학적 진화(evolution) 과정을 모방한 최적화 알고리즘이다. 유전자 알고리즘은 복잡한 상태 공간에서 최적 해를 찾기 위해 전통적인 최적화 기법과는 달리 유향적 임의 탐색을 행한다. 학습에 해당하는 국부 탐색(local search)을 유전적 알고리즘은 exploration 탐색과 exploitation 탐색의 균형을 유지시켜 줄 수 있는 한 방법이다. 모집단 내의 각 개체가 진화 과정 중에 학습한 유전적 특질들은 그 다음 세대에서 되물림 되며 이러한 학습(learning) 과정을 유전자 알고리즘과 결합시킴으로써 탐색 속도의 향상을 기대할 수 있다. 이 논문에서는 함수 최적화를 위해 속도를 개선한 셀룰러 학습을 기반으로 하는 유전자 알고리즘을 제안한다. 제안하는 셀룰러 학습 전략은 셀룰러 오토마타의 주기성과 수렴성을 기반으로 하며, 유기체가 그 개체의 생명 주기의 한 세대에서 얻게되는 지식과 경험들을 자손에게 전달한다는 이론을 바탕으로 한다. 제안한 셀룰러 학습 전략의 효율을 기존의 복합 유전자 알고리즘에서의 라마키안 진화 및 볼드윈 효과와 비교하였다. 다양한 테스트 베드 함수에 대한 실험을 통하여 셀룰러 학습에 의한 개체의 국부적 향상이 전체적인 성능 향상에 기여함을 알 수 있었고 제안한 학습 전략이 기존의 방법보다 더 빨리 전역 최적 해를 찾을 수 있음을 증명하였다.

  • PDF