• 제목/요약/키워드: Mixed-Model Line Balancing

검색결과 22건 처리시간 0.017초

시뮬레이션 모델을 이용한 K회사 반도체 패키지 공정의 생산량 증가를 위한 연구 (A Study on Throughput Increase in Semiconductor Package Process of K Manufacturing Company Using a Simulation Model)

  • 채종인;박양병
    • 한국시뮬레이션학회논문지
    • /
    • 제19권1호
    • /
    • pp.1-11
    • /
    • 2010
  • K 회사는 국내외 반도체 제조업체의 주문에 의해 반도체 패키지 제품을 생산 공급하는 기업이다. 생산 공정은 Die Sawing, 조립, 테스트로 구성된 기계중심의 조립라인 형태를 따르고 있다. 본 논문은 K 회사의 공정분석을 토대로 패키지 공정의 생산량을 늘리기 위한 3가지 방안을 제안하고, 이들을 실제 자료를 이용한 시뮬레이션 모델을 통해 평가하는 사례연구를 다룬다. 3가지 방안은 병목공정에 기계 추가에 의한 라인균형, 제품의 그룹 스케쥴링, 비병목공정에서 작업자의 재배치이다. 시뮬레이션 평가결과, 3가지 방안을 혼합 적용하는 경우에 2.8%의 납기위반율 감소 효과와 함께 17.3%의 가장 높은 일일 생산량 증가를 보여 주는 것으로 나타났다. 3가지 방안의 혼합 적용하는 경우의 투자회수기간은 1.37년으로 매우 짧게 구해졌다.

강화 학습에서의 탐색과 이용의 균형을 통한 범용적 온라인 Q-학습이 적용된 에이전트의 구현 (Implementation of the Agent using Universal On-line Q-learning by Balancing Exploration and Exploitation in Reinforcement Learning)

  • 박찬건;양성봉
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제30권7_8호
    • /
    • pp.672-680
    • /
    • 2003
  • shopbot이란 온라인상의 판매자로부터 상품에 대한 가격과 품질에 관한 정보를 자동적으로 수집함으로써 소비자의 만족을 최대화하는 소프트웨어 에이전트이다 이러한 shopbot에 대응해서 인터넷상의 판매자들은 그들에게 최대의 이익을 가져다 줄 수 있는 에이전트인 pricebot을 필요로 할 것이다. 본 논문에서는 pricebot의 가격결정 알고리즘으로 비 모델 강화 학습(model-free reinforcement learning) 방법중의 하나인 Q-학습(Q-learning)을 사용한다. Q-학습된 에이전트는 근시안적인 최적(myopically optimal 또는 myoptimal) 가격 결정 전략을 사용하는 에이전트에 비해 이익을 증가시키고 주기적 가격 전쟁(cyclic price war)을 감소시킬 수 있다. Q-학습 과정 중 Q-학습의 수렴을 위해 일련의 상태-행동(state-action)을 선택하는 것이 필요하다. 이러한 선택을 위해 균일 임의 선택방법 (Uniform Random Selection, URS)이 사용될 경우 최적 값의 수렴을 위해서 Q-테이블을 접근하는 회수가 크게 증가한다. 따라서 URS는 실 세계 환경에서의 범용적인 온라인 학습에는 부적절하다. 이와 같은 현상은 URS가 최적의 정책에 대한 이용(exploitation)의 불확실성을 반영하기 때문에 발생하게 된다. 이에 본 논문에서는 보조 마르코프 프로세스(auxiliary Markov process)와 원형 마르코프 프로세스(original Markov process)로 구성되는 혼합 비정적 정책 (Mixed Nonstationary Policy, MNP)을 제안한다. MNP가 적용된 Q-학습 에이전트는 original controlled process의 실행 시에 Q-학습에 의해 결정되는 stationary greedy 정책을 사용하여 학습함으로써 auxiliary Markov process와 original controlled process에 의해 평가 측정된 최적 정책에 대해 1의 확률로 exploitation이 이루어질 수 있도록 하여, URS에서 발생하는 최적 정책을 위한 exploitation의 불확실성의 문제를 해결하게 된다. 다양한 실험 결과 본 논문에서 제한한 방식이 URS 보다 평균적으로 약 2.6배 빠르게 최적 Q-값에 수렴하여 MNP가 적용된 Q-학습 에이전트가 범용적인 온라인 Q-학습이 가능함을 보였다.