• Title/Summary/Keyword: 샘플링 전략

Search Result 28, Processing Time 0.042 seconds

Generating A Synthetic Multimodal Dataset for Vision Tasks Involving Hands (손을 다루는 컴퓨터 비전 작업들을 위한 멀티 모달 합성 데이터 생성 방법)

  • Lee, Changhwa;Lee, Seongyeong;Kim, Donguk;Jeong, Chanyang;Baek, Seungryul
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2020.11a
    • /
    • pp.1052-1055
    • /
    • 2020
  • 본 논문에서는 3D 메시 정보, RGB-D 손 자세 및 2D/3D 손/세그먼트 마스크를 포함하여 인간의 손과 관련된 다양한 컴퓨터 비전 작업에 사용할 수 있는 새로운 다중 모달 합성 벤치마크를 제안 하였다. 생성된 데이터셋은 기존의 대규모 데이터셋인 BigHand2.2M 데이터셋과 변형 가능한 3D 손 메시(mesh) MANO 모델을 활용하여 다양한 손 포즈 변형을 다룬다. 첫째, 중복되는 손자세를 줄이기 위해 전략적으로 샘플링하는 방법을 이용하고 3D 메시 모델을 샘플링된 손에 피팅한다. 3D 메시의 모양 및 시점 파라미터를 탐색하여 인간 손 이미지의 자연스러운 가변성을 처리한다. 마지막으로, 다중 모달리티 데이터를 생성한다. 손 관절, 모양 및 관점의 데이터 공간을 기존 벤치마크의 데이터 공간과 비교한다. 이 과정을 통해 제안된 벤치마크가 이전 작업의 차이를 메우고 있음을 보여주고, 또한 네트워크 훈련 과정에서 제안된 데이터를 사용하여 RGB 기반 손 포즈 추정 실험을 하여 생성된 데이터가 양질의 질과 양을 가짐을 보여준다. 제안된 데이터가 RGB 기반 3D 손 포즈 추정 및 시맨틱 손 세그멘테이션과 같은 품질 좋은 큰 데이터셋이 부족하여 방해되었던 작업에 대한 발전을 가속화할 것으로 기대된다.

Improving Dense Retrieval Performance by Extracting Hard Negative and Mitigating False Negative Problem (검색 모델 성능 향상을 위한 Hard Negative 추출 및 False Negative 문제 완화 방법)

  • Seong-Heum Park;Hongjin Kim;Jin-Xia Huang;Oh-Woog Kwon;Harksoo Kim
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.366-371
    • /
    • 2023
  • 신경망 기반의 검색 모델이 활발히 연구됨에 따라 효과적인 대조학습을 위한 다양한 네거티브 샘플링 방법이 제안되고 있다. 대표적으로, ANN전략은 하드 네거티브 샘플링 방법으로 질문에 대해 검색된 후보 문서들 중에서 정답 문서를 제외한 상위 후보 문서를 네거티브로 사용하여 검색 모델의 성능을 효과적으로 개선시킨다. 하지만 질문에 부착된 정답 문서를 통해 후보 문서를 네거티브로 구분하기 때문에 실제로 정답을 유추할 수 있는 후보 문서임에도 불구하고 네거티브로 분류되어 대조학습을 진행할 수 있다는 문제점이 있다. 이러한 가짜 네거티브 문제(False Negative Problem)는 학습과정에서 검색 모델을 혼란스럽게 하며 성능을 감소시킨다. 본 논문에서는 False Negative Problem를 분석하고 이를 완화시키기 위해 가짜 네거티브 분류기(False Negative Classifier)를 소개한다. 실험은 오픈 도메인 질의 응답 데이터셋인 Natural Question에서 진행되었으며 실제 False Negative를 확인하고 이를 판별하여 기존 성능보다 더 높은 성능을 얻을 수 있음을 보여준다.

  • PDF

A Bayesian zero-inflated negative binomial regression model based on Pólya-Gamma latent variables with an application to pharmaceutical data (폴랴-감마 잠재변수에 기반한 베이지안 영과잉 음이항 회귀모형: 약학 자료에의 응용)

  • Seo, Gi Tae;Hwang, Beom Seuk
    • The Korean Journal of Applied Statistics
    • /
    • v.35 no.2
    • /
    • pp.311-325
    • /
    • 2022
  • For count responses, the situation of excess zeros often occurs in various research fields. Zero-inflated model is a common choice for modeling such count data. Bayesian inference for the zero-inflated model has long been recognized as a hard problem because the form of conditional posterior distribution is not in closed form. Recently, however, Pillow and Scott (2012) and Polson et al. (2013) proposed a Pólya-Gamma data-augmentation strategy for logistic and negative binomial models, facilitating Bayesian inference for the zero-inflated model. We apply Bayesian zero-inflated negative binomial regression model to longitudinal pharmaceutical data which have been previously analyzed by Min and Agresti (2005). To facilitate posterior sampling for longitudinal zero-inflated model, we use the Pólya-Gamma data-augmentation strategy.

Predicting Highway Concrete Pavement Damage using XGBoost (XGBoost를 활용한 고속도로 콘크리트 포장 파손 예측)

  • Lee, Yongjun;Sun, Jongwan
    • Korean Journal of Construction Engineering and Management
    • /
    • v.21 no.6
    • /
    • pp.46-55
    • /
    • 2020
  • The maintenance cost for highway pavement is gradually increasing due to the continuous increase in road extension as well as increase in the number of old routes that have passed the public period. As a result, there is a need for a method of minimizing costs through preventative grievance Preventive maintenance requires the establishment of a strategic plan through accurate prediction old Highway pavement. herefore, in this study, the XGBoost among machine learning classification-based models was used to develop a highway pavement damage prediction model. First, we solved the imbalanced data issue through data sampling, then developed a predictive model using the XGBoost. This predictive model was evaluated through performance indicators such as accuracy and F1 score. As a result, the over-sampling method showed the best performance result. On the other hand, the main variables affecting road damage were calculated in the order of the number of years of service, ESAL, and the number of days below the minimum temperature -2 degrees Celsius. If the performance of the prediction model is improved through more data accumulation and detailed data pre-processing in the future, it is expected that more accurate prediction of maintenance-required sections will be possible. In addition, it is expected to be used as important basic information for estimating the highway pavement maintenance budget in the future.

Development of Software Test bed for ESS Control Algorithm Design (ESS의 제어알고리즘 설계를 위한 소프트웨어 테스트베드 개발)

  • Lee, Seongjun;Baek, Jongbok;Kang, Mose
    • Proceedings of the KIPE Conference
    • /
    • 2019.07a
    • /
    • pp.475-476
    • /
    • 2019
  • 본 논문에서는 다기능 ESS의 제어알고리즘 및 운영 전략에 따른 모드 천이 안정성 및 경제성 등 장시간 시뮬레이션을 수행할 수 있는 소프트웨어 테스트베드 모델설계 결과를 제시한다. 전력변환장치의 순시 응답 특성을 확인하기 위해서 인버터 전력반도체 스위치, 인덕터 및 커패시터 등의 부품에 대한 모델링이 필요하고, 이는 전력계통에서 활용되고 있는 상용 소프트웨어인 Matlab/Simulink/SimPowerSystems의 라이 브러리를 활용하여 구현할 수 있다. 하지만 평균모델을 사용하는 경우에도 각 요소 회로의 시정수로 인해 시뮬레이션의 샘플링 시간을 줄이는 데는 한계가 있다. 따라서 본 논문에서는 신재생 에너지의 하루 발전 특성에 대한 제어로직에 따른 결과 및 경제성 분석등에 활용할 수 있는 기능모델(functional model)의 설계 방법을 제시하고, 개발된 모델을 상용소프트웨어의 결과와 비교함으로써 본 연구결과의 타당성을 보인다.

  • PDF

Enhanced strategic Monte-Carlo Tree Search algorithm to play the game of Tic-Tac-Toe (삼목 게임을 위해 개선된 몬테카를로 트리탐색 알고리즘)

  • Lee, Byung-Doo
    • Journal of Korea Game Society
    • /
    • v.16 no.4
    • /
    • pp.79-86
    • /
    • 2016
  • Monte-Carlo Tree Search(MCTS) is a best-first tree search algorithm and has been successfully applied to various games, especially to the game of Go. We evaluate the performance of MCTS playing against each other in the game of Tic-Tac-Toe. It reveals that the first player always has an overwhelming advantage to the second player; and we try to find out the reason why the first player is superior to the second player in spite of the fact that the best game result should be a draw. Since MCTS is a statistical algorithm based on the repeated random sampling, it cannot adequately tackle an urgent problem that needs a strategy, especially for the second player. For this, we propose a strategic MCTS(S-MCTS) and show that the S-MCTS player never loses a Tic-Tac-Toe game.

Boosting the Performance of the Predictive Model on the Imbalanced Dataset Using SVM Based Bagging and Out-of-Distribution Detection (SVM 기반 Bagging과 OoD 탐색을 활용한 제조공정의 불균형 Dataset에 대한 예측모델의 성능향상)

  • Kim, Jong Hoon;Oh, Hayoung
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.11 no.11
    • /
    • pp.455-464
    • /
    • 2022
  • There are two unique characteristics of the datasets from a manufacturing process. They are the severe class imbalance and lots of Out-of-Distribution samples. Some good strategies such as the oversampling over the minority class, and the down-sampling over the majority class, are well known to handle the class imbalance. In addition, SMOTE has been chosen to address the issue recently. But, Out-of-Distribution samples have been studied just with neural networks. It seems to be hardly shown that Out-of-Distribution detection is applied to the predictive model using conventional machine learning algorithms such as SVM, Random Forest and KNN. It is known that conventional machine learning algorithms are much better than neural networks in prediction performance, because neural networks are vulnerable to over-fitting and requires much bigger dataset than conventional machine learning algorithms does. So, we suggests a new approach to utilize Out-of-Distribution detection based on SVM algorithm. In addition to that, bagging technique will be adopted to improve the precision of the model.

A Study on the War Simulation and Prediction Using Bayesian Inference (베이지안 추론을 이용한 전쟁 시뮬레이션과 예측 연구)

  • Lee, Seung-Lyong;Yoo, Byung Joo;Youn, Sangyoun;Bang, Sang-Ho;Jung, Jae-Woong
    • The Journal of the Korea Contents Association
    • /
    • v.21 no.11
    • /
    • pp.77-86
    • /
    • 2021
  • A method of constructing a war simulation based on Bayesian Inference was proposed as a method of constructing heterogeneous historical war data obtained with a time difference into a single model. A method of applying a linear regression model can be considered as a method of predicting future battles by analyzing historical war results. However it is not appropriate for two heterogeneous types of historical data that reflect changes in the battlefield environment due to different times to be suitable as a single linear regression model and violation of the model's assumptions. To resolve these problems a Bayesian inference method was proposed to obtain a post-distribution by assuming the data from the previous era as a non-informative prior distribution and to infer the final posterior distribution by using it as a prior distribution to analyze the data obtained from the next era. Another advantage of the Bayesian inference method is that the results sampled by the Markov Chain Monte Carlo method can be used to infer posterior distribution or posterior predictive distribution reflecting uncertainty. In this way, it has the advantage of not only being able to utilize a variety of information rather than analyzing it with a classical linear regression model, but also continuing to update the model by reflecting additional data obtained in the future.

Introduction to the Strategic Sampling Approaches to Construct Optimal Conceptual Model of a Contaminated Site (오염부지 최적 개념모델 수립을 위한 전략적 샘플링 기법 소개)

  • Park, Hyun Ji;Kim, Han-Suk;Yun, Seong-Taek;Jo, Ho Young;Kwon, Man Jae
    • Journal of Soil and Groundwater Environment
    • /
    • v.25 no.2_spc
    • /
    • pp.28-54
    • /
    • 2020
  • Even though a systematic sampling approach is very crucial in both the general and detailed investigation phases to produce the best conceptual site model for contaminated sites, the concept is not yet established in South Korea. The U.S. Environmental Protection Agency (EPA) issued the 'Strategic Sampling Approaches Technical guide' in 2018 to help environmental professionals choose which sampling approaches may be needed and most effective for given site conditions. The EPA guide broadly defines strategic sampling as the application of focused data collection across targeted areas of the conceptual site model (CSM) to provide the appropriate amount and type of information needed for decision-making. These strategic sampling approaches can prevent the essential data from missing, minimize the uncertainty of projects and secure the data which are necessary for the important site-decisions. Furthermore, these provide collaborative data sets through the life cycle phases of projects, which can generate more positive proofs on the site-decisions. The strategic sampling approaches can be divided by site conditions. This technical guide categorized it into eight conditions; High-resolution site characterization in unconsolidated environments, High-resolution site characterization in fractured sedimentary rock environments, Incremental sampling, Contaminant source definition, Passive groundwater sampling, Passive sampling for surface water and sediment, Groundwater to surface water interaction, and Vapor intrusion. This commentary paper introduces specific sampling methods based on site conditions when the strategic sampling approaches are applied.

Bias-correction of near-real-time multi-satellite precipitation products using machine learning (머신러닝 기반 준실시간 다중 위성 강수 자료 보정)

  • Sungho Jung;Xuan-Hien Le;Van-Giang Nguyen;Giha Lee
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2023.05a
    • /
    • pp.280-280
    • /
    • 2023
  • 강수의 정확한 시·공간적 추정은 홍수 대응, 가뭄 관리, 수자원 계획 등 수문학적 모델링의 핵심 기술이다. 우주 기술의 발전으로 전지구 강수량 측정 프로젝트(Global Precipitation Measurement, GPM)가 시작됨에 따라 위성의 여러 센서를 이용하여 다양한 고해상도 강수량 자료가 생산되고 있으며, 기후변화로 인한 수재해의 빈도가 증가함에 따라 준실시간(Near-Real-Time) 위성 강수 자료의 활용성 및 중요성이 높아지고 있다. 하지만 준실시간 위성 강수 자료의 경우 빠른 지연시간(latency) 확보를 위해 관측 이후 최소한의 보정을 거쳐 제공되므로 상대적으로 강수 추정치의 불확실성이 높다. 이에 따라 본 연구에서는 앙상블 머신러닝 기반 수집된 위성 강수 자료들을 관측 자료와 병합하여 보정된 준실시간 강수량 자료를 생성하고자 한다. 모형의 입력에는 시단위 3가지 준실시간 위성 강수 자료(GSMaP_NRT, IMERG_Early, PERSIANN_CCS)와 방재기상관측 (AWS)의 온도, 습도, 강수량 지점 자료를 활용하였다. 지점 강수 자료의 경우 결측치를 고려하여 475개 관측소를 선정하였으며, 공간성을 고려한 랜덤 샘플링으로 375개소(약 80%)는 훈련 자료, 나머지 100개소(약 20%)는 검증 자료로 분리하였다. 모형의 정량적 평가 지표로는 KGE, MAE, RMSE이 사용되었으며, 정성적 평가 지표로 강수 분할표에 따라 POD, SR, BS 그리고 CSI를 사용하였다. 머신러닝 모형은 개별 원시 위성 강수 자료 및 IDW 기법보다 높은 정확도로 강수량을 추정하였으며 공간적으로 안정적인 결과를 나타내었다. 다만, 최대 강수량에서는 다소 과소추정되므로 이는 강수와 관련된 입력 변수의 개수 업데이트로 해결할 수 있을 것으로 판단된다. 따라서 불확실성이 높은 개별 준실시간 위성 자료들을 관측 자료와 병합하여 보정된 최적 강수 자료를 생성하는 머신러닝 기법은 돌발성 수재해에 실시간으로 대응 가능하며 홍수 예보에 신뢰도 높은 정량적인 강수량 추정치를 제공할 수 있다.

  • PDF