• 제목/요약/키워드: 샘플링 전략

검색결과 28건 처리시간 0.037초

손을 다루는 컴퓨터 비전 작업들을 위한 멀티 모달 합성 데이터 생성 방법 (Generating A Synthetic Multimodal Dataset for Vision Tasks Involving Hands)

  • 이창화;이선경;김동욱;정찬양;백승렬
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 추계학술발표대회
    • /
    • pp.1052-1055
    • /
    • 2020
  • 본 논문에서는 3D 메시 정보, RGB-D 손 자세 및 2D/3D 손/세그먼트 마스크를 포함하여 인간의 손과 관련된 다양한 컴퓨터 비전 작업에 사용할 수 있는 새로운 다중 모달 합성 벤치마크를 제안 하였다. 생성된 데이터셋은 기존의 대규모 데이터셋인 BigHand2.2M 데이터셋과 변형 가능한 3D 손 메시(mesh) MANO 모델을 활용하여 다양한 손 포즈 변형을 다룬다. 첫째, 중복되는 손자세를 줄이기 위해 전략적으로 샘플링하는 방법을 이용하고 3D 메시 모델을 샘플링된 손에 피팅한다. 3D 메시의 모양 및 시점 파라미터를 탐색하여 인간 손 이미지의 자연스러운 가변성을 처리한다. 마지막으로, 다중 모달리티 데이터를 생성한다. 손 관절, 모양 및 관점의 데이터 공간을 기존 벤치마크의 데이터 공간과 비교한다. 이 과정을 통해 제안된 벤치마크가 이전 작업의 차이를 메우고 있음을 보여주고, 또한 네트워크 훈련 과정에서 제안된 데이터를 사용하여 RGB 기반 손 포즈 추정 실험을 하여 생성된 데이터가 양질의 질과 양을 가짐을 보여준다. 제안된 데이터가 RGB 기반 3D 손 포즈 추정 및 시맨틱 손 세그멘테이션과 같은 품질 좋은 큰 데이터셋이 부족하여 방해되었던 작업에 대한 발전을 가속화할 것으로 기대된다.

검색 모델 성능 향상을 위한 Hard Negative 추출 및 False Negative 문제 완화 방법 (Improving Dense Retrieval Performance by Extracting Hard Negative and Mitigating False Negative Problem)

  • 박성흠;김홍진;황금하;권오욱;김학수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.366-371
    • /
    • 2023
  • 신경망 기반의 검색 모델이 활발히 연구됨에 따라 효과적인 대조학습을 위한 다양한 네거티브 샘플링 방법이 제안되고 있다. 대표적으로, ANN전략은 하드 네거티브 샘플링 방법으로 질문에 대해 검색된 후보 문서들 중에서 정답 문서를 제외한 상위 후보 문서를 네거티브로 사용하여 검색 모델의 성능을 효과적으로 개선시킨다. 하지만 질문에 부착된 정답 문서를 통해 후보 문서를 네거티브로 구분하기 때문에 실제로 정답을 유추할 수 있는 후보 문서임에도 불구하고 네거티브로 분류되어 대조학습을 진행할 수 있다는 문제점이 있다. 이러한 가짜 네거티브 문제(False Negative Problem)는 학습과정에서 검색 모델을 혼란스럽게 하며 성능을 감소시킨다. 본 논문에서는 False Negative Problem를 분석하고 이를 완화시키기 위해 가짜 네거티브 분류기(False Negative Classifier)를 소개한다. 실험은 오픈 도메인 질의 응답 데이터셋인 Natural Question에서 진행되었으며 실제 False Negative를 확인하고 이를 판별하여 기존 성능보다 더 높은 성능을 얻을 수 있음을 보여준다.

  • PDF

폴랴-감마 잠재변수에 기반한 베이지안 영과잉 음이항 회귀모형: 약학 자료에의 응용 (A Bayesian zero-inflated negative binomial regression model based on Pólya-Gamma latent variables with an application to pharmaceutical data)

  • 서기태;황범석
    • 응용통계연구
    • /
    • 제35권2호
    • /
    • pp.311-325
    • /
    • 2022
  • 0의 값을 과도하게 포함하는 가산자료는 다양한 연구 분야에서 흔히 나타난다. 영과잉 모형은 영과잉 가산자료를 분석하기 위해 가장 일반적으로 사용되는 모형이다. 영과잉 모형에 대한 전통적인 베이지안 추론은 조건부 사후분포의 형태가 폐쇄형 분포로 나타나지 않아 모형 적합 과정이 용이하지 않다는 한계점이 존재했다. 그러나 최근 Pillow와 Scott (2012)과 Polson 등 (2013)이 제안한 폴랴-감마 자료확대전략으로 인해, 로지스틱 회귀모형과 음이항 회귀모형에서 깁스 샘플링을 통한 추론이 가능해지면서, 영과잉 모형에 대한 베이지안 추론이 용이해졌다. 본 논문에서는 베이지안 추론에 기반한 영과잉 음이항 회귀모형을 Min과 Agresti(2005)에서 분석된 약학 연구 자료에 적용해본다. 분석에 사용된 자료는 경시적 영과잉 가산자료로 복잡한 자료 구조를 가지고 있다. 모형 적합 과정에서는 깁스 샘플링을 통한 추론을 수행하기 위해 폴랴-감마 자료확대전략을 사용한다.

XGBoost를 활용한 고속도로 콘크리트 포장 파손 예측 (Predicting Highway Concrete Pavement Damage using XGBoost)

  • 이용준;선종완
    • 한국건설관리학회논문집
    • /
    • 제21권6호
    • /
    • pp.46-55
    • /
    • 2020
  • 도로연장의 지속적인 증가와 공용기간이 상당히 경과한 노후 노선이 늘어남에 따라 도로포장에 대한 유지관리비용은 점차 증가하고 있어, 예방적 유지관리를 통해 비용을 최소화 하는 방안에 대한 필요성이 제기되고 있다. 예방적 유지관리를 위해서는 도로포장의 정확한 파손 예측을 통한 전략적 유지관리 계획 수립이 필요하다. 이에 본 연구에서는 고속도로 콘크리트 포장 파손 예측 모델 개발을 위해 머신러닝 분류기반 모델 중 성능이 우수한 XGBoost 기법을 사용하였다. 먼저 데이터 샘플링을 통해 데이터 불균형 문제를 해결하고 샘플링된 데이터들에 XGBoost 기법을 활용하여 예측모델을 개발하고. F1 소코어를 통해 성능을 평가하였다. 분석 결과 오버 샘플링 기법이 가장 좋은 성능 결과를 보였으며, 도로파손에 영향을 주는 주요 변수로 공용년수, ESAL, 최저 평균 최저기온 -2도 이하 일수 순으로 산정되었다. 향후 더 많은 데이터 축적 및 세밀한 데이터 전처리 작업을 통해 예측모델의 성능이 향상된다면 보다 정확한 유지보수 필요 구간의 예측이 가능해질 것으로 판단되므로 장래 고속도로 포장 유지보수 예산의 추정에 중요한 기초정보로 활용될 수 있을 것이라 기대된다.

ESS의 제어알고리즘 설계를 위한 소프트웨어 테스트베드 개발 (Development of Software Test bed for ESS Control Algorithm Design)

  • 이성준;백종복;강모세
    • 전력전자학회:학술대회논문집
    • /
    • 전력전자학회 2019년도 전력전자학술대회
    • /
    • pp.475-476
    • /
    • 2019
  • 본 논문에서는 다기능 ESS의 제어알고리즘 및 운영 전략에 따른 모드 천이 안정성 및 경제성 등 장시간 시뮬레이션을 수행할 수 있는 소프트웨어 테스트베드 모델설계 결과를 제시한다. 전력변환장치의 순시 응답 특성을 확인하기 위해서 인버터 전력반도체 스위치, 인덕터 및 커패시터 등의 부품에 대한 모델링이 필요하고, 이는 전력계통에서 활용되고 있는 상용 소프트웨어인 Matlab/Simulink/SimPowerSystems의 라이 브러리를 활용하여 구현할 수 있다. 하지만 평균모델을 사용하는 경우에도 각 요소 회로의 시정수로 인해 시뮬레이션의 샘플링 시간을 줄이는 데는 한계가 있다. 따라서 본 논문에서는 신재생 에너지의 하루 발전 특성에 대한 제어로직에 따른 결과 및 경제성 분석등에 활용할 수 있는 기능모델(functional model)의 설계 방법을 제시하고, 개발된 모델을 상용소프트웨어의 결과와 비교함으로써 본 연구결과의 타당성을 보인다.

  • PDF

삼목 게임을 위해 개선된 몬테카를로 트리탐색 알고리즘 (Enhanced strategic Monte-Carlo Tree Search algorithm to play the game of Tic-Tac-Toe)

  • 이병두
    • 한국게임학회 논문지
    • /
    • 제16권4호
    • /
    • pp.79-86
    • /
    • 2016
  • 몬테카를로 트리탐색은 최대우선탐색 알고리즘이며, 많은 게임 특히 바둑 게임에 성공적으로 적용되어 왔다. 삼목 게임에서 MCTS 간의 대국을 통해 성능을 평가하고자 했다. 첫 번째 대국자는 항상 두 번째 대국자에 비해 압도적인 우위를 보였으며, 최선의 게임 결과가 무승부가 됨에도 불구하고 첫 번째 대국자가 두 번째 대국자에 비해 우월한 이유를 찾고자 했다. MCTS는 반복적인 무작위 샘플링을 기반으로 하는 통계적 알고리즘이기 때문에, 특히 두 번째 대국자를 위해 전략을 요하는 시급한 문제를 적절히 대처하지 못한다. 이를 위해 전략적 MCTS(S-MCTS)를 제안하며, S-MCTS는 결코 삼목 게임에서 지지 않는다는 것을 보였다.

SVM 기반 Bagging과 OoD 탐색을 활용한 제조공정의 불균형 Dataset에 대한 예측모델의 성능향상 (Boosting the Performance of the Predictive Model on the Imbalanced Dataset Using SVM Based Bagging and Out-of-Distribution Detection)

  • 김종훈;오하영
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제11권11호
    • /
    • pp.455-464
    • /
    • 2022
  • 제조업의 공정에서 생성되는 데이터셋은 크게 두 가지 특징을 가진다. 타겟 클래스의 심각한 불균형과 지속적인 Out-of-Distribution(OoD) 샘플의 발생이다. 클래스 불균형은 SMOTE 및 다양한 샘플링 전략을 통해서 대응할 수 있다. 그러나, OoD 탐색은 현재까지 인공신경망 영역에서만 다뤄져 왔다. OoD 탐색의 적용이 가능한 인공신경망은 제조공정 데이터셋에 대해서 만족스러운 성능을 발현하지 못한다. 원인은 제조공정의 데이터셋이 인공신경망에서 일반적으로 다루는 이미지, 텍스트 데이터셋과 비교해서 크기가 매우 작고, 노이즈가 심하다는 것이다. 또한 인공신경망의 과적합(overfitting) 문제도 제조업 데이터셋에서 인공신경망의 성능을 저하하는 원인으로 지적된다. 이에 현재까지 시도된 바 없는 SVM 알고리즘과 OoD 탐색의 접목을 시도하였다. 또한 예측모델의 정밀도 향상을 위해 배깅(Bagging) 알고리즘을 모델링에 반영하였다.

베이지안 추론을 이용한 전쟁 시뮬레이션과 예측 연구 (A Study on the War Simulation and Prediction Using Bayesian Inference)

  • 이승용;유병주;윤상윤;방상호;정재웅
    • 한국콘텐츠학회논문지
    • /
    • 제21권11호
    • /
    • pp.77-86
    • /
    • 2021
  • 시간적인 차이를 두고 획득한 이질적인 과거 전쟁 결과 데이터를 하나의 모형으로 구축하는 방법으로 베이지안 추론에 의한 전쟁시뮬레이션 모형을 구축하는 방법을 제안하였다. 과거의 전쟁 결과를 분석하여 미래에 있을 수 있는 전쟁을 예측하는 방법으로 선형회귀모형을 적용하는 방법을 고려할 수 있다. 그러나 역사적으로 시대가 서로 달라 전장 환경의 변화가 반영된 이질적인 두 유형의 자료들이라면 모형의 가정사항 위반으로 하나의 선형회귀모형으로 적합하는 것은 적절하지 않다. 이러한 문제를 해결하기 위해 앞선 시대에 있는 자료를 비정보적 사전분포로 가정하여 사후분포를 구하고 이를 다음 시대에 얻은 자료를 분석하기 위한 사전분포로 활용하여 최종 사후분포를 추론하는 베이지안 추론 방법을 제안하였다. 베이지안 추론 방법의 또 다른 장점은 마코프 체인 몬테 카를로 방법으로 샘플링한 결과를 이용하여 불확실성이 반영된 사후분포나 사후예측분포를 추론할 수 있다는 점이다. 이렇게 했을 때 고전적인 선형회귀모형으로 분석하는 것보다 다양한 정보를 활용할 수 있을 뿐만 아니라 향후 추가적으로 획득되는 자료도 모형에 반영하여 모형을 계속 업데이트시킬 수 있다는 장점이 있다.

오염부지 최적 개념모델 수립을 위한 전략적 샘플링 기법 소개 (Introduction to the Strategic Sampling Approaches to Construct Optimal Conceptual Model of a Contaminated Site)

  • 박현지;김한석;윤성택;조호영;권만재
    • 한국지하수토양환경학회지:지하수토양환경
    • /
    • 제25권2_spc호
    • /
    • pp.28-54
    • /
    • 2020
  • Even though a systematic sampling approach is very crucial in both the general and detailed investigation phases to produce the best conceptual site model for contaminated sites, the concept is not yet established in South Korea. The U.S. Environmental Protection Agency (EPA) issued the 'Strategic Sampling Approaches Technical guide' in 2018 to help environmental professionals choose which sampling approaches may be needed and most effective for given site conditions. The EPA guide broadly defines strategic sampling as the application of focused data collection across targeted areas of the conceptual site model (CSM) to provide the appropriate amount and type of information needed for decision-making. These strategic sampling approaches can prevent the essential data from missing, minimize the uncertainty of projects and secure the data which are necessary for the important site-decisions. Furthermore, these provide collaborative data sets through the life cycle phases of projects, which can generate more positive proofs on the site-decisions. The strategic sampling approaches can be divided by site conditions. This technical guide categorized it into eight conditions; High-resolution site characterization in unconsolidated environments, High-resolution site characterization in fractured sedimentary rock environments, Incremental sampling, Contaminant source definition, Passive groundwater sampling, Passive sampling for surface water and sediment, Groundwater to surface water interaction, and Vapor intrusion. This commentary paper introduces specific sampling methods based on site conditions when the strategic sampling approaches are applied.

머신러닝 기반 준실시간 다중 위성 강수 자료 보정 (Bias-correction of near-real-time multi-satellite precipitation products using machine learning)

  • 정성호;레수안히엔;응웬반지앙;이기하
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2023년도 학술발표회
    • /
    • pp.280-280
    • /
    • 2023
  • 강수의 정확한 시·공간적 추정은 홍수 대응, 가뭄 관리, 수자원 계획 등 수문학적 모델링의 핵심 기술이다. 우주 기술의 발전으로 전지구 강수량 측정 프로젝트(Global Precipitation Measurement, GPM)가 시작됨에 따라 위성의 여러 센서를 이용하여 다양한 고해상도 강수량 자료가 생산되고 있으며, 기후변화로 인한 수재해의 빈도가 증가함에 따라 준실시간(Near-Real-Time) 위성 강수 자료의 활용성 및 중요성이 높아지고 있다. 하지만 준실시간 위성 강수 자료의 경우 빠른 지연시간(latency) 확보를 위해 관측 이후 최소한의 보정을 거쳐 제공되므로 상대적으로 강수 추정치의 불확실성이 높다. 이에 따라 본 연구에서는 앙상블 머신러닝 기반 수집된 위성 강수 자료들을 관측 자료와 병합하여 보정된 준실시간 강수량 자료를 생성하고자 한다. 모형의 입력에는 시단위 3가지 준실시간 위성 강수 자료(GSMaP_NRT, IMERG_Early, PERSIANN_CCS)와 방재기상관측 (AWS)의 온도, 습도, 강수량 지점 자료를 활용하였다. 지점 강수 자료의 경우 결측치를 고려하여 475개 관측소를 선정하였으며, 공간성을 고려한 랜덤 샘플링으로 375개소(약 80%)는 훈련 자료, 나머지 100개소(약 20%)는 검증 자료로 분리하였다. 모형의 정량적 평가 지표로는 KGE, MAE, RMSE이 사용되었으며, 정성적 평가 지표로 강수 분할표에 따라 POD, SR, BS 그리고 CSI를 사용하였다. 머신러닝 모형은 개별 원시 위성 강수 자료 및 IDW 기법보다 높은 정확도로 강수량을 추정하였으며 공간적으로 안정적인 결과를 나타내었다. 다만, 최대 강수량에서는 다소 과소추정되므로 이는 강수와 관련된 입력 변수의 개수 업데이트로 해결할 수 있을 것으로 판단된다. 따라서 불확실성이 높은 개별 준실시간 위성 자료들을 관측 자료와 병합하여 보정된 최적 강수 자료를 생성하는 머신러닝 기법은 돌발성 수재해에 실시간으로 대응 가능하며 홍수 예보에 신뢰도 높은 정량적인 강수량 추정치를 제공할 수 있다.

  • PDF