• Title/Summary/Keyword: Hyperparameter

검색결과 125건 처리시간 0.018초

Conditional Generative Adversarial Network(CGAN) 기반 협업 필터링 추천 시스템 (Conditional Generative Adversarial Network based Collaborative Filtering Recommendation System)

  • 강소이;신경식
    • 지능정보연구
    • /
    • 제27권3호
    • /
    • pp.157-173
    • /
    • 2021
  • 소비자의 욕구와 관심에 맞추어 개인화된 제품을 추천하는 추천 시스템은 비즈니스에 필수적인 기술로서의 그 중요성이 증가하고 있다. 추천 시스템의 대표적인 모형 중 협업 필터링은 우수한 성능으로 다양한 분야에서 활용되고 있다. 그러나 협업필터링은 사용자-아이템의 선호도 정보가 충분하지 않을 경우 성능이 저하되는 희소성의 문제가 있다. 또한 실제 평점 데이터의 경우 대부분 높은 점수에 데이터가 편향되어 있어 심한 불균형을 갖는다. 불균형 데이터에 협업 필터링을 적용할 경우 편향된 클래스에 과도하게 학습되어 추천 성능이 저하된다. 이러한 문제를 해결하기 위해 많은 선행연구들이 진행되어 왔지만 추가적인 외부 데이터 또는 기존의 전통적인 오버샘플링 기법에 의존한 추천을 시도하였기에 유용성이 떨어지고 추천 성능 측면에서 한계점이 있었다. 본 연구에서는 CGAN을 기반으로 협업 필터링 구현 시 발생하는 희소성 문제를 해결함과 동시에 실제 데이터에서 발생하는 데이터 불균형을 완화하여 추천의 성능을 높이는 것을 목표로 한다. CGAN을 이용하여 비어있는 사용자-아이템 매트릭스에 실제와 흡사한 가상의 데이터를 생성하여, 희소성을 가지고 있는 기존의 매트릭스로만 학습한 것과 비교했을 때 높은 정확도가 예상된다. 이 과정에서 Condition vector y를 이용하여 소수 클래스에 대한 분포를 파악하고 그 특징을 반영하여 데이터를 생성하였다. 이후 협업 필터링을 적용하고, 하이퍼파라미터 튜닝을 통해 추천 시스템의 성능을 최대화하는데 기여하였다. 비교 대상으로는 전통적인 오버샘플링 기법인 SMOTE, BorderlineSMOTE, SVM-SMOTE, ADASYN와 GAN을 사용하였다. 결과적으로 데이터 희소성을 가지고 있는 기존의 실제 데이터뿐만 아니라 기존 오버샘플링 기법들보다 제안 모형의 추천 성능이 우수함을 확인하였으며, RMSE, MAE 평가 척도에서 가장 높은 예측 정확도를 나타낸다는 사실을 증명하였다.

기계학습을 활용한 특허수명 예측 및 영향요인 분석 (Prediction of patent lifespan and analysis of influencing factors using machine learning)

  • 김용우;김민구;김영민
    • 지능정보연구
    • /
    • 제28권2호
    • /
    • pp.147-170
    • /
    • 2022
  • 특허의 사적 가치(private value)를 나타내는 특허수명 추정은 오래전부터 연구되었으나 추정과정에서 선형모델에 의존하는 경우가 대부분이었고, 기계학습 방법을 사용하더라도 변수 간 관계에 대한 해석이나 설명이 부족하였다. 본 연구에서는 특허의 생존 기간이 특허의 가치를 대리한다는 기존 연구결과를 바탕으로 특허 등록 이후의 생존 기간(연장횟수) 예측을 통해 특허의 가치를 추정한다. 이를 위해 1996~2017년까지 미국 특허청(USPTO)에 출원하여 등록된 특허 4,033,414개를 수집하였다. 특허수명을 예측하기 위해 기존 연구에서 특허수명에 영향을 미친다고 밝혀진 특허의 특성, 특허의 소유자 특성, 특허의 발명가 특성을 반영할 수 있는 다양한 변수가 사용되었다. 서로 다른 4개의 모델(Ridge Regression, Random Forest, Feed-forward Neural Network, Gradient Boosting Models)을 생성하고, 모델 학습 과정에서는 5-fold Cross Validation으로 초매개변수 조정이 이루어졌다. 이후 생성된 모델의 성능을 평가하고 특허수명을 추정할 수 있는 예측변수의 상대적 중요도를 제시하였다. 또한, 성능이 우수했던 Gradient Boosting Model을 기반으로 Accumulated Local Effects Plot을 제시하여 예측변수와 특허수명 간 관계를 시각적으로 나타내었다. 마지막으로 모델에 의해서 평가된 개별 특허의 평가 근거를 제시하기 위하여 Kernal SHAP(SHapley Additive exPlanations)을 적용하고 특허평가 시스템에의 적용 가능성을 제시한다. 본 연구는 기존에 특허수명을 추정하는 연구에 누적적으로 기여한다는 점 그리고 선형성을 바탕으로 진행된 기존 특허수명 추정 연구들의 한계를 보완하고 복잡한 비선형 관계를 설명가능한 방식으로 제시하였다는 점에서 학문적 의의가 있다. 또한, 개별 특허의 평가 근거를 도출하는 방법을 소개하고 특허평가 시스템에의 적용 가능성을 제시하였다는 점에서 실무적 의의가 있다.

머신러닝 기법을 활용한 터널 설계 시 시추공 내 암반분류에 관한 연구 (A study on the rock mass classification in boreholes for a tunnel design using machine learning algorithms)

  • 이제겸;최원혁;김양균;이승원
    • 한국터널지하공간학회 논문집
    • /
    • 제23권6호
    • /
    • pp.469-484
    • /
    • 2021
  • 터널 설계 시 지반조사를 통한 암반분류 결과는 공사기간 및 공사비 산출, 그리고 터널안정성 평가에 지대한 영향을 미친다. 국내에서 지금까지 완공된 3,526개소의 터널들의 설계 및 시공을 통해 관련 기술들은 지속적으로 발전되어 왔지만, 터널 설계 시 암질 및 암반등급을 보다 정확하게 평가하기 위한 방법에 대한 연구는 미미하여 평가자의 경험 및 주관에 따라 결과의 차이가 큰 경우가 적지 않다. 따라서 본 연구에서는 암석샘플에 대한 주관적 평가를 통한 기존의 인력에 의한 암반분류 대신, 최근 지반분야에서도 그 활용도가 급증하고 있는 머신러닝 알고리즘을 이용하여 시추조사에서 획득한 다양한 암석 및 암반정보를 분석하여 보다 신뢰성있는 RMR에 의한 암반분류 모델을 제시하고자 하였다. 국내 13개 터널을 대상으로 11개의 학습 인자(심도, 암종, RQD, 전기비저항, 일축압축강도, 탄성파 P파속도 및 S파 속도, 영률, 단위중량, 포아송비, RMR)를 선정하여 337개의 학습 데이터셋과 60개의 시험 데이터셋을 확보하였으며, 모델의 예측성능을 향상시키기 위해 6개의 머신러닝 알고리즘(DT, SVM, ANN, PCA & ANN, RF, XGBoost)과 각 알고리즘별 다양한 초매개변수(hyperparameter)를 적용하였다. 학습된 모델의 예측성능을 비교한 결과, DT 모델을 제외한 5개의 머신러닝 모델에서 시험데이터에 대한 RMR 평균절대오차 값이 8 미만으로 수렴되었으며, SVM 모델에서 가장 우수한 예측성능을 나타내었다. 본 연구를 통해 암반분류 예측에 대한 머신러닝 기법의 적용 가능성을 확인하였으며, 향후 다양한 데이터를 지속적으로 확보하여 예측모델의 성능을 향상시킨다면 보다 신뢰성 있는 암반 분류에 활용될 수 있을 것으로 기대된다.

차원축소를 활용한 해외제조업체 대상 사전점검 예측 모형에 관한 연구 (Preliminary Inspection Prediction Model to select the on-Site Inspected Foreign Food Facility using Multiple Correspondence Analysis)

  • 박혜진;최재석;조상구
    • 지능정보연구
    • /
    • 제29권1호
    • /
    • pp.121-142
    • /
    • 2023
  • 수입식품의 수입 건수와 수입 중량이 꾸준히 증가함에 따라 식품안전사고 방지를 위한 수입식품의 안전관리가 더욱 중요해지고 있다. 식품의약품안전처는 통관단계의 수입검사와 더불어 통관 전 단계인 해외제조업소에 대한 현지실사를 시행하고 있지만 시간과 비용이 많이 소요되고 한정된 자원 등의 제약으로 데이터 기반의 수입식품 안전관리 방안이 필요한 실정이다. 본 연구에서는 현지실사 전 부적합이 예상되는 업체를 사전에 선별하는 기계학습 예측 모형을 마련하여 현지실사의 효율성을 높이고자 하였다. 이를 위해 통합식품안전정보망에 수집된 총 303,272건의 해외제조가공업소 기본정보와 2019년도부터 2022년 4월까지의 현지실사 점검정보 데이터 1,689건을 수집하였다. 해외제조가공업소의 데이터 전처리 후 해외 제조업소_코드를 활용하여 현지실사 대상 데이터만 추출하였고, 총 1,689건의 데이터와 103개의 변수로 구성되었다. 103개의 변수를 테일유(Theil-U) 지표를 기준으로 '0'인 변수들을 제거하였고, 다중대응분석(Multiple Correspondence Analysis)을 적용해 축소 후 최종적으로 49개의 특성변수를 도출하였다. 서로 다른 8개의 모델을 생성하고, 모델 학습 과정에서는 5겹 교차검증으로 과적합을 방지하고, 하이퍼파라미터를 조정하여 비교 평가하였다. 현지실사 대상업체 선별의 연구목적은 부적합 업체를 부적합이라고 판정하는 확률인 검측률(recall)을 최대화하는 것이다. 머신러닝의 다양한 알고리즘을 적용한 결과 Recall_macro, AUROC, Average PR, F1-score, 균형정확도(Balanced Accuracy)가 가장 높은 랜덤포레스트(Random Forest)모델이 가장 우수한 모형으로 평가되었다. 마지막으로 모델에 의해서 평가된 개별 인스턴스의 부적합 업체 선정 근거를 제시하기 위해 SHAP(Shapley Additive exPlanations)을 적용하고 현지실사 업체 선정 시스템에의 적용 가능성을 제시하였다. 본 연구결과를 바탕으로 데이터에 기반한 과학적 위험관리 모델을 통해 수입식품 관리체계의 구축으로 인력·예산 등 한정된 자원의 효율적 운영방안 마련에 기여하길 기대한다.

머신러닝&딥러닝 모델을 활용한 댐 일유입량 예측시 융적설을 고려하기 위한 데이터 전처리에 대한 방법 연구 (Study on data preprocessing methods for considering snow accumulation and snow melt in dam inflow prediction using machine learning & deep learning models)

  • 조영식;정관수
    • 한국수자원학회논문집
    • /
    • 제57권1호
    • /
    • pp.35-44
    • /
    • 2024
  • 댐유입량 예측에 대하여 데이터 기반 머신러닝 및 딥러닝(Machine Learning & Deep Learning, ML&DL) 분석도구들이 공개되어 다양한 분야에서 ML&DL의 적용연구가 활발히 진행되고 있으며, 모델의 자체 성능향상 뿐만 아니라 모델의 특성을 고려한 데이터의 전처리도 댐유입량을 정확하게 예측하게 하는 중요한 모델성능 향상의 요소라고 할 수 있다. 특히 기존 강우자료는 적설량을 열선 설비를 통하여 녹여 강우량으로 환산되어 있으므로, 융적설에 따른 강우와 유입량의 상관관계를 왜곡하게 된다. 따라서 본연구에서는 소양강댐과 같이 융적설의 영향을 받는 댐유역에 대한 댐일유입량 예측시 겨울에 강설량이 적설이 되어 적게 유출되는 현상과, 봄에 융설로 인하여 무강우나 적은 비에도 많은 유출이 일어나는 물리적 현상을 ML&DL모델로 적용하기 위하여 필요한 강우 데이터의 전처리에 대한 연구를 수행 하였다. 강우계열, 유입량계열을 조합하여 3가지 머신러닝(SVM, RF, LGBM)과 2가지 딥러닝(LSTM, TCN) 모델을 구축하고, 최적 하이퍼파라메터 튜닝을 통하여 적합 모델을 적용하고 한 결과, NSE 0.842~0.894로 높은 수준의 예측성능을 나타내었다. 또한 융적설을 반영한 강우보정 데이터를 만들기 위하여 융적설 모의 알고리즘을 개발하고, 이를 통하여 산정된 보정강우를 머신러닝 및 딥러닝 모델에 적용한 결과 NSE 0.841~0.896 으로 융적설 적용전과 비슷한 높은 수준의 예측 성능을 나타내었으나, 융적설 기간에는 조정된 강우로 학습되어 예측되었을 때 실측유입량에 근접하는 모의결과를 나타내었다. 결론적으로, 융적설이 영향을 미치는 유역에서의 데이터 모델 적용시에는 입력자료 구축시 적설 및 융설이 물리적으로 타당한 강우-유출 반응에 적합하도록 전처리과정이 중요함을 밝혔다.