• 제목/요약/키워드: XGBoost 기법

검색결과 74건 처리시간 0.019초

정형 및 비정형 데이터를 이용한 농산물 구매량 예측: 파프리카를 중심으로 (Prediction of Agricultural Purchases Using Structured and Unstructured Data: Focusing on Paprika)

  • ;이경희;라형철;최은선;조완섭
    • 한국빅데이터학회지
    • /
    • 제6권2호
    • /
    • pp.169-179
    • /
    • 2021
  • 소비자의 식품소비행동은 소비자 패널 데이터와 같은 정형 데이터 뿐 아니라 매스미디어와 소셜미디어(SNS) 등 비정형 데이터로부터 영향을 받을 가능성이 높아지고 있다. 본 연구에서는 식품소비 관련된 정형 데이터와 비정형 데이터를 연계한 융합데이터 셋에 대하여 딥러닝 기반의 소비예측 모델을 생성하고 이를 검증한다. 연구의 결과는 정형 데이터와 비정형 데이터를 결합할 때 모델 정확도가 향상되었음을 보여주었다. 또한 비정형 데이터가 모델 예측 가능성을 향상시키는 것으로 나타났다. 변수들의 중요도를 식별하기 위해 SHAP 기법을 사용한 결과 블로그 및 비디오 데이터 관련 변수가 상위 목록에 있었고, 파프리카 구매 금액과 양의 상관관계가 있음을 알 수 있었다. 또한 실험 결과에 따르면 머신러닝 모델이 딥러닝 모델보다 높은 정확도를 보였고, 기존의 시계열 분석 모델링에 대한 효율적인 대안이 될 수 있음을 확인하였다.

머신러닝 기법을 활용한 터널 설계 시 시추공 내 암반분류에 관한 연구 (A study on the rock mass classification in boreholes for a tunnel design using machine learning algorithms)

  • 이제겸;최원혁;김양균;이승원
    • 한국터널지하공간학회 논문집
    • /
    • 제23권6호
    • /
    • pp.469-484
    • /
    • 2021
  • 터널 설계 시 지반조사를 통한 암반분류 결과는 공사기간 및 공사비 산출, 그리고 터널안정성 평가에 지대한 영향을 미친다. 국내에서 지금까지 완공된 3,526개소의 터널들의 설계 및 시공을 통해 관련 기술들은 지속적으로 발전되어 왔지만, 터널 설계 시 암질 및 암반등급을 보다 정확하게 평가하기 위한 방법에 대한 연구는 미미하여 평가자의 경험 및 주관에 따라 결과의 차이가 큰 경우가 적지 않다. 따라서 본 연구에서는 암석샘플에 대한 주관적 평가를 통한 기존의 인력에 의한 암반분류 대신, 최근 지반분야에서도 그 활용도가 급증하고 있는 머신러닝 알고리즘을 이용하여 시추조사에서 획득한 다양한 암석 및 암반정보를 분석하여 보다 신뢰성있는 RMR에 의한 암반분류 모델을 제시하고자 하였다. 국내 13개 터널을 대상으로 11개의 학습 인자(심도, 암종, RQD, 전기비저항, 일축압축강도, 탄성파 P파속도 및 S파 속도, 영률, 단위중량, 포아송비, RMR)를 선정하여 337개의 학습 데이터셋과 60개의 시험 데이터셋을 확보하였으며, 모델의 예측성능을 향상시키기 위해 6개의 머신러닝 알고리즘(DT, SVM, ANN, PCA & ANN, RF, XGBoost)과 각 알고리즘별 다양한 초매개변수(hyperparameter)를 적용하였다. 학습된 모델의 예측성능을 비교한 결과, DT 모델을 제외한 5개의 머신러닝 모델에서 시험데이터에 대한 RMR 평균절대오차 값이 8 미만으로 수렴되었으며, SVM 모델에서 가장 우수한 예측성능을 나타내었다. 본 연구를 통해 암반분류 예측에 대한 머신러닝 기법의 적용 가능성을 확인하였으며, 향후 다양한 데이터를 지속적으로 확보하여 예측모델의 성능을 향상시킨다면 보다 신뢰성 있는 암반 분류에 활용될 수 있을 것으로 기대된다.

머신러닝 기법을 이용한 재해강도 분류모형 개발 (Development of disaster severity classification model using machine learning technique)

  • 이승민;백선욱;이준학;김경탁;김수전;김형수
    • 한국수자원학회논문집
    • /
    • 제56권4호
    • /
    • pp.261-272
    • /
    • 2023
  • 최근 급격한 도시화와 기후변화에 따라 재난에 의한 피해가 증가하고 있다. 국내 기상청에서는 표준 경보(주의보, 경보)를 전국적으로 통일된 표준 경보 기준(3시간 및 12시간 최대 누적강우량)에 따라 발령하여 재해에 따른 지역별, 재난 사상별 특성이 고려되지 않은 문제점이 있다. 따라서 본 연구에서는 서울특별시, 인천광역시, 경기도의 호우·태풍에 대한 재해 피해액 및 누적강우량을 활용하여 대상지역별 재해강도에 따른 단계별 기준을 설정하고, 강우에 따라 발생할 수 있는 재해의 강도를 분류하는 모형을 개발하고자 하였다. 즉, 본 연구에서는 호우·태풍에 의한 재해 피해액 누적 분포 함수의 분위별로 재해강도의 범주(관심, 주의, 경계, 심각 단계)를 분류하였고, 재해강도의 범주에 따른 누적강우량 기준을 대상 지자체별로 제시하였다. 그리고 지자체별 재해강도 분류모형 개발을 위해 4가지(의사결정나무, 서포트 벡터 머신, 랜덤 포레스트, XGBoost)의 머신러닝 모형을 활용하였는데 강우량, 누적강우량, 지속시간 최대 강우량(3시간, 12시간), 선행강우량을 독립변수로 이용하여 종속변수인 지자체별 재해강도를 분류하였다. 각 모형별 F1 점수를 이용한 정확도 평가 결과, 의사결정나무의 F1 점수가 0.56으로 가장 우수한 정확도를 보였다. 본 연구에서 제시한 머신러닝 기반 재해강도 분류모형을 활용하면 호우·태풍에 의한 재해에 대한 지자체별 위험 상태를 단계별로 파악할 수 있어, 재난 담당자들의 신속한 의사결정을 위한 기초 자료로 활용될 수 있을 것으로 판단된다.

CNN-LSTM 조합모델을 이용한 영화리뷰 감성분석 (Sentiment Analysis of Movie Review Using Integrated CNN-LSTM Mode)

  • 박호연;김경재
    • 지능정보연구
    • /
    • 제25권4호
    • /
    • pp.141-154
    • /
    • 2019
  • 인터넷 기술과 소셜 미디어의 빠른 성장으로 인하여, 구조화되지 않은 문서 표현도 다양한 응용 프로그램에 사용할 수 있게 마이닝 기술이 발전되었다. 그 중 감성분석은 제품이나 서비스에 내재된 사용자의 감성을 탐지할 수 있는 분석방법이기 때문에 지난 몇 년 동안 많은 관심을 받아왔다. 감성분석에서는 주로 텍스트 데이터를 이용하여 사람들의 감성을 사전 정의된 긍정 및 부정의 범주를 할당하여 분석하며, 이때 사전 정의된 레이블을 이용하기 때문에 다양한 방향으로 연구가 진행되고 있다. 초기의 감성분석 연구에서는 쇼핑몰 상품의 리뷰 중심으로 진행되었지만, 최근에는 블로그, 뉴스기사, 날씨 예보, 영화 리뷰, SNS, 주식시장의 동향 등 다양한 분야에 적용되고 있다. 많은 선행연구들이 진행되어 왔으나 대부분 전통적인 단일 기계학습기법에 의존한 감성분류를 시도하였기에 분류 정확도 면에서 한계점이 있었다. 본 연구에서는 전통적인 기계학습기법 대신 대용량 데이터의 처리에 우수한 성능을 보이는 딥러닝 기법과 딥러닝 중 CNN과 LSTM의 조합모델을 이용하여 감성분석의 분류 정확도를 개선하고자 한다. 본 연구에서는 대표적인 영화 리뷰 데이터셋인 IMDB의 리뷰 데이터 셋을 이용하여, 감성분석의 극성분석을 긍정 및 부정으로 범주를 분류하고, 딥러닝과 제안하는 조합모델을 활용하여 극성분석의 예측 정확도를 개선하는 것을 목적으로 한다. 이 과정에서 여러 매개 변수가 존재하기 때문에 그 수치와 정밀도의 관계에 대해 고찰하여 최적의 조합을 찾아 정확도 등 감성분석의 성능 개선을 시도한다. 연구 결과, 딥러닝 기반의 분류 모형이 좋은 분류성과를 보였으며, 특히 본 연구에서 제안하는 CNN-LSTM 조합모델의 성과가 가장 우수한 것으로 나타났다.