• 제목/요약/키워드: 랜덤포레스트기법

검색결과 134건 처리시간 0.023초

시뮬레이티드 어니일링 기반의 랜덤 포레스트를 이용한 기업부도예측 (Predicting Corporate Bankruptcy using Simulated Annealing-based Random Fores)

  • 박호연;김경재
    • 지능정보연구
    • /
    • 제24권4호
    • /
    • pp.155-170
    • /
    • 2018
  • 기업의 금융 부도를 예측하는 것은 전통적으로 비즈니스 분석에서 가장 중요한 예측문제 중 하나이다. 선행연구에서 예측모델은 통계 및 기계학습 기반의 기법을 적용하거나 결합하는 방식으로 제안되었다. 본 논문에서는 잘 알려진 최적화기법 중 하나인 시뮬레이티드 어니일링에 기반한 새로운 지능형 예측모델을 제안한다. 시뮬레이티드 어니일링은 유전자알고리즘과 유사한 최적화 성능을 가진 것으로 알려져 있다. 그럼에도 불구하고, 시뮬레이티드 어니일링을 사용한 비즈니스 의사결정 문제의 예측과 분류에 관한 연구가 거의 없었기 때문에, 비즈니스 분석에서의 유용성을 확인하는 것은 의미가 있다. 본 연구에서는 시뮬레이티드 어니일링과 기계학습의 결합 모델을 사용하여 부도예측모델의 입력 특징을 선정한다. 최적화 기법과 기계학습기법을 결합하는 대표적인 유형은 특징 선택, 특징 가중치 및 사례 선택이다. 이 연구에서는 선행연구에서 가장 많이 연구된 특징 선택을 위한 결합모델을 제안한다. 제안하는 모델의 우수성을 확인하기 위하여 본 연구에서는 한국 기업의 실제 재무데이터를 이용하여 그 결과를 분석한다. 분석결과는 제안된 모델의 예측 정확도가 단순한 모델의 예측 정확성보다 우수하다는 것을 보여준다. 특히 기존의 의사결정나무, 랜덤포레스트, 인공신경망, SVM 및 로지스틱 회귀분석에 비해 분류성능이 향상되었다.

의사결정나무 기반 회귀분석과 SVM 회귀분석을 이용한 커터 관입깊이에 따른 최적 커터간격 비 연구 (A study on the optimum cutter spacing ratio according to penetration depth using decision tree-based and SVM regressions)

  • 이기준;류희환;권태혁
    • 한국터널지하공간학회 논문집
    • /
    • 제22권5호
    • /
    • pp.501-513
    • /
    • 2020
  • TBM 터널굴착에서 실질적으로 지반을 굴착하는 역할을 하는 부분인 커터헤드 설계 시, 커터 관입깊이와 커터 간격을 달리하여 커터절삭 시험 시 최소 비에너지에서의 커터간격을 반영하고 있으나, 암반 조건에 따라서 동일한 커터 관입깊이에서의 최적 커터간격이 달라지기 때문에 최적 커터간격을 설정하는 연구가 활발히 진행되어야 한다. 이러한 비선형적인 커터 관입깊이와 커터 간격의 관계에서 커터 관입깊이에 따른 최적 커터간격을 예측하기 위해 머신러닝 기법인 의사결정나무 기반 랜덤 포레스트 회귀 모델과 SVM 회귀모델을 이용하여 커터 관입깊이에 따른 최적 커터 간격을 예측하였다. 랜덤 포레스트 분석기법은 SVM 분석기법보다 데이터 개수에 더 큰 영향을 받기 때문에 커터 관입깊이에 따른 최적 커터간격비의 예측에 SVM이 더 정확한 예측을 하였다. 데이터가 많이 축적되면 SVM 회귀모델이 보다 더 정확한 예측값으로 커터헤드 설계 시 커터간격을 설정하는데 효율적으로 사용될 수 있을 것으로 판단된다.

대학 신입생 중도탈락 예측 요인 분석: S대학 사례를 중심으로 (A Exploratory Study on the Determinants Predicting Student Depature of Freshmen: Focusing on the Case of S University)

  • 이은정;이정훈
    • 한국콘텐츠학회논문지
    • /
    • 제21권4호
    • /
    • pp.317-330
    • /
    • 2021
  • 본 연구의 목적은 대학 신입생의 중도탈락을 예측하는 주요 요인을 도출하여, 대학 차원에서 중도탈락을 예방하기 위한 정책 수립의 근거를 제시하는데 있다. 이를 위해 서울에 위치한 S대학교의 2018학번 신입생들을 대상으로 입학 이후 2년 동안 관찰한 데이터를 활용하여 랜덤포레스트 중도탈락 예측 모형을 구축하였다. 예측모형에는 대학생활적응 요인 6개 변수, 교육만족요인 12개 변수, 총 18개 변수를 투입하였다. 분석결과, 정서안정성, 경제적 여건, 전공진로에 대한 확신, 대학 선택 만족도, 교육방법(교육 내용의 체계성), 교육방법(전공 교육 내용의 효과성)이 중도탈락을 예측하는 중요도 상위 6개 변수인 것으로 확인되었다. 본 연구의 결과를 토대로 대학 신입생이 대학생활에 적응하고 안정적으로 학업을 지속할 수 있도록 지원하는 제도 설계의 방향과 필요성에 대해 제언하였다.

Random Forest 기법을 이용한 도심지 MT 시계열 자료의 차량 잡음 분류 (Classification of Transport Vehicle Noise Events in Magnetotelluric Time Series Data in an Urban area Using Random Forest Techniques)

  • 권형석;류경호;심익현;이춘기;오석훈
    • 지구물리와물리탐사
    • /
    • 제23권4호
    • /
    • pp.230-242
    • /
    • 2020
  • 201 6년 9월에 발생한 경주지진원 구역에 대한 정밀 지질구조 규명을 위해 MT 탐사를 적용하였다. 경주지역의 MT 측정자료는 조사지역 인근의 지하철, 전력선, 공장, 주택, 농경지에서 발생된 전기적 잡음과 철도, 도로에서의 차량잡음 등으로 인해 측정자료 왜곡이 심하게 발생되었다. 이 연구에서는 고속철도 및 고속도로와 인접한 4개소의 MT 탐사자료에 기계학습 기법을 적용하여 차량잡음이 포함된 시계열을 분류하였다. 고속열차 잡음이 포함된 시계열에 대해서는 확률적 경사 하강법, 서포트 벡터 머신과 랜덤 포레스트 3가지의 분류모델을 적용하여 그 결과를 비교하였다. 대형트럭 잡음이 포함된 시계열 자료에 대해서는 Hx 성분, Hy 성분과 Hx & Hy 합성성분 크기에 대한 3가지의 샘플 자료를 준비하였으며 랜덤 포레스트 분류모델을 구성하여 그 성능을 평가하였다. 마지막으로 차량잡음 제거 효과 분석을 위하여 차량잡음 제거 전후의 시계열, 진폭 스펙트럼과 겉보기비저항 곡선을 비교하였으며, 이를 통해 차량잡음이 영향을 미치는 주파수 대역과 차량잡음 제거 시 발생될 수 있는 문제점에 대해 고찰하였다.

유도탄의 실시간 표적 재지정을 위한 랜덤 포레스트 기법과 시뮬레이션 기반 효과 분석 (Random Forest Method and Simulation-based Effect Analysis for Real-time Target Re-designation in Missile Flight)

  • 이한강;장재연;안재민;김창욱
    • 한국시뮬레이션학회논문지
    • /
    • 제27권2호
    • /
    • pp.35-48
    • /
    • 2018
  • 북한의 전술탄도미사일(TBM, tactical ballistic missile)에 대한 방공 분야 연구는 빠른 속도로 변화하는 전장 환경을 고려해야 한다. 아군 유도탄의 표적 재지정 연구는 동적인 전장에 대한 대응뿐만 아니라 아군 방어 자산의 효과적인 운용을 가능하게 한다. 현재까지 진행된 연구는 의사 결정 과정에서 중요한 역할을 하는 TBM의 명중 확률이 고정된 값이기 때문에 실시간 전장 상황을 대변하지 못한다. 따라서 본 연구는 실시간 전장 환경을 고려한 명중 확률을 기반으로 의사 결정을 내리는 표적 재지정 알고리즘을 제안한다. 제안 방법론은 랜덤 포레스트와 무빙윈도우(moving window) 기법을 사용하여 현재 TBM의 위치 및 속도 정보로 TBM의 예상 궤적을 예측하는 궤적 예측 모형을 포함한다. 예상 명중 확률은 궤적 예측 모형과 유도탄의 시뮬레이터를 통해서 계산할 수 있으며, 계산된 명중 확률은 유도탄에 대한 표적 재지정 알고리즘의 의사결정 기준이 된다. 실험에서는 TBM 궤적 예측 모형에 사용한 방법론의 타당성이 검증되었으며, 표적 재지정 의사 결정 과정에서 제안된 모델을 통해 명중 확률을 사용하는 것의 우수성이 확인되었다.

빅데이터 및 인공지능을 활용한 축구선수 연봉등급 예측 (Predicting Soccer Players' Wage Grades Using Big Data and Artificial Intelligence)

  • 정현성;김진화;현대원
    • 산업융합연구
    • /
    • 제22권8호
    • /
    • pp.19-28
    • /
    • 2024
  • 본 연구는 빅데이터와 인공지능을 활용하여 축구선수의 연봉등급을 예측하는 새로운 방법을 제안한다. 축구선수의 연봉 예측은 선수의 성과와 잠재력을 정확하게 평가하고, 이를 연봉에 반영함으로써 축구 산업의 경제적 효율성을 높이는 중요한 과제이다. 본 연구는 FIFA 22에서 제공하는 선수 능력치 데이터를 분석하여, 다양한 빅데이터 및 인공지능 기법을 통해 선수의 연봉등급을 예측한다. 주요 연구 방법으로는 의사결정나무, 인공신경망, 랜덤 포레스트, 부스팅 등을 활용하였으며, 이를 통해 연봉등급을 예측하는 모델의 정확도를 비교 분석하였다. 연구 결과, 랜덤 포레스트와 부스팅 기법이 가장 높은 예측 정확도를 보였다. 이 연구는 빅데이터와 인공지능을 이용해 축구선수의 연봉등급을 예측하고, 축구 산업에 새로운 관점을 제공한다.

앙상블 러닝 기반 동적 가중치 할당 모델을 통한 보험금 예측 인공지능 연구 (Research on Insurance Claim Prediction Using Ensemble Learning-Based Dynamic Weighted Allocation Model)

  • 최종석
    • 한국정보전자통신기술학회논문지
    • /
    • 제17권4호
    • /
    • pp.221-228
    • /
    • 2024
  • 보험금 예측은 보험사의 리스크 관리와 재무 건전성 유지를 위한 핵심 과제 중 하나이다. 정확한 보험금 예측을 통해 보험사는 적정한 보험료를 책정하고, 예상 외의 손실을 줄이며, 고객 서비스의 질을 향상시킬 수 있다. 본 연구에서는 앙상블 러닝 기법을 적용하여 보험금 예측 모델의 성능을 향상시키고자 한다. 랜덤 포레스트(Random Forest), 그래디언트 부스팅 머신(Gradient Boosting Machine, GBM), XGBoost, Stacking, 그리고 제안한 동적 가중치 할당 모델(Dynamic Weighted Ensemble, DWE) 모델을 사용하여 예측 성능을 비교 분석하였다. 모델의 성능 평가는 평균 절대 오차(MAE), 평균 제곱근 오차(MSE), 결정 계수(R2) 등을 사용하여 수행되었다. 실험 결과, 동적 가중치 할당 모델이 평가 지표에서 가장 우수한 성능을 보였으며, 이는 랜덤 포레스트와 XGBoost, LR, LightGBM의 예측 결과를 결합하여 최적의 예측 성능을 도출한 결과이다. 본 연구는 앙상블 러닝 기법이 보험금 예측의 정확성을 높이는 데 효과적임을 입증하며, 보험업계에서 인공지능 기반 예측 모델의 활용 가능성을 제시한다.

PGA 투어의 골프 스코어 예측 및 분석 (Prediction of golf scores on the PGA tour using statistical models)

  • 임정은;임영인;송종우
    • 응용통계연구
    • /
    • 제30권1호
    • /
    • pp.41-55
    • /
    • 2017
  • 최근 골프는 많은 사람들의 취미 생활로서 자리를 잡아가고 있으며 골프와 관련된 연구도 다양하게 이루어지고 있다. 본 연구에서는 데이터 마이닝 기법을 사용하여 PGA 투어에 참여하는 선수들의 평균스코어를 예측하고 스코어에 유의한 영향을 미치는 변수들을 제시하고자 한다. 그리고 추가적으로 4개의 PGA 투어 플레이오프에 대해 상위 10명, 상위 25명의 선수들을 예측하는 것을 목표로 한다. 우리는 다양한 선형/비선형 회귀분석 방법을 이용하여 평균스코어를 예측하는데, 선형회귀분석 방법으로는 단계적 선택법, 모든 가능한 회귀모형, 라소(LASSO), 능형회귀, 주성분회귀분석을 사용하였으며 비선형회귀분석 방법으로는 트리(CART), 배깅, 그래디언트 부스팅, 신경망 모형, 랜덤 포레스트, 최근접이웃방법(KNN)을 사용하였다. 대부분의 모형에서 공통적으로 선택된 변수들을 살펴보면 페어웨이의 단단함와 그린의 풀의 높이, 평균최대풍속이 높을수록 선수들의 평균스코어는 높아지며 반대로 한 번에 퍼팅을 성공시키는 횟수와 그린적중률 실패 후 버디나 이글로 점수를 만드는 scrambling 변수들, 그리고 공을 멀리 보낼 수 있는 능력을 나타내는 longest drive는 그 값이 높아짐에 따라 선수들의 평균스코어가 낮아지는 경향이 있음을 알 수 있었다. 11가지 모형 모두 테스트 데이터인 2015년 경기 결과를 예측하는데 낮은 오류율을 보였으나 배깅과 랜덤 포레스트의 예측률이 가장 좋았으며 두 모형 모두 상위 10명과 상위 25명의 랭킹을 예측할 때 상당히 높은 적중률을 보였다.

서울 경마 경기 우승마 예측 모형 연구 (Analysis of Horse Races: Prediction of Winning Horses in Horse Races Using Statistical Models)

  • 최혜민;황나영;황찬경;송종우
    • 응용통계연구
    • /
    • 제28권6호
    • /
    • pp.1133-1146
    • /
    • 2015
  • 경마 산업은 국내 합법 사행산업의 대부분을 차지하고 있다. 그러나 사행성 도박이라는 인식 하에 여타 스포츠 산업에 비해 활발한 통계적 분석이 이루어지지 않고 있다. 본 연구의 목적은 다양한 데이터마이닝 기법을 이용하여 우승마를 예측하는 모형 개발에 있다. 모형 적합에 사용한 데이터는 한국 마사회에서 제공하는 자료를 바탕으로 하였으며, 경마 성적표, 경주마 정보, 기수 정보, 조교사 정보 등을 사용하였다. 예측 모형은 크게 두 모형으로 나누어 순위를 기반으로 한 모형과 기록을 기반으로 한 모형으로 적합하였고, 분석 방법으로는 선형회귀분석, 랜덤 포레스트, 로지스틱 회귀 분석을 사용하였다. 그 결과 말 기본 정보와 과거 우승 경력, 기수의 과거 우승 경력 등이 순위 예측에 큰 영향을 미치는 것을 알 수 있었다. 모형 적합에 사용되지 않은 최근 1개월 간 데이터를 이용하여 단승식, 복승식, 삼복승식으로 배팅한 결과 모형 간 큰 차이가 없었고, 모두 양의 수익을 얻을 수 있었다.

국내 드라마 시청률 예측 및 영향요인 분석 (A Study on Domestic Drama Rating Prediction)

  • 강수연;전희정;김지혜;송종우
    • 응용통계연구
    • /
    • 제28권5호
    • /
    • pp.933-949
    • /
    • 2015
  • 최근 상업방송의 도입과 채널의 다양화로 국내 드라마 시장의 시청률 경쟁이 심화되었다. 이에 시청률에 대한 실증적인 연구의 필요성이 대두되고 있다. 본 연구의 목적은 다양한 데이터마이닝 기법을 이용하여 최근 방송시장의 변화를 고려한 국내 드라마 시청률 예측 모형을 제시하고 시청률에 유의한 영향을 미치는 변수들을 도출하는 데 있다. 모형 적합 시 선형회귀모형, LASSO 회귀모형, 랜덤 포레스트, 그래디언트 부스팅 등과 같은 다양한 분석 방법을 고려하였다. 이 때 드라마 방영 전 알 수 있는 기본 정보들만을 고려하여 드라마의 초반 시청률을 예측하는 모형을 적합한 후 방영 초기의 여론을 고려한 평균 시청률 예측 모형을 적합하였다. 그 결과 드라마 초반 시청률은 방송사, 방송시간, 드라마 방영 이전 드라마 관련 검색량 등 드라마의 구조적 요인과 임소문 효과의 영향을 크게 받으며, 평균 시청률은 드라마 초반 시청률과 드라마 방영 이후 드라마 관련 검색량 등 방영 초기의 여론에 큰 영향을 받는 것으로 나타났다.