• 제목/요약/키워드: Random Forest

검색결과 984건 처리시간 0.03초

Prediction of Postoperative Lung Function in Lung Cancer Patients Using Machine Learning Models

  • Oh Beom Kwon;Solji Han;Hwa Young Lee;Hye Seon Kang;Sung Kyoung Kim;Ju Sang Kim;Chan Kwon Park;Sang Haak Lee;Seung Joon Kim;Jin Woo Kim;Chang Dong Yeo
    • Tuberculosis and Respiratory Diseases
    • /
    • 제86권3호
    • /
    • pp.203-215
    • /
    • 2023
  • Background: Surgical resection is the standard treatment for early-stage lung cancer. Since postoperative lung function is related to mortality, predicted postoperative lung function is used to determine the treatment modality. The aim of this study was to evaluate the predictive performance of linear regression and machine learning models. Methods: We extracted data from the Clinical Data Warehouse and developed three sets: set I, the linear regression model; set II, machine learning models omitting the missing data: and set III, machine learning models imputing the missing data. Six machine learning models, the least absolute shrinkage and selection operator (LASSO), Ridge regression, ElasticNet, Random Forest, eXtreme gradient boosting (XGBoost), and the light gradient boosting machine (LightGBM) were implemented. The forced expiratory volume in 1 second measured 6 months after surgery was defined as the outcome. Five-fold cross-validation was performed for hyperparameter tuning of the machine learning models. The dataset was split into training and test datasets at a 70:30 ratio. Implementation was done after dataset splitting in set III. Predictive performance was evaluated by R2 and mean squared error (MSE) in the three sets. Results: A total of 1,487 patients were included in sets I and III and 896 patients were included in set II. In set I, the R2 value was 0.27 and in set II, LightGBM was the best model with the highest R2 value of 0.5 and the lowest MSE of 154.95. In set III, LightGBM was the best model with the highest R2 value of 0.56 and the lowest MSE of 174.07. Conclusion: The LightGBM model showed the best performance in predicting postoperative lung function.

학업성취도 예측 요인 분석 및 인공지능 예측 모델 개발 - 블렌디드 수학 수업을 중심으로 (Analysis of achievement predictive factors and predictive AI model development - Focused on blended math classes)

  • 안도연;이광호
    • 한국수학교육학회지시리즈A:수학교육
    • /
    • 제61권2호
    • /
    • pp.257-271
    • /
    • 2022
  • 본 연구는 학습분석학을 기반으로 블렌디드 수학 수업에서 발생하는 학습 데이터를 활용하여 수학 학업성취도를 예측하는 요인이 무엇인지 탐색하고, 그 결과를 활용하여 수학 학업성취도를 예측하는 인공지능 모델을 개발하고자 하였다. 초등학교 5~6학년 학생 205명의 수학 학습 성향, LMS 데이터, 평가 결과를 수집하여 랜덤포레스트 모델을 분석하였다. 수학 학습성향에는 수학학습 자신감, 수학불안, 수학교과 흥미, 수학학습 자기관리, 수학학습 전략이 포함되었다. LMS 데이터로 e학습터의 진도율, 학습 횟수, 학습 시간을 수집하였다. 평가는 진단평가와 각 단원의 단원평가 결과를 사용하였다. 분석 결과 수학 학습성향 중 수학 학습 전략이 저성취 학생을 예측에 가장 중요한 요인으로 나타났다. LMS 학습 데이터는 예측에 미미한 영향을 주었다. 본 연구는 인공지능 모델이 블렌디드 수학 수업에서 발생하는 학습 데이터로 저성취 학생을 예측할 수 있음을 시사한다. 또한 분석 결과를 통해 교사가 학생을 평가하고 피드백하는 데 구체적인 정보를 제공하여 교사의 평가 활동에 보조적인 역할을 할 수 있을 것으로 기대한다.

기계학습을 활용한 계란가격 예측 모델링 (Modeling for Egg Price Prediction by Using Machine Learning)

  • 조호현;이대겸;채영훈;장동일
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2022년도 춘계학술대회
    • /
    • pp.15-17
    • /
    • 2022
  • 2020년 하반기부터 2021년 초까지 발생한 조류인플루엔자의 여파로 1,780만수의 산란계가 살처분되면서 계란 공급 부족으로 계란 1판에 1만원을 넘는 사태가 벌어지기도 했다. 이에 정부는 물가 안정 대책으로 1,000억원 이상의 국고를 계란 수입에 투입하였지만, 계란 가격의 안정화는 쉽지 않았다. 계란 가격의 급격한 변동성은 소비자와 양계농가 모두에게 부정적인 영향을 미치므로 계란 가격의 안정화 방안을 위한 대책이 필요하다. 이를 위해 본 연구에서는 머신러닝 회귀분석 알고리즘을 활용하여 계란 가격을 예측하였으며, 가격 예측을 위해서 대한양계협회 2012~2021년도의 월간 산란계 생산통계와 국가통계포털(KOSIS)의 도축실적 등 총 8개의 독립변수를 선택하였다. 실제 가격과 모델에 의한 예측 가격의 차이를 나타내는 평균 제곱근 오차(RMSE)는 약 103원이며, 이는 개발된 모델이 계란 가격을 비교적 잘 예측한 결과라고 판단된다. 정확한 계란 가격 예측은 산란계 계란 생산주령의 유연한 조정과 산란계 입식에 대한 의사결정을 도울 수 있고, 계란 가격 안정성 확보에 도움을 줄 것으로 보인다.

  • PDF

Transfer Learning based DNN-SVM Hybrid Model for Breast Cancer Classification

  • Gui Rae Jo;Beomsu Baek;Young Soon Kim;Dong Hoon Lim
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권11호
    • /
    • pp.1-11
    • /
    • 2023
  • 유방암은 전 세계적으로 여성들 대다수에게 가장 두려워하는 질환이다. 오늘날 데이터의 증가와 컴퓨팅 기술의 향상으로 머신러닝(machine learning)의 효율성이 증대되어 암 검출 및 진단 등에 중요한 역할을 하고 있다. 딥러닝(deep learning)은 인공신경망(artificial neural network, ANN)을 기반으로 하는 머신러닝 기술의 한 분야로 최근 여러 분야에서 성능이 급속도로 개선되어 활용 범위가 확대되고 있다. 본 연구에서는 유방암 분류를 위해 전이학습(transfer learning) 기반 DNN(Deep Neural Network)과 SVM(support vector machine)의 구조를 결합한 DNN-SVM Hybrid 모형을 제안한다. 전이학습 기반 제안된 모형은 적은 학습 데이터에도 효과적이고, 학습 속도도 빠르며, 단일모형, 즉 DNN과 SVM이 가지는 장점을 모두 활용 가능토록 결합함으로써 모형 성능이 개선되었다. 제안된 DNN-SVM Hybrid 모형의 성능평가를 위해 UCI 머신러닝 저장소에서 제공하는 WOBC와 WDBC 유방암 자료를 가지고 성능실험 결과, 제안된 모형은 여러 가지 성능 척도 면에서 단일모형인 로지스틱회귀 모형, DNN, SVM 그리고 앙상블 모형인 랜덤 포레스트보다 우수함을 보였다.

레이저 용접을 이용한 전기차 배터리 이종접합 성공 확률 예측 프로그램 개발에 관한 연구 (A Study on the Development of a Program for Predicting Successful Welding of Electric Vehicle Batteries Using Laser Welding)

  • 김철환;문찬수;이관수;김진수;조애령;신보성
    • 마이크로전자및패키징학회지
    • /
    • 제30권4호
    • /
    • pp.44-49
    • /
    • 2023
  • 탄소중립을 위한 세계적인 노력 속에서 전기자동차의 사용이 급속하게 증가함에 따라 배터리에 대한 수요도 증가하고 있다. 따라서, 전기자동차의 높은 효율을 달성하기 위해 차체 무게 감소와 배터리에 대한 고려가 중요한 요소로 부각되고 있다. 경량 소재로 알려진 구리와 알루미늄은 레이저 용접을 통해 효과적으로 접합될 수 있다. 그러나 두 소재의 물리적 특성이 서로 다르기 때문에 이를 접합하는 것은 여전히 기술적인 어려움이 존재한다. 본 연구에서는 구리와 알루미늄을 레이저 용접으로 접합하기 위한 최적의 레이저 파라미터를 찾기 위해 시뮬레이션을 수행하였다. 또한, 결과를 시각적으로 제시하기 위해서 Python 언어를 활용하여 GUI(Graphic User Interface) 프로그램을 개발하였다. 이 프로그램은 기계 학습 이미지 데이터를 활용하여 접합 성공을 예측하며, 안전하고 효율적인 레이저 용접 가이드로 활용될 것으로 예상되어, 전기차 배터리 조립 공정의 안전성과 효율성에 기여할 것으로 기대된다.

머신러닝 기반 KOSDAQ 시장의 관리종목 지정 예측 연구: 재무적 데이터를 중심으로 (Study on Predicting the Designation of Administrative Issue in the KOSDAQ Market Based on Machine Learning Based on Financial Data)

  • 윤양현;김태경;김수영
    • 벤처창업연구
    • /
    • 제17권1호
    • /
    • pp.229-249
    • /
    • 2022
  • 본 연구는 다양한 머신러닝 기법을 통해 코스닥(KOSDAQ) 시장 내 관리종목 지정을 예측할 수 있는 모델에 대해 연구하였다. 증권시장 내 기업이 관리종목으로 지정이 되면 시장에서는 이를 부정적인 정보로 인식하여 해당 기업과 투자자에게 손실을 가져오게 된다. 본 연구를 통해 기업의 재무적 데이터를 바탕으로 조기에 관리종목 지정을 예측하고, 투자자들의 포트폴리오 리스크 관리에 도움을 주기 위한 머신러닝 접근이 타당한지 살펴본다. 본 연구를 위해 활용한 독립변수는 수익성, 안정성, 활동성, 성장성을 나타내는 21개의 재무비율을 활용하였으며, K-IFRS가 적용된 2011년부터 2020년까지 관리종목과 비관리종목의 기업의 재무 데이터를 표본으로 추출하였다. 로지스틱 회귀분석, 의사결정나무, 서포트 벡터 머신, 랜덤 포레스트, LightGBM을 활용하여 관리종목 지정 예측 연구를 수행하였다. 연구결과는 분류 정확도가 82.73%인 LightGBM이 가장 우수한 예측 모형이었으며 분류 정확도가 가장 낮은 예측 모형은 정확도가 71.94%인 의사결정나무였다. 의사결정나무 기반 학습 모형의 변수 중요도의 상위 3개 변수를 확인한 결과 각 모형에서 공통적으로 나온 재무변수는 ROE(당기순이익), 자본금회전율(Capital stock turnover ratio)로 해당 재무변수가 관리종목 지정에 있어 상대적으로 중요한 변수임을 확인하였다. 대체적으로 앙상블을 이용한 학습 모형이 단일 학습 모형보다 예측 성능이 높은 것을 확인하였다. 기존 선행연구가 K-IFRS에 대한 고려를 하지 않았고, 다소 제한된 머신러닝에 의존하였다. 따라서 본 연구의 필요성과 함께 현실적 요구를 충족시키는 결과를 제시하였음을 알 수 있으며, 시장참여자들에게 있어 관리종목 지정에 대한 사전 예측을 확인할 수 있도록 기여했다고 볼 수 있다.

DDPG 및 연합학습 기반 5G 네트워크 자원 할당과 트래픽 예측 (5G Network Resource Allocation and Traffic Prediction based on DDPG and Federated Learning)

  • 박석우;이오성;나인호
    • 스마트미디어저널
    • /
    • 제13권4호
    • /
    • pp.33-48
    • /
    • 2024
  • 향상된 모바일 광대역(eMBB), 초저지연 및 고신뢰 통신(URLLC), 대규모 기계형 통신(mMTC) 등의 특징을 가진 5G의 등장으로 인해 효율적인 네트워크 관리와 서비스 제공을 위해 증가하는 네트워크 트래픽과 복잡성 해결이 시급한 상황이다.본 논문에서는 기계학습(Machine Learning, ML) 및 딥러닝(Deep Learning, DL)기술을 활용하여 5G 네트워크의 초고속, 초저지연, 초연결성이라는 주요 과제를 해결하면서 네트워크 슬라이싱 및 자원 할당을 동적으로 최적화하는 새로운 접근 방식을 제시한다. 제안된 기법에서는 네트워크 트래픽 및 자원 할당에 대한 예측 모델, 네트워크 대역폭 및 지연 시간을 최적화하면서 동시에 개인 정보와 보안을 향상시키기 위한 연합 학습(FL) 기법을 사용한다. 특히, 본 논문에서는 랜덤 포레스트와 LSTM 등 다양한 알고리듬과 모델의 구현 방법에 대해 자세히 다루며, 이를 통해 5G 네트워크 운영의 자동화와 지능화를 위한 방법론을 제시한다. 마지막으로 제안된 기법을 통해 5G 네트워크에 ML 및 DL을 적용하여 얻을 수 있는 성능향상 효과를 성능평가 및 분석을 통해 검증하고 다양한 산업 응용 분야에서 네트워크 슬라이싱 및 자원 관리 최적화를 위한 솔루션을 제시한다.

종분포모형을 이용한 참매의 서식지 예측 -충청북도를 대상으로- (Predicting the Goshawk's habitat area using Species Distribution Modeling: Case Study area Chungcheongbuk-do, South Korea)

  • 조해진;김달호;신만석;강태한;이명우
    • 한국환경생태학회지
    • /
    • 제29권3호
    • /
    • pp.333-343
    • /
    • 2015
  • 본 연구는 국내에서 아직 미흡한 조류 번식지 예측 모형을 이용해 참매의 서식지 예측 및 대체번식지로서 이용 가능한 지역을 선정하고, 향후 참매 번식 가능지역을 대상으로 보호관리 지역을 확대할 수 있는 근거를 제시하기 위한 방안이다. 참매의 번식지는 현장조사에서 확인된 둥지(N=10)를 이용하였으며, 출현지점은 제3차자연환경조사를 통해 확인된 참매출현지점(N=23)을 활용해 분석하였다. 모형변수로는 지형인자 4가지, 자연환경인자(식생) 3가지, 거리인자 7가지, 기후변수 9가지를 활용하였다. 활용변수 중 Random sampling을 통해 확보된 비출현 좌표와 출현좌표간 비모수 검증을 통해 최종 환경변수를 선정하였다. 유의성 검증을 통해 선택된 변수는 번식지 대상 10가지, 출현지점 대상 7가지였으며, 이 변수를 활용해 최종 서식지 예측 모형(MaxEnt)을 구축하였다. 모델 구축결과 번식에 활용된 각 변수별 모형 기여도는 온도의 계절적 변동, 혼효림 과의 거리, 입목밀도, 경급의 순이었으며, 출현지점에 활용된 각 변수별 모형 기여도는 온도의 계절적 변동, 수계와의 거리, 경작지와의 거리, 경사도의 순이었다. 번식지점을 대상으로 한 모델링은 기후환경과 숲 내부에서 번식하는 참매의 특성이 반영된 것으로 판단된다. 예상서식지는 충청북도 중부 이북지역으로 예상되었으며, 그 면적은 $189.5km^2$(2.55%)였다. 충북 이남지역은 청주와 충주 등의 비교적 큰 도시가 발달되어 있는 반면 충청북도 북부지역의 경우 산림과 경작지가 고루 발달되어 있어 번식에 있어 일정한 세력권과 먹이원이 필요한 참매로서는 번식에 유리한 지역일 것으로 판단된다. 출현지점 대상으로 한 모델링은 면적이 $3,071km^2$(41.38%)으로 확인되었으며, 이는 출현지점을 대상으로 하여 단순이동 관찰 및 계절적인 변동 미고려 등의 한계가 있기 때문에 번식지점을 대상으로 한 모델링보다 광범위한 서식예상지역을 예측하였다. 결과에서 확인된 예측지점은 번식지를 대상으로 하였을 경우 정밀한 서식예측이 가능하나, 둥지의 특성상 확인되는 지점이 적고, 참매의 행동영역을 반영하지 못하는 단점이 있다. 반면 출현지점을 대상으로 하였을 경우 더 광범위한 지점에 대한 결과 도출이 가능하였으나, 단순 이동이나 지속적인 이용실태를 반영하지 못하기 때문에 정밀도에서는 다소 떨어진다고 할 수 있다. 다만 이러한 결과들을 통해 참매의 서식지를 예측할 수 있으며, 특히 정밀한 번식지역의 예측자료는 환경영향평가나 개발계획 수립시 서식지 모형 결과를 도입하여 반영할 필요성이 있다.

소나무 천연집단(天然集團)의 변이(變異)에 관(關)한 연구(硏究)(IV) -집단간(集團間) 및 가계간분산(家系間分散) 추정(推定)에 영향하는 가계수(家系數)에 대하여- (The Variation of Nutural Population of Pinus densiflora S. et Z. in Korea -Change of variance due to number of family as sample size to affirm the population and family variations-)

  • 임경빈;권기원;이경재
    • 한국산림과학회지
    • /
    • 제35권1호
    • /
    • pp.39-46
    • /
    • 1977
  • 본연구(本硏究)는 1974년(年)에 선발(選拔)하여 그후에 수년간(數年間)에 걸처 분석(分析)한 주왕산(周王山), 안면도(安眠島), 오대산(五臺山)의 소나무(Pinus densifiora S. et Z.) 천연집단(天然集團)의 형질(形質)중에시 차대묘목(次代苗木)(1-0묘(苗), 1-1묘(苗))의 묘고(苗高) 및 근원경(根元徑)의 집단간(集團間), 가계간(家系間)의 차이(差異)를 추정(推定)함에 있어 가계(家系)의 수(數)를 어느 정도의 크기로 해야만 좋은 추정(推定)을 할 수 있는 가를 알아보기 위함이었다. 본 분석(分析)은 Nested Design의 2-level의 equal sample size에 의한 방법(方法)과 Randomized Complete Block Design에 의한 방법(方法) 두 가지를 이용하였으며 그 결과(結果)를 요약(要約)하면 다음과 같다. 1. Nested design에 의한 분석(分析)에 있어서 sample size(가계수(家系數))의 증가(增加)에 따라 가계간(家系間)의 F-치(値)는 대 체로 감소(減少)하나 집단간(集團間)의 F-치(値)는 점점 증가(增加)하는 경향(傾向)을 보였다. 2. F-치(値)의 증가(增加) 및 감소(減少)의 경향(傾向)은 그 sample size가 적을 때는 크게 변화(變化)를 보이나 그의 크기가 대략 10을 넘으면서부터는 다소 안정(安定)된 값을 보이고 있어 만일 sample size가 15~20정도가 되면 상당히 안정되고 그에 따라 집단간차이(集團間差異)를 추정(推定)하는데 오류(誤謬)를 범할 확률(確率)은 대단히 낮아질 것으로 추론(推論)되었다. 3. 연속적(連續的)으로 누적가산(累積加算)된 sample size를 가지고 분석(分析)할 때와 추출조합(抽出組合)된 sample을 가지고 분석(分析)할 때 F-치(値)의 변동(變動)은 후자(後者)가 훨씬 심하고 또 sample size가 적을때 그런 차이(差異)가 심해지는 것을 볼 수 있었다. 또한 분석대상형질(分析對象形質)이 다른 때에는 역시 그에 따른 분석가계수(分析家系數)의 조정(調整)이 필요(必要)할 것으로 보였다. 4. Randomized Complete Block Design에 의한 분석(分析)에서 가계간(家系間)의 차이(差異)에 대(對)한 분석(分析)은 집단간(集團間)의 추정(推定)에 필요(必要)한 가계수(家系數)보다는 적은 가계수(家系數)로도 분석가능(分析可能)하였다. 이것은 일반적(一般的) 추리(推理)를 그대로 입증(立證)해 주는 것에 불과(不過)하였다. 반복구간(反復區間)의 차이(差異)에 대한 추정(推定)에서 Sample Size가계수(家系數)의 영향(影響)은 일정하게 말하기 힘들었다.

  • PDF

잣나무 묘목(苗木)의 생육환경(生育環境) 요인(要因)에 따른 생장해석적(生長解析的) 연구(硏究) (A Study on the Growth Analysis of Pinus koraiensis Seedings under Various Relative Light Intensities and Planting Densities)

  • 김영채
    • 한국산림과학회지
    • /
    • 제78권3호
    • /
    • pp.314-322
    • /
    • 1989
  • 물질생산적(物質生産的) 측면(側面)에서 잣나무에 대한 광환경(光環境) 및 식재밀도(植栽密度)를 달리한 생육조건(生育條件)과 그에 따른 묘목(苗木)의 생장관계(生長關係)를 추적(追跡)하고 생육환경(生育環境)의 개선방안(改善方案)을 위(爲)한 양묘생산(養苗生産)의 기초확립(基礎確立)을 목적(目的)으로 광도(光度) 및 식재밀도(植栽密度)를 각각 4개(個) 수준(水準)으로 구분(區分) 생육(生育)시킨 잣나무 묘목(苗木)(2-2)를 대상으로 영국계(英國系)의 생장해석법(生長解析法)을 도입(導入), 이들에 대한 묘목(苗木)의 상대생장율(相對生長率)(Relative growth rate)과 순동화율(純同化率)(Net assimilation rate) 등을 산출(算出)하였다. 또한 상대생장율(相對生長率)과 순생장율(純生長率) 간(間)의 상관관계(相關關係)를 통계적(統計的)으로 비교(比較) 분석(分析)하였던 바 잣나무 묘목(苗木)의 생육(生育) 환경개선방안(環境改善方案)의 모색이 요구(要求)되었기에 그 결과(結果)를 요약(要約)하면 다음과 같다. 1. 묘목(苗木)의 건중량생장(乾重量生長)의 변화(變化) 양상(樣狀)은 각(各) 처리구간(處理區間) 공(供)히 생육초기(生育初期)에는 큰 차이(差異)가 없었으나 생육후기(生育後期)에는 차이(差異)를 나타냈고 광도(光度)가 높을수록, 그리고 식재밀도(植栽密度)가 소(疎)할 수록 증가(增加)하여 광조건(光條件)의 변화(變化)가 물질생산(物質生産)에 미치는 영향(影響)에 주요(主要)한 변수(變數)로 작용(作用)되었다. 2. 엽면적생장(葉面積生長)은 상대광도(相對光度) 63%구(區)가 가장 컸고, 그보다 광도(光度)가 높거나 낮아질 수록 점차(漸次) 감소(減少)하였다, 상대광도(相對光度) 19%구(區)가 가장 적게 나타났다. 3. 상대생장율(相對生長率)(RGR)은 상대광도(相對光度) 63%구(區)에서 $6{\times}6/m^2$ (36본(本))구(區)의 6월(月) 생장(生長)이 최대(最大)였고, 상대광도(相對光度) 19% 구(區)에서 $12{\times}12/m^2$(224본(本))구(區)의 9월(月) 생장(生長)이 최소치(最少値)를 나타냈다. 4. 순동화율(純同化率)(NAR)은 생육초기(生育初期)에는 감소(減少)하다가 8월(月)과 9월(月)을 기점(起點)으로 증가(增加) 하였으며 상대광도(相對光度) 100%의 $6{\times}6$=36본(本)$/m^2$구(區)에서 6월(月)의 생장(生長)이 최대치(最大値)를, 그리고 상대광도(相對光度) 19%구(區)에서 $12{\times}12$=144본(本)$/m^2$구(區)의 9월(月) 생장(生長)이 최소치(最少値)를 나타냈다. 5. 상대생장율(相對生長率)과 순동화율(純同化率) 간(間)에는 모두 고도(高度)의 유의성(有意性)이 인정(認定) 되었으며 이들은 정(正)의 상관관계(相關關係)에 있었다.

  • PDF