• 제목/요약/키워드: multiple regression techniques

검색결과 256건 처리시간 0.026초

앙상블을 이용한 기계학습 기법의 설계: 뜰개 이동경로 예측을 통한 실험적 검증 (Ensemble Design of Machine Learning Technigues: Experimental Verification by Prediction of Drifter Trajectory)

  • 이찬재;김용혁
    • 예술인문사회 융합 멀티미디어 논문지
    • /
    • 제8권3호
    • /
    • pp.57-67
    • /
    • 2018
  • 앙상블 기법은 기계학습에서 다수의 알고리즘을 사용하여 더 좋은 성능을 내기 위해 사용하는 방법이다. 본 논문에서는 앙상블 기법에서 많이 사용되는 부스팅과 배깅에 대해 소개를 하고, 서포트벡터 회귀, 방사기저함수 네트워크, 가우시안 프로세스, 다층 퍼셉트론을 이용하여 설계한다. 추가적으로 순환신경망과 MOHID 수치모델을 추가하여 실험을 진행한다. 실험적 검증를 위해 사용하는 뜰개 데이터는 7 개의 지역에서 관측된 683 개의 관측 자료다. 뜰개 관측 자료를 이용하여 6 개의 알고리즘과의 비교를 통해 앙상블 기법의 성능을 검증한다. 검증 방법으로는 평균절대오차를 사용한다. 실험 방법은 배깅, 부스팅, 기계학습을 이용한 앙상블 모델을 이용하여 진행한다. 각 앙상블 모델마다 동일한 가중치를 부여한 방법, 차등한 가중치를 부여한 방법을 이용하여 오류율을 계산한다. 가장 좋은 오류율을 나타낸 방법은 기계학습을 이용한 앙상블 모델로서 6 개의 기계학습의 평균에 비해 61.7%가 개선된 결과를 보였다.

MLP를 이용한 공컨테이너 수요예측 (Demand Forecast For Empty Containers Using MLP)

  • 김동윤;방선호;장지영;신광섭
    • 한국빅데이터학회지
    • /
    • 제6권2호
    • /
    • pp.85-98
    • /
    • 2021
  • COVID-19의 대유행은 컨테이너를 사용하는 국가 간 수출입 물동량 불균형을 더욱 악화시켰으며, 이는 공컨테이너 수급의 문제까지 이어지게 되었다. 적정 수요만큼의 공컨테이너 확보는 안정적이고 효율적인 항만 운영을 위해 필수적인 요소이다. 지금까지 여러 기법을 사용한 공컨테이너 수요예측 방안이 연구되어 왔다. 그러나 항만 및 선사에서 직접 활용 가능한 수요예측 보다는 월 혹은 연 단위의 장기적인 예측에 머루르고 있었다. 본 연구에서는 실제 인공신경망을 이용한 일별, 주별 단위 예측 방안을 제시한다. 이를 위해 머신러닝 기법 중 다층 퍼셉트론과 회귀분석을 활용하여 수요예측을 진행하였으며, 데이터 부족 문제를 해결하기 위해 적컨테이너와 공컨테이너의 입항 후 다시 항만으로 유입되는 과정을 기반으로 데이터를 재가공하였다. 이를 통해, 정확도가 매우 높지는 않지만, 현장에서는 활용 가능한 일별 및 주별 수요 예측 모델을 개발할 수 있었다.

기후변화 시나리오의 기온상승에 따른 낙동강 남세균 발생 예측을 위한 데이터 기반 모델 시뮬레이션 (Data-driven Model Prediction of Harmful Cyanobacterial Blooms in the Nakdong River in Response to Increased Temperatures Under Climate Change Scenarios)

  • 장가연;조민경;김자연;김상준;박힘찬;박준홍
    • 한국물환경학회지
    • /
    • 제40권3호
    • /
    • pp.121-129
    • /
    • 2024
  • Harmful cyanobacterial blooms (HCBs) are caused by the rapid proliferation of cyanobacteria and are believed to be exacerbated by climate change. However, the extent to which HCBs will be stimulated in the future due to increased temperature remains uncertain. This study aims to predict the future occurrence of cyanobacteria in the Nakdong River, which has the highest incidence of HCBs in South Korea, based on temperature rise scenarios. Representative Concentration Pathways (RCPs) were used as the basis for these scenarios. Data-driven model simulations were conducted, and out of the four machine learning techniques tested (multiple linear regression, support vector regressor, decision tree, and random forest), the random forest model was selected for its relatively high prediction accuracy. The random forest model was used to predict the occurrence of cyanobacteria. The results of boxplot and time-series analyses showed that under the worst-case scenario (RCP8.5 (2100)), where temperature increases significantly, cyanobacterial abundance across all study areas was greatly stimulated. The study also found that the frequencies of HCB occurrences exceeding certain thresholds (100,000 and 1,000,000 cells/mL) increased under both the best-case scenario (RCP2.6 (2050)) and worst-case scenario (RCP8.5 (2100)). These findings suggest that the frequency of HCB occurrences surpassing a certain threshold level can serve as a useful diagnostic indicator of vulnerability to temperature increases caused by climate change. Additionally, this study highlights that water bodies currently susceptible to HCBs are likely to become even more vulnerable with climate change compared to those that are currently less susceptible.

전처리 방법과 인공지능 모델 차이에 따른 대전과 부산의 태양광 발전량 예측성능 비교: 기상관측자료와 예보자료를 이용하여 (Comparison of Solar Power Generation Forecasting Performance in Daejeon and Busan Based on Preprocessing Methods and Artificial Intelligence Techniques: Using Meteorological Observation and Forecast Data)

  • 심채연;백경민;박현수;박종연
    • 대기
    • /
    • 제34권2호
    • /
    • pp.177-185
    • /
    • 2024
  • As increasing global interest in renewable energy due to the ongoing climate crisis, there is a growing need for efficient technologies to manage such resources. This study focuses on the predictive skill of daily solar power generation using weather observation and forecast data. Meteorological data from the Korea Meteorological Administration and solar power generation data from the Korea Power Exchange were utilized for the period from January 2017 to May 2023, considering both inland (Daejeon) and coastal (Busan) regions. Temperature, wind speed, relative humidity, and precipitation were selected as relevant meteorological variables for solar power prediction. All data was preprocessed by removing their systematic components to use only their residuals and the residual of solar data were further processed with weighted adjustments for homoscedasticity. Four models, MLR (Multiple Linear Regression), RF (Random Forest), DNN (Deep Neural Network), and RNN (Recurrent Neural Network), were employed for solar power prediction and their performances were evaluated based on predicted values utilizing observed meteorological data (used as a reference), 1-day-ahead forecast data (referred to as fore1), and 2-day-ahead forecast data (fore2). DNN-based prediction model exhibits superior performance in both regions, with RNN performing the least effectively. However, MLR and RF demonstrate competitive performance comparable to DNN. The disparities in the performance of the four different models are less pronounced than anticipated, underscoring the pivotal role of fitting models using residuals. This emphasizes that the utilized preprocessing approach, specifically leveraging residuals, is poised to play a crucial role in the future of solar power generation forecasting.

회사채 신용등급 예측을 위한 SVM 앙상블학습 (Ensemble Learning with Support Vector Machines for Bond Rating)

  • 김명종
    • 지능정보연구
    • /
    • 제18권2호
    • /
    • pp.29-45
    • /
    • 2012
  • 회사채 신용등급은 투자자의 입장에서는 수익률 결정의 중요한 요소이며 기업의 입장에서는 자본비용 및 기업 가치와 관련된 중요한 재무의사결정사항으로 정교한 신용등급 예측 모형의 개발은 재무 및 회계 분야에서 오랫동안 전통적인 연구 주제가 되어왔다. 그러나, 회사채 신용등급 예측 모형의 성과와 관련된 가장 중요한 문제는 등급별 데이터의 불균형 문제이다. 예측 문제에 있어서 데이터 불균형(Data imbalance) 은 사용되는 표본이 특정 범주에 편중되었을 때 나타난다. 데이터 불균형이 심화됨에 따라 범주 사이의 분류경계영역이 왜곡되므로 분류자의 학습성과가 저하되게 된다. 본 연구에서는 데이터 불균형 문제가 존재하는 다분류 문제를 효과적으로 해결하기 위한 다분류 기하평균 부스팅 기법 (Multiclass Geometric Mean-based Boosting MGM-Boost)을 제안하고자 한다. MGM-Boost 알고리즘은 부스팅 알고리즘에 기하평균 개념을 도입한 것으로 오분류된 표본에 대한 학습을 강화할 수 있으며 불균형 분포를 보이는 각 범주의 예측정확도를 동시에 고려한 학습이 가능하다는 장점이 있다. 회사채 신용등급 예측문제를 활용하여 MGM-Boost의 성과를 검증한 결과 SVM 및 AdaBoost 기법과 비교하여 통계적으로 유의적인 성과개선 효과를 보여주었으며 데이터 불균형 하에서도 벤치마킹 모형과 비교하여 견고한 학습성과를 나타냈다.

기계학습을 이용한 수출신용보증 사고예측 (The Prediction of Export Credit Guarantee Accident using Machine Learning)

  • 조재영;주지환;한인구
    • 지능정보연구
    • /
    • 제27권1호
    • /
    • pp.83-102
    • /
    • 2021
  • 2020년 8월 정부는 한국판 뉴딜을 뒷받침하기 위한 공공기관의 역할 강화방안으로서 각 공공기관별 역량을 바탕으로 5대 분야에 걸쳐 총 20가지 과제를 선정하였다. 빅데이터(Big Data), 인공지능 등을 활용하여 대국민 서비스를 제고하고 공공기관이 보유한 양질의 데이터를 개방하는 등의 다양한 정책을 통해 한국판 뉴딜(New Deal)의 성과를 조기에 창출하고 이를 극대화하기 위한 다양한 노력을 기울이고 있다. 그중에서 한국무역보험공사(KSURE)는 정책금융 공공기관으로 국내 수출기업들을 지원하기 위해 여러 제도를 운영하고 있는데 아직까지는 본 기관이 가지고 있는 빅데이터를 적극적으로 활용하지 못하고 있는 실정이다. 본 연구는 한국무역보험공사의 수출신용보증 사고 발생을 사전에 예측하고자 공사가 보유한 내부 데이터에 기계학습 모형을 적용하였고 해당 모형 간에 예측성과를 비교하였다. 예측 모형으로는 로지스틱(Logit) 회귀모형, 랜덤 포레스트(Random Forest), XGBoost, LightGBM, 심층신경망을 사용하였고, 평가 기준으로는 전체 표본의 예측 정확도 이외에도 표본별 사고 확률을 구간으로 나누어 높은 확률로 예측된 표본과 낮은 확률로 예측된 경우의 정확도를 서로 비교하였다. 각 모형별 전체 표본의 예측 정확도는 70% 내외로 나타났고 개별 표본을 사고 확률 구간별로 세부 분석한 결과 양 극단의 확률구간(0~20%, 80~100%)에서 90~100%의 예측 정확도를 보여 모형의 현실적 활용 가능성을 보여주었다. 제2종 오류의 중요성 및 전체적 예측 정확도를 종합적으로 고려할 경우, XGBoost와 심층신경망이 가장 우수한 모형으로 평가되었다. 랜덤포레스트와 LightGBM은 그 다음으로 우수하며, 로지스틱 회귀모형은 가장 낮은 성과를 보였다. 본 연구는 한국무역보험공사의 빅데이터를 기계학습모형으로 분석해 업무의 효율성을 높이는 사례로서 향후 기계학습 등을 활용하여 실무 현장에서 빅데이터 분석 및 활용이 활발해지기를 기대한다.

Preliminary study on the use of near infrared spectroscopy for determination of plasma deuterium oxide in dairy cattle

  • Purnomoadi, Agung;Nonaka, Itoko;Higuchi, Kouji;Enishi, Osamu;Amari, Masahiro;Terada, Fuminori
    • 한국근적외분광분석학회:학술대회논문집
    • /
    • 한국근적외분광분석학회 2001년도 NIR-2001
    • /
    • pp.4101-4101
    • /
    • 2001
  • Information of body composition (fat and protein) in living animal is important to determine the nutrients requirement. Deuterium oxide (D2O) dilution techniques, as one of isotope dilution techniques have been useful for the prediction of body composition. However, the determination of D2O concentration is time consuming and complicated. Therefore this study was conducted to develop a new method to predict D2O concentration in plasma using near infrared spectroscopy technique (NIRS). Four dairy cows in early lactation were used. They were fed total mixed ration containing conr silage, timothy hay, and concentrates to make 17.0%CP and 14.0 MJDE/kgDM. Dosing D2O was at week 1,3 and 5 after parturition. After dosing D2O, the blood was collected from hour 0 to 72. Blood samples were then centrifuge at 3,000 rpm for 10 minutes to obtain plasma. D2O concentration was analyzed by gas chromatograph (deuterium oxide analyzable system, HK102, Shokotsusyou) after extracted from plasma by liophilization. Plasma sample was scanned by NIRS using Pacific Scientific (Neotec) model 6500 (Perstorp Analytical, Silver Spring, MD) in the range of wavelength from 1100 to 2500 nm. Calibration equation was developed using multiple linear regression. Sample from one animal (cow #550; n: 74) was used for developing the calibration while the rest three animals were used for validating the equation. The range, R and SEC of the calibration set samples were 135-925 ppm, 0.93 and 48.1 ppm, respectively. Validation of the calibration equation for three individual cows was done and the average of NIR predicted value of D2O at each collection time from three weeks injection showed a high correlation. The range, r and 53 of plasma from cow #474 were 322-840 ppm,0.93 and 53.1; cow #478 were 146-951 ppm,0.95 and 39.8; cow #942 were 313-885 ppm,0.95 and 37.2, respectively. Judgement of accuracy based on ratio of standard deviation and standard error in validation set samples (RPD) for cow #474, #478 and #942 were 2.2,4.3 and 3.4, respectively. The error in application due to the variation between individual was considered smaller than the bias from collection period, however, this prediction can be overcome with correction of standard zero-minute concentration of blood. The results of this preliminary study on the use of NIRS for determination of D2O in plasma showed very promising as shown by a convenient and satisfy accuracy. Further study on various physiological stage of animal should be done.

  • PDF

여고생의 자아 이미지와 의복구매 행동에 관한 연구 (A Study on Self-image and Clothing-Purchasing-Behavior of Adolescence)

  • 김영신;한명숙
    • 복식문화연구
    • /
    • 제6권1호
    • /
    • pp.94-109
    • /
    • 1998
  • The objective of this study is to measure self-image of adolescence, analyze empirically clothing-purchasing-behavior of adolescence and clarify correlation of two variables, self-image and clothing-purchasing-behavior. For this purpose, the techniques involve theoretical studies and researches based on historical obtained from previous related studies and surveys, 431 high school female students who reside in Seoul are asked to answer selected survey questions to examine three aspects, clothing-purchasing-behavior, self-image and demographics. The evaluation of surveyed information is analyzed by statistical techniques to improve the accuracy of data. Statistical methods used are as follows; Descriptive(frequency, mean, percentage), Factor Analysis(varimax rotation), Crosstabs(Chi-square), T-test, One-Way ANOVA< Correlation Analysis, Reliability Analysis and Duncan's Multiple Range Test. The mjor results of this study were as follows: Firstly, there is a discrepancy between real self-image and ideal self-image. Furthermore more significant differences is seen from physical aspects than psychological aspects. Consequently, research proves that the difference derived from their ideal situation and real situation leads to psychological unstableness. In addition, making their real self-image is dependent upon several elements such things as family economic level, pocket money, expenditure on clothing. Therefore, it is critical to combine all factors in order to decide how much to spend for children's clothing and pocket money in parents point of view. Secondly, research shows that shows hat there is correlated relationship between average expenditure on clothing and presence of mother's job. Average expenditure on clothing is, generally, influenced by vogue which is tend to be changed seasonally. It, also, shows that there is positive linear regression between expenditure on clothe and sensitivity for vogue. That is to say, dependent variable, expenditure on clothing, is varied as independent variable, sensitivity for vogue, changes. Female high school students are likely to give much value on brand. Moreover people who are spending more money on clothes have higher tendencies in prompt purchases than who are not. Thirdly, the analysis of clothing-purchasing-behavior and self-image shows that the difference between real self-image and ideal self-image draws the main reason of dissatisfaction after purchase of clothes. As a consequence, their unfilled needs lead them to keep making another purchase to satisfy themselves. Therefore, it is strongly recommended that parents' advices and directions on their children's money spending on clothes are imperative to establish well-behaved purchasing patterns.

  • PDF

은행의 대출 구조와 수익성 변동에 관한 연구 (A Study on the Loan Structure and Profitability of Banks)

  • 강명석;신정훈
    • 벤처혁신연구
    • /
    • 제2권2호
    • /
    • pp.117-126
    • /
    • 2019
  • 본 연구는 최근 5년간(2012년 ~ 2016년) 국내 시중은행, 지방은행 및 특수은행의 재무제표와 대출구조, ROA, ROA 변동성을 사용하여 상관관계분석 및 다중회귀분석을 실시하였으며, 주요 실증분석 결과는 다음과 같다. 첫째, 상관관계분석 결과 은행의 ROA는 가계대출, 중소기업 대출과는 정(+)의 상관관계가 있으나, 대기업대출, 업종편중율, 대손충당금 비율과는 부(-)의 상관관계가 있는 것으로 나타났다. 둘째, ROA 변동성은 가계대출, 중소기업 대출과는 부(-)의 상관관계가 있으나, 대기업 대출, 업종편중율, 대손충당금 비율과는 정(+)의 상관관계가 있는 것으로 나타났다. 셋째, 회귀분석 결과 은행의 ROA 변동성에 통계적으로 유의한 영향을 미치는 변수는 가계대출, 중소기업대출, 대기업대출로 나타났다. 이러한 실증분석결과로부터 이익 변동성이 큰 특수은행들은 정책금융 외의 영역에서는 경영성과 달성을 위해 대출 형태와 업종을 분산 할 필요가 있으며, 특히 상업적인 역할이 큰 수협은행, 농협은행은 단기적인 수익에 집중하여 단위당 규모가 크고, 재무적 정보를 획득하기 쉬운 대기업이나 대규모 대출에 집중하는 것보다는 심사 기법 등의 역량 개발을 통해 가계대출, 중소기업 대출에도 경영역량을 집중해야 할 것으로 보인다.

전이함수모형과 일기 발생모형을 이용한 유역규모 기후변화시나리오의 작성 (Construction of Basin Scale Climate Change Scenarios by the Transfer Function and Stochastic Weather Generation Models)

  • 김병식;서병하;김남원
    • 한국수자원학회논문집
    • /
    • 제36권3호
    • /
    • pp.345-363
    • /
    • 2003
  • 대기순환모형(GCM)에 의하면 온실가스농도의 증가는 전구와 국지규모의 기후변화에 중요한 관련이 있음이 알려져 있다. GCM은 단일지점의 기상학적 순환과정을 분석하는데는 불확실성을 지니고 있기 때문에 현재로서는 축소기법이 대기순환모형(GCM)의 개발자들이 제공할 수 있는 것과 모형을 이용하여 기후영향을 평가하는 연구자들이 요구하는 것 사이의 차이점을 연계하기 위해 이용되고 있다. 본 논문에서는 통계학적 축소기법을 이용하여 국지 규모의 기후변화의 영향을 평가할 수 있는 방법을 제시하고자 하였다. 본 방법을 이용한다면 현재와 미래의 국지적 규모의 기후강제력 하에서의 지표 기상변수의 시나리오를 저 비용으로 신속하게 작성할 수 있다. 기후변화시나리오의 작성은 통계학적 회귀방법인 전이함수와 추계학적 일기발생모형을 이용하였다. 전이함수는 저해상도의 GCM 격자 변수들을 고해상도의 단일 지점의 변수들로 변환시키며, 이 변수들은 단일 지점의 특정 일 지표 기상 변수를 모의하기 위해 추계학적 일기발생 모형의 매개변수를 수정하는데 이용되었다. 본 연구에서는 YONU GCM을 이용하여 제어실험과 점증실험을 실시하여 전구규모의 기후변화시나리오를 작성하였다.