• 제목/요약/키워드: Multiple linear regression

검색결과 1,740건 처리시간 0.028초

한국 프로스포츠 선수들의 연봉에 대한 다변량적 분석 (A Multivariate Analysis of Korean Professional Players Salary)

  • 송종우
    • 응용통계연구
    • /
    • 제21권3호
    • /
    • pp.441-453
    • /
    • 2008
  • 프로스포츠 선수들의 연봉은 선수들의 개인 성적과 팀에 대한 기여도 등으로 결정된다는 가정하에 프로농구와 프로야구 선수들의 전년도 성적으로 다음해 연봉을 예측 분석하였다. 분석에 있어서 data visualization 기법을 통해 변수사이의 관계, 이상점 발견, 모형진단등을 하였다. 다중선형회귀 모형(Multiple Linear Regression)과 트리모형(Regression Tree)을 이용해서 자료를 분석하고 모델간 비교를 했으며, Cross-Validation을 이용해서 최적모델을 선택하였다. 특히, 자동으로 변수선택을 하는 stepwise regression방법을 그냥 사용하기보다는 먼저 설명변수들 사이의 관계나 설명변수와 반응변수 사이의 관계등을 조사하고 나서 이를 통해 선택된 변수들을 가지고 stepwise regression과 regression tree 방법론을 이용해서 적절한 변수 및 최종 모형을 선택하였다. 분석결과, 프로농구의 경우에는 경기당 득점, 어시스트, 자유투 성공수, 경력 등이 중요한 변수였고, 프로야구 투수의 경우에는 경력, 9이닝 당 삼진 수, 방어율, 피홈런 수 등이 중요한 변수였고, 프로야구 타자의 경우에는 경력, 안타 수, FA(자유계약)유무 여부 등이 중요한 변수였다.

정수장 전염소 공정 제어를 위한 침전지 잔류 염소 농도 예측모델 개발 (Prediction Models of Residual Chlorine in Sediment Basin to Control Pre-chlorination in Water Treatment Plant)

  • 이경혁;김주환;임재림;채선하
    • 상하수도학회지
    • /
    • 제21권5호
    • /
    • pp.601-607
    • /
    • 2007
  • In order to maintain constant residual chlorine in sedimentation basin, It is necessary to develop real time prediction model of residual chlorine considering water treatment plant data such as water qualities, weather, and plant operation conditions. Based on the operation data acquired from K water treatment plant, prediction models of residual chlorine in sediment basin were accomplished. The input parameters applied in the models were water temperature, turbidity, pH, conductivity, flow rate, alkalinity and pre-chlorination dosage. The multiple regression models were established with linear and non-linear model with 5,448 data set. The corelation coefficient (R) for the linear and non-linear model were 0.39 and 0.374, respectively. It shows low correlation coefficient, that is, these multiple regression models can not represent the residual chlorine with the input parameters which varies independently with time changes related to weather condition. Artificial neural network models are applied with three different conditions. Input parameters are consisted of water quality data observed in water treatment process based on the structure of auto-regressive model type, considering a time lag. The artificial neural network models have better ability to predict residual chlorine at sediment basin than conventional linear and nonlinear multi-regression models. The determination coefficients of each model in verification process were shown as 0.742, 0.754, and 0.869, respectively. Consequently, comparing the results of each model, neural network can simulate the residual chlorine in sedimentation basin better than mathematical regression models in terms of prediction performance. This results are expected to contribute into automation control of water treatment processes.

임상의를 위한 다변량 분석의 실제 (Multivariate Analysis for Clinicians)

  • 오주한;정석원
    • Clinics in Shoulder and Elbow
    • /
    • 제16권1호
    • /
    • pp.63-72
    • /
    • 2013
  • 임상 의학의 연구에 사용되는 대표적 다변량 분석 방법은 다중 회귀 분석 방법인데, 이는 인과 관계를 토대로 여러 개의 변수에 의한 한꺼번에의 영향력을 분석하기 위한 방법이다. 다중 회귀 분석은 기본적으로 회귀 분석의 기본 가정을 만족해야 함은 물론, 여러 개의 독립 변수들이 포함되기 때문에 변수들을 모형에 포함시키는 방법 및 다중 공선성 문제에 대한 고려가 필요하다. 다중 회귀 분석 모형의 설명력은 결정 계수 $R^2$으로 표현되어 1에 가까울수록 설명력이 크며, 각 독립 변수들의 결과에의 영향력은 회귀 계수인 ${\beta}$값으로 표현된다. 다중 회귀 분석은 종속 변수의 형태에 따라 다중 선형 회귀 분석, 다중 로지스틱 회귀 분석, 콕스 회귀 분석으로 나눌 수 있다. 종속 변수가 연속 변수인 경우 다중 선형 회귀 분석, 범주형 변수인 경우 다중 로지스틱 회귀 분석, 시간의 영향을 고려한 상태 변수인 경우는 콕스 회귀 분석을 시행해야 하며, 각각 결과에의 영향력은 회귀 계수 ${\beta}$, 교차비, 위험비로 평가한다. 이러한 다변량 분석에 대한 이해는 연구를 계획하고 결과를 분석하고자 하는 임상 의사에게 있어 보다 효율적인 연구를 위해 필수적인 소양이라고 할 수 있다.

전기 가격 예측을 위한 맵리듀스 기반의 로컬 단위 선형회귀 모델 (MapReduce-based Localized Linear Regression for Electricity Price Forecasting)

  • 한진주;이인규;온병원
    • 전기학회논문지P
    • /
    • 제67권4호
    • /
    • pp.183-190
    • /
    • 2018
  • Predicting accurate electricity prices is an important task in the electricity trading market. To address the electricity price forecasting problem, various approaches have been proposed so far and it is known that linear regression-based approaches are the best. However, the use of such linear regression-based methods is limited due to low accuracy and performance. In traditional linear regression methods, it is not practical to find a nonlinear regression model that explains the training data well. If the training data is complex (i.e., small-sized individual data and large-sized features), it is difficult to find the polynomial function with n terms as the model that fits to the training data. On the other hand, as a linear regression model approximating a nonlinear regression model is used, the accuracy of the model drops considerably because it does not accurately reflect the characteristics of the training data. To cope with this problem, we propose a new electricity price forecasting method that divides the entire dataset to multiple split datasets and find the best linear regression models, each of which is the optimal model in each dataset. Meanwhile, to improve the performance of the proposed method, we modify the proposed localized linear regression method in the map and reduce way that is a framework for parallel processing data stored in a Hadoop distributed file system. Our experimental results show that the proposed model outperforms the existing linear regression model. Specifically, the accuracy of the proposed method is improved by 45% and the performance is faster 5 times than the existing linear regression-based model.

On study for change point regression problems using a difference-based regression model

  • Park, Jong Suk;Park, Chun Gun;Lee, Kyeong Eun
    • Communications for Statistical Applications and Methods
    • /
    • 제26권6호
    • /
    • pp.539-556
    • /
    • 2019
  • This paper derive a method to solve change point regression problems via a process for obtaining consequential results using properties of a difference-based intercept estimator first introduced by Park and Kim (Communications in Statistics - Theory Methods, 2019) for outlier detection in multiple linear regression models. We describe the statistical properties of the difference-based regression model in a piecewise simple linear regression model and then propose an efficient algorithm for change point detection. We illustrate the merits of our proposed method in the light of comparison with several existing methods under simulation studies and real data analysis. This methodology is quite valuable, "no matter what regression lines" and "no matter what the number of change points".

회귀분석에 의한 $Si_3N_4$세라믹 절삭공구의 공구수명 추정 (Estimation of Tool life by Simple & Multiple Linear Regression Analysis of $Si_3N_4$ Ceramic Cutting Tools)

  • 안영진;권원태;김영욱
    • 한국공작기계학회논문집
    • /
    • 제13권4호
    • /
    • pp.23-29
    • /
    • 2004
  • In this study, four kinds of $Si_3N_4$-based ceramic cutting tools with different sintering time were fabricated to investigate the relation among mechanical properties, grain size and tool life. They were used to turn gray cast iron at a cutting speed of 330m/min and depth of cut of 0.5mm and 1mm in dry, continuos cutting conditions. Multiple linear regression model was used to determine the relations among the mechanical property, grain size and the density. It was found that the combination of hardness and fracture toughness showed a good relation with tool life. It was also shown that hardness was the most important single element for the tool life.

다중 회귀 분석을 이용한 한자 난이도 예측 기법 연구 (Prediction Techniques for Difficulty Level of Hanja Using Multiple Linear Regression)

  • 최정환;노지우;김순태
    • 한국인터넷방송통신학회논문지
    • /
    • 제19권6호
    • /
    • pp.219-225
    • /
    • 2019
  • 한자 급수와 같이 기존 한자 난이도 선정 방식에 문제점이 있다. 실생활에서 쓰이는 한글 단어와 차이가 나며 해당 급수가 실제로 얼마나 많이 쓰이는지 알 수가 없다. 이러한 문제를 해결하기 위해 빈도수를 이용하여 다중 회귀 분석을 이용하여 한자 난이도를 측정한다. 초등 교과서를 기반으로 한자활용빈도수와 한글의미빈도수를 집계한다. 두 빈도수와 획수를 함께 사용하여 설문지를 작성하여 해당 한자의 학습 적정 시기를 답변 받아 이를 회귀에서 사용할 타겟 변수로 이용한다. 단계별 회귀분석을 이용하여 적절한 피처를 선택하고 다중 선형 회귀 분석을 한다. 모델의 R2는 0.1105가 나왔으며 RMSE는 0.1105의 결과가 나왔다.

선형회귀 모형에서 자기공분산 기반 추정 (Autocovariance based estimation in the linear regression model)

  • 박철용
    • Journal of the Korean Data and Information Science Society
    • /
    • 제22권5호
    • /
    • pp.839-847
    • /
    • 2011
  • 이 연구에서는 다중 선형회귀 모형에서 자기공분산에 근거한 회귀 계수의 추정량을 도출하였다. 자기공분산에 근거한 방법은 Park (2009)에 제시된 방법으로 직관적으로 매혹적이지는 않지만, 이것에 근거한 추정량이 회귀 계수의 불편추정량이 된다. 설명변수 벡터가 어떤 정칙조건을 만족한다면, 오차가 자기회귀이동평균 모형을 따르면 만족되는 약한 조건 하에서 이 추정량이 최소제곱 추정량과 점근적으로 동일한 분포를 가지며 또한 회귀 계수에 확률 상 수렴한다는 것을 보였다. 마지막으로 모의실험을 통해 이 성질들이 소표본에서도 성립하는 것을 보였다.

APPAREL PRODUCTS RETRIEVAL SYSTEM BASED ON PSYCOLOGICAL FEATURE SPACE

  • Ohtake, Atsushi;Takatera, Masayuki;Furukawa, Takao;Shimizu, Yoshio
    • 한국감성과학회:학술대회논문집
    • /
    • 한국감성과학회 2000년도 춘계 학술대회 및 국제 감성공학 심포지움 논문집 Proceeding of the 2000 Spring Conference of KOSES and International Sensibility Ergonomics Symposium
    • /
    • pp.240-243
    • /
    • 2000
  • An apparel products retrieval system was proposed in which users can refer to products using Kansei evaluation values. The system adopts relevance feedback using history of the retrieval to learn the tendency of user evaluation. The system is based on a vector space retrieval model using products images expression as semantic scales. The system makes a query from user inputting information and retrieves closest products from the database. Revising algorithms of the difference method. linear multiple regression performed to investigate the effectiveness and criteria of the search. As a result of evaluation of the accuracy, it was found that the linear multiple regression and the neural network models are effective for the retrieval considering the individual Kansei.

  • PDF

Clustering Observations for Detecting Multiple Outliers in Regression Models

  • Seo, Han-Son;Yoon, Min
    • 응용통계연구
    • /
    • 제25권3호
    • /
    • pp.503-512
    • /
    • 2012
  • Detecting outliers in a linear regression model eventually fails when similar observations are classified differently in a sequential process. In such circumstances, identifying clusters and applying certain methods to the clustered data can prevent a failure to detect outliers and is computationally efficient due to the reduction of data. In this paper, we suggest to implement a clustering procedure for this purpose and provide examples that illustrate the suggested procedure applied to the Hadi-Simonoff (1993) method, reverse Hadi-Simonoff method, and Gentleman-Wilk (1975) method.