• Title/Summary/Keyword: 변수

Search Result 28,073, Processing Time 0.108 seconds

요인분석을 이용한 대체방법

  • Lee, Jae-Gap;Lee, U-Ri;Jeong, Jae-Gu;Lee, Sang-Eun
    • Proceedings of the Korean Statistical Society Conference
    • /
    • /
    • pp.143-148
    • /
    • 2003
  • 표본조사에서 발생되는 무응답에 대한 대체법은 매우 다양하게 연구 되고 있다. 특히 모형을 기반으로 하는 회귀 대체법은 매우 활용도가 높다. 이 때 일반적으로 종속변수가 결측값의 변수가 되며 독립변수는 주어지게 된다. 주어지 주어진 종속변수와 독립변수의 값을 이용하여 모델을 설정하고 그에 따라 결측값을 예측하여 대체하게 된다. 이 때 예측값 즉 결측값을 구하는 과정에서 독립변수 값 자체에도 결측값이 생기게 된다는 것이다. 이때 여러 가지 방법으로 독립변수의 결측값을 대체하고 모형을 활용할 수 있다. 그러나 이 연구에서는 독립변수들을 같은 특성끼리 그룹화 시키는 요인분석(factor analysis)을 이용하여 독립변수의 결측값에따른 예측된 결측값의 변동을 최소화 하고자했다.

  • PDF

Representing variables in the latent space (분석변수들의 잠재공간 표현)

  • Huh, Myung-Hoe
    • The Korean Journal of Applied Statistics
    • /
    • v.30 no.4
    • /
    • pp.555-566
    • /
    • 2017
  • For multivariate datasets with large number of variables, classical dimensional reduction methods such as principal component analysis may not be effective for data visualization. The underlying reason is that the dimensionality of the space of variables is often larger than two or three, while the visualization to the human eye is most effective with two or three dimensions. This paper proposes a working procedure which first partitions the variables into several "latent" clusters, explores individual data subsets, and finally integrates findings. We use R pakacage "ClustOfVar" for partitioning variables around latent dimensions and the principal component biplot method to visualize within-cluster patterns. Additionally, we use the technique for embedding supplementary variables to figure out the relationships between within-cluster variables and outside variables.

The Case Study of High School Students' Understanding of the Concept of Parameter In A Computer Algebra Environment (컴퓨터 대수 환경에서 매개변수 개념에 대한 고등학생의 이해에 관한 사례 연구)

  • Cho, Yeong-Ju;Kim, Kyung-Mi
    • Communications of Mathematical Education
    • /
    • v.24 no.4
    • /
    • pp.949-974
    • /
    • 2010
  • The purpose of the study was to investigate how students' understanding was formed for solving the algebra problems involving parameters in a computer algebra environment. The teaching experiment has been conducted with 6 high school students. As a result, students studied the parameter in different roles such as placeholder, changing quantity, unknown and generalizer. The results indicate that a computer algebra environment offers opportunities for algebra activities that may support the development of understanding of the concept of parameter.

A Study on Selection of Split Variable in Constructing Classification Tree (의사결정나무에서 분리 변수 선택에 관한 연구)

  • 정성석;김순영;임한필
    • The Korean Journal of Applied Statistics
    • /
    • v.17 no.2
    • /
    • pp.347-357
    • /
    • 2004
  • It is very important to select a split variable in constructing the classification tree. The efficiency of a classification tree algorithm can be evaluated by the variable selection bias and the variable selection power. The C4.5 has largely biased variable selection due to the influence of many distinct values in variable selection and the QUEST has low variable selection power when a continuous predictor variable doesn't deviate from normal distribution. In this thesis, we propose the SRT algorithm which overcomes the drawback of the C4.5 and the QUEST. Simulations were performed to compare the SRT with the C4.5 and the QUEST. As a result, the SRT is characterized with low biased variable selection and robust variable selection power.

Correlated variable importance for random forests (랜덤포레스트를 위한 상관예측변수 중요도)

  • Shin, Seung Beom;Cho, Hyung Jun
    • The Korean Journal of Applied Statistics
    • /
    • v.34 no.2
    • /
    • pp.177-190
    • /
    • 2021
  • Random forests is a popular method that improves the instability and accuracy of decision trees by ensembles. In contrast to increasing the accuracy, the ease of interpretation is sacrificed; hence, to compensate for this, variable importance is provided. The variable importance indicates which variable plays a role more importantly in constructing the random forests. However, when a predictor is correlated with other predictors, the variable importance of the existing importance algorithm may be distorted. The downward bias of correlated predictors may reduce the importance of truly important predictors. We propose a new algorithm remedying the downward bias of correlated predictors. The performance of the proposed algorithm is demonstrated by the simulated data and illustrated by the real data.

Study of Direct Parameter Estimation for Neyman-Scott Rectangular Pulse Model (Neyman-Scott 구형 펄스모형의 직접적인 매개변수 추정연구)

  • Jeong, Chang-Sam
    • Journal of Korea Water Resources Association
    • /
    • v.42 no.11
    • /
    • pp.1017-1028
    • /
    • 2009
  • NSRPM (Neyman-Scott Rectangular Pulse Model) is one of the common model for generating future precipitation time series in stochastical hydrology. There are 5 parameters to compose the NSRPM model for generating precipitation time series. Generally parameter estimation using moment has some problems related with increased objective functions and shows different results in accordance with random variable generating models. In this study, direct parameter estimation method was proposed to cover with disadvantages of parameter estimation using moment. To apply the direct parameter estimation, generating stochastical data variance in accordance with numbers of precipitation events of NSRPM was done. Both kinds of methods were applied at the Cheongju gauge station data. Precipitation time series were generated using 4 different random variable generator, and compared with observed time series to check the accuracies. As a results, direct method showed more stable and better results.

The Analysis of Students' Conceptions of Parameter and Development of Teaching-Learning Model (중학생들의 매개변수개념 분석과 교수-학습방안 탐색)

  • 이종희;김부미
    • School Mathematics
    • /
    • v.5 no.4
    • /
    • pp.477-506
    • /
    • 2003
  • In this paper, we analyze nine-grade students' conceptions of parameters, their relation to unknowns and variables and the process of understanding of letters in problem solving of equations and functions. The roles of letters become different according to the letters-used contexts and the meaning of letters Is changed in the process of being used. But, students do not understand the meaning of letters correctly, especially that of parameter. As a result, students operate letters in algebraic expressions according to the syntax without understanding the distinction between the roles. Therefore, the parameter of learning should focus on the dynamic change of roles and the flexible thinking of using letters. We develop a self-regulation model based on the monitoring working question in teaching-learning situations. We expect that this model helps students understand concepts of letters that enable to construct meaning in a concrete context.

  • PDF

Model Forest Owner's Attitudes toward Tree Felling and Related Variables (독림가(篤林家)의 임목벌채의식(林木伐採意識)과 연관변수(聯關變數))

  • Cho, Eung Hyouk
    • Journal of Korean Society of Forest Science
    • /
    • v.60 no.1
    • /
    • pp.17-23
    • /
    • 1983
  • Total 83model forest owners in Korea were investigated to find out the relationship between their attitudes toward tree felling (or propensity to felling) and selected six independent variables, i.e, owner's age(X1), educational level(X2), forest land area (X3), socioeconomic status (X4), communication (X5) and sociopsychological factor(X6). The dependent variable was measured by Liken attitude scale, and analyzed by multiple regression. Major findings of the study are summarized as follows: 1) The degree of the propensity of felling is relatively high. The communication and sociopsychological variables are negatively, but education level is positively related to the dependent variable. 2) The multiple correlation coefficient between felling-attitude score and six independent variables is 0.5322. Of the variance of this sttitude score, about 13 percent can be explained by communication variable, 6 percent by sociopsychological variable and other 6 percent by age variable. 3) The model owners' attitudes toward felling are positively correlated with there sources of communication variable, i.e. personal contact, social participation and mass media contact. The multiple correlation coefficient between felling-attitude score and three sources of communication variable is 0.4049. This means that 16 percent of the variance of the attitude score can be explained by three sources of communication, that is, 9 percent by personal contact, 5 percent by social participation and 3 percent by mass media. 4) The fatalistic, untrustful and non-ambitious personalities were positively, but conservative personality negatively related to the propensity to tree felling. The multiple correlation coefficient between seven different personalities and the dependent variable is 0.5461. Of the variance of the dependent variable, 11 percent can be explained by untrustful personality, and other 11 percent by nonambitious personality.

  • PDF

Is that possible to simulate daily runoff with one parameter? (하나 매개변수로 유출 모의 가능한가?)

  • Noh, Jaekyoung;An, Hyunuk;Lee, Jaenam
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • /
    • pp.29-29
    • /
    • 2017
  • 유역의 물수지를 강수, 증발산, 토양수분저류, 유출 등 성분으로 구성하고, 토양수분저류 상태에 따라 증발산과 유출이 변화하는 식을 기본식으로 구성하였으며, 물수지를 개선하는 매개변수를 변수화하는 개념을 도입하여 다음 식의 모형을 개발하였다. 여기서, ETa는 실제증발산량, ETo는 잠재증발산량, Q는 유출량, S는 토양수분저류량이고, C1은 증발산, C2, ${\alpha}$는 유출반응, C3, C4는 매개변수 ${\alpha}$를 변수화시키는 데 관련한 매개변수이다. $$ETa(i)=(1-e^{-c1{\times}s(i)}){\times}ETo_{(i)}$$ $$Q_{(i)}=S_{(i)}{\times}(1-e^{-c2{\times}s(i)})^{[(c3+e^{-c4{\times}s(i)}){\times}a]}$$ 모형의 검증을 위해 Monte Calro 기법으로 최적 매개변수를 결정한 결과 수많은 매개변수 조합이 최적영역에 분포되는 것을 확인하였으며, 이를 바탕으로 매개변수 하나만 남겨 놓고 나머지 매개변수는 상수화시켜도 모의결과가 똑같다는 결과를 관찰하였으며, 이를 토대로 하나 매개변수만으로 일 유출 모의가 가능하다고 결론을 내렸다. 하나의 매개변수는 ${\alpha}$를 우선 추천하고, C1도 유역의 토지이용에 따라 증발산이 변화하기 때문에 의미있다고 판단하고 있다. 하나의 매개변수를 결정하는 방법은 유출 자료가 있으면 유출량으로, 없으면 유출률을 맞추는 방법이며, 일반화하기 쉽고 실용성이 매우 높은 것으로 평가된다. 유역면적 $209km^2$인 보령댐의 2007년부터 2009년까지 Monte Calro 기법으로 매개변수를 결정한 결과 C1=0.0196, C2=0.0023, C3=0.3230, C4=0.0051, ${\alpha}=2.3304$ 이었으며, 이 때 연평균 강우량 1221.2mm, 유출량 651.2mm, 유출률 53.3%이었으며, $R^2=0.833$, RMSE=2.073, NSE=0.831이었고, 관측 유출량 610.8mm, 유출률 50.0%였다. 매개변수 C1, C2, C3, C4를 고정시키고 유출률 50%에 이를 때 ${\alpha}$는 2.6946이었으며, 이 때 $R^2=0.831$, RMSE=2.102, NSE=0.826이었고, 매개변수 C2, C3, C4, ${\alpha}$를 고정시키고 유출률 50%에 이를 때 C1은 0.0255이었으며, 이 때 $R^2=0.833$, RMSE=2.083, NSE=0.829이었다. 한편 똑같은 자료로 탱크모형은 $R^2=0.79$, RMSE=2.43, NSE=0.77이었고, SWAT 모형은 $R^2=0.56$, RMSE=3.97, NSE=0.40으로 나타난 것과 비교할 때, 개발된 모형의 성능이 우수한 것이라 결론내릴 수 있었다.

  • PDF

Parameters Estimation of Probability Distributions Using Meta-Heuristic Algorithms (Meta-Heuristic Algorithms를 이용한 확률분포의 매개변수 추정)

  • Yoon, Suk-Min;Lee, Tae-Sam;Kang, Myung-Gook;Jeong, Chang-Sam
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • /
    • pp.464-464
    • /
    • 2012
  • 수문분야에 있어서 빈도해석의 목적은 특정 재현기간에 대한 발생 가능한 수문량의 규모를 파악하는데 있으며, 빈도해석의 정확도는 적합한 확률분포모형의 선택과 매개변수 추정방법에 의존하게 된다. 일반적으로 각 확률분포모형의 특성을 대표하는 매개변수를 추정하기 위해서는 모멘트 방법, 확률가중 모멘트 방법, 최대우도법 등을 이용하게 된다. 모멘트 방법에 의한 매개변수 추정은 해를 구하기 위한 과정이 단순한 반면, 비대칭형의 왜곡된 분포를 갖는 자료들에 대해서는 부정확한 결과를 나타내게 된다. 확률가중 모멘트 방법은 표본의 크기가 작거나 왜곡된 자료일 경우에도 비교적 안정적인 결과를 제공하는 반면, 확률 가중치가 정수로만 제한되는 단점을 갖고 있다. 그리고 대수 우도함수를 이용하여 매개변수를 추정하게 되는 최우도법은 가장 효율적인 매개변수 추정치를 얻을 수 있는 것으로 알려져 있으나, 비선형 연립방정식으로 표현되는 해를 구하기 위해서는 Newton-Raphson 방법을 사용하는 등 절차가 복잡하며, 때로는 수렴이 되지 않아 해룰 구하지 못하는 경우가 발생되게 된다. 이에 반해, 최근의 Genetic Algorithm, Ant Colony Optimization 및 Simulated Annealing과 같은 Meta-Heuristic Algorithm들은 복잡합 공학적 최적화 문제 있어서 효율적인 대안으로 주목받고 있으며, Hassanzadeh et al.(2011)에 의해 수문학적 빈도해석을 위한 매개변수 추정에 있어서도 그 적용성이 검증된바 있다. 본 연구의 목적은 연 최대강수 자료의 빈도해석에 적용되는 확률분포모형들의 매개변수 추정을 위해 Meta-Heuristic Algorithm을 적용하고자 함에 있다. 따라서 본 연구에서는 매개변수 추정을 위한 방법으로 Genetic Algorithm 및 Harmony Search를 적용하였고, 그 결과를 최우도법에 의한 결과와 비교하였다. GEV 분포를 이용하여 Simulation Test를 수행한 결과 Genetic Algorithm을 이용하여 추정된 매개변수들은 최우도법에 의한 결과들과 비교적 유사한 분포를 나타내었으나 과도한 계산시간이 요구되는 것으로 나타났다. 하지만 Harmony Search를 이용하여 추정된 매개변수들은 최우도법에 의한 결과들과 유사한 분포를 나타내었을 뿐만 아니라 계산시간 또한 매우 짧은 것으로 나타났다. 또한 국내 74개소의 강우관측소 자료와 Gamma, Log-normal, GEV 및 Gumbel 분포를 이용한 실증연구에 있어서도 Harmony Search를 이용한 매개변수 추정은 효율적인 매개 변수 추정치를 제공하는 것으로 나타났다.

  • PDF