• 제목/요약/키워드: multi collinearity

검색결과 26건 처리시간 0.026초

상관관계가 강한 독립변수들을 포함한 데이터 시스템 분석을 위한 편차 - 복구 알고리듬 (Biased-Recovering Algorithm to Solve a Highly Correlated Data System)

  • 이미영
    • 한국경영과학회지
    • /
    • 제28권3호
    • /
    • pp.61-66
    • /
    • 2003
  • In many multiple regression analyses, the “multi-collinearity” problem arises since some independent variables are highly correlated with each other. Practically, the Ridge regression method is often adopted to deal with the problems resulting from multi-collinearity. We propose a better alternative method using iteration to obtain an exact least squares estimator. We prove the solvability of the proposed algorithm mathematically and then compare our method with the traditional one.

IT산업 연구개발 투자의 경제적 효과 분석 (An Analysis of the Economic Effects of R&D Investment in the IT Industry)

  • 홍재표;최나린;김방룡
    • 한국통신학회논문지
    • /
    • 제37B권9호
    • /
    • pp.837-848
    • /
    • 2012
  • 본 연구에서는 IT산업의 연구개발 투자가 부가가치에 미치는 영향을 분석하기 위하여 IT산업을 방송통신기기, 정보기기, 전자부품으로 세분하고, 각 세부 산업별로 자본스톡, 노동투입, 연구개발스톡을 독립변수로 설정하여 다중회귀분석을 실시하였다. 분석 결과, 모든 산업부문에서 t-value와 R-square 값들은 유의한 것으로 나타났지만, 자기상관은 매우 높게 나타났다. 한편 정보기기산업에서는 연구개발스톡, 전자부품산업에서는 노통투입의 계수 값이 마이너스로 나타나서 다중공선성의 징후가 의심되었다. 본 연구에서는 Cochrane-Orcutt 절차와 주성분회귀분석을 통하여 자기상관 및 다중공선성의 문제를 해결하였다. 연구개발스톡이 부가가치에 미치는 영향을 분석한 결과, 방송통신기기산업의 연구개발투자가 정보기기산업이나 전자부품산업에 비해 훨씬 큰 영향을 미치는 것으로 추정되었다.

정보시스템 성과평가를 위한 형성적 구성변수(Constructs) 및 측정지표 개발 (Development of Formative Constructs and Measurements for Performance Evaluation of Information Systems)

  • 김상훈;김창규
    • 한국IT서비스학회지
    • /
    • 제11권4호
    • /
    • pp.135-151
    • /
    • 2012
  • Traditionally in IS studies, the relationship between construct and its measurement items tends to be assumed to be reflective, meaning that the measurements are a reflection of the construct. In reality, however, the nature of the construct can be often formative, which means that its measurement items describe and define the construct rather than vice versa. The purpose of this study was to investigate theoretical and empirically-analysed differences between formative construct and reflective construct through comprehensive interdisciplinary literature review. And then on the basis of these differences, we intended to derive the rule of specifying whether the construct is formative or reflective and propose the methodology of testing the validity(content validity, construct validity, internal consistency and external construct) of formative construct and its measurements, differentiated from that in the case of reflective construct. Also, we suggested the concrete statistical testing methods such as VTT(Vanishing Tetrad Test), MIMIC(Multiple Indicators and Multiple Causes) test and multi-collinearity test. In order to examine the applicability of this methodology to developing the constructs for performance evaluation of IS(Information Systems), we tried to identify its attribute(formative or reflective) and test the validity for the construct arbitrarily chosen among them which had been derived in our previous IS performance evaluation study by using this methodology. The result of the examination was that the methodology proposed in this study was significantly valid and effective in the area of IS performance evaluation.

행정업무시스템의 생산성 및 효과 분석: 나라장터 중심으로 (Analysis of the Productivity and Effects of Administration Information System: Focused on KONEPS(Korea Online E-Procurement System))

  • 김훈희;오창석
    • 한국전자거래학회지
    • /
    • 제22권2호
    • /
    • pp.123-136
    • /
    • 2017
  • 정보시스템(IS)에 대한 평가분석 방법은 시스템관점, 이용자관점, 경영관점에서 연구되고 있다. 세부 방법으로는 이용자 설문이나 전문가의 의견에 의한 정성적 평가를 수행한다. 본 연구에서는 평가분석 항목 중 행정업무시스템의 구축으로 얻어지는 생산성과 효과를 측정하였다. 기존 연구에서 정성적인 생산성 평가와 범용적인 효과지표를 제시하는 것과 달리 정량적인 생산성과 행정민원에 특화된 지표를 선정하였다. 대표적인 행정업무시스템인 나라장터를 대상으로 전자계약 실적과 중간과정에 기록된 정보를 이용하여 소요일수로 환산하고, 투입 인력에 따른 생산성을 산정하였다. 효과분석은 행정업무시스템의 목표인 민원관련 설문을 분석하였다. 기록된 정보에는 계약문서작성, 공문서처리, 전화통화량을 업무활동 요인으로 선정하였다. 설문항목에는 민원대응을 위한 수행영향, 업무편의, 목표달성 여부를 설문으로 조사하였다. 각 요인을 반영적 구조변수와 형성적 구성변수로 구분하고 내적일관성(internal consistency)과 다중공선성(Multi-collinearity)을 진단하였다. 기술통계법에 따른 신뢰도 검증, 회귀분석을 통한 영향도 측정하고 다중회귀모델 경로계수로 모델을 분석하였다. 모델을 검증하기 위해 구조적방정식에서 활용하는 다중 확인적 요인분석(CFA)에 따라 Chi-square, RMR, GFI, AGFI, NFI, CFI 분석을 수행한다.

Multivariate Procedure for Variable Selection and Classification of High Dimensional Heterogeneous Data

  • Mehmood, Tahir;Rasheed, Zahid
    • Communications for Statistical Applications and Methods
    • /
    • 제22권6호
    • /
    • pp.575-587
    • /
    • 2015
  • The development in data collection techniques results in high dimensional data sets, where discrimination is an important and commonly encountered problem that are crucial to resolve when high dimensional data is heterogeneous (non-common variance covariance structure for classes). An example of this is to classify microbial habitat preferences based on codon/bi-codon usage. Habitat preference is important to study for evolutionary genetic relationships and may help industry produce specific enzymes. Most classification procedures assume homogeneity (common variance covariance structure for all classes), which is not guaranteed in most high dimensional data sets. We have introduced regularized elimination in partial least square coupled with QDA (rePLS-QDA) for the parsimonious variable selection and classification of high dimensional heterogeneous data sets based on recently introduced regularized elimination for variable selection in partial least square (rePLS) and heterogeneous classification procedure quadratic discriminant analysis (QDA). A comparison of proposed and existing methods is conducted over the simulated data set; in addition, the proposed procedure is implemented to classify microbial habitat preferences by their codon/bi-codon usage. Five bacterial habitats (Aquatic, Host Associated, Multiple, Specialized and Terrestrial) are modeled. The classification accuracy of each habitat is satisfactory and ranges from 89.1% to 100% on test data. Interesting codon/bi-codons usage, their mutual interactions influential for respective habitat preference are identified. The proposed method also produced results that concurred with known biological characteristics that will help researchers better understand divergence of species.

Registration of Aerial Image with Lines using RANSAC Algorithm

  • Ahn, Y.;Shin, S.;Schenk, T.;Cho, W.
    • 한국측량학회지
    • /
    • 제25권6_1호
    • /
    • pp.529-536
    • /
    • 2007
  • Registration between image and object space is a fundamental step in photogrammetry and computer vision. Along with rapid development of sensors - multi/hyper spectral sensor, laser scanning sensor, radar sensor etc., the needs for registration between different sensors are ever increasing. There are two important considerations on different sensor registration. They are sensor invariant feature extraction and correspondence between them. Since point to point correspondence does not exist in image and laser scanning data, it is necessary to have higher entities for extraction and correspondence. This leads to modify first, existing mathematical and geometrical model which was suitable for point measurement to line measurements, second, matching scheme. In this research, linear feature is selected for sensor invariant features and matching entity. Linear features are incorporated into mathematical equation in the form of extended collinearity equation for registration problem known as photo resection which calculates exterior orientation parameters. The other emphasis is on the scheme of finding matched entities in the aide of RANSAC (RANdom SAmple Consensus) in the absence of correspondences. To relieve computational load which is a common problem in sampling theorem, deterministic sampling technique and selecting 4 line features from 4 sectors are applied.

PCA를 적용한 결함 심각도 기반 차원 축소 모델 (Defect Severity-based Dimension Reduction Model using PCA)

  • 권기태;이나영
    • 한국소프트웨어감정평가학회 논문지
    • /
    • 제15권1호
    • /
    • pp.79-86
    • /
    • 2019
  • 데이터의 차원축소는 요소들의 공통성을 파악해 영향력 있는 중요한 특징 요소를 추출하여 간소화함으로써 복잡함을 줄이고 다중 공선성 문제를 해결한다. 그리고 중복 및 노이즈 검출을 함으로써 불필요함을 줄인다. 이에 본 논문에서는 PCA(Prinicipal Component Analysis)을 적용한 결함 심각도 기반 차원 축소 모델을 제안한다. 제안된 모델은 결함 심각도가 있는 NASA 데이터 세트인 PC4에 적용하여 결함 심각도에 영향을 주는 속성의 차원수를 검증한다. 그 다음 데이터의 차원을 축소한 후 비교 분석한다. 실험결과, PC4의 적합한 차원수는 2~3개였고 그룹화를 통해 차원 축소가 가능한 것을 보였다.

변수변환 기법을 이용한 고속도로 트럼펫IC 유출연결로 교통사고율 예측모형 개발 (Development of Traffic Accident Rate Forecasting Models for Trumpet IC Exit Ramp of Freeway using Variables Transformation Method)

  • 윤병조
    • 한국도로학회논문집
    • /
    • 제10권4호
    • /
    • pp.139-150
    • /
    • 2008
  • 본 연구는 도로연장측면에서 본선에 비해 상대적으로 연결로에서 발생하는 사고빈도가 높고, 교통사고가 증가하는 추세인 고속도로 연결로의 교통사고 예측모형의 개발에 초점을 두었다. 연결로 유형별(직결, 준직결, 루프)로 통계적으로 유의한 사고인자를 선정하고, 사고율과의 관계가 비선형 임을 분석하여 변수를 변형(Variables Transformation)하여 All possible 방식으로 예측모형을 개발하고, 통계적 진단 및 검증을 거쳐 유의성을 확인하였으며 이에 기존 개발 모형에 비해 예측력이 더욱 우수한 결과를 보였다. 개발된 사고예측모형은 보다 비용면에서 효율적이고, 안전한 트럼펫형 IC 연결로의 설계와 연결로 교통사고 원인분석에 활용될 수 있을 것으로 기대된다.

  • PDF

Prevalence and risk factors of helminth infections in cattle of Bangladesh

  • Rahman, A.K.M.A.;Begum, N.;Nooruddin, M.;Rahman, Md. Siddiqur;Hossain, M.A.;Song, Hee-Jong
    • 한국동물위생학회지
    • /
    • 제32권3호
    • /
    • pp.265-273
    • /
    • 2009
  • A cross-sectional survey was undertaken to identify risk factors and clinical signs associated with parasitic helminth infections of cattle in Mymensignh district of Bangladesh. A nonrandom convenience sampling method was used to select 138 animals from 40 farmers/herds. The eggs per gram of faeces (epg) for nematodes and trematodes were determined by McMaster and Stoll's methods respectively. Animal-level and herd-level data were recorded by means of a questionnaire. Multi-collinearity amongst explanatory variables were assessed using $2{\times}2{\times}\;X^2$ test and one variable in a pair was dropped if $P{\leq}0.05$ formultiple logistic regression models. Association study between outcome and explanatory variables was conducted using classification tree, random forests and multiple logistic regression. A positive epg was considered as infected. Analyses were performed using $STATA^{(R)}$, version 8.0/Intercooled and $R^{(R)}$, Version 2.3.0. Seventy eight percent of the cattle were found to be infected with at least one type of helminth. Twenty four pairs of combinations of explanatory variables showed significant associations. Male animals (OR=3.3, P=.006, 95% CI=1.4, 7.7) were associated with significantly increased prevalence of nematode infection. Female cattle of the study area are mostly cross-breed, kept indoor, fed relatively good diet and not used for draught purpose. Males are used for draught purpose thereby more exposed to nematode infective stage and provided with relatively poor diet. So stressed male cattle may become more susceptible to nematode infection. All of the three statistical techniques selected gender and lumen motility as most important variables in association with nematode infection in cattle. The result of this survey can only be extrapolated to the periurban cattle population of traditional management system.

기본적인 연관평가기준 전부를 고려한 비선형 회귀모형에 의한 연관성 규칙 수의 결정 (Non-linear regression model considering all association thresholds for decision of association rule numbers)

  • 박희창
    • Journal of the Korean Data and Information Science Society
    • /
    • 제24권2호
    • /
    • pp.267-275
    • /
    • 2013
  • 데이터 마이닝 기법들 중에서도 연관성 규칙은 가장 최근에 개발된 기법으로 대용량 데이터베이스에서 각 항목들 간의 관련성을 찾아내며, 두 항목간의 관계를 명확히 수치화함으로써 두 개 이상의 항목간의 관련성을 표시하여 주기 때문에 현장에서 직접 적용이 가능하다. 일반적으로 연관성 규칙 생성 여부를 판단할 때, 각 항목간의 연관성을 반영하는 기준인 지지도, 신뢰도, 향상도 등의 흥미도 측도를 활용하게 된다. 실제적으로 연관성 규칙의 수를 결정하기 위해서는 이들 흥미도 측도들의 평가기준을 정하기 위해 반복적으로 조정 과정을 거쳐야 한다. 본 논문에서는 이러한 문제를 해결하기 위해 연관성 평가기준 모두를 일반적으로 많이 활용되고 있는 비선형 회귀모형에 적용하여 연관성 규칙의 수를 추정하는 방안을 강구하였다. 또한 분산팽창계수를 이용하여 다중공선성 문제를 진단하는 동시에 분산분석 결과와 수정 결정계수를 이용하여 각 모형의 기여도를 비교하여 가장 바람직한 회귀 모형을 구하였다.