• 제목/요약/키워드: principal component regression

검색결과 251건 처리시간 0.029초

데이터 마이닝을 통한 기술경영 전략 수립에 관한 연구 (Establishment of Strategy for Management of Technology Using Data Mining Technique)

  • 이준석;이준혁;김갑조;박상성;장동식
    • 한국지능시스템학회논문지
    • /
    • 제25권2호
    • /
    • pp.126-132
    • /
    • 2015
  • 기술예측은 현재까지 관측된 특정기술에 대한 데이터를 바탕으로 미래에 그 기술이 어떠한 상태가 될 지를 알아보는 것으로써 기술경영 전략 수립 시 유용하게 사용된다. 현재는 전문가 의견을 바탕으로 한 분석법을 이용하여 기술예측을 실시하고, 국가, 기업 그리고 연구자는 이를 근거로 연구개발의 방향 및 전략을 수립한다. 전문가의 의견을 바탕으로 하는 정성적 기술예측은 전문가마다 다른 결과를 예상할 수 있고, 여러 전문가의 의견을 수집하여야 하므로 많은 시간과 비용을 필요로 한다. 이러한 문제점을 극복하고 예측에 대한 객관성을 확보하여 기업의 연구개발 의사결정을 돕기 위해 정량적 예측법을 바탕으로 한 기술예측 방법이 연구되고 있다. 본 논문에서는 정량적 분석법에 기반 한 기술예측 방법론에 대한 연구를 제안한다. 제안된 방법은 데이터 수집, 주성분 분석, 그리고 데이터마이닝 기법 중 하나인 로지스틱 회귀분석을 이용한 예측 단계로 구성되어 있다. 본 연구에서는 무인자동차에 관련된 특허 문서를 이용하여 데이터를 수집 및 추출하고, 특허문서의 텍스트를 마이닝하여 분석이 가능한 형태로 구축한다. 주성분분석 후 추출된 주성분 점수를 이용하여 로지스틱 회귀분석을 실시하며 이를 바탕으로 개발현황 분석 및 기술예측을 시행한다.

다변량 형질의 유전연관성에 대한 주성분을 이용한 회귀방법와 다변량 비모수 추세검정법의 비교 (Comparison of Principal Component Regression and Nonparametric Multivariate Trend Test for Multivariate Linkage)

  • 김수영;송혜향
    • 응용통계연구
    • /
    • 제21권1호
    • /
    • pp.19-33
    • /
    • 2008
  • 연속 형질(quantitative trait)에 영향을 미치는 유전자를 알아내기 위해 형제 쌍의 자료를 수집하여, 주로 이용되는 Haseman과 Elston (1972)의 최소제곱 회귀검정법으로 분석하는데 이는 단일 형질에 대한 분석법이다. 현실적으로 여러 형질들이 복잡하게 단일유전자 좌위(single locus)와 연관되어 있어 함께 수집하게 되는 경우에는, 이러한 연관된 여러 형질을 동시에 분석하는 유전연관성 검정법(linkage test)이 절실히 필요한 실정이다. Amos 등 (1990)은 주성분(principal component) 선형모형을 이용하여 Haseman과 Elston (1972)방법을 둘 이상의 형질의 다변량 분석법으로 확장시켰다. 그러나 이 검정방법은 통계량의 분포를 알 수 없기에 아직 제 1종 오류가 제대로 통제되지 못하는 문제를 가지고 있다. 본 논문에서는 이러한 다변량 형질 자료의 연관성검정에 있어 단일변량에 대한 비모수 추세검정법을 다변량 자료에 대한 분석법으로 확장시킨 통계량을 사용할 것을 제안한다. Amos 등 (1990)이 제안한 방법과 다변량 추세검정 통계량을 모의실험으로 생성한 연속형 형질자료에 적용하였을 때, 다변량 추세검정 통계량은 Amos 등 (1990) 방법에서의 여러 문제점이 발생되지 않을 뿐만 아니라 모의실험에서 제 1종 오류가 정해진 유의수준에 가까운 것을 확인하였고, 검정적이 더 높음을 볼 수 있었다.

Repetitive model refinement for structural health monitoring using efficient Akaike information criterion

  • Lin, Jeng-Wen
    • Smart Structures and Systems
    • /
    • 제15권5호
    • /
    • pp.1329-1344
    • /
    • 2015
  • The stiffness of a structure is one of several structural signals that are useful indicators of the amount of damage that has been done to the structure. To accurately estimate the stiffness, an equation of motion containing a stiffness parameter must first be established by expansion as a linear series model, a Taylor series model, or a power series model. The model is then used in multivariate autoregressive modeling to estimate the structural stiffness and compare it to the theoretical value. Stiffness assessment for modeling purposes typically involves the use of one of three statistical model refinement approaches, one of which is the efficient Akaike information criterion (AIC) proposed in this paper. If a newly added component of the model results in a decrease in the AIC value, compared to the value obtained with the previously added component(s), it is statistically justifiable to retain this new component; otherwise, it should be removed. This model refinement process is repeated until all of the components of the model are shown to be statistically justifiable. In this study, this model refinement approach was compared with the two other commonly used refinement approaches: principal component analysis (PCA) and principal component regression (PCR) combined with the AIC. The results indicate that the proposed AIC approach produces more accurate structural stiffness estimates than the other two approaches.

한국프로야구에서 선발투수의 투수능력지수 제안 - 대체선수대비승수 (WAR)을 중심으로 (Suggestion of starting pitcher ability index in Korea baseball - Focusing on the sabermetrics statistics WAR)

  • 김현규;이제영
    • Journal of the Korean Data and Information Science Society
    • /
    • 제28권4호
    • /
    • pp.863-874
    • /
    • 2017
  • 야구선수들의 능력을 측정하는 많은 세이버메트릭스 통계량들 중에서 대체선수대비승수 (WAR)은 가장 많이 사용되는 통계량이다. WAR의 장점은 투수와 타자처럼 서로 다른 포지션임에도 불구하고 선수들의 WAR을 비교할 수 있다는 점이다. 하지만 WAR은 복잡한 형태로 일반적으로 제공되는 기록만으로 구하기 어렵다. 따라서 본 논문에서는 지난 3년간 (2014-2016년) 한국프로야구 기록 자료를 바탕으로 세이버메트릭스 변수를 계산한 뒤, 이를 이용하여 WAR을 대체할 수 있는 선발투수능력지수를 제안한다. 선발투수능력지수는 산술평균방법, 가중평균방법, 주성분회귀분석 등을 통해 산출한 뒤, WAR과 비교하여 가장 관계가 높은 방법을 선택하였다. 이는 선발투수의 능력을 파악하는데 유용하게 사용될 것이다.

중도절단 회귀모형에서 역절단확률가중 방법 간의 비교연구 (A comparison study of inverse censoring probability weighting in censored regression)

  • 신정민;김형우;신승준
    • 응용통계연구
    • /
    • 제34권6호
    • /
    • pp.957-968
    • /
    • 2021
  • 역중도절단확률가중(inverse censoring probability weighting, ICPW)은 생존분석에서 흔히 사용되는 방법이다. 중도절단 회귀모형과 같은 ICPW 방법의 응용에 있어서 중도절단 확률의 정확한 추정은 핵심적인 요소라고 할 수 있다. 본 논문에서는 중도절단 확률의 추정이 ICPW 기반 중도절단 회귀모형의 성능에 어떠한 영향을 주는지 모의실험을 통하여 알아보았다. 모의실험에서는 Kaplan-Meier 추정량, Cox 비례위험(proportional hazard) 모형 추정량, 그리고 국소 Kaplan-Meier 추정량 세 가지를 비교하였다. 국소 KM 추정량에 대해서는 차원의 저주를 피하기 위해 공변량의 차원축소 방법을 추가적으로 적용하였다. 차원축소 방법으로는 흔히 사용되는 주성분분석(principal component analysis, PCA)과 절단역회귀(sliced inverse regression)방법을 고려하였다. 그 결과 Cox 비례위험 추정량이 평균 및 중위수 중도절단 회귀모형 모두에서 중도절단 확률을 추정하는 데 가장 좋은 성능을 보여주었다.

주성분 분석기법을 이용한 선박의 연료소비 예측에 관한 연구 (A Study on the Prediction of Fuel Consumption of a Ship Using the Principal Component Analysis)

  • 김영롱;김구종;박준범
    • 한국항해항만학회지
    • /
    • 제43권6호
    • /
    • pp.335-343
    • /
    • 2019
  • 최근 선박의 배기가스 규제가 강화되면서 연료소비량을 저감하기 위한 많은 방안들이 검토되고 있다. 그중에서도 선박으로부터 수집한 데이터를 활용하여 연료소모량을 예측하는 기계학습 모델을 개발하고자 하는 연구가 활발히 수행되고 있다. 하지만 많은 연구들이 학습모델의 주요 변수 선정이나 수집데이터의 처리 방법에 대한 고려가 미흡하였으며, 무분별한 데이터의 활용은 변수 간의 다중공선성 문제를 야기할 수도 있다. 본 연구에서는 이러한 문제점을 해결하기 위하여 주성분 분석을 이용하여 선박의 연료소비를 예측하는 방법을 제시하였다. 13K TEU 컨테이너 선박의 운항데이터에 주성분 분석을 수행하였으며, 추출한 주성분으로 회귀분석을 수행하여 연료소비 예측모델을 구현하였다. 평가용 데이터에 대한 모델의 설명력은 82.99%이었으며, 이러한 예측모델은 항해 계획 수립 시 운항자의 의사결정을 지원하고 항해 중 에너지 효율적인 운항상태 모니터링에 기여할 수 있을 것으로 기대된다.

비선형 주성분해석과 신경망에 기반한 비선형 PLS (Non-linear PLS based on non-linear principal component analysis and neural network)

  • 손정현;정신호;송상옥;윤인섭
    • 제어로봇시스템학회:학술대회논문집
    • /
    • 제어로봇시스템학회 2000년도 제15차 학술회의논문집
    • /
    • pp.394-394
    • /
    • 2000
  • This Paper proposes a new nonlinear partial least square method that extends the linear PLS. Proposed nonlinear PLS uses self-organizing feature map as PLS outer relation and multilayer neural network as PLS inner regression method.

  • PDF

주성분/중회귀분석을 이용한 대구지역 대기중 부유분진의 발생원별 특성평가 (Source Characterization of Suspended Particulate Matter in Taegu Area, Using Principal Component Analysis Coupled with Multiple Regression)

  • 백성옥;황승만
    • 한국대기환경학회지
    • /
    • 제8권3호
    • /
    • pp.179-190
    • /
    • 1992
  • This study was carried out to characterize sources of atmospheric total suspended particulates (TSP) in urban and sub--urban areas of metropolitan taegu. The sources were tentatively identified by a multivariate technique, i.e. principal component analysis (PCA), and the source contributions to the atmospheric concentrations of TSP were further estimated by stepwise multiple regression analysis. A total of 5 sources was identified in the urban area of Taegu (soil dust resuspension, fuel combustion, secondary aerosol, traffic related aerosol, and refuge burning), while 4 sources were found to be significant in the sub--urban area as following: fuel combustion/secondary aerosol, soil dust resuspension, traffic related aerosol, and wood/agricultural burning. The largest contributor to the atmospheric TSP appeared to be the soil dust resuspension in both areas. The source apportionment of the extractable organic matter (EOM) was also carried out for the Taegu data. The EOM was determined with respect to the solvent polarity, i.e. cyclohexane (non-polar), dichloromethane (semi--polar), and acetone (polar). In addition, the source profiles for the TSP in Taegu area were estimated using a PCA-based algorithm, and the validity was evaluated tentatively by comparing the data in the literature.

  • PDF

Feature Extraction via Sparse Difference Embedding (SDE)

  • Wan, Minghua;Lai, Zhihui
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제11권7호
    • /
    • pp.3594-3607
    • /
    • 2017
  • The traditional feature extraction methods such as principal component analysis (PCA) cannot obtain the local structure of the samples, and locally linear embedding (LLE) cannot obtain the global structure of the samples. However, a common drawback of existing PCA and LLE algorithm is that they cannot deal well with the sparse problem of the samples. Therefore, by integrating the globality of PCA and the locality of LLE with a sparse constraint, we developed an improved and unsupervised difference algorithm called Sparse Difference Embedding (SDE), for dimensionality reduction of high-dimensional data in small sample size problems. Significantly differing from the existing PCA and LLE algorithms, SDE seeks to find a set of perfect projections that can not only impact the locality of intraclass and maximize the globality of interclass, but can also simultaneously use the Lasso regression to obtain a sparse transformation matrix. This characteristic makes SDE more intuitive and more powerful than PCA and LLE. At last, the proposed algorithm was estimated through experiments using the Yale and AR face image databases and the USPS handwriting digital databases. The experimental results show that SDE outperforms PCA LLE and UDP attributed to its sparse discriminating characteristics, which also indicates that the SDE is an effective method for face recognition.

낙태허용 사유에 대한 여학생의 인식이 낙태예방정책 요구도에 미치는 영향 (Effects of Attitudes Toward Reasons for which Abortion is Permitted on Needs for Abortion Prevention Policies among Female Students)

  • 유계숙
    • 가정과삶의질연구
    • /
    • 제30권3호
    • /
    • pp.1-11
    • /
    • 2012
  • The purpose of this study is to analyze the effects of attitudes toward reasons for which abortion is permitted on needs for abortion prevention policies among 232 unmarried female students at the middle schools, high schools, and universities located in Seoul. The respondents were requested to complete the self-administered questionnaire, and the principal component analysis, t-tests, Pearson's correlations, and hierarchical multiple regression analyses were performed for analyzing data. The major findings of this study were as follows: First, the principal component analysis identified three reasons for which abortion is permitted. These are reasons under the maternal & child health law, socioeconomic reasons, and normatively unqualified reasons. Second, the female students showed permissive attitudes toward reasons for abortion under the maternal & child health law, disapproval attitudes toward socioeconomic reasons for abortion, and neutral attitudes toward abortion by normatively unqualified reasons. Students also showed high levels of needs for abortion prevention policies. Finally, hierarchical regression analyses revealed that female students' attitudes toward reasons for which abortion is permitted significantly predicted levels of needs for abortion prevention policies, after controlling their sciodemographic characteristics. The implications of the study results are discussed.