• 제목/요약/키워드: principal component regression

검색결과 253건 처리시간 0.024초

Affecting Factors on the Variation of Atmospheric Concentration of Polycyclic Aromatic Hydrocarbons in Central London

  • Baek, Sung-Ok;Roger Perry
    • Journal of Korean Society for Atmospheric Environment
    • /
    • 제10권E호
    • /
    • pp.343-356
    • /
    • 1994
  • In this study, a statistical investigation was carried out for the evaluation of any relationship between polycyclic aromatic hydrocarbons (PAHss) associated with ambient aerosols and other air quality parameters under varying meteorological conditions. Daily measurements for PAHs and air quality/meteorological parameters were selected from a data-base constructed by a comprehensive air monitoring in London during 1985-1987. Correlation coefficients were calculated to examine any significant relationship between the PAHs and other individual variables. Statistical analysis was further Performed for the air quality/meteorological data set using a principal component analysis to derive important factors inherent in the interactions among the variables. A total of six components were identified, representing vehicle emission, photochemical activity/volatilization, space heating, atmospheric humidity, atmospheric stability, and wet deposition. It was found from a stepwise multiple regression analysis that the vehicle emission component is overall the most important factor contributing to the variability of PAHs concentrations at the monitoring site. The photochemical activity/volatilzation component appeared to be also an important factor particularly for the lower molecular weight PAHs. In general, the space heating component was found to be next important factor, while the contributions of other three components to the variance of each PAHs did not appear to be as much important as the first three components in most cases. However, a consistency for these components in their negative correlations with PAHs data was found, indicating their roles in the depletion of PAHs concentrations in the urban atmosphere.

  • PDF

사용편의성 모델수립을 위한 제품 설계 변수의 선별방법 : 유전자 알고리즘 접근방법 (A Method for Screening Product Design Variables for Building A Usability Model : Genetic Algorithm Approach)

  • 양희철;한성호
    • 대한인간공학회지
    • /
    • 제20권1호
    • /
    • pp.45-62
    • /
    • 2001
  • This study suggests a genetic algorithm-based partial least squares (GA-based PLS) method to select the design variables for building a usability model. The GA-based PLS uses a genetic algorithm to minimize the root-mean-squared error of a partial least square regression model. A multiple linear regression method is applied to build a usability model that contains the variables seleded by the GA-based PLS. The performance of the usability model turned out to be generally better than that of the previous usability models using other variable selection methods such as expert rating, principal component analysis, cluster analysis, and partial least squares. Furthermore, the model performance was drastically improved by supplementing the category type variables selected by the GA-based PLS in the usability model. It is recommended that the GA-based PLS be applied to the variable selection for developing a usability model.

  • PDF

신경망을 이용한 고신뢰성의 회귀분석 모델 (Regression Model With High Reliability by Using Neural Networks)

  • 조용현
    • 정보처리학회논문지B
    • /
    • 제8B권4호
    • /
    • pp.327-334
    • /
    • 2001
  • 본 논문에서는 기울기하강과 동적터널링이 조합된 학습알고리즘의 다층신경망을 이용한 고신회성의 회귀분석 모델을 제안하였다. 기울기하강은 빠른 수렴속도의 최적화가 가능하도록 하기 위함이고, 동적터널링은 국소최적해를 만났을 때 이를 벗어난 새로운 연결가중치를 설정하여 전역최적해로 수렴되도록 하기 위함이다. 또한 대용량의 입력 데이터를 통계적으로 독립인 특징들의 집합으로 변환시키는 주요성분분석 기법의 속성을 살려 학습데이터의 차원을 감소시킴으로서 고차원의 학습데이터에 따른 회귀분석 모델의 제약도 동시에 해결하였다. 제안된 기법의 신경망을 3개의 독립변수 패턴을 가진 암모니아 제조공정문제와 10개의 독립변수 패턴을 가진 자동차 연비문제에 각각 적용하여 시뮬레이션한 결과, 기존의 역전과 알고리즘의 신경망이나 주요성분분석에 의한 차원을 감소시키지 않은 학습패턴을 이용한 신경망보다 각각 더욱 우수한 학습성능과 회귀성능이 있음을 확인할 수 있었다. 또한 학습패턴의 영평균 정규화로 회귀용 신경망의 성능을 더욱 더 개선하였다.

  • PDF

A Generation and Accuracy Evaluation of Common Metadata Prediction Model Using Public Bicycle Data and Imputation Method

  • Kim, Jong-Chan;Jung, Se-Hoon
    • 한국멀티미디어학회논문지
    • /
    • 제25권2호
    • /
    • pp.287-296
    • /
    • 2022
  • Today, air pollution is becoming a severe issue worldwide and various policies are being implemented to solve environmental pollution. In major cities, public bicycles are installed and operated to reduce pollution and solve transportation problems, and operational information is collected in real time. However, research using public bicycle operation information data has not been processed. This study uses the daily weather data of Korea Meteorological Agency and real-time air pollution data of Korea Environment Corporation to predict the amount of daily rental bicycles. Cross- validation, principal component analysis and multiple regression analysis were used to determine the independent variables of the predictive model. Then, the study selected the elements that satisfy the significance level, constructed a model, predicted the amount of daily rental bicycles, and measured the accuracy.

FT-IR 스펙트럼 데이터의 다변량 통계분석을 이용한 곶감의 원산지 및 품종 식별 (Discrimination of Cultivars and Cultivation Origins from the Sepals of Dry Persimmon Using FT-IR Spectroscopy Combined with Multivariate Analysis)

  • 허설혜;김석원;민병환
    • 한국식품과학회지
    • /
    • 제47권1호
    • /
    • pp.20-26
    • /
    • 2015
  • 본 연구에서는 상업용 곶감의 꽃받침과 종자를 이용하여 대사체 수준에서의 원산지와 품종 식별 체계를 확립하였다. 실험에 이용된 곶감 시료는 국내산 곶감 함안수시(Hamansusi), 예천고종시(Yecheongojongsi), 산청단성시(Sancheongdanseongsi), 그리고 논산월하시(Nonsanwalhasi) 4개 품종과 국내에서 판매되고 있는 중국산 곶감 2개 종류의 꽃받침과 종자를 사용하였으며, 꽃받침과 종자 시료의 전세포 추출물로부터 FT-IR 스펙트럼 데이터를 기반으로 다변량 통계분석(PCA, PLS-DA)을 실시하였다. 이 결과 국내산 곶감 4품종과 중국산 곶감 2종류가 두 그룹으로 확연히 나뉘어지는 것을 확인할 수 있었다. 상업용 곶감의 꽃받침을 PLS regression을 실시한 결과 국내산과 중국산 곶감을 100% 예측할 수 있었다. 또한 곶감 종자를 이용하여 품종 식별한 결과 각 4개의 그룹으로 나뉘어지는 것을 확인할 수 있었으며, PLS regression을 실시한 결과 약 86%의 정확도로 품종 식별이 가능함을 알 수 있었다. FT-IR 스펙트럼 분석의 간편성과 신속성을 고려할 때, 본 연구 결과는 상업용 곶감에 대한 원산지나 품종 식별의 신속한 수단으로 활용할 수 있을 것으로 예상된다. 더 나아가 본 기술을 이용하여 다른 농산물의 원산지 또는 품종 식별 수단으로 활용이 가능할 것으로 기대된다.

화자적응에서 PCA 또는 ICA를 이용한 MLLR알고리즘 연산량 감소 (The Reduction or computation in MLLR Framework using PCA or ICA for Speaker Adaptation)

  • 김지운;정재호
    • 한국음향학회지
    • /
    • 제22권6호
    • /
    • pp.452-456
    • /
    • 2003
  • 본 논문은 화자 적응시 화자 독립 모델의 차수를 줄이고 MLLR (Maximum Likelihood Linear Regression) 알고리즘에서 요구되는 역행렬 횟수를 줄이는 방법을 제안한다. 주성분분석 (PCA: principal components analysis)과 독립성분분석 (ICA: independent components analysis)을 통해 모델 혼합성분 (mixture component)들간의 상관관계를 줄임으로서 모델의 차수를 감소하였다. 주성분분석 및 독립성분분석에 요구되는 추가 연산량은 화자 독립 모델을 훈련할 때 추가함으로써 화자 적응시에 추가되는 연산량은 극히 미소하다. 36차의 HMM 파라메타 차수를 PCA는 12차, ICA는 10차로 감소하였을 때 기존의 MLLR 적응방법과 유사한 단어 인식률을 나타내었다. 즉, 모델 파라미터의 차수를 n이라고 할 때 기존의 MLLR알고리즘에서 역행열 연산에서 요구되는 연산량은 O(n⁴)에 비례하므로 PCA는 1/81, ICA는 1/167만큼 연산량을 감소하였다.

분할 역회귀모형에서 차원결정을 위한 점근검정법 (Asymptotic Test for Dimensionality in Sliced Inverse Regression)

  • 박종선;곽재근
    • 응용통계연구
    • /
    • 제18권2호
    • /
    • pp.381-393
    • /
    • 2005
  • 회귀모형에서 필요한 설명변수들의 선형결합들을 탐색하기 위한 방법 중의 하나로 분할역회귀모형을 들 수 있다. 이러한 분할역회귀모형에서 모형에 필요한 설명변수들의 선형결합의 수, 즉 차원을 결정하기 위한 여러 가지의 검정법들이 소개 되었으나 설명변수들의 정규성 가정을 필요로 하거나 다른 제약이 있다. 본 논문에서는 주성분분석에 대한 확률모형을 이 용하여 정규성가정을 필요로하지 않으며 분할의 수에 로버스트한 검정법을 소개하고 모의실험과 실제자료에 대한 적용결과를 통하여 기존의 검정법과 비교하였다.

A gradient boosting regression based approach for energy consumption prediction in buildings

  • Bataineh, Ali S. Al
    • Advances in Energy Research
    • /
    • 제6권2호
    • /
    • pp.91-101
    • /
    • 2019
  • This paper proposes an efficient data-driven approach to build models for predicting energy consumption in buildings. Data used in this research is collected by installing humidity and temperature sensors at different locations in a building. In addition to this, weather data from nearby weather station is also included in the dataset to study the impact of weather conditions on energy consumption. One of the main emphasize of this research is to make feature selection independent of domain knowledge. Therefore, to extract useful features from data, two different approaches are tested: one is feature selection through principal component analysis and second is relative importance-based feature selection in original domain. The regression model used in this research is gradient boosting regression and its optimal parameters are chosen through a two staged coarse-fine search approach. In order to evaluate the performance of model, different performance evaluation metrics like r2-score and root mean squared error are used. Results have shown that best performance is achieved, when relative importance-based feature selection is used with gradient boosting regressor. Results of proposed technique has also outperformed the results of support vector machines and neural network-based approaches tested on the same dataset.

Assessment through Statistical Methods of Water Quality Parameters(WQPs) in the Han River in Korea

  • Kim, Jae Hyoun
    • 한국환경보건학회지
    • /
    • 제41권2호
    • /
    • pp.90-101
    • /
    • 2015
  • Objective: This study was conducted to develop a chemical oxygen demand (COD) regression model using water quality monitoring data (January, 2014) obtained from the Han River auto-monitoring stations. Methods: Surface water quality data at 198 sampling stations along the six major areas were assembled and analyzed to determine the spatial distribution and clustering of monitoring stations based on 18 WQPs and regression modeling using selected parameters. Statistical techniques, including combined genetic algorithm-multiple linear regression (GA-MLR), cluster analysis (CA) and principal component analysis (PCA) were used to build a COD model using water quality data. Results: A best GA-MLR model facilitated computing the WQPs for a 5-descriptor COD model with satisfactory statistical results ($r^2=92.64$,$Q{^2}_{LOO}=91.45$,$Q{^2}_{Ext}=88.17$). This approach includes variable selection of the WQPs in order to find the most important factors affecting water quality. Additionally, ordination techniques like PCA and CA were used to classify monitoring stations. The biplot based on the first two principal components (PCs) of the PCA model identified three distinct groups of stations, but also differs with respect to the correlation with WQPs, which enables better interpretation of the water quality characteristics at particular stations as of January 2014. Conclusion: This data analysis procedure appears to provide an efficient means of modelling water quality by interpreting and defining its most essential variables, such as TOC and BOD. The water parameters selected in a COD model as most important in contributing to environmental health and water pollution can be utilized for the application of water quality management strategies. At present, the river is under threat of anthropogenic disturbances during festival periods, especially at upstream areas.

2017 International Ice Hockey Federation World Championship의 승리 결정요인 분석 (Factors Contributing to Winning in Ice Hockey: Analysis of 2017 Ice Hockey World Championship)

  • 이주성;김혜영;김채은;프라밧;문제헌
    • 한국체육학회지인문사회과학편
    • /
    • 제57권4호
    • /
    • pp.387-394
    • /
    • 2018
  • 본 연구의 목적은 국제아이스하키연맹(IIHF)이 개최하는 대회에서 승리 팀을 결정하는 주요 변인들을 파악하여 전략 및 전술 수립에 필요한 정보를 제공하는 것이다. 2017 IIHF World Championship 1부 리그 14개 팀의 예선 및 본선을 포함한 64개 경기의 기록지를 분석대상으로 하였다. 분석변인은 save, shot on goal, penalty in minute, time on power play, power play goal, face off win의 비율, 승패 간 로지스틱 회귀분석, 중다회귀분석, 주성분분석을 수행하였다. 로지스틱 회귀분석 결과 승리와 관련이 있는 변인은 shot on goal(p<.001)와 face off win(p<.001)이고 penalty in minute(p<.01)과 time on power play(p<.01)는 부정적인 영향을 미친다. 중다회귀분석에 의하여 산출한 승패 비율과 각 변인과의 상관분석에서는 save(p<.01), face off win(p<.001)가 정적인 상관관계이고 penalty in minute(p<.001)이 부정적인 상관관계이다. 주성분분석 결과에서는 승리한 팀의 경우 페널티 요인, 공격 요인, 수비 요인으로 구성되는 반면 패배한 팀에서는 페널티 요인을 제외하고 공격과 수비 요인이 혼합되어 구성되었다. 따라서 최상위 팀이 참가하는 아이스하키 경기에서 승리하기 위해서는 페널티를 받지 않는 내에서 거친 플레이가 이루어져야 하고 face off win 비율을 높일 수 있는 방안이 마련되어야 할 것이다.