• 제목/요약/키워드: Variable importance in projection

검색결과 26건 처리시간 0.138초

나무구조의 분류분석에서 변수 중요도에 대한 고찰 (Comparison of Variable Importance Measures in Tree-based Classification)

  • 김나영;이은경
    • 응용통계연구
    • /
    • 제27권5호
    • /
    • pp.717-729
    • /
    • 2014
  • 본 연구에서는 나무구조의 분류분석에서 자료의 크기가 방대해짐에 따라 중요한 문제로 대두되고 있는 변수의 중요도에 대하여 사영추적분류나무를 중심으로 고찰하였다. 사영추적분류나무(projection pursuit classification tree)는 각 마디에서 사영추적을 이용하여 그룹을 잘 분리하는 변수들의 선형결합을 이용하는 방법으로 이때 사용되는 사영계수들은 각 마디에서의 분류에 대한 정보를 가지고 있다. 이를 종합하여 각 변수의 분류에 대한 중요도를 계산할 수 있다. 먼저 사영추적분류나무의 분류과정에서 계산되는 사영추적계수를 이용하여 분류를 위한 변수선택의 중요도를 계산하고 이들의 특성을 살펴보고 이를 같은 형태의 나무모형방법인 CART와 랜덤 포레스트의 결과와 비교 분석하여 사영추적분류나무의 특성을 살펴보고 비교, 분석하였다. 대부분의 자료에서 사영추적분류나무가 훨씬 좋은 성능을 보이고 있었으며 특히 상관계수가 높은 변수들이 포함되어 있는 경우에는 상대적으로 적은 수의 변수로도 잘 분류를 할 수 있음을 확인하였다. 랜덤 포레스트에서 제공하는 변수 중요도는 변수들 간의 상관관계가 높은 경우에는 사영추적분류나무의 변수중요도와 매우 다르게 나타나며 사영추적분류나무의 변수 중요도가 조금 더 나은 성능을 보이고 있음을 알 수 있다.

부분최소자승법과 변수선택을 이용한 코팅두께 예측모델 개발 (A Prediction Model for Coating Thickness Based on PLS Model and Variable Selection)

  • 이혜선;이영록;전치혁;홍재화
    • 응용통계연구
    • /
    • 제23권2호
    • /
    • pp.295-304
    • /
    • 2010
  • 산업체 공정과정에서 타겟품질변수의 실시간 예측과 관리는 품질제고, 수익율 향상에 중요한 관건이 된다. 본 연구는 내지문강판의 코팅두께를 비파괴적이고 신속한 방법으로 예측하여 균일한 품질의 강판을 생산하기 위해 UV스펙트럼데이터를 이용한 최적예측모델을 개발하고자 한다. 부분최소자승법에서 변수중요도척도를 이용한 변수선택방법은 노이즈성 영역의 독립변수를 줄임으로써 예측정확도는 높일 수 있으며, 스펙트럼데이터의 경우 원데이터보다 적절한 데이터전처리가 예측정확도를 높이는 정보를 제공하기도 한다. 본 연구에서는 부분최소자승법 예측모텔에서 변수선택방법과 데이터전처리효과가 내지문강판 코팅두께 예측정확도 향상에 기여하는 결과를 제공하고, 스펙트럼 데이터를 이용한 품질변수 예측모델 개발 시 적용할 수 있는 일반적인 변수선택방법과정을 제안한다.

적외선 분광분석을 이용한 바이오 에탄올 on-line용 정량분석법 개발 (Development of On-line Quantitative Analysis for Bioethanol Using Infrared Spectroscopy)

  • 김형욱;류준형;유준
    • 공업화학
    • /
    • 제23권1호
    • /
    • pp.35-41
    • /
    • 2012
  • 본 논문에서는 바이오연료 제품 품질 분석의 저가격화와 시간단축, 그리고 궁극적으로 바이오연료 생산 공정의 모니터링 실시간화를 해결하기 위해 적외선 분광분석과 화학계량학(Chemometrics)을 융합한 on-line 분광 모니터링 시스템을 제안하고자 한다. 화학계량학 중 부분최소자승법을 사용하여 적외선 spectrum과 성분 농도 간의 정량분석을 실시하였다. 몇 가지 전처리법과 변수 중요도척도를 이용하여 모델링한 결과 spectrum의 보정, 노이즈 감소, 검량선의 유지보수 등의 측면에서 Savitzky-Golay 전처리가 가장 우수함을 보였다. 본 연구의 결과를 통해 실시간 품질 측정뿐만 아니라 하나의 분광분석 장치로 여러 성분들의 동시 측정이 가능함을 확인함으로써 비용의 절감도 예상된다. 뿐만 아니라 결정계수 $R^2$이 0.99 이상으로 실험실분석의 대체도 가능하다.

Unraveling dynamic metabolomes underlying different maturation stages of berries harvested from Panax ginseng

  • Lee, Mee Youn;Seo, Han Sol;Singh, Digar;Lee, Sang Jun;Lee, Choong Hwan
    • Journal of Ginseng Research
    • /
    • 제44권3호
    • /
    • pp.413-423
    • /
    • 2020
  • Background: Ginseng berries (GBs) show temporal metabolic variations among different maturation stages, determining their organoleptic and functional properties. Methods: We analyzed metabolic variations concomitant to five different maturation stages of GBs including immature green (IG), mature green (MG), partially red (PR), fully red (FR), and overmature red (OR) using mass spectrometry (MS)-based metabolomic profiling and multivariate analyses. Results: The partial least squares discriminant analysis score plot based on gas chromatography-MS datasets highlighted metabolic disparity between preharvest (IG and MG) and harvest/postharvest (PR, FR, and OR) GB extracts along PLS1 (34.9%) with MG distinctly segregated across PLS2 (18.2%). Forty-three significantly discriminant primary metabolites were identified encompassing five developmental stages (variable importance in projection > 1.0, p < 0.05). Among them, most amino acids, organic acids, 5-C sugars, ethanolamines, purines, and palmitic acid were detected in preharvest GB extracts, whereas 6-C sugars, phenolic acid, and oleamide levels were distinctly higher during later maturation stages. Similarly, the partial least squares discriminant analysis based on liquid chromatography-MS datasets displayed preharvest and harvest/postharvest stages clustered across PLS1 (11.1 %); however, MG and PR were separated from IG, FR, and OR along PLS2 (5.6 %). Overall, 24 secondary metabolites were observed significantly discriminant (variable importance in projection > 1.0, p < 0.05), with most displaying higher relative abundance during preharvest stages excluding ginsenosides Rg1 and Re. Furthermore, we observed strong positive correlations between total flavonoid and phenolic metabolite contents in GB extracts and antioxidant activity. Conclusion: Comprehending the dynamic metabolic variations associated with GB maturation stages rationalize their optimal harvest time per se the related agroeconomic traits.

라만 분광법과 부분최소자승법을 이용한 불량 분말식품 비파괴검사 기술 개발 (Development of Nondestructive Detection Method for Adulterated Powder Products Using Raman Spectroscopy and Partial Least Squares Regression)

  • 이상대;;조병관;김문성;이수희
    • 비파괴검사학회지
    • /
    • 제34권4호
    • /
    • pp.283-289
    • /
    • 2014
  • 본 연구는 라만 분광법과 부분최소자승법을 이용하여 불량 분말식품을 비파괴적으로 검출할 수 있는 기술을 개발하기 위해 수행되었다. 향신료와 건강보조식품 등으로 소비가 증가하고 있는 마늘과 생강분말을 실험대상으로 선정하고 옥수수 전분을 농도별로 혼합하여 시료를 제작하였다. 라만 반사스펙트럼과 부분최소자승법을 이용하여 불량 분말식품에 혼합된 옥수수 전분의 농도를 예측하기 위한 모델을 개발하고 교차검증을 통해 그 성능을 평가하였다. 또한 변수중요도척도를 이용하여 예측모델의 개발에 기여도가 높은 라만스펙트럼을 선정한 후 이 스펙트럼을 이용하여 새로운 예측모델을 개발하였다. 그 결과 전체 라만 스펙트럼의 약 1/3에 해당하는 스펙트럼 데이터만을 이용하여 전체 라만 스펙트럼을 이용하여 개발된 예측모델과 같은 성능을 갖는 모델을 개발하는 것이 가능하였다.

지상용 초분광 스캐너를 활용한 사과의 당도예측 모델의 성능향상을 위한 연구 (Study of Prediction Model Improvement for Apple Soluble Solids Content Using a Ground-based Hyperspectral Scanner)

  • 송아람;전우현;김용일
    • 대한원격탐사학회지
    • /
    • 제33권5_1호
    • /
    • pp.559-570
    • /
    • 2017
  • 본 연구에서는 야외에서 자료 취득이 가능하며 한 번에 다량의 사과를 촬영할 수 있는 지상용 초분광 스캐너를 활용하여 사과의 분광정보와 당도와의 부분최소제곱회귀분석(PLSR, Partial Least Square Regression)을 수행하였으며, 최적의 예측모델을 구축하기 위한 다양한 전처리기법의 적용가능성을 평가하고 VIP(Variable Importance in Projection)점수를 통한 최적밴드를 산출하였다. 이를 위하여 360-1019 nm영역에서 촬영된 515밴드의 초분광 영상에서 70개의 분광곡선을 취득하였으며, 디지털광도계를 이용하여 당도($^{\circ}Brix$)를 측정하였다. 사과의 분광특성과 당도사이의 회귀모델을 구축하였으며, 최적의 예측모델은 모델 예측치와 실측치간의 결정계수($r_p^2$, coefficient of determination of prediction)와 RMSECV(Root Mean Square Error of Cross Validation), RMSEP(Root Mean Square Error of Prediction)등을 고려하여 선정하였다. 그 결과 산란보정 기법의 대표적인 MSC(Multiplicative Scatter Correction)의 기반의 전처리기법이 가장 효과적이었으며, MSC와 SNV(Standard Normal Variate)를 조합한 경우 RMSECV와 RMSEP가 각각 0.8551과 0.8561로 가장 낮았고, $r_c^2$$r_p^2$은 각각 0.8533과 0.6546으로 가장 높았다, 또한 360-380, 546-690, 760, 915, 931-939, 942, 953, 971, 978, 981, 988, 992-1019 nm 등이 당도 측정을 위한 가장 영향력 있는 파장영역으로 나타났다. 해당 영역의 분광값을 가지고 PLSR을 수행한 결과, 전파장대를 사용할 때보다 RMSEP가 0.6841로 감소하고 $r_p^2$는 0.7795로 증가하는 것을 확인하였다. 본 연구를 통하여 사과의 당도측정에 있어 야외에서 취득한 초분광 영상자료의 활용 가능성을 확인하였으며, 이는 필드자료 및 센서 활용분야의 확장가능성을 보여준다.

Operational Performance Evaluation of Korean Major Container Terminals

  • Lu, Bo;Park, Nam-Kyu
    • 한국항해항만학회지
    • /
    • 제34권9호
    • /
    • pp.719-726
    • /
    • 2010
  • As the competition among the container terminals in Korea has become increasingly fierce, every terminal is striving to increase its investments constantly and lower its operational costs in order to maintain the competitive edge and provide satisfactory services to terminal users. The unreasoning behavior, however, has induced that substantial waste and inefficiency exists in container terminal production. Therefore, it is of great importance for the terminal to know whether it has fully used its existing infrastructures and that output has been maximized given the input. From this perspective, data envelopment analysis (DEA) provides a more appropriate benchmark. This study applies three models of DEA to acquire a variety of analytical results about the operational efficiency to the Korean container terminals. According to efficiency value analysis, this study first finds the reason of inefficiency. It is followed by identification of the potential areas of improvement for inefficient terminals by applying slack variable method and giving the projection results. Finally, return to scale approach is used to assess whether each terminal is in a state of increasing, decreasing, or constant return to scale. The results of this study can provide terminal managers with insight into resource allocation and optimization of the operating performance.

Volatile Compounds for Discrimination between Beef, Pork, and Their Admixture Using Solid-Phase-Microextraction-Gas Chromatography-Mass Spectrometry (SPME-GC-MS) and Chemometrics Analysis

  • Zubayed Ahamed;Jin-Kyu Seo;Jeong-Uk Eom;Han-Sul Yang
    • 한국축산식품학회지
    • /
    • 제44권4호
    • /
    • pp.934-950
    • /
    • 2024
  • This study addresses the prevalent issue of meat species authentication and adulteration through a chemometrics-based approach, crucial for upholding public health and ensuring a fair marketplace. Volatile compounds were extracted and analyzed using headspace-solid-phase-microextraction-gas chromatography-mass spectrometry. Adulterated meat samples were effectively identified through principal component analysis (PCA) and partial least square-discriminant analysis (PLS-DA). Through variable importance in projection scores and a Random Forest test, 11 key compounds, including nonanal, octanal, hexadecanal, benzaldehyde, 1-octanol, hexanoic acid, heptanoic acid, octanoic acid, and 2-acetylpyrrole for beef, and hexanal and 1-octen-3-ol for pork, were robustly identified as biomarkers. These compounds exhibited a discernible trend in adulterated samples based on adulteration ratios, evident in a heatmap. Notably, lipid degradation compounds strongly influenced meat discrimination. PCA and PLS-DA yielded significant sample separation, with the first two components capturing 80% and 72.1% of total variance, respectively. This technique could be a reliable method for detecting meat adulteration in cooked meat.

Evaluation of benzene residue in edible oils using Fourier transform infrared (FTIR) spectroscopy

  • Joshi, Ritu;Cho, Byoung-Kwan;Lohumi, Santosh;Joshi, Rahul;Lee, Jayoung;Lee, Hoonsoo;Mo, Changyeun
    • 농업과학연구
    • /
    • 제46권2호
    • /
    • pp.257-271
    • /
    • 2019
  • The use of food grade hexane (FGH) for edible oil extraction is responsible for the presence of benzene in the crude oil. Benzene is a Group 1 carcinogen and could pose a serious threat to the health of consumer. However, its detection still depends on classical methods using chromatography which requires a rapid non-destructive detection method. Hence, the aim of this study was to investigate the feasibility of using Fourier transform infrared (FTIR) spectroscopy combined with multivariate analysis to detect and quantify the benzene residue in edible oil (sesame and cottonseed oil). Oil samples were adulterated with varying quantities of benzene, and their FTIR spectra were acquired with an attenuated total reflectance (ATR) method. Optimal variables for a partial least-squares regression (PLSR) model were selected using the variable importance in projection (VIP) and the selectivity ratio (SR) methods. The developed PLS models with whole variables and the VIP- and SR-selected variables were validated against an independent data set which resulted in $R^2$ values of 0.95, 0.96, and 0.95 and standard error of prediction (SEP) values of 38.5, 33.7, and 41.7 mg/L, respectively. The proposed technique of FTIR combined with multivariate analysis and variable selection methods can detect benzene residuals in edible oils with the advantages of being fast and simple and thus, can replace the conventional methods used for the same purpose.

Rancidity Prediction of Soybean Oil by Using Near-Infrared Spectroscopy Techniques

  • Hong, Suk-Ju;Lee, Ah-Yeong;Han, Yun-hyeok;Park, Jongmin;So, Jung Duck;Kim, Ghiseok
    • Journal of Biosystems Engineering
    • /
    • 제43권3호
    • /
    • pp.219-228
    • /
    • 2018
  • Purpose: This study evaluated the feasibility of a near-infrared spectroscopy technique for the rancidity prediction of soybean oil. Methods: A near-infrared spectroscopy technique was used to evaluate the rancidity of soybean oils which were artificially deteriorated. A soybean oil sample was collected, and the acid values were measured using titrimetric analysis. In addition, the transmission spectra of the samples were obtained for whole test periods. The prediction model for the acid value was constructed by using a partial least-squares regression (PLSR) technique and the appropriate spectrum preprocessing methods. Furthermore, optimal wavelength selection methods such as variable importance in projection (VIP) and bootstrap of beta coefficients were applied to select the most appropriate variables from the preprocessed spectra. Results: There were significantly different increases in the acid values from the sixth days onwards during the 14-day test period. In addition, it was observed that the NIR spectra that exhibited intense absorption at 1,195 nm and 1,410 nm could indicate the degradation of soybean oil. The PLSR model developed using the Savitzky-Golay $2^{nd}$ order derivative method for preprocessing exhibited the highest performance in predicting the acid value of soybean oil samples. onclusions: The study helped establish the feasibility of predicting the rancidity of the soybean oil (using its acid value) by means of a NIR spectroscopy together with optimal variable selection methods successfully. The experimental results suggested that the wavelengths of 1,150 nm and 1,450 nm, which were highly correlated with the largest absorption by the second and first overtone of the C-H, O-H stretch vibrational transition, were caused by the deterioration of soybean oil.