• Title/Summary/Keyword: 다변수 통계처리

Search Result 32, Processing Time 0.028 seconds

Bayesian control problem in multivariate mixture model (다변량 혼합모형에서 통계적 제어문제의 베이지안적 고찰)

  • 이석훈;박래현;최종석
    • The Korean Journal of Applied Statistics
    • /
    • v.3 no.2
    • /
    • pp.27-37
    • /
    • 1990
  • We consider the statistical control problem for the mixture model in which one can choose the values of independent variables that produce the values of the dependent variables as close to the target values as possible. The theory suggested for the problem is reviewed and an extended model with respect to the assumption of variance and the number of dependent variables is suggested. A Basyesian treatment is studied for the above problem with example as an illustration.

  • PDF

Performance of PCA Algorithm for Multivariate Data Analysis (다변량 데이터 분석을 위한 PCA 알고리즘 구현)

  • Gim, GwiSuk;Shon, Ho Sun;Ryu, Keun Ho;Lee, YoungSung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2013.11a
    • /
    • pp.1264-1266
    • /
    • 2013
  • 다변량 데이터 분석에 주로 사용되는 차원축소 기법 중 하나인 PCA 알고리즘을 직접 구현해보고 기존의 통계분석 프로그램과 그 결과를 비교분석 해보았다. UCI에서 제공하는 유방암 데이터를 이용하여 실험 해본 결과 두 프로그램 모두 같은 주성분을 얻고, Eigenvalue와 variance도 같은 값을 얻었다. 따라서 상용화된 통계패키지를 사용하지 않고도 PCA 알고리즘을 적용하여 차원축소 문제를 해결하고 데이터를 분석 할 수 있다.

Geochemistry of the Moisan Epithermal Gold-silver Deposit in Haenam Area (해남 모이산 천열수 금은광상의 지구화학적 특성)

  • Moon, Dong-Hyeok;Koh, Sang-Mo;Lee, Gill-Jae
    • Economic and Environmental Geology
    • /
    • v.43 no.5
    • /
    • pp.491-503
    • /
    • 2010
  • Geochemical characteristics of the Moisan epithermal gold-silver deposit with total 140 samples in Haenam area, Jeollanamdo were studied by using multivariate statistical analysis (correlation analysis, factor analysis and cluster analysis). The correlation analysis reveals that Ag, Cu, Bi, Te are highly correlated with Au in the both non-mineralized and mineralized zone. It is resulted from the presence of Au-Ag bearing minerals (electrum, sylvanite, calaverite and stuezite) and non Au-Ag containing minerals (chalcopyrite, tellurobismuthite and bismuthinite). Mo shows relatively much higher correlation at the mineralized zone (0.615) than non-mineralized zone (0.269) which implies Mo content is strongly affected by Au-mineralization. While Mn, Cs, Fe, Se correlated with Au at the nonmineralized zone, they have negative correlation at the mineralized zone. Therefore, they seem to be eluviated elements from the host rock during gold mineralization. Sb is enriched during the gold mineralization showing high correlation at the mineralized zone and negative correlation at the non-mineralized zone. According to the factor analysis, Se, Ag, Cs, Te are the indicators of gold mineralization presence due to the strong affection of gold content in the non-mineralized zone. In the mineralized zone, on the other hand, Mo, Te and Sb, Cu are the indicators of gold and silver mineralization, respectively. While the cluster analysis reveals that Cd-Zn-Pb-S, Bi-Fe-Cu-Mn, Se-Te-Au-Cs-Ag, As-Sb-Ba are the similar behavior elements groups in the non-mineralized zone, Cd-Zn-Mn-Pb, Fe-S-Se, As-Bi-Cs, Ag-Sb-Cu, Au-Te-Mo are the similar behavior elements groups in the mineralized zone. Using multivariate statistical analysis as mentioned above makes it possible to compare the behavior of presented minerals and difference of geochemical characteristics between mineralized and non-mineralized zone. Therefore, it will be expected a useful tool on the similar type of mining exploration.

멀티미디어를 이용한 정보기술 교육훈련의 효율성에 영향을 미치는 링크(Link)수와 노드(Node)크기에 대한 실증적 연구

  • 김대룡
    • Proceedings of the Korea Association of Information Systems Conference
    • /
    • 2000.11a
    • /
    • pp.29-35
    • /
    • 2000
  • 본 연구는 멀티미디어의 기본 구성요소인 링크와 노드를 처리변수로 하고 사용자의 편의성과 유용성에 대한 인식을 종속변수로 해서 링크의 숫자와 노드의 크기가 사용자의 인식에 어떻게 영향을 미치는지에 대해 밝히고자 했다. 먼저 2x3 팩토리얼 디자인에 따라 각각 다른 처리변수의 조합을 가진 6개의멀티미디어 자료가 구축이 되었으며 경영대 학생들을 대상으로 실험을 하여 자료를 수집했다. 수집된 자료는 타당성 검사와 신뢰성 검사를 거친 뒤 통계적 분석을 하였다. 종속변수에 대한 상관관계가 검사되었으므로 변량 분산 분석으로 처리변수의 종속변수에 대한 통계적 유의성을 검사했으며 단변량 분산분석 중 이원배치분산분석으로 각각의 종속변수에 대한 처리변수의 영향을 검토했다. 인구통계학적 자료의 종속변수에 대한 상관관계가 발견됨에 따라 다변량 공분산분석과 단변량 공분산분석을 통해 인구통계학적 자료의 영향을 조사했다. 마지막으로 평균차이분석을 통해 실험 참가자들의 선호도를 조사했다. 본 연구의결과를 요약하면 처리변수는 사용자 인식 편의성과 인식 유용성에 영향을 미치고 링크 수와 노드 크기가 멀티미디어의 설계에 중요한 요인인 것이 밝혀졌다.

  • PDF

합리적인 터널설계를 위한 정량화 지표(Multiple Index)개발 및 적용에 관한 연구

  • 위용곤;박준경;전성권;김영근
    • Proceedings of the Korean Society for Rock Mechanics Conference
    • /
    • 2002.10a
    • /
    • pp.31-42
    • /
    • 2002
  • 최근 지하철 터널은 사용자 편의성, 도심지 접근성 및 원활한 교통처리 등을 고려하여 지반조건이 불리한 상황에서도 터널로 계획되는 경우가 많아지고 있다 따라서 시공중의 터널안정성확보, 굴착에 따른 인접구조물의 침하영향, 발파진동영향 등을 종합적으로 고려한 지보패턴 및 보조·보강공법의 결정이 매우 중요하나 정량적인 판단기준의 부재로 인하여 주로 경험적인 설계에 의존하는 경우가 많다. 본 연구에서는 도심지 지하철 터널의 복합적인 거동특성을 고려하기 위하여 여러 가지 예상위험요소의 정량화 방안을 제안하고, 다변량 통계분석기법을 활용하여 여러 가지 위험 요소들의 특성을 함축적으로 나타내는 소수의 총합적인 지표(안정성인자, 환경성인자)로 대표화 할 수 있음을 검증하였다. 안정성 인자 및 환경성 인자를 이용한 서울시 지하철 00공구 설계사례를 통해 정량화지표(Multiple Index)의 터널설계에의 적용성을 평가하고 이의 설계시 활용방안을 제안하고자 하였다.

  • PDF

Multi-Variate Tabular Data Processing and Visualization Scheme for Machine Learning based Analysis: A Case Study using Titanic Dataset (기계 학습 기반 분석을 위한 다변량 정형 데이터 처리 및 시각화 방법: Titanic 데이터셋 적용 사례 연구)

  • Juhyoung Sung;Kiwon Kwon;Kyoungwon Park;Byoungchul Song
    • Journal of Internet Computing and Services
    • /
    • v.25 no.4
    • /
    • pp.121-130
    • /
    • 2024
  • As internet and communication technology (ICT) is improved exponentially, types and amount of available data also increase. Even though data analysis including statistics is significant to utilize this large amount of data, there are inevitable limits to process various and complex data in general way. Meanwhile, there are many attempts to apply machine learning (ML) in various fields to solve the problems according to the enhancement in computational performance and increase in demands for autonomous systems. Especially, data processing for the model input and designing the model to solve the objective function are critical to achieve the model performance. Data processing methods according to the type and property have been presented through many studies and the performance of ML highly varies depending on the methods. Nevertheless, there are difficulties in deciding which data processing method for data analysis since the types and characteristics of data have become more diverse. Specifically, multi-variate data processing is essential for solving non-linear problem based on ML. In this paper, we present a multi-variate tabular data processing scheme for ML-aided data analysis by using Titanic dataset from Kaggle including various kinds of data. We present the methods like input variable filtering applying statistical analysis and normalization according to the data property. In addition, we analyze the data structure using visualization. Lastly, we design an ML model and train the model by applying the proposed multi-variate data process. After that, we analyze the passenger's survival prediction performance of the trained model. We expect that the proposed multi-variate data processing and visualization can be extended to various environments for ML based analysis.

Variable Selection in Normal Mixture Model Based Clustering under Heteroscedasticity (이분산 상황 하에서 정규혼합모형 기반 군집분석의 변수선택)

  • Kim, Seung-Gu
    • The Korean Journal of Applied Statistics
    • /
    • v.24 no.6
    • /
    • pp.1213-1224
    • /
    • 2011
  • In high dimensionality where the number of variables are excessively larger than observations, it is required to remove the noninformative variables to cluster observations. Most model-based approaches for variable selection have been considered under the assumption of homoscedasticity and their models are mainly estimated by a penalized likelihood method. In this paper, a different approach is proposed to remove the noninformative variables effectively and to cluster based on the modified normal mixture model simultaneously. The validity of the model was provided and an EM algorithm was derived to estimate the parameters. Simulation studies and an experiment using real microarray dataset showed the effectiveness of the proposed method.

Data-driven modeling of the anaerobic wastewater treatment plant using robust adaptive dynamic PLS method

  • Lee Hae Woo;Lee Min Woo;Joung Jea Youl;Park Jong Moon
    • 한국생물공학회:학술대회논문집
    • /
    • 2004.07a
    • /
    • pp.47-84
    • /
    • 2004
  • Principal Component Analysis나 Partial Least Squares와 같은 다변량 통계 기법은 변수간의 correlation structure로부터 공정의 variance를 설명할 수 있는 latent variable를 얻고 이를 이용하여 공정을 효과적으로 modeling할 수 있는 방법으로 최근 들어 많은 관심을 얻고 있다. 하지만 PLS는 공정이 stationary state에 있다고 가정하기 때문에, 생물학적 공정의 non-stationary and time-varying behavior를 설명하기에 부적절하다. 본 논문에서는 PLS 알고리즘의 혐기성 폐수처리 공정에의 적용에 있어, 이와 같은 문제를 해결하기 위해서 adaptive PLS 알고리즘을 사용함으로써 변화하는 공정의 특성에 대응하여 모델을 update하는 방법을 이용하였다. 하지만 실시간 데이터로부터 adaptive PLS 방법을 적용하는 데에는 많은 어려움이 존재하며, 특히 outlier나 abnormal disturbance에 모델이 부적절하게 adaptation하는 문제가 발생할 수 있다. 따라서 이의 해결을 위해 adaptive PLS를 적용하는데 있어 robustness를 향상시키기 위해 monitoring index를 이용하여 abnormal data에 weight를 주고 안정적인 모델의 update가 가능하게 하는 방법을 제안하였으며, 이를 적용하여 성공적으로 혐기성 폐수처리 공정의 Output을 예측하고 효과적으로 공정을 모니터링할 수 있었다. 만들어진 PLS 모델은 산업폐수를 처리하기 위한 industrial plan에서 측정된 실제 데이터에 적용하여 그 효용성을 입증하였으며, 그 결과는 mechanistic model을 적용하기 힘든 실공정에 비교적 쉽게 implementation할 수 있는 장점이 있다.

  • PDF

Texture Analysis of Carcinoma Cell Tissue Image based on Wavelet Transform (Wavelet 변환에 기반한 암세포 조직 영상의 질감 분석)

  • 최현주;이병일;이연숙;최홍국
    • Proceedings of the Korea Institute of Convergence Signal Processing
    • /
    • 2000.08a
    • /
    • pp.305-308
    • /
    • 2000
  • 암의 진행 정도를 판단하기 위한 암세포 조직영상의 분석은 그 대상이 되는 영상의 다양성과 잡음으로 인해 정확한 분석이 어렵다. 특히, 암의 진행 정도를 판단하는데 있어서 중요한 요인인 세포핵의 variation에 따른 order/disorder 정도를 객관적 수치로 정량화하기 위해서는, 각 기(stage)에 따른 암의 진행정도를 가장 잘 나타낼 수 있는 특징값 추출이 필수적이다. 본 논문에서는 가장 유효한 특징값을 추출하기 위하여, 공간 영역과 주파수 영역에서 그 지역적 특징을 잘 나타내는 wavelet 변환을 적용한 후, 분할 된 서브 밴드 중 고대역 서브 밴드에서 질감 특징을 추출하고, 추출 된 질감 특징값들이 암의 진행 정도에 따른 각 집단간에 유의한 차이를 나타내는지에 대한 유의성을 검증하기 위하여, 다변량 통계학적 분석 방법을 사용하여 비교분석 하였다.

  • PDF

GIS-based Spatial Integration and Statistical Analysis using Multiple Geoscience Data Sets : A Case Study for Mineral Potential Mapping (다중 지구과학자료를 이용한 GIS 기반 공간통합과 통계량 분석 : 광물 부존 예상도 작성을 위한 사례 연구)

  • 이기원;박노욱;권병두;지광훈
    • Korean Journal of Remote Sensing
    • /
    • v.15 no.2
    • /
    • pp.91-105
    • /
    • 1999
  • Spatial data integration using multiple geo-based data sets has been regarded as one of the primary GIS application issues. As for this issue, several integration schemes have been developed as the perspectives of mathematical geology or geo-mathematics. However, research-based approaches for statistical/quantitative assessments between integrated layer and input layers are not fully considered yet. Related to this niche point, in this study, spatial data integration using multiple geoscientific data sets by known integration algorithms was primarily performed. For spatial integration by using raster-based GIS functionality, geological, geochemical, geophysical data sets, DEM-driven data sets and remotely sensed imagery data sets from the Ogdong area were utilized for geological thematic mapping related by mineral potential mapping. In addition, statistical/quantitative information extraction with respective to relationships among used data sets and/or between each data set and integrated layer was carried out, with the scope of multiple data fusion and schematic statistical assessment methodology. As for the spatial integration scheme, certainty factor (CF) estimation and principal component analysis (PCA) were applied. However, this study was not aimed at direct comparison of both methodologies; whereas, for the statistical/quantitative assessment between integrated layer and input layers, some statistical methodologies based on contingency table were focused. Especially, for the bias reduction, jackknife technique was also applied in PCA-based spatial integration. Through the statistic analyses with respect to the integration information in this case study, new information for relationships of integrated layer and input layers was extracted. In addition, influence effects of input data sets with respect to integrated layer were assessed. This kind of approach provides a decision-making information in the viewpoint of GIS and is also exploratory data analysis in conjunction with GIS and geoscientific application, especially handing spatial integration or data fusion with complex variable data sets.