• 제목/요약/키워드: Principal component Analysis

검색결과 2,520건 처리시간 0.034초

Analyzing Exon Structure with PCA and ICA of Short-Time Fourier Transform

  • Hwang Changha;Sohn Insuk
    • 한국통계학회:학술대회논문집
    • /
    • 한국통계학회 2004년도 학술발표논문집
    • /
    • pp.79-84
    • /
    • 2004
  • We use principal component analysis (PCA) to identify exons of a gene and further analyze their internal structures. The PCA is conducted on the short-time Fourier transform (STFT) based on the 64 codon sequences and the 4 nucleotide sequences. By comparing to independent component analysis (ICA), we can differentiate between the exon and intron regions, and how they are correlated in terms of the square magnitudes of STFTs. The experiment is done on the gene F56F11.4 in the chromosome III of C. elegans. For this data, the nucleotide based PCA identifies the exon and intron regions clearly. The codon based PCA reveals a weak internal structure in some exon regions, but not the others. The result of ICA shows that the nucleotides thymine (T) and guanine (G) have almost all the information of the exon and intron regions for this data. We hypothesize the existence of complex exon structures that deserve more detailed analysis.

  • PDF

AANN-기반 센서 고장 검출 기법의 센서 네트워크에의 적용 (Application of Sensor Fault Detection Scheme Based on AANN to Sensor Network)

  • 이영삼;김성호
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2006년 학술대회 논문집 정보 및 제어부문
    • /
    • pp.229-231
    • /
    • 2006
  • NLPCA(Nonlinear Principal Component Analysis) is a novel technique for multivariate data analysis, similar to the well-known method of principal component analysis. NLPCA operates by a feedforward neural network called AANN(Auto Associative Neural Network) which performs the identity mapping. In this work, a sensor fault detection system based on NLPCA is presented. To verify its applicability, simulation study on the data supplied from sensor network is executed.

  • PDF

주성분회귀(主成分回歸)에서의 민감도분석(敏感度分析) : 수치적(數値的) 연구(硏究) (Sensitivity Analysis in Principal Component Regression : Numerical Investigation)

  • 신재경
    • Journal of the Korean Data and Information Science Society
    • /
    • 제2권
    • /
    • pp.1-9
    • /
    • 1991
  • Shin, Tarumi and Tanaka(1989) discussed a method of sensitivity analysis in principal component regression(PCR) based on an influence function derived by Tanaka(1988). The present paper is its continuation. In this paper we first consider two new influence measures, then apply the proposed method to various data sets and discuss some properties of sensitivity analysis in PCR.

  • PDF

PDSI와 범지구적 해수면온도와의 저빈도 상관성 분석 (Low Frequency Relationship Analysis between PDSI and Global Sea Surface Temperature)

  • 오태석;김성실;문영일
    • 한국방재학회 논문집
    • /
    • 제10권3호
    • /
    • pp.119-131
    • /
    • 2010
  • 가뭄은 인간이 극복하기 힘든 자연재해로서 가뭄지역의 경제를 어렵게 할 뿐 아니라 생태계까지 파괴하기 때문에 전 세계적으로 가장 두려워하는 관심 재해 중 하나이다. 따라서 본 연구에서는 대표적인 가뭄지수인 팔머가뭄지수와 범지구적 해수면 온도의 상관관계를 분석하였다. 먼저 팔머가뭄지수를 산정하여 과거 가뭄발생연도와 비교분석을 실시하였다. 비교분석을 결과 대부분의 과거 가뭄사상과 지수가 일치하는 것으로 분석되었다. 상관성 분석을 위해 팔머가뭄지수 산정을 위한 지수인 강수자료와 온도자료를 월평균강수량과 월평균온도 자료로 산정하여 군집분석을 실시하였다. 우리나라 기상청관할에 있는 61개 지점을 선정하여 월평균강우량과 월평균온도 자료로 군집분석결과 총 6개의 군집을 형성하는 것으로 분석되었다. 또한, 군집분석결과와 팔머가뭄지수의 주성분 분석을 실시하였다. 주성분 분석을 통해 전체 자료의 분산을 80% 이상 설명할 수 있는 14개의 시계열 자료를 추출하였다. 추출된 팔머가뭄지수의 주요 성분과 범지구적 해수면 온도와의 상관성 분석결과 팔머가뭄지수는 양의 상관관계가 음의 상관관계보다 큰 것으로 분석되었으며, 태평양에서 관측되는 해수면 온도와 통계적으로 유의한 상관관계를 갖는 해수면 온도 구역을 확인할 수 있었다. 이를 통해 해수면 온도를 이용하여 우리나라에 발생할 수 있는 가뭄의 예측 가능성을 제시하였다.

무주지역 수질특성자료의 통계학적 분석에 의한 소유역 구분 (Watershed Classification Using Statistical Analysis of water Quality Data from Muju area)

  • 한원식;우남칠;이기철;이광식
    • 한국지하수토양환경학회지:지하수토양환경
    • /
    • 제7권3호
    • /
    • pp.19-32
    • /
    • 2002
  • 본 연구는 무주군 적상산 부근에 위치하는 소유역에서 지표수의 수질과 인접한 천층지하수 수질사이의 관계 및 지질매체와 오염원의 유입에 의한 계절적인 변동을 규명하기 위하여 수행되었다. 8월과 10월 두 차례의 조사결과 이곳 지표수와 지하수 수질은 Ca-$HCO_3$유형이 주를 이루고 있었으며 인근 광산부근에서는 중금속에 의한 오염이 나타나고 있었다. 10월 조사시에 인가가 밀집한 지역에서는 질산성 질소의 의한 오염 또한 높게 나타나는 특징을 보이고 있다. 이러한 자료를 토대로 군집분석(Cluster Analysis)과 주성분 분석(Principal Component Analysis)을 실시하였으며, 군집분석결과 지표수는 5개의 그룹으로 구분되었고 지하수는 3개의 그룹으로 구분되었다. 주성분분석 결과는 군집분석 시에 나타난 결과를 효과적으로 지지하고 있으며 (1)지질매체의 수리지화학적 반응, (2)오염물질의 유입 (3) 인근광산에 의한 중금속 오염이 복합적으로 반응하여 나타난 결과로 해석된다.

Wavelet 압축 영상에서 PCA를 이용한 얼굴 인식률 비교 (Face recognition rate comparison using Principal Component Analysis in Wavelet compression image)

  • 박장한;남궁재찬
    • 전자공학회논문지CI
    • /
    • 제41권5호
    • /
    • pp.33-40
    • /
    • 2004
  • 본 논문에서는 웨이블릿 압축을 이용하여 얼굴 데이터베이스를 구축하고, 주성분 분석(Principal Component Analysis : PCA) 알고리듬을 이용하여 얼굴 인식률을 비교한다. 일반적인 얼굴인식 방법은 정규화된 크기를 이용하여 데이터베이스를 구축하고, 얼굴 인식을 한다. 제안된 방법은 정규화된 크기(92×112)의 영상을 웨이블릿 압축으로 1단계, 2단계, 3단계로 변환하고 데이터베이스를 구축한다. 입력 영상도 웨이블릿으로 압축하고 PCA 알고리듬으로 얼굴인식 실험을 하였다 실험을 통하여 제안된 방법은 기존 얼굴영상의 정보를 축소할 뿐만 아니라 처리속도도 향상되었다. 또한 제안된 방법은 원본 영상이 99.05%, 1단계 99.05%, 2단계 98.93%, 3단계 98.54% 정도의 인식률을 보였으며, 대량의 얼굴 데이터베이스를 구축하여 얼굴인식을 하는데 가능함을 보였다.

주성분 분석법을 이용한 시군단위별 농업가뭄에 대한 취약성 분석에 관한 연구 - 경기도를 중심으로 - (County-Based Vulnerability Evaluation to Agricultural Drought Using Principal Component Analysis - The case of Gyeonggi-do -)

  • 장민원
    • 농촌계획
    • /
    • 제12권1호
    • /
    • pp.37-48
    • /
    • 2006
  • The objectives of this study were to develop an evaluation method of regional vulnerability to agricultural drought and to classify the vulnerability patterns. In order to test the method, 24 city or county areas of Gyeonggi-do were chose. First, statistic data and digital maps referred for agricultural drought were defined, and the input data of 31 items were set up from 5 categories: land use factor, water resource factor, climate factor, topographic and soil factor, and agricultural production foundation factor. Second, for simplification of the factors, principal component analysis was carried out, and eventually 4 principal components which explain about 80.8% of total variance were extracted. Each of the principal components was explained into the vulnerability components of scale factor, geographical factor, weather factor and agricultural production foundation factor. Next, DVIP (Drought Vulnerability Index for Paddy), was calculated using factor scores from principal components. Last, by means of statistical cluster analysis on the DVIP, the study area was classified as 5 patterns from A to E. The cluster A corresponds to the area where the agricultural industry is insignificant and the agricultural foundation is little equipped, and the cluster B includes typical agricultural areas where the cultivation areas are large but irrigation facilities are still insufficient. As for the cluster C, the corresponding areas are vulnerable to the climate change, and the D cluster applies to the area with extensive forests and high elevation farmlands. The last cluster I indicates the areas where the farmlands are small but most of them are irrigated as much.

주성분 분석을 이용한 빅데이터 분석 (Big Data Analysis Using Principal Component Analysis)

  • 이승주
    • 한국지능시스템학회논문지
    • /
    • 제25권6호
    • /
    • pp.592-599
    • /
    • 2015
  • 빅 데이터 환경에서 빅데이터를 분석하기 위한 새로운 방법의 필요성이 대두되고 있다. 데이터의 크기, 다양성, 그리고 적재 속도 등의 빅데이터 특성으로 인해 모집단의 추론에서 전체 데이터의 분석이 가능해졌기 때문이다. 그러나 전통적인 통계분석 방법은 모집단으로부터 추출된 확률표본에 초점이 맞추어져 있다. 따라서 기존의 통계적 접근방법은 빅데이터 분석에 적합하지 않은 경우가 발생한다. 이와 같은 문제점을 해결하기 위하여 본 논문에서는 빅데이터분석을 위한 새로운 접근방법에 대하여 제안하였다. 특히 대표적인 다변량 통계분석 기법인 주성분 분석을 이용하여 효율적인 빅데이터분석을 위한 방법론을 연구하였다. 제안방법의 성능평가를 위하여 통계적 모의실험을 실시하였다.

Assessment of Water Quality using Multivariate Statistical Techniques: A Case Study of the Nakdong River Basin, Korea

  • Park, Seongmook;Kazama, Futaba;Lee, Shunhwa
    • Environmental Engineering Research
    • /
    • 제19권3호
    • /
    • pp.197-203
    • /
    • 2014
  • This study estimated spatial and seasonal variation of water quality to understand characteristics of Nakdong river basin, Korea. All together 11 parameters (discharge, water temperature, dissolved oxygen, 5-day biochemical oxygen demand, chemical oxygen demand, pH, suspended solids, electrical conductivity, total nitrogen, total phosphorus, and total organic carbon) at 22 different sites for the period of 2003-2011 were analyzed using multivariate statistical techniques (cluster analysis, principal component analysis and factor analysis). Hierarchical cluster analysis grouped whole river basin into three zones, i.e., relatively less polluted (LP), medium polluted (MP) and highly polluted (HP) based on similarity of water quality characteristics. The results of factor analysis/principal component analysis explained up to 83.0%, 81.7% and 82.7% of total variance in water quality data of LP, MP, and HP zones, respectively. The rotated components of PCA obtained from factor analysis indicate that the parameters responsible for water quality variations were mainly related to discharge and total pollution loads (non-point pollution source) in LP, MP and HP areas; organic and nutrient pollution in LP and HP zones; and temperature, DO and TN in LP zone. This study demonstrates the usefulness of multivariate statistical techniques for analysis and interpretation of multi-parameter, multi-location and multi-year data sets.

RBF 뉴럴네트워크를 사용한 바이오매스 에너지문제의 계량적 분석 (Quantitative Analysis for Biomass Energy Problem Using a Radial Basis Function Neural Network)

  • 백승현;황승준
    • 산업경영시스템학회지
    • /
    • 제36권4호
    • /
    • pp.59-63
    • /
    • 2013
  • In biomass gasification, efficiency of energy quantification is a difficult part without finishing the process. In this article, a radial basis function neural network (RBFN) is proposed to predict biomass efficiency before gasification. RBFN will be compared with a principal component regression (PCR) and a multilayer perceptron neural network (MLPN). Due to the high dimensionality of data, principal component transform is first used in PCR and afterwards, ordinary regression is applied to selected principal components for modeling. Multilayer perceptron neural network (MLPN) is also used without any preprocessing. For this research, 3 wood samples and 3 other feedstock are used and they are near infrared (NIR) spectrum data with high-dimensionality. Ash and char are used as response variables. The comparison results of two responses will be shown.