• 제목/요약/키워드: PCA 분석

검색결과 1,048건 처리시간 0.033초

IRS-1C PAN 데이터와 Landsat TM 데이터의 PCA 중합화상을 이용한 토지이용 분류 정확도 분석 (An Analysis of the Landuse Classification Accuracy Using PCA Merged Images from IRS-1C PAN Data and Landsat TM Data)

  • 안기원;이효성;서두천;신석효
    • 대한공간정보학회지
    • /
    • 제7권1호
    • /
    • pp.87-95
    • /
    • 1999
  • 본 연구에서는 고 해상력의 IRS-1C PAN 데이터와 다중 관측파장대를 갖고 있는 Landsat TM 데이터를 PCA(principal component analysis) 기법으로 중합하고, 중합화상을 이용하여 토지이용분류를 수행, TM 원화상과 분류정확도를 비교 분석하고자 하였다. 분류결과를 평가하기 위해서 10개의 분류항목으로 구성된 sample data를 생성시켰으며, 생성된 sample data의 전체정확도(overall accuracy)로서 분류결과를 평가하였다. 그 결과 여러 밴드를 사용할 수 있다는 이점을 가진 PCA기법으로 Landsat TM 데이터와 IRS-1C PAN 데이터를 중합하여 토지이용분류를 수행할 경우, IRS-1C PAN데이터와 TM13457의 중합화상에서 95.1%로 분류정확도가 가장 높았으며, 특히 TM123457 또는 TM 13457의 중합화상의 경우 TM원화상보다 분류정확도가 가장 크게 향상(6.2%)되었다. 또한 토지이용분류에 있어서 중합칼라합성화상이 TM 원화상 보다 전체적으로 약 5.16%의 정확도 향상을 가져왔다.

  • PDF

센서 네트워크를 위한 PCA 기반의 데이터 스트림 감소 기법 (A PCA-based Data Stream Reduction Scheme for Sensor Networks)

  • 알렉산더 페도시브;최영환;황인준
    • 인터넷정보학회논문지
    • /
    • 제10권4호
    • /
    • pp.35-44
    • /
    • 2009
  • 데이터 스트림이란 새로운 개념과 기존의 단순 데이터 사이에 존재하는 개념적 차이를 극복하기 위해서는 많은 연구가 필요하다. 대표적인 예로써 센서 네크워크에서의 데이터 스트림 처리를 들 수 있는 데, 이를 위해서는 대역폭이나 에너지, 메모리와 같은 자원적 한계에서 부터 연속 질의를 포함하는 질의처리의 특수성까지 고려해야 할 대상이 광범위하다. 본 논문에서는 데이터 스트림 처리에서의 물리적 제약사항에 해당하는 한정된 메모리 문제를 해결하기 위해 PCA 기법을 기반으로 하는 데이터 스트림 축소 방안을 제안하다. PCA는 상호 관련된 다수의 변수들을 관련이 없는 적은 수의 변수로 변환해준다. 본 논문에서는 질의 처리 엔진의 협력을 가정하고서 센서 네크워크의 스트림 데이터 처리를 위해 PCA 기법을 적용하며, 다른 센서로부터 얻어진 많은 측정값 사이에 시공간적 관련성을 이용한다. 최종적으로 그러한 데이터 처리를 위한 프레임워크를 제시하고 다양한 실험을 통하여 기법의 성능을 분석한다.

  • PDF

Light-weight Classification Model for Android Malware through the Dimensional Reduction of API Call Sequence using PCA

  • Jeon, Dong-Ha;Lee, Soo-Jin
    • 한국컴퓨터정보학회논문지
    • /
    • 제27권11호
    • /
    • pp.123-130
    • /
    • 2022
  • 최근 API Call 정보를 기반으로 안드로이드 악성코드를 탐지 및 분류하는 연구가 활발하게 진행되고 있다. 그러나 API Call 기반의 악성코드 분류는 방대한 데이터 양과 높은 차원 특성으로 인해 악성코드 분석과 학습 모델 구축 과정에서 과도한 시간과 자원이 소모된다는 심각한 제한사항을 가진다. 이에 본 연구에서는 방대한 API Call 정보를 포함하고 있는 CICAndMal2020 데이터세트를 대상으로 PCA(Principal Component Analysis, 주성분분석)를 사용하여 차원을 대폭 축소시킨 후 LightGBM, Random Forest, k-Nearest Neighbors 등의 다양한 분류 기법 모델을 적용하여 결과를 분석하였다. 그 결과 PCA가 원본 데이터의 특성을 유지하면서 데이터 특성의 차원은 획기적으로 감소시키고 우수한 악성코드 분류 성능을 달성함을 확인하였다. 이진분류 및 다중분류 모두 데이터 특성을 전체 크기의 1% 수준 이하로 줄이더라도 이전 연구 결과보다 높은 수준의 정확도를 나타내었다.

계층적 벌점함수를 이용한 주성분분석 (Hierarchically penalized sparse principal component analysis)

  • 강종경;박재신;방성완
    • 응용통계연구
    • /
    • 제30권1호
    • /
    • pp.135-145
    • /
    • 2017
  • 주성분 분석(principal component analysis; PCA)은 서로 상관되어 있는 다변량 자료의 차원을 축소하는 대표적인 기법으로 많은 다변량 분석에서 활용되고 있다. 하지만 주성분은 모든 변수들의 선형결합으로 이루어지므로, 그 결과의 해석이 어렵다는 한계가 있다. sparse PCA(SPCA) 방법은 elastic net 형태의 벌점함수를 이용하여 보다 성긴(sparse) 적재를 가진 수정된 주성분을 만들어주지만, 변수들의 그룹구조를 이용하지 못한다는 한계가 있다. 이에 본 연구에서는 기존 SPCA를 개선하여, 자료가 그룹화되어 있는 경우에 유의한 그룹을 선택함과 동시에 그룹 내 불필요한 변수를 제거할 수 있는 새로운 주성분 분석 방법을 제시하고자 한다. 그룹과 그룹 내 변수 구조를 모형 적합에 이용하기 위하여, sparse 주성분 분석에서의 elastic net 벌점함수 대신에 계층적 벌점함수 형태를 고려하였다. 또한 실제 자료의 분석을 통해 제안 방법의 성능 및 유용성을 입증하였다.

주성분 분석의 안전한 다자간 계산 (Secure Multiparty Computation of Principal Component Analysis)

  • 김상필;이상훈;길명선;문양세;원희선
    • 정보과학회 논문지
    • /
    • 제42권7호
    • /
    • pp.919-928
    • /
    • 2015
  • 최근 대용량 데이터 대상의 프라이버시 보호 데이터 마이닝(privacy-preserving data mining: PPDM)이 활발히 연구되고 있다. 본 논문에서는 민감한 데이터 집합의 상관관계를 파악하는데 널리 사용되는 주성분 분석 기반의 PPDM을 다룬다. 일반적으로 주성분 분석은 모든 데이터를 한 곳에 모아 처리해야 하므로 민감한 데이터가 서로에게 공개되고, 상당한 계산량을 요구하며, 또한 데이터를 모으는 과정에서 많은 통신 오버헤드가 발생한다. 이러한 문제를 해결하기 위하여 본 논문은 데이터를 한 곳에 모으지 않고도 주성분 분석을 안전하게 계산하는 효율적인 방법을 제안한다. 제안하는 방법은 노드들 간에 한정된 정보만을 공유하면서도 원래의 주성분 분석 결과와 동일한 결과를 얻을 수 있다. 또한 안전한 주성분 분석에 저차원 변환을 적용하여 안전한 유사 문서 검색에 사용한다. 마지막으로 다양한 실험을 통해 제안한 방법이 대용량의 다차원 데이터에서 효율적으로 동작함을 확인한다.

점진적인 주성분분석기법을 이용한 고차원 자료의 특징 추출 (Feature Extraction on High Dimensional Data Using Incremental PCA)

  • 김병주
    • 한국정보통신학회논문지
    • /
    • 제8권7호
    • /
    • pp.1475-1479
    • /
    • 2004
  • 고차원 자료를 효율적으로 처리하기 위해서는 특징 추출 기법이 필요하다. 주성분분석 방법은 대표적인 특징추출 방법이지만 학습 자료의 차원이 큰 경우에는 고유공간을 계산하기 위해 많은 기억공간과 계산량을 필요로 한다. 본 논문에서는 고차원 자료의 특징 추출을 위해 점진적인 주성분분석 방법을 사용한다. 제안한 방법에 대해 신경망에서 점진적인 주성분분석을 하는 대표적인 방법인 APEX모델과 실험을 통해 비교해 본 결과 제안된 방법이 APEX 모델 보다 성능이 우수함을 나타내었다.

FT-IR 스펙트럼 데이터 기반 다변량통계분석기법을 이용한 아티초크의 대사체 수준 품종 분류 (Establishment of discrimination system using multivariate analysis of FT-IR spectroscopy data from different species of artichoke (Cynara cardunculus var. scolymus L.))

  • 김천환;성기철;정영빈;임찬규;문두경;송승엽
    • 원예과학기술지
    • /
    • 제34권2호
    • /
    • pp.324-330
    • /
    • 2016
  • 본 연구는 FT-IR 스펙트럼 데이터를 기반한 다변량통계분석을 이용한 대사체 수준에서 아티초크(Cynara cardunculus var. scolymus L.) 품종 구분하였다. FT-IR 스펙트럼 데이터로부터 PCA(principal component analysis), PLS-DA(partial least square discriminant analysis) 그리고 HCA(hierarchical clustering analysis) 분석을 실시하였다. 아티초크 품종들은 1700-1500, 1500-1300, $1100-950cm^{-1}$ 부위에서 대사체의 양적, 질적 패턴 변화가 FT-IR 스펙트럼상에서 나타났다. FT-IR 스펙트럼의 $1700-1500cm^{-1}$ 부위는 주로 Amide I 과 II을 포함하는 아미노산 및 단백질계열의 화합물들의 질적, 양적 정보를 나타내고, $1700-1300cm^{-1}$ 부위는 phosphodiester group을 포함한 핵산 및 인지질의 정보가 반영이 되고, $1100-950cm^{-1}$ 부위는 단당류나 복합 다당류를 포함하는 carbohydrates 계열의 화합물들이 질적, 양적 정보가 반영되는 부위이다. PCA 상에 나타난 10품종의 아티초크들은 품종간에 중첩이 많이 이뤄지는 모습을 나타냈다. 아티초크 10개의 품종 중에서 'Cardoon'과 'Green Globe'가 계통분류학적으로 유연관계가 낮고, 서로간에 대사체 수준의 차이가 뚜렷하게 나타나는 것으로 보아 대사체 수준에서 마커 탐색에 가장 중요한 품종으로 작용할 것으로 판단된다. PLS-DA 분석의 경우 PCA 분석 보다 아티초크의 종간 식별이 뚜렷하게 나타났다. 따라서 본 연구에서 확립된 대사체 수준에서 아티초크의 품종 식별 기술은 품종, 계통의 신속한 선발 수단으로 활용이 가능할 것으로 기대되며 육종을 통한 품종개발 가속화에 기여 할 수 있을 것으로 예상된다.

PCA와 Sammon Mapping 분석을 통한 센서 어레이 패턴들의 실시간 가시화 방법 (Real-Time Visualization Techniques for Sensor Array Patterns Using PCA and Sammon Mapping Analysis)

  • 변형기;최장식
    • 센서학회지
    • /
    • 제23권2호
    • /
    • pp.99-104
    • /
    • 2014
  • Sensor arrays based on chemical sensors produce multidimensional patterns of data that may be used discriminate between different chemicals. For the human observer, visualization of multidimensional data is difficult, since the eye and brain process visual information in two or three dimensions. To devise a simple means of data inspection from the response of sensor arrays, PCA (Principal Component Analysis) or Sammon's nonlinear mapping technique can be applied. The PCA, which is a well-known statistical method and widely used in data analysis, has disadvantages including data distortion and the axes for plotting the dimensionally reduced data have no physical meaning in terms of how different one cluster is from another. In this paper, we have investigated two techniques and proposed a combination technique of PCA and nonlinear Sammom mapping for visualization of multidimensional patterns to two dimensions using data sets from odor sensing system. We conclude the combination technique has shown more advantages comparing with the PCA and Sammon nonlinear technique individually.

특징 강화 기법과 학습 데이터 길이 조절에 의한 Supervector Linear Kernel SVM 화자식별 개선 (Improvement in Supervector Linear Kernel SVM for Speaker Identification Using Feature Enhancement and Training Length Adjustment)

  • 소병민;김경화;김민석;양일호;김명재;유하진
    • 한국음향학회지
    • /
    • 제30권6호
    • /
    • pp.330-336
    • /
    • 2011
  • 본 논문에서는 supervector linear kernel SVM을 사용한 화자식별 시스템의 성능을 개선하는 방법을 제안하였다. 제안한 방법은 긴 학습 데이터를 여러 개의 짧은 학습 데이터로 분할하는 것을 기본 아이디어로 하고 있다. 제안한 방법의 성능을 평가하기 위해 서로 다른 4가지 데이터베이스에 PCA, GKPCA, KMDA를 사용하여 특징 강화를 하고 실험한 뒤 결과를 분석하였다. 실험 결과 제안한 방법이 supervector linear kernel SVM을 사용한 화자 식별 성능을 향상 시키는 것을 확인하였다.

Utilizing UPCA and SPCA in Unsupervised Classification Using Landsat TM data

  • Lee, Byung-Gul;Kang, In-Joon
    • 한국측량학회:학술대회논문집
    • /
    • 한국측량학회 2003년도 춘계학술발표회 논문집
    • /
    • pp.167-170
    • /
    • 2003
  • 본 연구는 무감독영상해석(Unsupervised Classification)에서 주성분 분석법(Principal Component Analysis)의 응용성을 연구하기 위하여, 주성분 분석법을 K-means, ISODATA 두가지 무감독분류법에 적용하였다. 적용대상지역은 제주도이다. 본 연구에서 주성분 분석 방법중에서 비정규형 주성분 분석방법 (Unstandardized PCA)과 정규형 주성분 분석방법(Standardized PCA) 두가지 경우로 나누어서 각각 연구하였다. 이를 위하여 제주도의 Landsat TM영상과 국토연구원에서 조사한 제주도 식생분류 조사자료와 현장조사 자료 그리고 1/25,000 수치지도를 이용하였다. 그리고 분석된 자료의 정확도를 평가하기 위하여 오차행렬(Error Matrix)을 도입하여 계산하였다. 우선 비정규형 주성분 분석법으로 구한 주성분 영상과 Landsat TM 원래 영상을 오차행렬을 이용하여 제주도의 식생 분류에 각각 적용하였다. 그 결과, K-means 무감독분류법에서는 Landsat TM 자료를 직접 이용한 경우에는 바다와 육상의 분류가 잘 되지 않았으며, 또한 전반적인 영상분류결과가 관측치와 많은 차이를 보였다. 그러나, 주성분 분석법으로 계산된 주성분 영상으로 K-means방법으로 분류 한 결과는 관측치와 잘 일치를 하였다. ISODATA의 경우, Landsat TM 원래영상을 계산하면, K-means으로 분류한 결과보다는 좋은 값을 나타냈으나, 주성분 분석법으로 구한 영상의 계산결과와 비교하면, 주성분 영상으로 구한 분류결과의 정확도가 약 15%정도 높게 나타났다. 정규형 주성분 분석법의 경우를 보면 K-means에서는 Landsat TM원래 자료보다 우수한 결과를 보여주었으나, 비정규형 주성분 분석법으로 계산된 결과보다는 정확도가 다소 떨어지는 단점이 있었고, ISODATA의 경우도 Landsat TM원래 자료보다 약 7%정도의 높은 정확도를 보였으나, 비정규형 영상보다는 약8%정도 낮은 정확도를 보였다. 본 연구에서 주성분 분석법으로 계산된 결과에서 주목되는 것은, 주성분 분석법으로 구한 주성분 영상은 분류방법(K-means, ISODATA, artificial neural networks)에 따라 분류된 결과값이 비슷하게 나타난 반면, Landsat TM원래 자료는 분류방법에 따라 결과값이 많은 차이를 보여 주었다. 그리고 주성분 분석 방법 중에서도 비정규형 주성분 분석법(Unstandardized PCA)이 정규형 주성분 분석법(Standardized PCA)보다 영상분석에서 더 좋은 결과를 보여주는 것으로 나타났다.

  • PDF