• 제목/요약/키워드: 차원 축소

검색결과 669건 처리시간 0.029초

부분-수량화를 통한 시계열 자료 분석에서의 차원축소 (Dimension Reduction in Time Series via Partially Quanti ed Principal Componen)

  • 박진아;황선영
    • 응용통계연구
    • /
    • 제23권5호
    • /
    • pp.813-822
    • /
    • 2010
  • 차원 축소(dimension reduction) 기법은 주로 횡단면 자료 분석에서 널리 이용되어 왔으며 시계열 분석 분야에서의 적용은 상대적으로 미진한 실정이다. 본 논문에서는 부분-수량화를 통한 주성분분석 방법을 계절형 시계열에 적용시켜 시계열 자료의 차원 축소를 시도하고자 한다. 분석 방법론을 단계별로 제시하였으며 월별 실업률 자료 분석을 통해 설명하였다.

부분 최소제곱법 기반한 차원 축소 특징을 이용한 얼굴 인식 (Face Recognition using Dimension Reduction Features based on Partial Least Squares)

  • 이창범;김도향;박혁로;백장선
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2004년도 춘계학술발표대회
    • /
    • pp.745-748
    • /
    • 2004
  • 얼굴 이미지의 대부분은 표본의 수보다 특징 변수의 수가 많기 때문에 이러한 점을 고려한 특징 추출 방법이 필요하다. 본 논문에서는 부분 최소제곱법을 이용하여 특징 벡터의 차원을 축소하는 방법을 제안한다. 전통적인 차원 축소 방법인 주성분 분석은 클래스의 정보를 고려하지 않고 최대 변이를 가지는 성분을 추출하기 때문에, 클래스의 구분에 필요한 특징을 필수적으로 추출하지 못한다. 이에 비해, 부분 최소제곱법은 클래스 변수에 대한 정보를 포함하여 성분을 추출한다. 그러므로, 분류를 하는데 있어서는 주성분 분석에 의해 추출된 성분보다는 부분 최소제곱법에 의해 추출된 성분이 보다 더 예측적이다. 맨체스터와 ORL 얼굴 데이터베이스를 이용하여 실험한 결과, 분류와 차원 축소 측면에서 주성분 분석 방법보다는 부분 최소제곱법을 이용한 방법이 그 성능이 우수함을 알 수 있었다.

  • PDF

주성분 분석을 활용한 안드로이드 악성코드 분류 성능 향상 방안 (Performance Enhancement of Android Malware Classification using PCA)

  • 전동하;이수진
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2022년도 제66차 하계학술대회논문집 30권2호
    • /
    • pp.249-250
    • /
    • 2022
  • 최근 API Call을 기반으로 하는 악성코드 탐지 및 분류에 대한 연구가 활발히 진행되고 있다. 그러나 API Call 기반의 데이터는 방대한 양과 다양한 차원의 특성으로 인해 분석과 학습 모델 구축 측면에서 비효율적인 한계가 있다. 이에 본 연구에서는 방대한 API Call 정보를 포함하고 있는 CICAndMal2020 데이터 세트를 대상으로 기존의 특성 선택 기법이 아닌 주성분 분석(Principal Component Analysis)을 사용하여 차원을 대폭 축소 시킨 후 머신러닝 기법을 적용하여 분류를 시도하였다. 실험 결과 전체 9,503개의 특성을 25개의 주성분(전체 대비 약 0.26% 수준)으로 축소시키고 다중 분류 기준 약 84%의 정확도를 나타냈다. 결과적으로 기존 연구에서의 탐지 모델 대비 정확도, F1-score 등의 성능 향상은 물론 차원 축소 측면에서 매우 향상된 결과를 달성하였다.

  • PDF

점진적 주성분 분석을 이용한 시계열 유전자 발현 데이터의 효율적인 차원 축소 (Dimension Reduction in Time-series Gene Expression Data using incremental PCA)

  • 김선희;김만선;양형정
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2007년도 추계학술발표대회
    • /
    • pp.733-736
    • /
    • 2007
  • 최근 생명 공학 기술의 발달로 마이크로 단위의 실험이 가능해지고 하나의 칩상에 수 만개의 유전자들의 발현 양상을 보다 쉽게 관찰할 수 있게 되었다. DNA 칩 기술에 의해 얻어지는 마이크로어레이(microarray) 데이터는 세포나 조직 내의 유전자 발현도(expression level)를 측정한 것으로 질병 진단이나 유전자 기능 예측 등에 이용되고 있다. 본 논문에서는 대량의 시계열 마이크로어레이 데이터 분석을 위해 효율적으로 데이터의 차원을 판단하는 점진적 주성분 분석을 이용하여 데이터의 차원을 축소 한다. 제안된 방법은 실제 시계열 마이크로어레이 데이터인 yeast cell cycle 데이터에 적용되었고, 데이터 차원 축소에 대한 효율성을 검증하기 위해 클러스터링을 수행하였다. 그 결과 데이터를 축소하여 클러스터링을 수행한 경우 학습 성능이 향상 된 결과를 보였다.

경계면 축소포장에 기반 한 비정렬 3차원 측정 점으로부터의 표면 재구성 (Shrink-Wrapped Boundary Face Algorithm for Surface Reconstruction from Unorganized 3D Points)

  • 박은진;최영규;이재협;구본기;추창우;김재철
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 가을 학술발표논문집 Vol.31 No.2 (2)
    • /
    • pp.628-630
    • /
    • 2004
  • 정렬되지 않은 3차원 측정 점들로부터 이들을 근사하는 표면을 재구성하는 방법을 제안하였다. 제안된 방법은 경계면 축소포장 방식에 의한 표면 재구성 방법 (shrink-wrapped boundary face : SWBF)으로, 측정 점으로부터 경계셀과 경계면을 구해 초기 메쉬를 생성하고 이를 연속적으로 축소하는 방식에 의해 표면을 재구성한다 제안된 방법은 기존의 표면 축소포장 방식의 메쉬 생성 방법의 문제점인 물체의 토폴로지에 대한 제악이 없이 어떠한 형태의 표면 재구성에도 적용이 가능하며, 기존 방법이 축소 단계에서 각 메쉬 정점에 대한 최단거리 측정점을 찾는 전역 탐색을 해야 하는데 비해 지역 탐색만으로 최적의 측정 점을 찾을 수 있으므로 처리 시간 측면에서도 우월하다. 실험을 통해 제안된 표면 재구성 알고리즘이 측정 점들간의 관계를 알 수 없는 정렬되지 않은 3차원 정들에 대한 표면 재구성에 매우 안정적이고 효과적임을 확인할 수 있었다.

  • PDF

다차원 데이터의 군집분석을 위한 차원축소 방법: 주성분분석 및 요인분석 비교 (A dimensional reduction method in cluster analysis for multidimensional data: principal component analysis and factor analysis comparison)

  • 홍준호;오민지;조용빈;이경희;조완섭
    • 한국빅데이터학회지
    • /
    • 제5권2호
    • /
    • pp.135-143
    • /
    • 2020
  • 본 논문은 농식품 소비자패널 데이터에서 소비자의 유형을 나눌 때에 변수간 연관성이 많은 장바구니 분석에서 전처리 방법과 차원축소의 방법을 제안한다. 군집분석은 다변량 자료에서 관측 개체를 몇 개의 군집으로 나눌 때 널리 사용되는 분석기법이다. 하지만 여러 개의 변수가 연관성을 가진 경우에는 차원축소를 통한 군집분석이 더 효과적일 수 있다. 본 논문은 1,987 가구를 대상으로 조사한 식품소비 데이터를 K-means 방법을 사용하여 군집화하였으며, 군집을 나누기 위해 17개의 변수를 선정하였고, 17개의 다중공선성 문제와 군집을 나누기 위한 차원축소의 방법 중 주성분 분석과 요인분석을 비교하였다. 본 연구에서는 주성분분석과 요인분석 모두 2개의 차원으로 축소하였으며 주성분분석에서는 3개의 군집으로 나뉘었지만 분석하고자 하였던 소비 패턴에 대한 군집의 특성이 잘 나타나지 않았으며 요인분석에서는 분석가가 보고자 하는 소비 패턴의 특징이 잘 나타났다.

CNN 기반 초분광 영상 분류를 위한 PCA 차원축소의 영향 분석 (The Impact of the PCA Dimensionality Reduction for CNN based Hyperspectral Image Classification)

  • 곽태홍;송아람;김용일
    • 대한원격탐사학회지
    • /
    • 제35권6_1호
    • /
    • pp.959-971
    • /
    • 2019
  • 대표적인 딥러닝(deep learning) 기법 중 하나인 Convolutional Neural Network(CNN)은 고수준의 공간-분광 특징을 추출할 수 있어 초분광 영상 분류(Hyperspectral Image Classification)에 적용하는 연구가 활발히 진행되고 있다. 그러나 초분광 영상은 높은 분광 차원이 학습 과정의 시간과 복잡도를 증가시킨다는 문제가 있어 이를 해결하기 위해 기존 딥러닝 기반 초분광 영상 분류 연구들에서는 차원축소의 목적으로 Principal Component Analysis (PCA)를 적용한 바 있다. PCA는 데이터를 독립적인 주성분의 축으로 변환시킬 수 있어 분광 차원을 효율적으로 압축할 수 있으나, 분광 정보의 손실을 초래할 수 있다. PCA의 사용 유무가 CNN 학습의 정확도와 시간에 영향을 미치는 것은 분명하지만 이를 분석한 연구가 부족하다. 본 연구의 목적은 PCA를 통한 분광 차원축소가 CNN에 미치는 영향을 정량적으로 분석하여 효율적인 초분광 영상 분류를 위한 적절한 PCA의 적용 방법을 제안하는 데에 있다. 이를 위해 PCA를 적용하여 초분광 영상을 축소시켰으며, 축소된 차원의 크기를 바꿔가며 CNN 모델에 적용하였다. 또한, 모델 내의 컨볼루션(convolution) 연산 방식에 따른 PCA의 민감도를 분석하기 위해 2D-CNN과 3D-CNN을 적용하여 비교 분석하였다. 실험결과는 분류정확도, 학습시간, 분산 비율, 학습 과정을 통해 분석되었다. 축소된 차원의 크기가 분산 비율이 99.7~8%인 주성분 개수일 때 가장 효율적이었으며, 3차원 커널 경우 2D-CNN과는 다르게 원 영상의 분류정확도가 PCA-CNN보다 더 높았으며, 이를 통해 PCA의 차원축소 효과가 3차원 커널에서 상대적으로 적은 것을 알 수 있었다.

시계열 데이터에 대한 클러스터링 성능 분석: Wavelet과 Autoencoder 비교 (Clustering Performance Analysis for Time Series Data: Wavelet vs. Autoencoder)

  • 황우성;임효상
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2018년도 추계학술발표대회
    • /
    • pp.585-588
    • /
    • 2018
  • 시계열 데이터의 특징을 추출하여 분석하는 과정에서 시게열 데이터가 가지는 고차원성은 차원의 저주(Course of Dimensionality)로 인해 데이터내의 유효한 정보를 찾는데 어려움을 만든다. 이러한 문제를 해결하기 위해 차원 축소 기법(dimensionality reduction)이 널리 사용되고 있지만, 축소 과정에서 발생하는 정보의 희석으로 인하여 시계열 데이터에 대한 군집화(clustering)등을 수행하는데 있어서 성능의 변화를 가져온다. 본 논문은 이러한 현상을 관찰하기 위해 이산 웨이블릿 변환(Discrete Wavelet Transform:DWT)과 오토 인코더(AutoEncoder)를 차원 축소 기법으로 활용하여 시계열 데이터의 차원을 압축 한 뒤, 압축된 데이터를 K-평균(K-means) 알고리즘에 적용하여 군집화의 효율성을 비교하였다. 성능 비교 결과, DWT는 압축된 차원수 그리고 오토인코더는 시계열 데이터에 대한 충분한 학습이 각각 보장된다면 좋은 군집화 성능을 보이는 것을 확인하였다.

다변량회귀 조건부 평균모형에 대한 최적 차원축소 방법에서 차원수가 결과에 미치는 영향 (Effect of Dimension in Optimal Dimension Reduction Estimation for Conditional Mean Multivariate Regression)

  • 서은경;박종선
    • Communications for Statistical Applications and Methods
    • /
    • 제19권1호
    • /
    • pp.107-115
    • /
    • 2012
  • 본 논문에서는 Yoo와 Cook (2007)에 의하여 제시된 다변량 회귀의 조건부 평균에 대한 최소 불일치 함수 접근법을 통한 최적 차원축소 부분공간의 추정에서 차원의 수가 추정된 선형결합들과 설명력 등에 어떤 영향을 미치는 지를 시뮬레이션 자료를 통하여 알아보았다. 그 결과 추정에 사용된 차원수에 따른 여러 결과들을 차원결정을 위한 검정과 함께 활용하면 모형에 필요한 차원수를 탐색하는데 매우 효과적임을 알 수 있었다.

확률적 reduced K-means 군집분석 (Probabilistic reduced K-means cluster analysis)

  • 이승훈;송주원
    • 응용통계연구
    • /
    • 제34권6호
    • /
    • pp.905-922
    • /
    • 2021
  • 라벨 없이 진행되는 비지도 학습 중 하나인 군집분석은 자료에 어떤 그룹이 내포되어 있는지 사전 지식이 없을 경우에 군집을 발굴하고, 군집 간의 특성 차이와 군집 안에서의 유사성을 분석하고자 할 때 유용한 방법이다. 기본적인 군집분석 중 하나인 K-means 방법은 변수의 개수가 많아질 때 잘 동작하지 않을 수 있으며, 군집에 대한 해석도 쉽지 않은 문제가 있다. 따라서 고차원 자료의 경우 주성분 분석과 같은 차원 축소 방법을 사용하여 변수의 개수를 줄인 후에 K-means 군집분석을 행하는 Tandem 군집분석이 제안되었다. 하지만 차원 축소 방법을 이용해서 찾아낸 축소 차원이 반드시 군집에 대한 구조를 잘 반영할 것이라는 보장은 없다. 특히 군집의 구조와는 상관없는 변수들의 분산 또는 공분산이 클 때, 주성분 분석을 통한 차원 축소는 오히려 군집의 구조를 가릴 수 있다. 이에 따라 군집분석과 차원 축소를 동시에 진행하는 방법들이 제안되어 왔다. 그 중에서도 본 연구에서는 De Soete와 Carroll (1994)이 제안한 방법론을 확률적인 모형으로 바꿔 군집분석을 진행하는 확률적 reduced K-means를 제안한다. 모의실험 결과 차원 축소를 배제한 군집분석과 Tandem 군집분석보다 더 좋은 군집을 형성함을 알 수 있었고 군집 당 표본 크기에 비해 변수의 개수가 많은 자료에서 기존의 비 확률적 reduced K-means 군집분석에 비해 우수한 성능을 확인했다. 보스턴 자료에서는 다른 군집분석 방법론보다 명확한 군집이 형성됨을 확인했다.