• 제목/요약/키워드: high-dimensional data

검색결과 1,517건 처리시간 0.026초

적응적 상관도를 이용한 주성분 변수 선정에 관한 연구 (A Study on Selecting Principle Component Variables Using Adaptive Correlation)

  • 고명숙
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제10권3호
    • /
    • pp.79-84
    • /
    • 2021
  • 고차원의 데이터를 처리하기 위해서는 데이터의 성질을 유지하면서 특징을 잘 반영할 수 있는 특징 추출 방법이 필요하다. 주성분분석 방법은 고차원 데이터에 포함된 정보를 저차원의 데이터로 변환하여 원래 데이터의 변수 수보다 적은 수의 변수로 고차원 데이터를 표현 할 수 있는 방법으로서 데이터의 특징 추출을 위한 대표적인 방법이다. 본 연구에서는 데이터가 고차원인 경우 데이터 특징 추출을 위한 주성분 분석에 있어서 주성분 변수 선정 시 적응적 상관도를 기반으로 한 주성분 분석 방법을 제안한다. 제안하는 방법은 입력 데이터간의 상관 관계를 기반으로 상관도를 적응적으로 반영하여 데이터의 주성분을 분석함으로써 다른 여러 변수에 중복적으로 상관도가 높은 변수와 주성분을 유도하는데 연관성이 적은 변수를 주성분 변수 후보 대상에서 제외시키고자 한다. 고유벡터 계수 값에 의한 주성분 위계를 분석하고 위계가 낮은 주성분이 변수로 선정이 되는 것을 막고 또한 상관 분석을 통하여 데이터의 중복 발생이 데이터 편향을 유도하는 것을 최소화하 하고자 한다. 이를 통하여 주성분 변수 선정 시 데이터 편향성의 영향을 줄임으로써 실제 데이터의 특징을 잘 나타내는 주성분 변수를 선정하는 방법을 제안하고자 한다.

고차원 공간 데이터를 위한 연속 범위 질의의 효율적인 처리 (An Efficient Processing of Continuous Range Queries on High-Dimensional Spatial Data)

  • 장수민;유재수
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제13권6호
    • /
    • pp.397-401
    • /
    • 2007
  • 이동객체에 대한 연속 범위 질의(Continuous Range Query)의 응용프로그램이 급속도로 확장되면서 이차원정보를 넘어서 고차원 공간 데이타에 대한 처리를 요구하고 있다. 만약 고차원 데이타에 대한 중첩되어지는 연속 범위 질의의 정보를 기존의 색인으로 구성한다면 객체의 수와 질의의 수가 증가함에 따라 질의처리성능이 저하된다. 본 논문은 이러한 문제점을 해결하기 위하여 PAB(Projected Attribute Bit)-기반의 질의색인방법을 제안한다. 제안하는 기법은 성능향상을 위하여 질의의 정보를 각 속성 축에 투영이라는 작업을 통하여 고차원의 데이타를 1차원 정보들로 변환하고 이러한 정보를 비트단위로 구성하였다. 또한 제안하는 질의색인은 보다 효율적인 질의의 처리를 위하여 점진적인 갱신(Incremental Update)을 지원한다. 다양한 성능평가 및 분석을 통하여 제안하는 방법이 최근에 연구된 CES-기반의 질의색인 기법보다 더 나은 확장성(Scalability)을 가짐을 입증한다.

점진적인 주성분분석기법을 이용한 고차원 자료의 특징 추출 (Feature Extraction on High Dimensional Data Using Incremental PCA)

  • 김병주
    • 한국정보통신학회논문지
    • /
    • 제8권7호
    • /
    • pp.1475-1479
    • /
    • 2004
  • 고차원 자료를 효율적으로 처리하기 위해서는 특징 추출 기법이 필요하다. 주성분분석 방법은 대표적인 특징추출 방법이지만 학습 자료의 차원이 큰 경우에는 고유공간을 계산하기 위해 많은 기억공간과 계산량을 필요로 한다. 본 논문에서는 고차원 자료의 특징 추출을 위해 점진적인 주성분분석 방법을 사용한다. 제안한 방법에 대해 신경망에서 점진적인 주성분분석을 하는 대표적인 방법인 APEX모델과 실험을 통해 비교해 본 결과 제안된 방법이 APEX 모델 보다 성능이 우수함을 나타내었다.

Bayesian baseline-category logit random effects models for longitudinal nominal data

  • Kim, Jiyeong;Lee, Keunbaik
    • Communications for Statistical Applications and Methods
    • /
    • 제27권2호
    • /
    • pp.201-210
    • /
    • 2020
  • Baseline-category logit random effects models have been used to analyze longitudinal nominal data. The models account for subject-specific variations using random effects. However, the random effects covariance matrix in the models needs to explain subject-specific variations as well as serial correlations for nominal outcomes. In order to satisfy them, the covariance matrix must be heterogeneous and high-dimensional. However, it is difficult to estimate the random effects covariance matrix due to its high dimensionality and positive-definiteness. In this paper, we exploit the modified Cholesky decomposition to estimate the high-dimensional heterogeneous random effects covariance matrix. Bayesian methodology is proposed to estimate parameters of interest. The proposed methods are illustrated with real data from the McKinney Homeless Research Project.

Effect of outliers on the variable selection by the regularized regression

  • Jeong, Junho;Kim, Choongrak
    • Communications for Statistical Applications and Methods
    • /
    • 제25권2호
    • /
    • pp.235-243
    • /
    • 2018
  • Many studies exist on the influence of one or few observations on estimators in a variety of statistical models under the "large n, small p" setup; however, diagnostic issues in the regression models have been rarely studied in a high dimensional setup. In the high dimensional data, the influence of observations is more serious because the sample size n is significantly less than the number variables p. Here, we investigate the influence of observations on the least absolute shrinkage and selection operator (LASSO) estimates, suggested by Tibshirani (Journal of the Royal Statistical Society, Series B, 73, 273-282, 1996), and the influence of observations on selected variables by the LASSO in the high dimensional setup. We also derived an analytic expression for the influence of the k observation on LASSO estimates in simple linear regression. Numerical studies based on artificial data and real data are done for illustration. Numerical results showed that the influence of observations on the LASSO estimates and the selected variables by the LASSO in the high dimensional setup is more severe than that in the usual "large n, small p" setup.

3차원 시추공 레이다 모델링 (Three-Dimensional Borehole Radar Modeling)

  • 예병주
    • 자원환경지질
    • /
    • 제33권1호
    • /
    • pp.41-50
    • /
    • 2000
  • Geo-radar survey which has the advantage of high-resolution and relatively fast survey has been widely used for engineering and environmental problems. Three-dimensional effects have to be considered in the interpretation of geo-radar for high-resolution. However, there exists a trouble on the analysis of the three dimensional effects. To solve this problem an efficient three dimension numerical modeling algorithm is needed. Numerical radar modeling in three dimensional case requires large memory and long calculating time. In this paper, a finite difference method time domain solution to Maxwell's equations for simulating electromagnetic wave propagation in three dimensional media was developed to make economic algorithm which requires smaller memory and shorter calculating time. And in using boundary condition Liao absorption boundary. The numerical result of cross-hole radar survey for tunnel is compared with real data. The two results are well matched. To prove application to three dimensional analysis, the results with variation of tunnel's incident angle to survey cross-section and the result when the tunnel is parallel to the cross-section were examined. This algorithm is useful in various geo-radar survey and can give basic data to develop dat processing and inversion program.

  • PDF

A Clustering Approach for Feature Selection in Microarray Data Classification Using Random Forest

  • Aydadenta, Husna;Adiwijaya, Adiwijaya
    • Journal of Information Processing Systems
    • /
    • 제14권5호
    • /
    • pp.1167-1175
    • /
    • 2018
  • Microarray data plays an essential role in diagnosing and detecting cancer. Microarray analysis allows the examination of levels of gene expression in specific cell samples, where thousands of genes can be analyzed simultaneously. However, microarray data have very little sample data and high data dimensionality. Therefore, to classify microarray data, a dimensional reduction process is required. Dimensional reduction can eliminate redundancy of data; thus, features used in classification are features that only have a high correlation with their class. There are two types of dimensional reduction, namely feature selection and feature extraction. In this paper, we used k-means algorithm as the clustering approach for feature selection. The proposed approach can be used to categorize features that have the same characteristics in one cluster, so that redundancy in microarray data is removed. The result of clustering is ranked using the Relief algorithm such that the best scoring element for each cluster is obtained. All best elements of each cluster are selected and used as features in the classification process. Next, the Random Forest algorithm is used. Based on the simulation, the accuracy of the proposed approach for each dataset, namely Colon, Lung Cancer, and Prostate Tumor, achieved 85.87%, 98.9%, and 89% accuracy, respectively. The accuracy of the proposed approach is therefore higher than the approach using Random Forest without clustering.

Progression-Preserving Dimension Reduction for High-Dimensional Sensor Data Visualization

  • Yoon, Hyunjin;Shahabi, Cyrus;Winstein, Carolee J.;Jang, Jong-Hyun
    • ETRI Journal
    • /
    • 제35권5호
    • /
    • pp.911-914
    • /
    • 2013
  • This letter presents Progression-Preserving Projection, a dimension reduction technique that finds a linear projection that maps a high-dimensional sensor dataset into a two- or three-dimensional subspace with a particularly useful property for visual exploration. As a demonstration of its effectiveness as a visual exploration and diagnostic means, we empirically evaluate the proposed technique over a dataset acquired from our own virtual-reality-enhanced ball-intercepting training system designed to promote the upper extremity movement skills of individuals recovering from stroke-related hemiparesis.

An Efficient Content-Based High-Dimensional Index Structure for Image Data

  • Lee, Jang-Sun;Yoo, Jae-Soo;Lee, Seok-Hee;Kim, Myung-Joon
    • ETRI Journal
    • /
    • 제22권2호
    • /
    • pp.32-42
    • /
    • 2000
  • The existing multi-dimensional index structures are not adequate for indexing higher-dimensional data sets. Although conceptually they can be extended to higher dimensionalities, they usually require time and space that grow exponentially with the dimensionality. In this paper, we analyze the existing index structures and derive some requirements of an index structure for content-based image retrieval. We also propose a new structure, for indexing large amount of point data in a high-dimensional space that satisfies the requirements. in order to justify the performance of the proposed structure, we compare the proposed structure with the existing index structures in various environments. We show, through experiments, that our proposed structure outperforms the existing structures in terms of retrieval time and storage overhead.

  • PDF

PdR-트리 : 고차원 데이터의 검색 성능 향상을 위한 효율적인 인덱스 기법 (PdR-Tree : An Efficient Indexing Technique for the improvement of search performance in High-Dimensional Data)

  • 조범석;박영배
    • 정보처리학회논문지D
    • /
    • 제8D권2호
    • /
    • pp.145-153
    • /
    • 2001
  • 피라미드 기법은 n-차원 공간 데이터를 1차원 데이터로 변환하여 $B^+$-트리로 표현하고, n-차원 데이터 공간에서 하이퍼큐브 영역질의 처리로 발생하는 "차원의 저주현상"에 영향을 받지 않게 검색 시간 문제를 해결하고 있다. 구형 피라미드 기법은 피라미드 기법의 공간 분할 전략을 응용하여 유사도 검색에 적합하도록 구 영역질의 방법을 사용하고 검색 성능을 개선하고 있다. 그러나 두 방법은 데이터 크기와 차원 변화에 따른 검색 성능이 100만건 이상과 16차원 이상일 때 현저하게 저하하는 현상을 보이고 있다. 이 논문에서는 멀티미디어 데이터와 같은 고차원 데이터의 검색 성능을 향상시키기 위한 새로운 인덱스 구조로 PdR-트리를 제안한다. 모의 데이터와 실제 데이터를 이용하여 실험한 결과, PdR-트리가 피라미드 기법과 구형 피라미드 기법보다 검색 성능이 향상되었음을 보이고 있다.

  • PDF