• 제목/요약/키워드: High-Dimensional Data

검색결과 1,531건 처리시간 0.033초

고차원 데이타 패킹을 위한 주기적 편중 분할 방법 (A Cyclic Sliced Partitioning Method for Packing High-dimensional Data)

  • 김태완;이기준
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제31권2호
    • /
    • pp.122-131
    • /
    • 2004
  • 이전의 연구들에서 제안된 많은 색인 방법들은 저차원과 동적인 환경을 가정하고 제안되었다. 그러나 최근의 많은 데이타베이스 응용분야들은 대용량, 고차원 그리고 정적인 환경에 대한 처리를 요구하고 있다. 따라서 기존의 저차원이고 동적인 환경에서 제안되었던 색인 구축 전략들은 특히 데이타 및 공간 분할에 있어서 새로운 환경에 잘 적응하지 못한다. 본 연구에서 우리는 이러한 사실들을 지적하였고, 새로운 환경에 적응하는 색인 구축 시 적용되는 새로운 분할 전략을 성능 모델에 근거하여 제안하였다. 우리의 접근 방법은 기본적으로 정적인 환경에서 색인 구축에 사용되는 패킹이라는 기법을 적용하였다. 그리고 고차원 환경에서 질의 성능의 기대 값을 제시하는 민코프스키-합 비용모델에 대한 관찰 결과를 이용하였다. 이러한 것들에 바탕을 두어 우리는 데이타 및 공간을 균등하게 분할하는 것보다 불균등하게 분할하는 것이 좋을 것이라는 예측을 비용 모델에 대한 관찰 결과로써 도출하였다. 그리고 이러한 결과를 이용한 불균등 분할 방법과 성능 모델들을 제시하였다. 이 연구의 결론으로서 균등 분할 방법보다 불균등 분할 방법이 고차원 환경에서 더 효율적인 방법임을 성능 모델 및 실험을 통하여 보여주었다. 그리고, 어떻게 불균등하게 분할하는 것이 좋은지에 대한 명확한 계량적 기준들을 제시하였다.

SVD를 기반으로 한 고차원 데이터 및 질의 집합의 생성 (An SVD-Based Approach for Generating High-Dimensional Data and Query Sets)

  • 김상욱
    • 정보기술과데이타베이스저널
    • /
    • 제8권2호
    • /
    • pp.91-101
    • /
    • 2001
  • Previous research efforts on performance evaluation of multidimensional indexes typically have used synthetic data sets distributed uniformly or normally over multidimensional space. However, recent research research result has shown that these hinds of data sets hardly reflect the characteristics of multimedia database applications. In this paper, we discuss issues on generating high dimensional data and query sets for resolving the problem. We first identify the features of the data and query sets that are appropriate for fairly evaluating performances of multidimensional indexes, and then propose HDDQ_Gen(High-Dimensional Data and Query Generator) that satisfies such features. HDDQ_Gen supports the following features : (1) clustered distributions, (2) various object distributions in each cluster, (3) various cluster distributions, (4) various correlations among different dimensions, (5) query distributions depending on data distributions. Using these features, users are able to control tile distribution characteristics of data and query sets. Our contribution is fairly important in that HDDQ_Gen provides the benchmark environment evaluating multidimensional indexes correctly.

  • PDF

퍼지 AHP와 퍼지 연관규칙을 이용하여 고차원 데이터를 처리하는 영화 추천 시스템 (A Movie Recommendation System processing High-Dimensional Data with Fuzzy-AHP and Fuzzy Association Rules)

  • 오재택;이상용
    • 디지털융복합연구
    • /
    • 제17권2호
    • /
    • pp.347-353
    • /
    • 2019
  • 최근 추천 시스템들은 고차원 데이터를 사용할 수 있는 시스템으로 발전하고 있다. 그러나 고차원 데이터는 차원을 확장시켜 알고리즘 복잡도가 증가하여 추천 항목의 정확도를 저하시킬 수 있다. 또한 데이터의 희소성(Sparsity) 문제가 발생할 수 있어 사용자들에게 적합한 추천 항목을 제공하는 것이 어렵다. 본 연구에서는 Fuzzy-AHP를 이용하여 사용자들의 주관적 기준의 데이터를 객관적 기준으로 분류한 후, 퍼지 연관규칙 분석을 이용하여 반복적 패턴을 띄는 규칙들을 활용하는 알고리즘을 제안하였다. 본 연구에서 적용된 알고리즘이 고차원 데이터의 문제점들을 어떻게 완화하는지 확인하기 위해 사용자 수의 변화에 따른 5-fold Cross Validation을 진행하였다. 그 결과 본 알고리즘이 적용된 시스템의 정확도는 Fuzzy-AHP만을 적용한 시스템보다 12.5% 정도 정확도가 우수하였고, 데이터의 희소성 문제도 완화할 수 있다는 것을 확인하였다.

Comparison of tree-based ensemble models for regression

  • Park, Sangho;Kim, Chanmin
    • Communications for Statistical Applications and Methods
    • /
    • 제29권5호
    • /
    • pp.561-589
    • /
    • 2022
  • When multiple classifications and regression trees are combined, tree-based ensemble models, such as random forest (RF) and Bayesian additive regression trees (BART), are produced. We compare the model structures and performances of various ensemble models for regression settings in this study. RF learns bootstrapped samples and selects a splitting variable from predictors gathered at each node. The BART model is specified as the sum of trees and is calculated using the Bayesian backfitting algorithm. Throughout the extensive simulation studies, the strengths and drawbacks of the two methods in the presence of missing data, high-dimensional data, or highly correlated data are investigated. In the presence of missing data, BART performs well in general, whereas RF provides adequate coverage. The BART outperforms in high dimensional, highly correlated data. However, in all of the scenarios considered, the RF has a shorter computation time. The performance of the two methods is also compared using two real data sets that represent the aforementioned situations, and the same conclusion is reached.

얼굴 표정 데이터의 최적의 가시화를 위한 선형 및 비선형 투영 기법의 비교 분석 (Comparative Analysis of Linear and Nonlinear Projection Techniques for the Best Visualization of Facial Expression Data)

  • 김성호
    • 한국콘텐츠학회논문지
    • /
    • 제9권9호
    • /
    • pp.97-104
    • /
    • 2009
  • 본 논문은 고차원 얼굴 모션 캡처 데이터를 선형 및 비선형 투영 기법에 각각 적용하고, 이를 2차원 평면으로 투영하기 위한 최적의 방법론에 대한 것이다. 본 방법의 핵심 요소는 프레임 단위의 고차원 얼굴 표정 데이터를 선형 투영 기법인 PCA와 비선형 투영 기법인 Isomap, MDS, CCA, Sammon's Mapping, LLE 등에 적용하고 이를 저차원 공간에 분포시키는 방법론 및 그 결과를 비교 분석하는 것이다. 이를 위해서는 먼저 기존의 고차원 얼굴 표정 프레임 데이터들 사이의 거리를 구하고, 선형 및 비선형 투영 기법들을 적용한 상태에서 기존의 데이터들 사이의 거리 관계를 유지하면서 저차원인 2차원 평면 공간에 분포시키는 것이다. 그리고 2차원 공간에 분포된 얼굴 표정 데이터가 원형 데이터와 비교 했을 때, 최적의 상태로 프레임 데이터들 사이의 거리 관계를 유지하고 있는 투영 기법을 찾는다. 결국 본 논문에서는 고차원 얼굴 표정 데이터를 저차원 공간에 투영하기 위한 선형 및 비선형 투영 기법들을 비교 분석하고, 각각에서 최적의 투영 기법을 찾아낸다.

데이타마이닝에서 고차원 대용량 데이타를 위한 셀-기반 클러스터 링 방법 (A Cell-based Clustering Method for Large High-dimensional Data in Data Mining)

  • 진두석;장재우
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제28권4호
    • /
    • pp.558-567
    • /
    • 2001
  • 최근 데이타마이닝 응용분야에서는 고차원 대용량 데이타가 요구되고 있다. 그러나 기존의 대부분의 데이타마이닝을 위한 알고리즘들은 소위 차원의 저주(dimensionality curse)[1] 문제점과 이용 가 능한 메모리의 한계 때문에 고차원 대용량 데이타에는 비효율적이다. 따라서, 본 논문에서는 이러한 문제 점을 해결하기 위해서 셀-기반 클러스터링 방법을 제안한다. 제안하는 진-기반 클러스터링 방법은 고차원 대용량 데이타를 효율적으로 처리하기 위한 셀 구성 알고리즘과 필터링에 기반한 저장인덱스 구조를 제공 한다. 본 논문에서 제안한 셀-기반 클러스터링 방법을 (CLQUE 방법과 클러스터링 시간, 정확율, 검색시 간 관점에서 성능을 비교한다. 마지막으로, 실험결과 제안하는 셀-기반 클러스터링 방법이 CLIQUE 방법 에 비해 성능이 우수함을 보인다

  • PDF

Analyzing nuclear reactor simulation data and uncertainty with the group method of data handling

  • Radaideh, Majdi I.;Kozlowski, Tomasz
    • Nuclear Engineering and Technology
    • /
    • 제52권2호
    • /
    • pp.287-295
    • /
    • 2020
  • Group method of data handling (GMDH) is considered one of the earliest deep learning methods. Deep learning gained additional interest in today's applications due to its capability to handle complex and high dimensional problems. In this study, multi-layer GMDH networks are used to perform uncertainty quantification (UQ) and sensitivity analysis (SA) of nuclear reactor simulations. GMDH is utilized as a surrogate/metamodel to replace high fidelity computer models with cheap-to-evaluate surrogate models, which facilitate UQ and SA tasks (e.g. variance decomposition, uncertainty propagation, etc.). GMDH performance is validated through two UQ applications in reactor simulations: (1) low dimensional input space (two-phase flow in a reactor channel), and (2) high dimensional space (8-group homogenized cross-sections). In both applications, GMDH networks show very good performance with small mean absolute and squared errors as well as high accuracy in capturing the target variance. GMDH is utilized afterward to perform UQ tasks such as variance decomposition through Sobol indices, and GMDH-based uncertainty propagation with large number of samples. GMDH performance is also compared to other surrogates including Gaussian processes and polynomial chaos expansions. The comparison shows that GMDH has competitive performance with the other methods for the low dimensional problem, and reliable performance for the high dimensional problem.

적응 분할과 벡터 근사에 기반한 고차원 이미지 색인 기법 (High-Dimensional Image Indexing based on Adaptive Partitioning ana Vector Approximation)

  • 차광호;정진완
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제29권2호
    • /
    • pp.128-137
    • /
    • 2002
  • 이 논문은 고차원 이미지 데이타의 효율적인 색인을 위한 LCP+-file을 제시한다. 멀티미디어 데이타의 사용이 증가하면서 고차원 이미지 데이타의 색인과 검색의 지원에 대한 요구가 증가하고 있다. 최근에 고차원 데이타의 색인을 위해 벡터 근사에 기반한 LPC-file (5)이 개발되었다. LPC-file은 특히, 데이터 집합이 균일하게 분포할 때는 좋은 성능을 나타내지만 클러스터(cluster)를 이를 때는 성능이 하락한다. 본 논문은 강하게 클러스터를 이루는 이미지 데이타 집합에 대해 LPC-file의 성능을 향상시킨 LCP+-file을 제시한다. 기본 아이디어는 고밀도 클러스터를 갖는 부분 공간을 찾기 위해 데이타 공간을 적응적으로 분할하고, 그 공간에 대해 벡터 근사의 식별 능력을 향상시키기 위해 더 많은 수의 비트를 할당한다. 그러나 분할된 공간이 비트들을 공유하기 때문에 사용되는 전체 비트 수는 오히려 줄어든다. 실험 결과에 따르면 LCP+-file은 강하게 클러스터를 이루는 이미지 데이터 집합에 대해 LPC-file의 성능을 크게 향상시킨다.

고차원 자료에서 영향점의 영향을 평가하기 위한 그래픽 방법 (Graphical method for evaluating the impact of influential observations in high-dimensional data)

  • 안소진;이재은;장대흥
    • Journal of the Korean Data and Information Science Society
    • /
    • 제28권6호
    • /
    • pp.1291-1300
    • /
    • 2017
  • 고차원 자료에서는 관측값의 개수보다 변수의 개수가 과다하게 많은 것이 특징이다. 그러므로 회귀 계수 추정에 있어 관측값의 영향이 매우 클 수 있다. Jang과 Anserson-Cook (2017)은 라쏘추정량 사용시 영향점의 영향을 평가할 수 있는 라쏘 영향그림을 제안하였다. 본 연구에서는 고차원 자료에서 영향점을 평가하기 위한 그래픽 방법들로서 라쏘 영향그림 뿐만 아니라 라쏘 변수선택 순위그림, 삼차원 라쏘 영향그림을 제안하였다. 실세 두 가지 고차원 자료 예들에 영향점들을 찾기 위한 회귀진단 수단으로서 세가지 그래픽 방법들을 사용하여 본 결과 영향점들을 효과적으로 찾아낼 수 있었다.

대용량의 고차원 데이터 공간에서 프로젝션 필터링 기반의 부분차원 클러스터링 기법 (Partial Dimensional Clustering based on Projection Filtering in High Dimensional Data Space)

  • 이혜명;정종진
    • 한국전자거래학회지
    • /
    • 제8권4호
    • /
    • pp.69-88
    • /
    • 2003
  • 현재 알려진 대부분의 클러스터링 알고리즘들은 고차원 공간에서 데이터가 갖는 고유의 희소성 및 잡음으로 인하여 성능이 급격히 저하되는 경향이 있다. 이에 따라 최근에 클러스터 형성에 연관성이 있는 차원만을 선택하고, 연관성이 적은 차원들을 제거함으로써 클러스터링의 성능을 높일 수 있는 부분차원 클러스터링 기법이 연구되고 있다. 그러나 현재 연구된 부분차원 클러스터링 기법은 그리드 기반 방법으로서 차원의 증가에 따라 그리드 셀의 수가 방대해짐으로써 공간 및 시간적 인 효율성 이 저하된다. 또한, 대부분의 알고리즘들은 데이터 집합에서 대표객체를 찾아 클러스터 형성에 관계 있는 차원만을 조사하기 때문에 대량의 고차원 공간 데이터에 대해서는 최상의 대표객체를 선택하는데 어려움이 많다는 문제점이 있다. 본 논문에서는 입력 차원의 순서와 무관하게 동일한 클러스터를 탐사할 수 있는 효율적인 부분차원 클러스터링 알고리즘인 CLIP을 제안한다. CLIP은 클러스터 형성에 밀접하게 연관된 임의의 차원에서 클러스터를 탐사한 후에, 그에 종속적인 다음 차원에 대해서 점진적인 프로젝션을 이용하여 클러스터를 탐사하는 기법이다. 점진적 프로젝션 기법은 제안된 알고리즘의 핵심 기법으로서 방대한 양의 탐색공간과 클러스터링을 식별하는 계산시간을 크게 줄인다. 이에 따라 CLIP 알고리즘을 평가하기 위해 합성 데이타를 이용한 실험을 통하여 알고리즘의 정확성 및 효율성, 알고리즘 결과의 동등성에 대한 실험 및 비교 분석 결과를 제시한다.

  • PDF