• 제목/요약/키워드: Sparse Data Set

검색결과 47건 처리시간 0.02초

Sparse Data Cleaning using Multiple Imputations

  • Jun, Sung-Hae;Lee, Seung-Joo;Oh, Kyung-Whan
    • International Journal of Fuzzy Logic and Intelligent Systems
    • /
    • 제4권1호
    • /
    • pp.119-124
    • /
    • 2004
  • Real data as web log file tend to be incomplete. But we have to find useful knowledge from these for optimal decision. In web log data, many useful things which are hyperlink information and web usages of connected users may be found. The size of web data is too huge to use for effective knowledge discovery. To make matters worse, they are very sparse. We overcome this sparse problem using Markov Chain Monte Carlo method as multiple imputations. This missing value imputation changes spare web data to complete. Our study may be a useful tool for discovering knowledge from data set with sparseness. The more sparseness of data in increased, the better performance of MCMC imputation is good. We verified our work by experiments using UCI machine learning repository data.

Sparse Autoencoder의 데이터 특징 추출과 ProGReGA-KF를 결합한 새로운 부하 분산 알고리즘 (Combing data representation by Sparse Autoencoder and the well-known load balancing algorithm, ProGReGA-KF)

  • 김차영;박정민;김혜영
    • 한국게임학회 논문지
    • /
    • 제17권5호
    • /
    • pp.103-112
    • /
    • 2017
  • 많은 사용자가 함께 즐기는 온라인 게임(MMOGs)에서 IoT의 확장은 서버에 엄청난 부하를 지속적으로 증가시켜, 모든 데이터들이 Big-Data화 되어가는 환경에 있다. 이에 본 논문에서는 딥러닝 기법 중에서 가장 많이 사용되는 Sparse Autoencoder와 이미 잘 알려진 부하분산 알고리즘(ProGReGA-KF)을 결합한다. 기존 알고리즘 ProGReGA-KF과 본 논문에서 제안한 알고리즘을 이동 안정성으로 비교하였고, 제안한 알고리즘이 빅-데이터 환경에서 좀 더 안정적이고 확장성이 있음 시뮬레이션을 통해 보였다.

ASSVD: Adaptive Sparse Singular Value Decomposition for High Dimensional Matrices

  • Ding, Xiucai;Chen, Xianyi;Zou, Mengling;Zhang, Guangxing
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제14권6호
    • /
    • pp.2634-2648
    • /
    • 2020
  • In this paper, an adaptive sparse singular value decomposition (ASSVD) algorithm is proposed to estimate the signal matrix when only one data matrix is observed and there is high dimensional white noise, in which we assume that the signal matrix is low-rank and has sparse singular vectors, i.e. it is a simultaneously low-rank and sparse matrix. It is a structured matrix since the non-zero entries are confined on some small blocks. The proposed algorithm estimates the singular values and vectors separable by exploring the structure of singular vectors, in which the recent developments in Random Matrix Theory known as anisotropic Marchenko-Pastur law are used. And then we prove that when the signal is strong in the sense that the signal to noise ratio is above some threshold, our estimator is consistent and outperforms over many state-of-the-art algorithms. Moreover, our estimator is adaptive to the data set and does not require the variance of the noise to be known or estimated. Numerical simulations indicate that ASSVD still works well when the signal matrix is not very sparse.

Feature Extraction via Sparse Difference Embedding (SDE)

  • Wan, Minghua;Lai, Zhihui
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제11권7호
    • /
    • pp.3594-3607
    • /
    • 2017
  • The traditional feature extraction methods such as principal component analysis (PCA) cannot obtain the local structure of the samples, and locally linear embedding (LLE) cannot obtain the global structure of the samples. However, a common drawback of existing PCA and LLE algorithm is that they cannot deal well with the sparse problem of the samples. Therefore, by integrating the globality of PCA and the locality of LLE with a sparse constraint, we developed an improved and unsupervised difference algorithm called Sparse Difference Embedding (SDE), for dimensionality reduction of high-dimensional data in small sample size problems. Significantly differing from the existing PCA and LLE algorithms, SDE seeks to find a set of perfect projections that can not only impact the locality of intraclass and maximize the globality of interclass, but can also simultaneously use the Lasso regression to obtain a sparse transformation matrix. This characteristic makes SDE more intuitive and more powerful than PCA and LLE. At last, the proposed algorithm was estimated through experiments using the Yale and AR face image databases and the USPS handwriting digital databases. The experimental results show that SDE outperforms PCA LLE and UDP attributed to its sparse discriminating characteristics, which also indicates that the SDE is an effective method for face recognition.

비지역적 유사성 및 3차원 필터링 기반 영상 잡음제거 (Image Denoising Using Nonlocal Similarity and 3D Filtering)

  • 김시현
    • 한국정보통신학회논문지
    • /
    • 제21권10호
    • /
    • pp.1886-1891
    • /
    • 2017
  • 영상 신호 처리 분야 중 잡음제거(denoising)는 가산 잡음이 포함된 영상의 복원을 다룬다. 자연 영상은 지역적 유사성 뿐 만 아니라 비지역적 유사성도 높다는 점은 널리 알려져 있다. 즉, 입력 영상의 특성을 결정짓는 에지나 텍스쳐 패턴이 떨어져 있는 영역에서도 반복적으로 나타난다. 본 논문에서는 비지역적 유사도가 높은 영상 블록을 검출하여 과충분한 신호 집합을 만들고 이를 3차원 변환을 통해 희소(sparse)하게 표현한 후 영상에 포함된 잡음 성분을 제거하는 잡음제거 알고리듬을 제안한다. 여러 영상에 대해 잡음제거 결과로부터 제안된 알고리듬이 부드러운 영역과 에지 영역을 잘 살려 원 영상을 복원할 수 있음을 알 수 있고, 또한 최근 보고된 여러 잡음제거 알고리듬들과의 복원 성능 비교를 통해 상대적으로 우수한 성능을 보임을 확인하였다.

계층적 벌점함수를 이용한 주성분분석 (Hierarchically penalized sparse principal component analysis)

  • 강종경;박재신;방성완
    • 응용통계연구
    • /
    • 제30권1호
    • /
    • pp.135-145
    • /
    • 2017
  • 주성분 분석(principal component analysis; PCA)은 서로 상관되어 있는 다변량 자료의 차원을 축소하는 대표적인 기법으로 많은 다변량 분석에서 활용되고 있다. 하지만 주성분은 모든 변수들의 선형결합으로 이루어지므로, 그 결과의 해석이 어렵다는 한계가 있다. sparse PCA(SPCA) 방법은 elastic net 형태의 벌점함수를 이용하여 보다 성긴(sparse) 적재를 가진 수정된 주성분을 만들어주지만, 변수들의 그룹구조를 이용하지 못한다는 한계가 있다. 이에 본 연구에서는 기존 SPCA를 개선하여, 자료가 그룹화되어 있는 경우에 유의한 그룹을 선택함과 동시에 그룹 내 불필요한 변수를 제거할 수 있는 새로운 주성분 분석 방법을 제시하고자 한다. 그룹과 그룹 내 변수 구조를 모형 적합에 이용하기 위하여, sparse 주성분 분석에서의 elastic net 벌점함수 대신에 계층적 벌점함수 형태를 고려하였다. 또한 실제 자료의 분석을 통해 제안 방법의 성능 및 유용성을 입증하였다.

CONSTRUCTIONS OF REGULAR SPARSE ANTI-MAGIC SQUARES

  • Chen, Guangzhou;Li, Wen;Xin, Bangying;Zhong, Ming
    • 대한수학회보
    • /
    • 제59권3호
    • /
    • pp.617-642
    • /
    • 2022
  • For positive integers n and d with d < n, an n × n array A based on 𝒳 = {0, 1, …, nd} is called a sparse anti-magic square of order n with density d, denoted by SAMS(n, d), if each non-zero element of X occurs exactly once in A, and its row-sums, column-sums and two main diagonal-sums constitute a set of 2n + 2 consecutive integers. An SAMS(n, d) is called regular if there are exactly d non-zero elements in each row, each column and each main diagonal. In this paper, we investigate the existence of regular sparse anti-magic squares of order n ≡ 1, 5 (mod 6), and prove that there exists a regular SAMS(n, d) for any n ≥ 5, n ≡ 1, 5 (mod 6) and d with 2 ≤ d ≤ n - 1.

희소 데이터 집합에서 효율적인 빈발 항목집합 탐사 기법 (Efficient Mining of Frequent Itemsets in a Sparse Data Set)

  • 박인창;장중혁;이원석
    • 정보처리학회논문지D
    • /
    • 제12D권6호
    • /
    • pp.817-828
    • /
    • 2005
  • 빈발 항목집합 마이닝 분야의 주된 연구 주제는 수행과정에서의 메모리 사용량을 줄이고 짧은 수행 시간에 마이닝 결과 집합을 얻는 것으로서, 빈발항목 탐색을 위한 다수의 방법들은 Apriori 알고리즘에 기반을 둔 다중 탐색 방법들이다. 또한 최대 빈발 패턴의 길이가 길어질수록 마이닝 수행 시간이 급격히 증가되는 단점을 가진다. 이를 극복하기 위해서 이전의 연구에서 마이닝 수행 시간을 단축하기 위한 다양한 방법들이 제안되었다. 하지만, 다수의 이들 방법들은 희소 데이터 집합에서는 다소 비효율적인 성능을 나타낸다. 본 논문에서도 효율적인 빈발항목 탐색 방법을 제안하였다. 먼저 빈발항목 탐색을 위한 새로운 트리 구조인 $L_2$-tree 구조를 제안하였으며, 더불어 $L_2$-tree를 이용하여 빈발 항목집합을 탐색하는 $L_2$-traverse 알고리즘을 제안하였다. $L_2$-traverse 구조는 길이가 2인 빈발 항목집합 $L_2$에 기반하여 생성되는 것으로서 크기가 매우 작으며, 이를 활용한 $L_2$-traverse 알고리즘은 $L_2$-tree를 단순히 한번 탐색함으로써 전체 빈발 항목집합을 빠른 시간에 구한다. 또한 수행 시간을 보다 단축할 수 있는 방법으로 길이가 3인 빈발 항목집합 $L_3$가 될 수 없는 $L_2$ 패턴들을 미리 제거하는 $C_3$-traverse 알고리즘도 제안하였다. 다양한 실험을 통해 제안된 방법들은 특히 $L_2$가 상대적으로 적은 희소 데이터 집합 환경일 때 기존의 다른 방법들보다 우수함을 검증하였다.

희소주성분분석을 이용한 텍스트데이터의 단어선택 (Feature selection for text data via sparse principal component analysis)

  • 손원
    • 응용통계연구
    • /
    • 제36권6호
    • /
    • pp.501-514
    • /
    • 2023
  • 텍스트데이터는 일반적으로 많은 단어로 이루어져 있다. 텍스트데이터와 같이 많은 변수로 구성된 데이터의 경우 과적합 등의 문제로 분석에 있어서의 정확성이 떨어지고, 계산과정에서의 효율성에도 문제가 발생하는 경우를 흔히 볼 수 있다. 이렇게 변수가 많은 데이터를 분석하기 위해 특징선택, 특징추출 등의 차원 축소 기법이 자주 사용되고 있다. 희소주성분분석은 벌점이 부여된 최소제곱법 중 하나로 엘라스틱넷 형태의 목적함수를 사용하여 유용하지 않은 주성분을 제거하고 각 주성분에서도 중요도가 큰 변수만 식별해내기 위해 활용되고 있다. 이 연구에서는 희소주성분분석을 이용하여 많은 변수를 가진 텍스트데이터를 소수의 변수만으로 요약하는 절차를 제안한다. 이러한 절차를 실제 데이터에 적용한 결과, 희소주성분분석을 이용하여 단어를 선택하는 과정을 통해 목표변수에 대한 정보를 이용하지 않고도 유용성이 낮은 단어를 제거하여 텍스트데이터의 분류 정확성은 유지하면서 데이터의 차원을 축소할 수 있음을 확인하였다. 특히 차원축소를 통해 고차원 데이터 분석에서 분류 정확도가 저하되는 KNN 분류기 등의 분류 성능을 개선할 수 있음을 알 수 있었다.

더미 클래스를 가지는 열린 집합 얼굴 인식 방법의 유효성 검증에 대한 연구 (A Study on the Validation Test for Open Set Face Recognition Method with a Dummy Class)

  • 안정호;최권택
    • 디지털콘텐츠학회 논문지
    • /
    • 제18권3호
    • /
    • pp.525-534
    • /
    • 2017
  • 열린 집합 인식 방법론은 테스트 데이터의 클래스를 학습 시에 모두 파악할 수 없는 경우에 대한 인식 방법론이다. 따라서 열린 집합 인식 방법론은 분류와 유효성 검증의 절차를 필요로 한다. 이러한 연구는 얼굴 인식 모듈의 상용화를 위해 필수적이지만 지금까지 국내에서 연구 결과들이 거의 발표되지 않았다. 우리는 두 개의 검증 단계를 가지는 열린 집합 얼굴 인식 방법론을 제안한다. 첫 번째 단계에서는 학습 클래스 외에 더미 클래스들을 설정하고 희소표현 기반 분류를 수행한다. 이 때 테스트 데이터가 더미 클래스로 분류되면 무효 데이터로 판별하고, 유효한 클래스로 분류되면 다음 유효성 검증 단계로 넘어간다. 두 번째 단계에서 제안하는 네 가지 특징을 추출하고, 확률분포에 기반을 둔 판별함수를 통해 유효성 검증을 수행한다. 우리는 실험을 통해 열린 집합 인식 방법론의 시뮬레이션 방법을 제안하였고 제안하는 방법론의 성능을 제시하고, 희소기반 분류 방식에서 널리 사용되는 SCI 지표를 이용한 유효성 테스트보다 높은 성능을 보임을 입증할 수 있었다.