• 제목/요약/키워드: Sparse regression

검색결과 58건 처리시간 0.027초

Semiparametric Kernel Fisher Discriminant Approach for Regression Problems

  • Park, Joo-Young;Cho, Won-Hee;Kim, Young-Il
    • International Journal of Fuzzy Logic and Intelligent Systems
    • /
    • 제3권2호
    • /
    • pp.227-232
    • /
    • 2003
  • Recently, support vector learning attracts an enormous amount of interest in the areas of function approximation, pattern classification, and novelty detection. One of the main reasons for the success of the support vector machines(SVMs) seems to be the availability of global and sparse solutions. Among the approaches sharing the same reasons for success and exhibiting a similarly good performance, we have KFD(kernel Fisher discriminant) approach. In this paper, we consider the problem of function approximation utilizing both predetermined basis functions and the KFD approach for regression. After reviewing support vector regression, semi-parametric approach for including predetermined basis functions, and the KFD regression, this paper presents an extension of the conventional KFD approach for regression toward the direction that can utilize predetermined basis functions. The applicability of the presented method is illustrated via a regression example.

Comparison of Lasso Type Estimators for High-Dimensional Data

  • Kim, Jaehee
    • Communications for Statistical Applications and Methods
    • /
    • 제21권4호
    • /
    • pp.349-361
    • /
    • 2014
  • This paper compares of lasso type estimators in various high-dimensional data situations with sparse parameters. Lasso, adaptive lasso, fused lasso and elastic net as lasso type estimators and ridge estimator are compared via simulation in linear models with correlated and uncorrelated covariates and binary regression models with correlated covariates and discrete covariates. Each method is shown to have advantages with different penalty conditions according to sparsity patterns of regression parameters. We applied the lasso type methods to Arabidopsis microarray gene expression data to find the strongly significant genes to distinguish two groups.

북한 산림의 시·공간 변화와 황폐화 추동 (Spatio-Temporal Changes and Drivers of Deforestation and Forest Degradation in North Korea)

  • 유재심;김경민
    • 한국환경복원기술학회지
    • /
    • 제18권6호
    • /
    • pp.73-83
    • /
    • 2015
  • The objective of this study is to establish implications for forest restoration planning in North Korea by analyzing spatio-temporal forest changes and detecting bio-physical factors driving forest degraded. We measured the relationship and spatial distribution between shifting cultivation and sparse forest. We also analyzed between degraded forest land and ecological variables by binary logistic regression to find biophysical drivers of forest degradation and deforestation in North Korea. Between the sparse forest and the shifting cultivation, a positive relationship is found (r=0.91) and scattered discontinuously throughout the country (Moran's I = -1, Z score = -13.46 (p=0.000)). The sparse forest showed a negative relationship with the warmest month(bio 9), the coldest month(bio10), and the minimum of soil water contents (swc_min), while the shifting cultivation had a negative relationship with the warmest month(bio 9) and the minimum of soil water contents(swc_min). However, the most critical drivers convert forests into sloping farmland were the three months rainfall in summer(bio8) and the yearly mean of soil water contents. Such results reflect the growth period of crops which overlaps with the rainy season in North Korea and the recent land reclamation of uplands where the soil water contents are maintained with a dense forest. When South Korea aids forest restoration projects in North Korea, in consideration of food shortage due to North Korea's cropland deficiency, terrace farmlands where soil water contents can be maintained should be excluded from the priority restoration area. In addition, an evaluation method for selecting a potential restoration area must be modified and applied based on multiple criteria including altitude and socio-economic factors in the respective regions.

Selecting the Optimal Hidden Layer of Extreme Learning Machine Using Multiple Kernel Learning

  • Zhao, Wentao;Li, Pan;Liu, Qiang;Liu, Dan;Liu, Xinwang
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제12권12호
    • /
    • pp.5765-5781
    • /
    • 2018
  • Extreme learning machine (ELM) is emerging as a powerful machine learning method in a variety of application scenarios due to its promising advantages of high accuracy, fast learning speed and easy of implementation. However, how to select the optimal hidden layer of ELM is still an open question in the ELM community. Basically, the number of hidden layer nodes is a sensitive hyperparameter that significantly affects the performance of ELM. To address this challenging problem, we propose to adopt multiple kernel learning (MKL) to design a multi-hidden-layer-kernel ELM (MHLK-ELM). Specifically, we first integrate kernel functions with random feature mapping of ELM to design a hidden-layer-kernel ELM (HLK-ELM), which serves as the base of MHLK-ELM. Then, we utilize the MKL method to propose two versions of MHLK-ELMs, called sparse and non-sparse MHLK-ELMs. Both two types of MHLK-ELMs can effectively find out the optimal linear combination of multiple HLK-ELMs for different classification and regression problems. Experimental results on seven data sets, among which three data sets are relevant to classification and four ones are relevant to regression, demonstrate that the proposed MHLK-ELM achieves superior performance compared with conventional ELM and basic HLK-ELM.

Support Vector Regression을 이용한 컨포멀 배열 안테나의 빔 형성 연구 (Study on Beamforming of Conformal Array Antenna Using Support Vector Regression)

  • 이강인;정상훈;유홍균;윤영중;남상욱;정용식
    • 한국전자파학회논문지
    • /
    • 제29권11호
    • /
    • pp.868-877
    • /
    • 2018
  • 본 논문에서는 SVR(Support Vector Regression)을 이용한 컨포멀 배열 안테나의 빔 형성 알고리즘을 제안한다. 기존의 최소자승법 기반 알고리즘은 모든 샘플의 오차를 고려하는 반면에, SVR은 정해진 오차 한계를 벗어나는 샘플들을 통해 가중치를 결정하여 희소(sparse)한 해를 가지며 과적합(over-fitting) 문제를 최소화하는 장점을 갖고 있다. 제안된 알고리즘의 성능을 검증하기 위해 실험적으로 측정된 컨포멀 배열 안테나 능동 소자 패턴을 SVR에 적용하여 목적 빔 배턴으로 근사시키는 가중치를 구하였으며, SVR로 얻은 가중치와 최소자승법을 통해 얻은 가중치를 실측한 소자패턴에 적용하여 빔 형성 성능을 비교하였다.

Supervised Learning-Based Collaborative Filtering Using Market Basket Data for the Cold-Start Problem

  • Hwang, Wook-Yeon;Jun, Chi-Hyuck
    • Industrial Engineering and Management Systems
    • /
    • 제13권4호
    • /
    • pp.421-431
    • /
    • 2014
  • The market basket data in the form of a binary user-item matrix or a binary item-user matrix can be modelled as a binary classification problem. The binary logistic regression approach tackles the binary classification problem, where principal components are predictor variables. If users or items are sparse in the training data, the binary classification problem can be considered as a cold-start problem. The binary logistic regression approach may not function appropriately if the principal components are inefficient for the cold-start problem. Assuming that the market basket data can also be considered as a special regression problem whose response is either 0 or 1, we propose three supervised learning approaches: random forest regression, random forest classification, and elastic net to tackle the cold-start problem, comparing the performance in a variety of experimental settings. The experimental results show that the proposed supervised learning approaches outperform the conventional approaches.

Support Vector Regression을 이용한 희소 데이터의 전처리 (A Sparse Data Preprocessing Using Support Vector Regression)

  • 전성해;박정은;오경환
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2004년도 춘계학술대회 학술발표 논문집 제14권 제1호
    • /
    • pp.499-501
    • /
    • 2004
  • 웹 로그, 바이오정보학 둥 여러 분야에서 다양한 형태의 결측치가 발생하여 학습 데이터를 희소하게 만든다. 결측치는 주로 전처리 과정에서 조건부 평균이나 나무 모형과 같은 기본적인 Imputation 방법을 이용하여 추정된 값에 의해 대체되기도 하고 일부는 제거되기도 한다. 특히, 결측치 비율이 매우 크게 되면 기존의 결측치 대체 방법의 정확도는 떨어진다. 또한 데이터의 결측치 비율이 증가할수록 사용 가능한 Imputation 방법들의 수는 극히 제한된다. 이러한 문제점을 해결하기 위하여 본 논문에서는 Vapnik의 Support Vector Regression을 데이터 전처리 과정에 알맞게 변형한 Support Vector Regression을 제안하여 이러한 문제점들을 해결하였다. 제안 방법을 통하여 결측치의 비율이 상당히 큰 희소 데이터의 전처리도 가능하게 되었다. UCI machine learning repository로부터 얻어진 데이터를 이용하여 제안 방법의 성능을 확인하였다.

  • PDF

Support Vector Quantile Regression Using Asymmetric e-Insensitive Loss Function

  • Shim, Joo-Yong;Seok, Kyung-Ha;Hwang, Chang-Ha;Cho, Dae-Hyeon
    • Communications for Statistical Applications and Methods
    • /
    • 제18권2호
    • /
    • pp.165-170
    • /
    • 2011
  • Support vector quantile regression(SVQR) is capable of providing a good description of the linear and nonlinear relationships among random variables. In this paper we propose a sparse SVQR to overcome a limitation of SVQR, nonsparsity. The asymmetric e-insensitive loss function is used to efficiently provide sparsity. The experimental results are presented to illustrate the performance of the proposed method by comparing it with nonsparse SVQR.

변수평활량을 이용한 커널회귀함수 추정 (On variable bandwidth Kernel Regression Estimation)

  • 석정하;정성석;김대학
    • Journal of the Korean Data and Information Science Society
    • /
    • 제9권2호
    • /
    • pp.179-188
    • /
    • 1998
  • 커널형 회귀함수의 추정법 중에서 국소 다항회귀 추정법이 가장 우수한 것으로 알려져 있다. 국소다항회귀 추정법에서도 다른 종류의 커널추정량과 마찬가지로 평활량이 중요한 역할을 한다. 특히 회귀함수가 복잡한 구조를 가질 때 변수평활량(variable band-width)을 사용하는 것이 타당할 것이다. 본 연구에서는 완전자료기저(fully automatic, fully data-driven) 변수평활량 선택법을 제안한다. 이 선택법은 편향과 분산의 예비추정에 필요한 평활량을 교차타당성 방법으로 선택하여 MSE를 추정하고 그 값을 최소화하는 평활량을 택하는 것이다. 제안된 방법의 우수성을 모의실험을 통하여 확인하였다. 그리고 제안된 방법은 자료점이 성긴(sparse)부분에서 생길 수 있는 문제점 즉 X'X의 비정칙성(non-singularity)을 해결할 수 있는 방법이라는 데에도 큰 의미가 있다.

  • PDF

희박 공분산 행렬에 대한 베이지안 변수 선택 방법론 비교 연구 (A comparison study of Bayesian variable selection methods for sparse covariance matrices)

  • 김봉수;이경재
    • 응용통계연구
    • /
    • 제35권2호
    • /
    • pp.285-298
    • /
    • 2022
  • 연속 수축 사전분포는 spike and slab 사전분포와 더불어, 희박 회귀계수 벡터 또는 공분산 행렬에 대한 베이지안 추론을 위해 널리 사용되고 있다. 특히 고차원 상황에서, 연속 수축 사전분포는 spike and slab 사전분포에 비해 매우 작은 모수공간을 가짐으로써 계산적인 이점을 가진다. 하지만 연속 수축 사전분포는 정확히 0인 값을 생성하지 않기 때문에, 이를 이용한 변수 선택이 자연스럽지 않다는 문제가 있다. 비록 연속 수축 사전분포에 기반한 변수 선택 방법들이 개발되어 있기는 하지만, 이들에 대한 포괄적인 비교연구는 거의 진행되어 있지 않다. 본 논문에서는, 연속 수축 사전분포에 기반한 두 가지의 변수 선택 방법들을 비교하려 한다. 첫 번째 방법은 신용구간에 기반한 변수 선택, 두 번째 방법은 최근 Li와 Pati (2017)가 개발한 sequential 2-means 알고리듬이다. 두 방법에 대한 간략한 소개를 한 뒤, 다양한 모의실험 상황에서 자료를 생성하여 두 방법들의 성능을 비교하였다. 끝으로, 모의실험으로부터 발견한 몇 가지 사실들을 기술하고, 이로부터 몇 가지 제안을 하며 논문을 마치려 한다.