• 제목/요약/키워드: 단계별 변수선택

검색결과 51건 처리시간 0.027초

부분선형모형에서 LARS를 이용한 변수선택 (Variable selection in partial linear regression using the least angle regression)

  • 서한손;윤민;이학배
    • 응용통계연구
    • /
    • 제34권6호
    • /
    • pp.937-944
    • /
    • 2021
  • 본 연구는 부분선형모형에서 변수선택의 문제를 다룬다. 부분선형모형은 평활화모수 추정과 같은 비모수 추정과 선형설명변수에 대한 추정의 문제를 함께 포함하고 있어 변수선택이 쉽지 않다. 본 연구에서는 빠른 전진선택법인 LARS 를 이용한 변수선택법을 제시한다. 제안된 방법은 LARS에 의하여 선별된 변수들에 대하여 t-검정, 가능한 모든 회귀모형 비교 또는 단계별 선택법을 적용한다. 제안된 방법들의 효율성을 비교하기 위하여 실제데이터에 적용한 예제와 모의실험 결과가 제시된다.

대학 평가지표들에 대한 상관분석과 변수선택에 의한 선형모형추정 (The correlation and regression analyses based on variable selection for the university evaluation index)

  • 송필준;김종태
    • Journal of the Korean Data and Information Science Society
    • /
    • 제23권3호
    • /
    • pp.457-465
    • /
    • 2012
  • 본 연구의 목적은 한국대학교육협의회 대학정보공시센터의 '대학알리미'에서 주요 대학지표들을 분석하고, 지표들 간의 연관성과 통계적 모형을 추정하는데 있다. 먼저 상관계수에 대한 통계적 검정을 이용하여 변수들 간의 통계적으로 유의한 상관성을 추정하고, 이들 주요 지표들의 모형을 추정하기 위해서 회귀분석 방법의 변수선택 방법을 이용하여 회귀 방정식을 추정하여 변수들 간의 연관성을 조사하였다. 변수선택의 판정기준에 따른 방법으로 전진선택법과 후진제거법, 단계별 회귀방법을 사용하였다.

대형 데이터에서 VIF회귀를 이용한 신속 강건 변수선택법 (Fast robust variable selection using VIF regression in large datasets)

  • 서한손
    • 응용통계연구
    • /
    • 제31권4호
    • /
    • pp.463-473
    • /
    • 2018
  • 연구에서는 선형회귀모형을 가정한 대형 데이터에서의 변수선택 알고리즘을 다룬다. 방법의 속도와 강건성에 주안점을 둔 여러 알고리즘들이 제안되었다. 그 중에서 streamwise 회귀 접근법을 사용한 VIF회귀는 신속하고 정확하게 수행된다. 그러나 VIF회귀는 최소제곱방법에 의해 모형이 추정되므로 이상치에 민감하다. 변수선택방법의 강건성을 높이기 위해 가중 추정치를 사용한 강건측도가 제안되었으며 강건 VIF회귀도 제안되었다. 본 연구에서는 잠재적 이상치를 탐지하여 제거한 후 VIF회귀를 수행하는, 빠르고 강건한 변수선택 방법을 제안한다. 제안된 방법은 모의실험과 데이터 분석 통해 다른 방법들과 비교된다.

한우 거세우 고기 관능평가 데이터의 로지스틱 회귀분석 (Logistic Regressions with Sensory Evaluation Data about Hanwoo Steer Beef)

  • 이혜정;김재희
    • 응용통계연구
    • /
    • 제23권5호
    • /
    • pp.857-870
    • /
    • 2010
  • 국립축산과학원에서는 2006년 부터 2008년 까지 전국 소비자들을 대상으로 한우 거세우 표본 시료에 대한 관능 평가 조사를 실시하여 데이터를 수집하였으며 본 연구에서는 한우 관능 평가 데이터에 대해 사회 인구학적 요인과 한국 소비자들의 맛 평가에 대한 연관성을 탐구하고자 한다. 소비자 거주지역, 연령, 성별, 직업, 월수입과 쇠고기 부위를 설명변수로 맛등급 평가를 반응변수로 이항 다중 로지스틱 모형과 다항 다중 로지스틱 모형을 적합하고 회귀계수별 유의성 검정과 적합도 검정을 실시한다. 단계별 변수 선택으로 최종 모형을 선택하고 반응변수 범주에 대한 오즈비를 계산하여 맛등급과 설명변수들 간의 관련성을 파악한다. 또한 맛과 관련 있는 연속형 변수를 설명변수로 포함한 경우에 대해서도 이항 다중 로지스틱 모형과 다항 다중 로지스틱 모형을 적합하고 비교한다. 그 결과 거주 지역, 연령, 월수입과 쇠고기 부위 변수들이 선택되었으며 영남지역에서 맛에 대한 오즈가 큰 편이며 수입이 많고 연령이 높을수록 맛에 대한 오즈가 작은 편이었다. 요리법으로는 탕에 대한 구이의 오즈비가 큰 편이며 쇠고기 부위별로는 우둔에 비해서 등심이 다른 부위들 보다 맛에 대한 차이가 크다고 볼 수 있다. 연속형 변수로는 연도가 맛등급에 큰 영향을 미치는 변수로 나타났다.

단계별 순서를 응용한 첫 일자리에서의 조기퇴직에 대한 영향력 분석 -2009년 대졸자 이동경로조사로부터 (Analysis of the impact on quitting one's first job using the stepwise sequence - based on graduates occupatinal mobility survey)

  • 정우호;이성임
    • Journal of the Korean Data and Information Science Society
    • /
    • 제21권6호
    • /
    • pp.1191-1201
    • /
    • 2010
  • 본 연구에서는 2007년 한국고용정보원의 설문조사에 의한 <대졸자 이동경로조사 데이터>를 사용하여 첫 일자리에서의 조기퇴직에 대한 영향력을 분석하였다. 조사내용에 의하면 조기퇴직과 관련있는 설문문항의 수가 매우 크므로, 그 중에서 조기퇴직과 유의한 관련이 있는 문항 즉 설명변수들을 선택하는 데에는 현실적으로 많은 어려움이 존재한다. 본 논문에서는 설명변수의 수가 클 때 자료 분석에서 가능한 모형 선택의 기준을 고찰하고, Shtatland 등 (2003)에서 제안한 모형 선택의 절차를 응용하여 첫 일자리에서의 조기퇴직에 대한 영향력을 분석하였다.

미계측 유역의 기후변화 영향평가를 위한 수문모형 매개변수의 지역회귀분석 적용 (Applying regional regression analysis of the hydrologic model parameters for assessing climate change impacts in the ungaged watershed)

  • 김영일;서승범;김성진;김영오
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2017년도 학술발표회
    • /
    • pp.219-219
    • /
    • 2017
  • 상대적으로 유역의 관측 자료가 충분하지 못하거나 검증되지 않았을 경우 미계측 유역으로 정의되며 수문모형의 매개변수 검정을 할 수 없으므로 다른 방법을 고안해야 한다. 이를 위해 기존 연구에서는 지역적 특성을 고려한 지역회기분석을 통해 미계측 유역의 유량을 산정하였는데, 대부분 유역의 특성과 연 평균 유출량 자료의 관계를 이용한 회귀식으로 실시간 유량의 변화를 고려하기 어려웠다. 본 연구에서는 개념적 강우-유출모형으로 많이 사용되고 있는 개념적 수문모형인 GR4J의 매개변수에 대해 미계측 유역의 특성을 고려한 변수들을 이용하여 회귀식을 구하고 그 적용성을 평가하였다. 이를 통해 미계측 유역의 유량 시계열 자료를 생성할 수 있었다. 또한 IPCC에서 발간한 AR5의 RCP 4.5 시나리오를 적용하여 미래 유출량을 산정하였다. 우선 지역회귀분석을 적용하기 위해 수문모형을 이용한 계측 유역의 유출량을 구하였으며 22개의 전국 댐 상류 지점을 기준으로 SCE 알고리즘을 이용하여 GR4J의 최적 매개변수를 구하고 각 유역별로 물리적, 지형적, 기상학적 특성을 고려하여 11개의 변수를 선택하였다. 각 변수간 다중공선성(Multicollinearity)를 고려하기 위해 VIF(Variation Inflation Factor) test를 적용하여 최종 7개의 변수를 선정하고 단계별 회귀방법(Stepwise regression)을 이용하여 GR4J의 매개변수별 회귀식을 생성하였다.

  • PDF

한우 수소 고기 관능평가 데이터에 대한 범주형 자료 분석 (Categorical data analysis of sensory evaluation data with Hanwoo bull beef)

  • 이혜정;조수현;김재희
    • Journal of the Korean Data and Information Science Society
    • /
    • 제20권5호
    • /
    • pp.819-827
    • /
    • 2009
  • 국립축산과학원에서 수집한 한우 관능 평가 데이터에 대해 사회 인구학적 요인과 한국 소비자들의 맛 평가에 대한 연관성을 연구하고자 한다. 소비자 거주지역, 연령, 성별, 직업, 월수입과 쇠고기 부위를 설명변수로 맛등급 평가를 반응변수로 이항 다중 로지스틱 모형과 다항 다중 로지스틱 모형을 적합하고 회귀계수별 유의성 검정과 적합도 검정을 실시하였다. 단계별 변수 선택으로 최종 모형을 선택하고 반응변수 범주에 대한 오즈비를 계산하여 관련성을 파악한다. 그 결과 거주 지역, 연령, 월수입과 쇠고기 부위 변수들이 선택되었다. 영남에서 맛을 비교적 높게 평가하는 경향이 있으며 수입이 많고 연령이 높을수록 맛을 까다롭게 평가하는 경향을 보인다. 쇠고기 부위별로는 우둔에 비해서 등심이 다른 부위들 중 맛에 대한 차이가 크다고 볼 수 있다.

  • PDF

범주형 재무자료에 대한 신용평가모형 검증 비교 (Validation Comparison of Credit Rating Models for Categorized Financial Data)

  • 홍종선;이창혁;김지훈
    • Communications for Statistical Applications and Methods
    • /
    • 제15권4호
    • /
    • pp.615-631
    • /
    • 2008
  • 재무자료에 대한 신용평가모형은 각각의 재무변수를 평활한 예측부도율로 변환하여 사용한다. 본 연구에서는 연속형 재무자료를 변환하여 설정된 신용평가모형의 문제점을 살펴보고, 연속형 재무변수를 다양한 형태로 범주화한 신용평가모형들을 제안한다. 범주형 재무자료를 사용해서 개발한 여러 종류의 신용평가모형들의 성과를 다양한 적합성 검증 방법으로 비교하고, 범주형 재무자료를 이용한 신용평가모형의 유용성을 토론한다.

안정적 유전자 특징 선택을 위한 유전자 발현량 데이터의 부트스트랩 기반 Lasso 회귀 분석 (Lasso Regression of RNA-Seq Data based on Bootstrapping for Robust Feature Selection)

  • 조정희;윤성로
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제23권9호
    • /
    • pp.557-563
    • /
    • 2017
  • 많은 수의 유전자 데이터를 이용해서 Lasso 회귀 분석을 할 때, 유전자 발현량 값들 사이의 높은 상관성으로 인하여 회귀 계수의 추정값이 회귀 분석의 반복 시행마다 달라질 수 있다. L1 정규화에 의해 축소되는 회귀 계수의 불안정성은 변수 선택을 어렵게 하는 요인이 된다. 본 연구에서는 이러한 문제를 해결하기 위하여 부트스트랩 단계를 반복 시행하여 높은 빈도로 선택된 유전자들을 이용한 회귀 모형들을 만들고, 각 모형들에서 안정적으로 선택되는 특징 유전자들을 찾고, 그 유전자들이 위양성 결과가 아님을 입증하였다. 또한, 회귀모형 별 예측지수의 정확도를 실제지수와의 상관관계를 이용해 측정하였는데, 선택된 특징 유전자들의 회귀계수 부호의 분포가 정확도와 관련성을 보임을 확인하였다.

가족생활주기에 따른 관광지 선택행동의 실증분석 (An Empirical Study on the Travel Behavior and Destination Choice according to the Family Life Cycle)

  • 심상화;김월호
    • 산학경영연구
    • /
    • 제11권
    • /
    • pp.149-171
    • /
    • 1998
  • 관광의 영향력을 파급시키는 주체인 관광객이 어떤 요인들로부터 영향을 받아 어떻게 관광 목적지를 선택하게 되는지의 문제는 가장 기본적이면서도 중요한 것이라 하겠다. 이들 관광객의 행동에 영향을 미치는 요인으로는 개인적, 사회 환경적, 판매 촉진적 영향 요인이 있으며, 이 가운데 개인적 영향요인(지자, 학습, 성격, 동기, 태도)에 대하여는 최근 들어 국내에서도 활발히 연구가 이루어지고 있는바, 사회환경적 요인(가족, 사회계층, 준거집단) 가운데 가장 기본적이고 중요한 요인인 "가족"을 중심으로 가족의 동적인 영향력이 가장 잘 설명해 줄 수 있는 하나의 강력한 인구 통계적 집단 변수로서 가족생활주기(Family Life Cycle)에 따른 관광객의 관광지 선택행동을 분석하였다. 본 연구의 목적은 가족생활주기와 국민 국내관광자의 목적지 선택 특성과의 관계를 파악하여 마케팅측면에서 관광시장 세분화 기준으로서의 가족생활주기의 타당성을 검증하고 각 단계별로 유의한 영향변수를 파악하여 최근 관광시장의 양적 대량화 및 질적 다양화라는 이중 구조적 환경에 효과적으로 대응하기 위한 전략 수립에 일조하는데 있다.

  • PDF