• 제목/요약/키워드: 선택편의 모형

검색결과 100건 처리시간 0.023초

모형 선택 기준들에 대한 LASSO 회귀 모형 편의의 영향 연구 (A study on bias effect of LASSO regression for model selection criteria)

  • 유동현
    • 응용통계연구
    • /
    • 제29권4호
    • /
    • pp.643-656
    • /
    • 2016
  • 고차원 자료(high dimensional data)는 변수의 수가 표본의 수보다 많은 자료로 다양한 분야에서 관측 또는 생성되고 있다. 일반적으로, 고차원 자료에 대한 회귀 모형에서는 모수의 추정과 과적합을 피하기 위하여 변수 선택이 이루어진다. 벌점화 회귀 모형(penalized regression model)은 변수 선택과 회귀 계수의 추정을 동시에 수행하는 장점으로 인하여 고차원 자료에 빈번하게 적용되고 있다. 하지만, 벌점화 회귀 모형에서도 여전히 조율 모수 선택(tuning parameter selection)을 통한 최적의 모형 선택이 요구된다. 본 논문에서는 벌점화 회귀 모형 중에서 대표적인 LASSO 회귀 모형을 기반으로 모형 선택의 기준들에 대한 LASSO 회귀 추정량의 편의가 어떠한 영향을 미치는지 모의실험을 통하여 수치적으로 연구하였고 편의의 보정의 필요성에 대하여 나타내었다. 실제 자료 분석에서의 영향을 나타내기 위하여, 폐암 환자의 유전자 발현량(gene expression) 자료를 기반으로 바이오마커 식별(biomarker identification) 문제에 적용하였다.

성향점수를 활용한 보증기업의 재무성과 분석 (Financial performance analysis of guaranteed firms using propensity scores)

  • 남주하;김정렬;노맹석
    • 응용통계연구
    • /
    • 제29권2호
    • /
    • pp.389-398
    • /
    • 2016
  • 본 연구에서는 신용보증기금으로부터 보증받은 기업의 미시적 성과를 분석하기 위해 비보증기업과 비교 분석하였다. t-test나 회귀모형과 같은 단순모형으로 비교하게 되면 선택편의에 의해 실제 보증성과를 나타낼 수 없다. 이러한 문제점을 해결하기 위해서, 선택편의를 보정한 회귀모형을 제안하였고 실제 자료에 적용하였다. 분석결과 비보증기업에 비하여 보증기업의 미시적 성과를 확인할 수 있었다.

SP 화물수단선택을 위한 Inherent Random Heterogeneity 로짓 모형 연구 (Inherent Random Heterogeneity Logit Model for Stated Preference Freight Mode Choice)

  • KIM, Kang-Soo
    • 대한교통학회지
    • /
    • 제20권3호
    • /
    • pp.83-92
    • /
    • 2002
  • 화물수단선택모형 구축은 화물 및 물류관련 연구에 있어서 중요한 역할을 차지한다. 그러나 이러한 화물수단 선택 모형을 구축하기 위해 실제 관측되는 자료(Revealed Preference:RP)를 이용하는 데는 한계가 존재하며 따라서 선호의식 기법을 활용한 Stated Preference(SP) 자료가 화물수단 선택 모형을 구축하는데 중요한 자료로 사용된다 SP 자료는 이처럼 화물교통 자료의 현실적인 한계를 극복할 수 있지만 SP자료를 이용하여 구축되어지는 화물수단모형인 경우 조사기법의 한계로 RP자료에는 존재하지 않는 편의가 발생한다. 본 논문은 SP 자료를 이용하여 수단선택모형 구축시 발생하는 편의 제거에 대한 연구이다. 특히 본 논문에서는 시뮬레이션 방법을 이용하여 개인의 다양한 선택행태 다양성(heterogeneity)과 이러한 다양성이 SP 다음 질문에 전이되는 문제점을 극복하는 새로운 개념의 화물수단 선택 로짓모형을 제시한다. 또한 단순 로짓모형이 갖고 있는 IIA 특성을 극복하는 화물수단 선택모형도 제시한다. 본 연구를 통해 화물교통에 존재하는 화주의 다양한 선택행태 분석뿐만 아니라 SP 수단선택 모형이 갖는 편의 극복에 본 연구가 일조하기를 기대한다.

표본선택 편의를 반영한 임금결정요인 분석 (The wage determinants applying sample selection bias)

  • 박성익;조장식
    • Journal of the Korean Data and Information Science Society
    • /
    • 제27권5호
    • /
    • pp.1317-1325
    • /
    • 2016
  • 본 연구에서는 한국고용정보원에서 실시한 "2013 고졸자 취업진로조사" 자료를 활용하여 특성화고 졸업자의 임금결정요인을 분석하였다. 일반적으로 임금은 개인의 취업여부와 임금의 크기에 대한 두 가지의 복합적인 정보를 담고 있다. 그러나 임금 결정요인분석의 많은 선행연구에서는 후자의 정보만을 대상으로 최소제곱법에 기초한 선형 회귀분석을 수행함으로써 표본선택에 의한 편의 (sample selection bias) 문제가 발생하게 된다. 본 연구에서는 임금결정요인분석에서 표본선택에 의한 편의 문제를 극복하기 위해 Tobit 모형과 Heckman의 표본선택 모형을 분석에 활용하였다. 주요 분석 결과를 요약하면 다음과 같다. 먼저 Tobit 모형과 Heckman의 표본선택 모형에 대한 타당성은 통계적으로 유의함을 알 수 있었다. 성별은 취업확률과 임금의 크기에서 모두 통계적으로 유의한 것으로 나타났다. 마이스터고 졸업생은 취업확률과 임금의 크기 모두 기타고 졸업생에 비해서 높은 것을 알 수 있었으며, 부모소득이 높을수록 취업확률과 임금의 크기가 모두 통계적으로 유의하게 증가하였다. 부모학력이 고졸이하에 비해서 대졸이상이 취업확률은 통계적으로 유의하게 낮지만, 임금의 크기는 높게 나타났다. 고교성적은 높을수록, 고교 만족도가 높을수록, 그리고 자격증 수가 많을수록 취업확률과 임금의 크기 모두 통계적으로 유의하게 높은 것을 알 수 있다.

표본 선택 모형을 이용한 국내 여성 임금 데이터 분석 (Korean women wage analysis using selection models)

  • 정미량;김미정
    • Journal of the Korean Data and Information Science Society
    • /
    • 제28권5호
    • /
    • pp.1077-1085
    • /
    • 2017
  • 본 연구에서는 한국노동연구원의 "2015년 한국노동패널조사 (KLIPS)" 자료를 활용하여 국내 여성의 임금 결정요인을 분석하기 한다. 일반적으로 임금 자료는 랜덤 추출이 불가능하기 때문에 분석하기가 쉽지 않다. 표본 선택 편의 (sampling bias)가 있는 자료를 분석하는 방법으로 Heckman 표본 선택 모형이 가장 널리 알려져 있다. Heckman은 크게 두 가지 모형을 제안했는데, 그 중 하나는 최대 우도 방법을 이용하는 것이고, 다른 하나는 2단계 표본 선택 모형이다. 이 중 Heckman 2단계 표본 선택 모형은 주된 결과 모형 (outcome model)과 경제 활동 여부를 결정짓는 선택 모형 (selection model)을 포함한 모형으로써, 이 모형이 최대 우도 방법을 이용한 모형에 비해 이변수 오차의 정규분포 가정에 덜 민감하다고 알려져 있다. 그럼에도 불구하고 이변수 오차에 대한 정규 분포 가정은 꽤 강한 가정이라고 볼 수 있는데, 최근에 이 모형의 단점을 보완하는 모형으로 Marchenko와 Genton (2012)의Heckman 표본 선택 t 모형이 제시되었다. Heckman 2단계 모형과 Heckman 표본 선택 t 모형을 이용하여 국내 여성의 임금 결정 요인을 분석하고 비교하도록 한다.

기업의 부채조달원 선택에 관한 연구: 패널표본선택모형의 적용 (Corporate Debt Choice: Application of Panel Sample Selection Model)

  • 이호선
    • 한국콘텐츠학회논문지
    • /
    • 제15권7호
    • /
    • pp.428-435
    • /
    • 2015
  • 우리 기업의 타인자본조달에 관한 통계지표를 살펴보면 대기업은 은행의 기업대출과 회사채 등의 직접금융을 함께 사용하여 자본을 조달하고 있는 반면, 중소기업은 은행대출에 계속 의지하고 있음을 확인할 수 있다. 이러한 현실을 감안하여 본 연구에서는 기업의 타인자본조달을 실증분석하는데 있어 표본선택편의가 존재하고 이를 감안한 연구모형을 사용해야 한다고 주장한다. 이러한 주장을 뒷받침하기 위해 1990년부터 2013년까지의 상장기업 자료를 통해 부채구조를 설명하는 실증분석을 수행한 결과 선행연구에서와 마찬가지로 기업의 회사채사용에 있어 기업규모, 1대주주 지분율, 유형자산 구성비, 수익성, 배당성향 등이 영향을 미치고 있음을 확인할 수 있었으며, 패널표본선택모형에 투입된 Inverse Mills Ratio 변수가 유의하게 나타나 패널표본선택모형을 사용하는 것이 타당함을 확인하였다. 이러한 결과는 기업의 타인자본조달에 있어 표본선택편의가 존재하며 이에 관한 연구에서 이를 반드시 감안해야 함을 의미한다.

혼합회귀모형에서 콤포넌트 및 설명변수에 대한 벌점함수의 적용 (Joint penalization of components and predictors in mixture of regressions)

  • 박종선;모은비
    • 응용통계연구
    • /
    • 제32권2호
    • /
    • pp.199-211
    • /
    • 2019
  • 주어진 회귀자료에 유한혼합회귀모형을 적합하는 경우 적절한 성분의 수를 선택하고 선택된 각각의 회귀모형에서 의미있는 예측변수들의 집합을 선택하며 동시에 편의와 변동이 작은 회귀계수 추정치들을 얻는 것은 매우 중요하다. 본 연구에서는 혼합선형회귀모형에서 성분의 개수와 회귀계수에 벌점함수를 적용하여 적절한 성분의 수와 각 성분의 회귀모형에 필요한 설명변수들을 동시에 선택하는 방법을 제시하였다. 성분에 대한 벌점은 성분들의 로그값에 SCAD 벌점함수를 적용하였고 회귀계수들에는 SCAD와 더불어 MCP 및 Adplasso 벌점함수들을 사용하여 가상자료와 실제자료들에 대한 결과를 비교하였다. SCAD-SCAD 벌점함수 조합과 SCAD-MCP 조합의 경우 기존의 Luo 등 (2008)의 방법에서 문제가 되었던 과적합 문제를 해결함과 동시에 선택된 성분의 수와 회귀계수들을 효과적으로 선택하였으며 회귀계수들의 추정치에 대한 편의도 크지 않았다. 본 연구는 성분의 수가 알려져 있지 않은 회귀자료에서 적절한 성분의 수와 더불어 각 성분에 대한 회귀모형에서 모형에 필요한 예측변수들을 동시에 선택하는 방법을 제시하였다는데 의미가 있다고 하겠다.

이중 양분선택형 질문 CV자료에서의 정박효과 검토

  • 신영철
    • 자원ㆍ환경경제연구
    • /
    • 제8권1호
    • /
    • pp.51-73
    • /
    • 1998
  • 조건부가치측정법(CVM)의 지불의사 유도방법인 이중 양분선택형 질문법은 단일 양분선택형 질문 CV자료의 통계적 비효율성을 극복하기 위한 방법으로 제안되었다. 이 방법은 여러 가지 장점에도 불구하고 출발점 편의의 심리학적 근거인 정박효과 (anchoring effect)의 발생 가능성을 의심받고 있다. 그러므로 본 논문에서는 이중 양분선택형 질문 CV자료에서 정박효과를 검토할 수 있는 일반적 지불의사금액모형을 제시하고, 그 모형으로부터 정박효과를 검토할 수 있는 방법을 제안한다. 모형은, Cameron and Quiggin(1994)이 제안한 이변량 모형에 두 번째 내재 지불의사금액의 설명변수로서 처음 제시된 특정금액에 대한 양분선택적 응답결과를 포함시킨 형태이다. 이 모형에서 처음 제시된 특정금액에 대한 양분선택적 응답결과의 계수 부호가 음(-)이고 통계적으로 유의하다면 정박효과가 발생하는 것으로 볼 수 있다. 그러나 만약 이러한 계수 검토에서 정박효과 발생을 확인할 수 없는 경우, 두 번의 응답에서 두 지불의사금액 추정치들의 평균이 다르다고 볼 수 없다면 정박효과를 우려할 필요가 없다. 이 검토 모형 및 방법을 본 연구에서 한강 수질 개선에 대한 CV자료에 적용해 본 결과 정박효과를 우려할 필요가 없음을 확인할 수 있다.

  • PDF

청년층 미취업의 실태 및 원인 분석 (An Analysis of the Factors of Youth Unemployment and Nonparticipation in Korea)

  • 김안국
    • 노동경제논집
    • /
    • 제26권1호
    • /
    • pp.23-52
    • /
    • 2003
  • 본고는 청년층의 실업 및 비경제활동의 실태를 살펴보고 그 원인을 분석해 보았다. 청년층 비경제활동인구를 가사 육아 학업 훈련, 기타의 범주로 구분하고 선택편의 모형 및 다항로짓 모형으로 미취업자들의 시장가능임금 을 추정하고 실업 및 비경제활동의 선태 요인을 분석하였다. 분석의 결과 미취업자의 희망임금과 시장가능임금의 차이가 실업보다는 학업 훈련 범주나 기타의 범주에 속하는 비경제활동 청년에게서 크게 나타났다. 남성, 연령이 적을수록, 저학력일수록 희망임금과 시장가능임금의 차이가 크게 나타났다. 취업 및 실업, 비경제활동의 선택에서 남성, 고연령, 가구주, 자격증 소지자일 경우 취업의 선택 확률을 높이고 비경제활동의 선태 확률은 낮추는 것으로 나타났다. 청년층의 첫 직장 경험은 취업을 선택할 확률을 크게 낮추고, 실업 및 비경제활동을 선택할 확률을 높이는 것으로 나타났다. 이는 현재 청년층의 취업의 질이 극히 낮은 수준임을 반영하는 것이라 파악할수 있다.

  • PDF

비정규분포를 이용한 표본선택 모형 추정: 자동차 보유와 유지비용에 관한 실증분석 (An Alternative Parametric Estimation of Sample Selection Model: An Application to Car Ownership and Car Expense)

  • 최필선;민인식
    • Communications for Statistical Applications and Methods
    • /
    • 제19권3호
    • /
    • pp.345-358
    • /
    • 2012
  • 표본선택 모형을 최우추정법으로 추정할 때 오차항의 분포를 제대로 가정하는 것이 매우 중요하다. 표본선택 모형의 선택 방정식과 본 방정식의 오차항 분포를 일반적으로 이변량 정규분포로 가정하지만, 이 가정이 오차항의 실제 분포를 과도하게 제약할 가능성이 있다. 본 연구는 표본선택 모형의 오차항 분포로 $S_U$-정규분포를 도입한다. $S_U$-정규분포는 분포의 비대칭성과 초과첨도를 허용한다는 측면에서 정규분포보다 훨씬 유연하면서, 동시에 정규분포를 극한분포의 형태로 포함하고 있다. 또한 정규분포처럼 다변량 분포함수가 존재하기 때문에 표본선택 모형과 같은 다변량 모형에서도 활용할 수 있다. 본 논문은 $S_U$-정규분포를 이용한 표본선택 모형에서 로그우도 함수와 조건부 기댓값을 도출하고, 시뮬레이션을 통해 정규분포 모형과 추정성과를 비교한다. 또한 자동차 보유 가구들의 자동차 유지비에 관한 실제 데이터를 이용하여 $S_U$-정규분포 표본선택 모형의 추정결과를 제시한다.