• 제목/요약/키워드: 표본선택

검색결과 471건 처리시간 0.024초

비정규분포를 이용한 표본선택 모형 추정: 자동차 보유와 유지비용에 관한 실증분석 (An Alternative Parametric Estimation of Sample Selection Model: An Application to Car Ownership and Car Expense)

  • 최필선;민인식
    • Communications for Statistical Applications and Methods
    • /
    • 제19권3호
    • /
    • pp.345-358
    • /
    • 2012
  • 표본선택 모형을 최우추정법으로 추정할 때 오차항의 분포를 제대로 가정하는 것이 매우 중요하다. 표본선택 모형의 선택 방정식과 본 방정식의 오차항 분포를 일반적으로 이변량 정규분포로 가정하지만, 이 가정이 오차항의 실제 분포를 과도하게 제약할 가능성이 있다. 본 연구는 표본선택 모형의 오차항 분포로 $S_U$-정규분포를 도입한다. $S_U$-정규분포는 분포의 비대칭성과 초과첨도를 허용한다는 측면에서 정규분포보다 훨씬 유연하면서, 동시에 정규분포를 극한분포의 형태로 포함하고 있다. 또한 정규분포처럼 다변량 분포함수가 존재하기 때문에 표본선택 모형과 같은 다변량 모형에서도 활용할 수 있다. 본 논문은 $S_U$-정규분포를 이용한 표본선택 모형에서 로그우도 함수와 조건부 기댓값을 도출하고, 시뮬레이션을 통해 정규분포 모형과 추정성과를 비교한다. 또한 자동차 보유 가구들의 자동차 유지비에 관한 실제 데이터를 이용하여 $S_U$-정규분포 표본선택 모형의 추정결과를 제시한다.

층화 이단계 표본추출시 최적 선택율 (Optimum Selection Probabilites in Stratified Two-stage Sampling)

  • 신민웅;오상훈
    • 응용통계연구
    • /
    • 제14권2호
    • /
    • pp.429-437
    • /
    • 2001
  • 단순 이단계 표본 추출의 경우에 최적 선택률은 Hansen과 Hurwitz(1949)에 의하여 구하여졌다. 그러나 통계청에서 실시하는 표본조사등은 층화 이단계 추출을 한다. 따라서 실제적인 필요성에 의하여 층화 2단계 표본 설계를 시도 하였다. 층화 이단계 표본추출시에 주어진 비용아래서 모총계의 추정량의 분산을 최소로 하는 최적의 선택확률(optimum selection probability), 표본추출율과 부차 표본추출율을 Lagrangean 승수법에 의하여 구한다.

  • PDF

표본선택 편의를 반영한 임금결정요인 분석 (The wage determinants applying sample selection bias)

  • 박성익;조장식
    • Journal of the Korean Data and Information Science Society
    • /
    • 제27권5호
    • /
    • pp.1317-1325
    • /
    • 2016
  • 본 연구에서는 한국고용정보원에서 실시한 "2013 고졸자 취업진로조사" 자료를 활용하여 특성화고 졸업자의 임금결정요인을 분석하였다. 일반적으로 임금은 개인의 취업여부와 임금의 크기에 대한 두 가지의 복합적인 정보를 담고 있다. 그러나 임금 결정요인분석의 많은 선행연구에서는 후자의 정보만을 대상으로 최소제곱법에 기초한 선형 회귀분석을 수행함으로써 표본선택에 의한 편의 (sample selection bias) 문제가 발생하게 된다. 본 연구에서는 임금결정요인분석에서 표본선택에 의한 편의 문제를 극복하기 위해 Tobit 모형과 Heckman의 표본선택 모형을 분석에 활용하였다. 주요 분석 결과를 요약하면 다음과 같다. 먼저 Tobit 모형과 Heckman의 표본선택 모형에 대한 타당성은 통계적으로 유의함을 알 수 있었다. 성별은 취업확률과 임금의 크기에서 모두 통계적으로 유의한 것으로 나타났다. 마이스터고 졸업생은 취업확률과 임금의 크기 모두 기타고 졸업생에 비해서 높은 것을 알 수 있었으며, 부모소득이 높을수록 취업확률과 임금의 크기가 모두 통계적으로 유의하게 증가하였다. 부모학력이 고졸이하에 비해서 대졸이상이 취업확률은 통계적으로 유의하게 낮지만, 임금의 크기는 높게 나타났다. 고교성적은 높을수록, 고교 만족도가 높을수록, 그리고 자격증 수가 많을수록 취업확률과 임금의 크기 모두 통계적으로 유의하게 높은 것을 알 수 있다.

표본 선택 모형을 이용한 국내 여성 임금 데이터 분석 (Korean women wage analysis using selection models)

  • 정미량;김미정
    • Journal of the Korean Data and Information Science Society
    • /
    • 제28권5호
    • /
    • pp.1077-1085
    • /
    • 2017
  • 본 연구에서는 한국노동연구원의 "2015년 한국노동패널조사 (KLIPS)" 자료를 활용하여 국내 여성의 임금 결정요인을 분석하기 한다. 일반적으로 임금 자료는 랜덤 추출이 불가능하기 때문에 분석하기가 쉽지 않다. 표본 선택 편의 (sampling bias)가 있는 자료를 분석하는 방법으로 Heckman 표본 선택 모형이 가장 널리 알려져 있다. Heckman은 크게 두 가지 모형을 제안했는데, 그 중 하나는 최대 우도 방법을 이용하는 것이고, 다른 하나는 2단계 표본 선택 모형이다. 이 중 Heckman 2단계 표본 선택 모형은 주된 결과 모형 (outcome model)과 경제 활동 여부를 결정짓는 선택 모형 (selection model)을 포함한 모형으로써, 이 모형이 최대 우도 방법을 이용한 모형에 비해 이변수 오차의 정규분포 가정에 덜 민감하다고 알려져 있다. 그럼에도 불구하고 이변수 오차에 대한 정규 분포 가정은 꽤 강한 가정이라고 볼 수 있는데, 최근에 이 모형의 단점을 보완하는 모형으로 Marchenko와 Genton (2012)의Heckman 표본 선택 t 모형이 제시되었다. Heckman 2단계 모형과 Heckman 표본 선택 t 모형을 이용하여 국내 여성의 임금 결정 요인을 분석하고 비교하도록 한다.

과대산포 가산자료의 새로운 표본선택모형 (A new sample selection model for overdispersed count data)

  • 조성은;조준;김형문
    • 응용통계연구
    • /
    • 제31권6호
    • /
    • pp.733-749
    • /
    • 2018
  • 어떠한 연구에서 관심의 대상이 되는 관찰치가 부분적으로 관측 가능할 때 표본선택의 문제가 일어난다. 이러한 자료를 분석하기 위해 헤크만은 표본선택 모형을 개발하였고 이변량 정규분표의 가정 하에 최대우도방법을 사용하여 모수를 추정하였다. 최근 이항자료와 포아송 자료에 대한 표본선택모형이 제안되었다. 이를 분포조정에 기초하여 과대산포 자료에 대한 모형으로 확장하고자 한다. 표본선택이 없는 과대산포 자료는 흔히 음이항 분포로 분석되어진다. 따라서 음이항 분포를 이용하고 분포조정을 도입한 과대산포 자료에 대한 새로운 모형을 제시하고자 한다. 실제 자료를 이용하여 분석을 하였다. 모의실험 결과 프로파일 우도함수를 이용하여 모수에 대해 추정한 결과는 안정적이다.

Heckman의 표본선택모형을 이용한 대졸자의 임금결정요인 분석 (The wage determinants of college graduates using Heckman's sample selection model)

  • 조장식
    • Journal of the Korean Data and Information Science Society
    • /
    • 제28권5호
    • /
    • pp.1099-1107
    • /
    • 2017
  • 본 연구에서는 한국고용정보원에서 실시한 "2014년 대졸자 직업이동 경로조사" 자료를 활용하여 대졸자의 임금결정요인을 분석하였다. 일반적으로 임금은 개인의 취업여부와 임금의 크기에 대한 두 가지의 복합적인 정보를 담고 있으나, 많은 선행연구에서는 임금의 크기에 대한 정보만을 활용하여 선형 회귀분석을 수행함으로써 표본선택에 위한 편의 (sample selection bias) 문제가 발생하게 된다. 이런 문제점을 극복하기 위해 본 연구에서는 Heckman의 표본선택 모형을 분석에 활용하였다. 주요 분석 결과를 요약하면 다음과 같다. 먼저 Heckman의 표본선택 모형에 대한 타당성은 통계적으로 유의함을 알 수 있었다. 남자는 여자에 비해서 취업확률과 임금의 크기 모두 통계적으로 유의하게 높게 나타났으며, 연령이 증가하고 부모의 소득이 증가 할수록 취업확률과 임금의 크기 모두 높게 나타났다. 또한 대학만족도가 높아질수록, 그리고 취득한 자격증 수가 증가할수록 취업확률과 임금 모두 증가하는 경향이 있는 것으로 나타났다.

기업의 부채조달원 선택에 관한 연구: 패널표본선택모형의 적용 (Corporate Debt Choice: Application of Panel Sample Selection Model)

  • 이호선
    • 한국콘텐츠학회논문지
    • /
    • 제15권7호
    • /
    • pp.428-435
    • /
    • 2015
  • 우리 기업의 타인자본조달에 관한 통계지표를 살펴보면 대기업은 은행의 기업대출과 회사채 등의 직접금융을 함께 사용하여 자본을 조달하고 있는 반면, 중소기업은 은행대출에 계속 의지하고 있음을 확인할 수 있다. 이러한 현실을 감안하여 본 연구에서는 기업의 타인자본조달을 실증분석하는데 있어 표본선택편의가 존재하고 이를 감안한 연구모형을 사용해야 한다고 주장한다. 이러한 주장을 뒷받침하기 위해 1990년부터 2013년까지의 상장기업 자료를 통해 부채구조를 설명하는 실증분석을 수행한 결과 선행연구에서와 마찬가지로 기업의 회사채사용에 있어 기업규모, 1대주주 지분율, 유형자산 구성비, 수익성, 배당성향 등이 영향을 미치고 있음을 확인할 수 있었으며, 패널표본선택모형에 투입된 Inverse Mills Ratio 변수가 유의하게 나타나 패널표본선택모형을 사용하는 것이 타당함을 확인하였다. 이러한 결과는 기업의 타인자본조달에 있어 표본선택편의가 존재하며 이에 관한 연구에서 이를 반드시 감안해야 함을 의미한다.

깁스표본기법을 이용한 설명변수 선택문제에서 사전분포의 설정-선형회귀모형을 중심으로-

  • 박종선;남궁평;한숙영
    • Communications for Statistical Applications and Methods
    • /
    • 제4권2호
    • /
    • pp.333-343
    • /
    • 1997
  • 선형회귀분석에서 변수의 선택문제는 최적의 모형을 찾는데 아주 중요한 부분을 차지한다. George와 McCulloch(1993)는 계층적 베이즈 모형과 깁스표본법을 이용하여 선형회귀모형에서 변수를 선택하는 문제를 고려하였다. 이 논문에서는 George와 McCulloch의 모형을 바탕으로 각각의 설명변수가 모형에 포함될 사전확률을 객관적인 기준에 의하여 결정하는 문제를 고려하여 보았다.

  • PDF

선택기반 화물데이타를 이용한 개별로짓모형의 적용에 관한 연구 (A Study on the Application of Disaggregate Logit Models from Choice-Based Freight Data)

  • 남기찬
    • 한국항만학회지
    • /
    • 제7권1호
    • /
    • pp.25-42
    • /
    • 1993
  • 지난 20여년간 화물수송 분야에는 큰 변화가 있었다. 수송 공급 측면에서는 보다 다양하고 기술적으로 앞선 수송수단들이 등장했으며, 수송 수요 측면에서는 로지스틱스 개념의 도입으로 화주들의 보다 높은 수송 서비스가 요구 되었다. 수송수단의 수송 분담에 있어서도 특히 철도에서 공로로의 두드러진 화물이동 현상이 나타났다. 이러한 변화는 수송 현안 해결에 대한 관심을 높이고 화물수송수요 예측기법의 이론적, 개념적인 발달을 가져왔다. 그 중 두드러진 발달은 화주의 행태를 반영하는 행태모형의 개발과 새로운 자료수집 방법 및 자료형태이다. 전통적으로 화물수송 및 교통 연구에 널리 사용된 행태모형은 확률표본을 사용하여 왔으나, 80년대 부터 비확률 표본 사용에 관심이 높아졌다. 그 대표적인 것으로 기반근거 데이터를 들 수 있다. 이 데이터는 제한된 정보를 제공한다는 자료자체의 한계를 지니고 있으나, 자료수집이 용이하고 비용이 저렴하다는 장점을 가지고 있다. 화물수송 분야에서 선택기반 데이터를 이용한 연구는 현재까지 두 편이 발표 되어 있다. 따라서 볼 연구는 선택기반 데이터를 이용한 개별선택모형의 잠재력을 검증하는 것을 그 목적으로 하고, 네 종류의 제조품 그룹을 대상으로 기반근거 데이터를 수집하여 로짓모형을 추정하였으며, 추정결과를 이전 연구들의 결과와 비교하여 그 타당성을 검토 하였다. 추정된 결과는 통계적으로 유의하며 직관적으로 타당한 것으로 나타난다. 또한 그 결과는 문헌의 결과와도 일치하였다. 수송계획에 있어서 자료수집비용 절감의 필요성을 생각할 때 이것은 중요한 의미를 지닌다.

  • PDF

국부적 영역에서의 특징 공간 속성을 이용한 다중 인식기 선택 (Classifier Selection using Feature Space Attributes in Local Region)

  • 신동국;송혜정;김백섭
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권12호
    • /
    • pp.1684-1690
    • /
    • 2004
  • 본 논문은 시험 표본 주위의 영역에 대한 속성을 이용한 다중 인식기 선택 방법을 제안한다. 기존의 DCS-LA 동적 인식기 선택 방법은 시험 표본 주위의 학습표본들을 사용해서 각 인식기의 국부적 정확성을 계산하여 인식기를 동적으로 선택하기 때문에 인식 시간이 오래 걸린다. 본 논문에서는 특징공간에서 국부적인 속성을 계산해서 그 속성값에 적합한 인식기를 미리 선정해서 저장해 놓은 후 시험 표본이 들어오면 그 주변의 속성값에 따라 저장된 인식기에서 선택을 하기 때문에 인식시간을 줄일 수 있다. 국부적인 속성으로는 표본 주위의 작은 영역에 대한 엔트로피와 밀도를 계산하여 사용하였으며 이들을 특징공간속성(Feature Space Attribute)라고 하였다. 이들 두 속성으로 이루어지는 속성 공간을 규칙적인 사각형 셀로 나누어, 학습과정에서 각각의 학습표본에 대해 계산된 속성값이 어떤 셀에 속하는지를 구한다. 또한 각 셀에 속하는 학습표본들에 대해 각 인식기의 국부적 정확도를 구하여 셀에 저장한다. 시험 과정에서 시험표본에 대해 속성값 계산을 통해 그 표본이 속하는 셀을 구한 후 그 셀에서 국부적 정확도가 가장 높은 인식기로 인식한다. Elena 데이타베이스를 사용해서 기존의 방법과 제안된 방법을 비교하였다. 제안된 방법은 기존의 DCS-LA와 거의 같은 인식률을 나타내지만 인식속도는 약 4배 가까이 빨라짐을 실험을 통해 확인할 수 있었다.