• 제목/요약/키워드: 과소표본추출

검색결과 12건 처리시간 0.019초

차대차 교통사고에 대한 상해 심각도 예측 연구 (A Study on Injury Severity Prediction for Car-to-Car Traffic Accidents)

  • 고창완;김현민;정영선;김재희
    • 한국ITS학회 논문지
    • /
    • 제19권4호
    • /
    • pp.13-29
    • /
    • 2020
  • 자동차는 우리의 일상에 필수재가 된 지 오래지만 자동차 교통사고로 인한 사회적 비용이 국가 예산의 9%를 넘을 정도로 심각하여 이에 대한 국가적인 예방 및 대응 체계 구축이 매우 필요한 실정이다. 이에 본 연구에서는 빅데이터 분석 기법을 활용하여 차대차 교통사고의 상해 심각도를 정확히 예측할 수 있는 모형을 제시하고자 하였다. 이를 위해 과거 3년간의 전국교통사고 발생 데이터를 토대로, K-최근접 이웃, 로지스틱 회귀분석, 나이브베이즈, 의사결정나무, 앙상블 알고리즘을 적용하여 각 모델의 상해 심각도 분류의 성능을 비교 분석하였다. 특히 이 과정에서 각 상해 심각도 수준 간의 데이터 수에 차이가 있음에 주목하여 표본수가 많은 그룹에 대해서는 과소표본추출을 시행하는 등의 방법을 통해 분류 예측의 정확도를 높일 수 있었고, 분산 분석을 통해 모델의 유의성을 검증하였다.

자가 응답식 자료에 근거한 유병률 및 건강기대수명 연구의 신뢰도 분석: 건강보험 표본코호트 DB와의 비교 (Reliability of self-reported data for prevalence and health life expectancy studies: comparison with sample cohort DB of National Health Insurance Services)

  • 권태연;박유성
    • 응용통계연구
    • /
    • 제29권7호
    • /
    • pp.1329-1346
    • /
    • 2016
  • 한국 의료패널 데이터와 국민건강 영양조사는 추출된 표본의 자가 진단에 따른 건강상태(self-assessed health)와 그들의 의료기관 이용에 대한 자가응답식 자료(self-reported data)이다. 이러한 자료에 근거한 유병률 연구 및 그에 따른 건강기대수명 연구에 관하여 유병률의 신뢰도에 대한 검증이 선행되어야 한다는 주장은 이미 여러 연구에서 제기되었다. 반면 최근 공개된 건강보험공단의 표본코호트 DB는 전 국민을 대상으로 의료기관 이용에 관련된 모든 자료가 저장된 자료인 국민건강정보 DB로부터 추출된 객관적인 자료이다. 또한 추정된 질병별 유병률에 대하여 그 대표성 및 신뢰도가 확보되어 있음이 검증된 자료이다. 이에 본 논문에서는 우리나라 국민의 유병률에 대한 대표성 및 신뢰도가 확보되어 있는 표본코호트 DB와의 비교를 통하여 이들 응답식 데이터에서 도출된 유병률의 신뢰도에 대하여 논의하였다. 자가응답식 자료를 통한 유병률은 표본코호트 DB를 통한 유병률에 비교하여 보았을 때 과소추정되어 있고 이러한 과소추정은 건강기대수명의 과대추정 문제로 이어지고 있음을 확인할 수 있었다. 또한 표본코호트 DB를 제외한 우리나라 건강자료의 안정적이지 못한 표본의 문제는 추정된 건강기대수명의 트렌드를 왜곡하는 문제가 추가적으로 발생할 수 있음을 확인하였다.

사회조사에서 표본의 왜곡과 가중치 보정의 결과: 18개 사례연구 (Sample Distortion in Social Surveys and Effects of Weighting Adjustment: A Study of 18 Cases)

  • 허명회;윤영아;이용구
    • 한국조사연구학회지:조사연구
    • /
    • 제5권2호
    • /
    • pp.31-48
    • /
    • 2004
  • 우리나라에서 수행되는 사회조사들은 대부분 지역, 성과 나이대를 고려한 할당추출법(quota sampling)을 사용하며 전화번호부를 표집틀로 한 전화조사가 주류를 이룬다. 이러한 표본들이 지역, 성, 나이대 외의 인구사회적 속성 측면에서 모집단을 잘 대표하는지, 아니면 일정 방향으로 기울어져 있는지를 검토할 필요가 있다. 또한 표본 편향을 줄이기 위하여 가중법을 적용하는 경우 조사 결과에 어떤 영향을 주는가를 살펴볼 필요가 있다. 이 연구는 2000년부터 2003년 사이에 전화조사로 수행된 18례의 사회조사에서 표본의 모집단 대표성을 지역, 성. 나이대, 학력과 직업 측면에서 살펴본 것이다. 사례들을 종합한 결과, 지역, 성과 나이대를 보정한다고 하더라도 표본들에서 고학력자와 가정주부가 과다하고 반면 저학력자와 자영업/블루칼러, 화이트칼러가 과소한 것으로 나타났다. 학력과 직업에서의 왜곡은 많은 사회조사에서 본조사 항목의 편향을 초래할 가능성이 있다. 반복비례가중법으로 이러한 표본왜곡을 시정하여 보았더니 본조사 항목에서 원조사 결과와 상당한 차이가 나타났다. 가중치 보정을 하면 유효표본크기가 감소하는 결과가 초래되는데, 각 조사가 명목적으로 제시하는 일정 수준의 오차한계를 지키기 위해서는 현재보다 20~4-% 정도 표본을 크게 해야 한다는 결론을 얻었다.

  • PDF

표본크기 결정을 위한 IQR의 활용방법 (Using the Sample IQR for Calculating Sample Size)

  • 홍종선;김현태;윤상호;정민정
    • 응용통계연구
    • /
    • 제16권1호
    • /
    • pp.181-193
    • /
    • 2003
  • 표본크기를 결정할 때 모표준편차 $\sigma$의 추정량으로 표본표준편차를 구할 수 없는 경우 범위(R)또는 사분위간 범위(IQR)를 이용하여 $\sigma$의 추정량으로 사용할 수 있다 R과 IQR의 함수로 나타난 추정값은 최소한 95% 이상의 확률로 $\sigma$보다 크거나 같아야 과소 추정됨을 피할 수 있다. 다양한 확률분포로부터 추출된 여러 표본의 범위와 사분위간 범위에 대하여 Browne(2001)이 연구한 추정량 R/4과 본 연구에서 제시한 추정량 IQR이 $\sigma$이상일 확률에 대하여 비교 분석을 하였다. 그리고 표본의 범위와 사분위간 범위를 상수로 나누었을 때 $\sigma$이상일 확률을 가질 수 있는 대안적 인 분모를 각각 구하여 비교 연구하였다.

전화조사의 체계적 편향 - 2007년 대통령선거 여론조사들에 대한 메타분석 - (Systematic Bias of Telephone Surveys: Meta Analysis of 2007 Presidential Election Polls)

  • 김세용;허명회
    • 응용통계연구
    • /
    • 제22권2호
    • /
    • pp.375-385
    • /
    • 2009
  • 2007년 12월의 대통령선거 과정에서 행해진 수많은 전화 여론조사에서 이명박 후보가 일관되게 앞자리를 지켰다. 많은 수의 여론조사가 시행되는 경우 개별 여론조사의 표본추출오차는 상쇄되어 소멸한다. 그러나 일정한 편향은 많은 수의 조사가 실행된다 하더라도 잔존하므로 중요한 문제가 아닐 수 없다. 우리나라의 전화조사는 지역, 성과 연령대를 고려한 할당추출(quota sampling)을 사용하며 대부분 전화번호부를 표집 틀로 한다. 조사 거절률도 높은 편이다. 이에 따라 조사표본들이 할당변인 외의 인구사회적 속성에서 모집단을 잘 대표하지 못할 수 있다. 이 연구의 목적은 허명회 등 (2004)의 연구 방법른을 2007년에 수행된 대통령선거 여론조사 L8개 사례에 적용하여 다음 물음에 답하는 데 목적이 있다. - 물음 1. 각후보에 대한 선호도 또는 지지율에 체계적 편향이 있지 않았는가? - 물음 2. 편향이 있었다면, 그 원인이 어디에 있는가? 첫째 물음에 답하기 위하여 2007년 11월 이후 시행된 11개 사례 자료에 지역, 성과 연령대 외에 직업과 학력까지 고려한 반복비례가중법(rim weighting)을 적용해보았다. 그 결과, 이명박 후보의 지지율이 평균 1.4%P 과다 추정되었던 것으로 나타났다. 반면, 정동영 후보의 지지율은 평균 0.6%P 과소 추정되었고 이에 따라 두 후보간 지지율 차이가 2.0%P (= 1.4+0.6) 과다하게 추정되었던 것으로 보여진다. 둘째 물음에 답하기 위하여 위의 11개 사례 자료에서 이명박 후보 지지를 종속변수로 하는 로지스틱 회귀 분석을 하였다. 그 결과, 전화조사 표본에서의 저학력자 과소 및 가정주부의 과다가 이명박 편향의 원인이 되는 것으로 밝혀졌다.

유한모집단에서 가중평균에 포함된 가중치의 효과 (Weighting Effect on the Weighted Mean in Finite Population)

  • 김규성
    • 한국조사연구학회지:조사연구
    • /
    • 제7권2호
    • /
    • pp.53-69
    • /
    • 2006
  • 표본조사에서 가중치는 설계 단계와 분석 단계에서 만들어지고 부여될 수 있다. 설계 단계의 가중치는 추출확률이나 응답률 등과 같은 표본 데이터 획득 지표에 관련되어 있고 분석 단계의 가중치는 모집단 수치나 다른 보조 변수정보 등과 같은 외적인 정보와 관련되어 있다. 그리고 최종가중치는 설계 단계의 가중치와 분석 단계의 가중치의 곱으로 만들어진다. 이 논문에서는 분석 단계에서 부여되는 가중치에 초점을 맞추어 가중평균으로 모평균을 추정할 때 가중평균에 포함된 가중치가 모평균 추론에 미치는 영향을 고찰하였다. 유한모집단에서 각 조사단위에 조사변수와 가중치가 쌍으로 있고 표본추출확률이 균등한 경우를 가정하였다. 이러한 조건에서 가중평균의 편향과 평균제곱오차를 구하여 가중평균은 모평균의 편향 추정량임을 보였고, 편향의 방향과 크기는 조사변수와 가중치의 상관관계로 설명할 수 있음을 보였다. 즉, 만일 가중치와 조사변수가 양의 상관관계가 있으면 가중평균은 모평균을 과대 추정하게 되고, 만일 음의 상관관계가 있으면 모평균을 과소 추정하게 된다. 그리고 두 변수의 상관계수가 크면 편향은 증가한다. 가중평균에 대한 이론적인 수식 유도와 함께 편향의 크기와 평균제곱오차의 크기를 수치적으로 검토하기 위하여 모의실험을 실시하였다. 모의실험에서는 상관계수가 -0.2과 0.6사이에 있는 9개의 가중치를 생성하였고, 표본수는 100부터 400까지 고려하여 편향의 크기와 평균제곱오차의 크기를 수치적으로 구하였다. 하나의 결과로써 상관계수가 0.55이고 표본수가 400인 경우에 가중평균의 편향의 제곱이 평균제곱오차에서 차지하는 비율은 무려 82%에 이르는 것으로 나타났는데, 이는 가중평균의 편향이 어떤 경우에는 매우 심각할 수도 있음을 보여주는 것이다.

  • PDF

Difference in Severity of Acute Rejection Grading between Superfical Cortex and Deep Cortex in Renal Allograft Biopsies

  • 이수진;김영기;김기혁
    • Childhood Kidney Diseases
    • /
    • 제11권2호
    • /
    • pp.152-160
    • /
    • 2007
  • 목 적 : 이식신 생검은 이식신 기능 이상의 원인, 거부반응의 정도, 예후 등을 확인하는데 도움이 된다. 그러나 이식신의 조직학적 변화가 신피질에 고르게 분포하지 않는 경우를 흔히 보게 된다. 따라서 본 연구는 이러한 이식신 생검에서의 잠재적인 표본추출의 오류를 평가하기 위하여 시행되었다. 방법 : 569개의 이식신 생검 표본 중에서 Banff criteria에 준하는 급성 거부반응을 보이고 있으며, 신피막부터 수질까지의 전 층을 포함하고 있는 신생검 표본 26개를 조사하였다. Banff criteria를 변형하여 조직의 변화를 간질성 염증(0-3+), 부종(0-3+), 요세관간질염(0-3+)으로 구분하여 급성거부반응의 등급을 표면 피질, 깊은 피질과 피질에 근접한 수질층 각각을 비교하여 조직학적 분석을 시행하였다. 결과 : 간질성 염증(P=0.019), 부종(P=0.023), 요세관 거부등급(P=0.019)에서 깊은 피질에서 표면 피질에 비해 급성 거부반응의 정도가 심하였다. 결론 : 이식신의 급성 거부반응을 진단하기 위하여 신생검을 실시 할 경우 깊은 피질이 포함되지 않으면 급성 거부반응을 과소 평가 할 수 있으므로 주의해야 할 것으로 사료된다.

  • PDF

LDL-콜레스테롤의 Friedewald 계산값과 실측값 비교: 국민건강영양조사 2009-2010 (Friedewald-Estimated Versus Directly Measured LDL-Cholesterol: KNHANES 2009-2010)

  • 장성옥;이종석
    • 한국산학기술학회논문지
    • /
    • 제16권8호
    • /
    • pp.5492-5500
    • /
    • 2015
  • LDL-콜레스테롤(LDL-C)은 심뇌혈관질환의 주된 교정 가능한 위험인자로서, 정확한 측정값을 임상에 적용하는 것이 중요하다. 하지만 LDL-C의 측정은 실제 측정이 아닌 Friedewald 공식에 의한 계산방법이 널리 이용되고 있다. 본 연구의 목적은 LDL-C의 Friedewald-추정값과 실측값을 비교하고, 두 방법의 LDL-C 위험수준 분류 일치도를 평가하는 것이다. 표본은 국민건강영양조사 2개년(2009년과 2010년)의 공개된 자료에서 추출되었고, 혈액 검사에서 총 콜레스테롤, HDL-콜레스테롤, 직접 측정한 LDL-C, 그리고 중성지방 중 어느 한 결측치도 없는 4,319명을 연구대상으로 하였다. 중성지방 400 mg/dL 미만일 때, Friedewald-추정값과 실측값은 높은 상관관계를 보였고 (r = 0.958, p < 0.001), 위험수준 분류 일치 백분율은 82.7%이었다. 중성지방 수준이 높을수록, 일치 백분율은 낮았다. 중성지방 수준 150 mg/dL 미만, 150-200 mg/dL, 그리고 200-399 mg/dL일 때, 일치 백분율은 각각 85.4%, 78.2%, 그리고 71.4%이었다. Friedewald 공식은 중성지방 농도 150 mg/dL 미만에서는 LDL-C를 과대평가하는 반면, 중성지방 농도 150 mg/dL 이상에서는 과소평가하는 경향이 있었다. 이에 따라 LDL-C 위험수준 분류에 있어 그 범주가 과대평가된 사람은 382명 (9.1%)인 반면, 과소평가된 사람은 348명 (8.3%)이었다. 이러한 결과는 Friedewald-추정값의 LDL-C 과소평가뿐만 아니라, 과대평가도 심각한 문제일 수 있음을 제시한다.

"레이 동조 확률 생산함수"에 의한 경영규모별 미곡생산의 효율성 분석 (Farm Size and Production Efficiency of Korean Rice Farms: An Application of a Rsy-Homothetic Stochsstic Production Function)

  • 강봉순;노재선
    • 농촌계획
    • /
    • 제1권1호
    • /
    • pp.99-110
    • /
    • 1995
  • 이 연구는 한국 쌀생산의 효율성을 경영규모별로 파악하고, 영농규모 확대를 통한 쌀생산의 효율성 중대 가 가능하다는 가설을 검정해 보고자 하였다. 이 분석에 필요한 기술적 선도농가들의 생산함수인 프런티어(frontier) 생산함수를 구하기 위해서는 교 란항의 정보를 이용할 수 있는 확률(stochastic) 모형아 바람직하고, 아울러 경영규모별로 규모의 효율성을 파악하기 위해서는 레이 동조(ray-homothetic) 함수가 적절하다. 따라서 여기에서는 농림수산부의 1992년도 쌀생산비 자료에서 임의로 추출한 1,203호의 표본 자료를 이용해 앞에서 언급한 두가지 요소를 동시에 감안 할 수 있는 $\ulcorner$레이 동조 확률 생산함수(ray-homothetic stochastic production function)$\lrcorner$를 최우추정법 (Maximum likelilood estimation method)으로 추정하였으며, 이를 토대로 쌀생산의 경영규모별 비효율성 을 순수 기술적 비효율성과 규모의 비효율성으로 나누어 계측하였다. 게측결과에 의하면 쌀생산의 비효율성은 굉균 35.loyo에 이르고 있다. 이 가운데 순수 기술적 비효율성은 12.0%이고, 규모의 비효율성은 24.l%에 달했다. 기술적 비효율성과 규모의 비효율성 모두 경지규모 확대와 더불어 감소하는 것으로 나타나, 경영규모 확대와 더불어 미곡생산의 효율성이 증대될 수 있다는 가설은 기 각되지 않았다. 그러나 대농의 경우에도 규모의 비효율성이 여전히 높은 것으로 나타나 영농규모 확대를 저 해하는 제도적 장벽이 아직도 높다는 것을 알 수 있다. 아울러 대농과 소농과의 효율성 격차가 현저하지는 않은 것으로 나타나 단순히 경지를 중심으로 한 경영규모 확대만으로는 효율성 제고에 한계가 있음을 보여 주고 있다. 이 연구의 결과는 다음과 같은 정책적 함의를 가지고 있다. 첫째, 한국 미곡생산의 효율성 중대 잠재력이 결코 과소 평가되어서는 안된다. 둘째, 영농규모 확대가 쌀생산의 효율성 증대를 위해 필요한 것은 사실이지 만 단순한 경지규모의 확대에 치중하는 것보다 영농규모 확대를 저해하는 제도적 기술적 장애요인을 제거해 나가는 것이 더욱 중요하다. 마지막으로, 새로운 영농기술의 개발은 물론이고 현행 선진영농기술의 보급도 쌀생산의 효율성 중대에 상당한 역할을 할 수 있다는 사실이 간과되어서는 안된다.

  • PDF

구역단위 인구자료의 공간적 세분화를 위한 밀도 구분적 표면모델에 대한 평가 (An Evaluation of a Dasymetric Surface Model for Spatial Disaggregation of Zonal Population data)

  • 전병운
    • 한국지역지리학회지
    • /
    • 제12권5호
    • /
    • pp.614-630
    • /
    • 2006
  • 자연 및 기술재해에 빠르고 효과적으로 대응하기 위해서는 그 재해지역 내에 있는 인구수를 정확히 추정할 필요가 있다. 그러나 센서스 구역과 재해지역의 공간적 불일치 문제 때문에, 재해지역 내에 있는 인구수를 정확하게 추정할 때에는 구역단위 인구자료를 공간적으로 세분화할 필요가 있다. 본 논문은 센서스 블럭그룹 내의 인구를 개개의 화소로 세분화하기 위한 밀도 구분적 표면모델을 구현하고, 그 표면기반 공간적 세분화 모델의 성능을 통계적 및 가시적으로 평가한다. 표면기반 공간적 세분화 모델은 밀도 구분적 내삽법과 위성영상으르부터 추출된 토지이용 및 피복자료를 사용하며 지리정보시스템에서 구현되었다. 토지이용 및 피복자료는 밀도 구분적 내삽법에서 인구의 지리적 분포에 관한 추가정보를 제공했고, 토지이용 및 피복자료의 퍼센트에 기반을 둔 경험적 표본추출법과 지역가중법은 각 화소에 대한 밀도 구분적 가중치를 객관적으로 결정하기 위해서 사용되었다. 표면기반 공간적 세분화 모델은 애틀란타 대도시권의 밀도 구분적 인구표면을 만드는데 적용되었다. 그 밀도 구분적 인구표변의 정확도는 센서스 수치와의 비교를 통해서 RMSE와 수정 RMSE를 사용하면서 검증되었다. 또한, 각 센서스 트랙과 블럭그룹별 오차들은 퍼센트 오차지도들에 의해서 가시화 되었다. 분석결과에 따르면, 밀도 구분적 인구표면은 인구수의 정확한 추정치를 제시할 뿐만 아니라, 센서스 블록그룹 내의 인구의 상세한 공간분포를 보여 준다. 또한, 인구표면은 대개 교외 및 산림지역 그리고 도심지역에서 인구를 과소평가하거나 과대평가하는 경향이 있다는 것을 밝혀냈다.

  • PDF