• 제목/요약/키워드: 확률표본

검색결과 471건 처리시간 0.026초

유한모집단에서 가중평균에 포함된 가중치의 효과 (Weighting Effect on the Weighted Mean in Finite Population)

  • 김규성
    • 한국조사연구학회지:조사연구
    • /
    • 제7권2호
    • /
    • pp.53-69
    • /
    • 2006
  • 표본조사에서 가중치는 설계 단계와 분석 단계에서 만들어지고 부여될 수 있다. 설계 단계의 가중치는 추출확률이나 응답률 등과 같은 표본 데이터 획득 지표에 관련되어 있고 분석 단계의 가중치는 모집단 수치나 다른 보조 변수정보 등과 같은 외적인 정보와 관련되어 있다. 그리고 최종가중치는 설계 단계의 가중치와 분석 단계의 가중치의 곱으로 만들어진다. 이 논문에서는 분석 단계에서 부여되는 가중치에 초점을 맞추어 가중평균으로 모평균을 추정할 때 가중평균에 포함된 가중치가 모평균 추론에 미치는 영향을 고찰하였다. 유한모집단에서 각 조사단위에 조사변수와 가중치가 쌍으로 있고 표본추출확률이 균등한 경우를 가정하였다. 이러한 조건에서 가중평균의 편향과 평균제곱오차를 구하여 가중평균은 모평균의 편향 추정량임을 보였고, 편향의 방향과 크기는 조사변수와 가중치의 상관관계로 설명할 수 있음을 보였다. 즉, 만일 가중치와 조사변수가 양의 상관관계가 있으면 가중평균은 모평균을 과대 추정하게 되고, 만일 음의 상관관계가 있으면 모평균을 과소 추정하게 된다. 그리고 두 변수의 상관계수가 크면 편향은 증가한다. 가중평균에 대한 이론적인 수식 유도와 함께 편향의 크기와 평균제곱오차의 크기를 수치적으로 검토하기 위하여 모의실험을 실시하였다. 모의실험에서는 상관계수가 -0.2과 0.6사이에 있는 9개의 가중치를 생성하였고, 표본수는 100부터 400까지 고려하여 편향의 크기와 평균제곱오차의 크기를 수치적으로 구하였다. 하나의 결과로써 상관계수가 0.55이고 표본수가 400인 경우에 가중평균의 편향의 제곱이 평균제곱오차에서 차지하는 비율은 무려 82%에 이르는 것으로 나타났는데, 이는 가중평균의 편향이 어떤 경우에는 매우 심각할 수도 있음을 보여주는 것이다.

  • PDF

기업연구개발활동통계 개선방안에 관한 연구

  • 조성표;박선영;한기인;노민선;배한수;김현아
    • 기술경영경제학회:학술대회논문집
    • /
    • 기술경영경제학회 2009년도 동계학술발표회
    • /
    • pp.313-332
    • /
    • 2009
  • 본 연구에서는 국가의 연구개발활동조사에서 기업연구개발활동 통계에 대한 효과적인 산출방법을 제시하고자 하였다. 이를 위하여 국내 외 연구개발 통계방법을 조사한 후 이를 토대로 우리나라에서 기업연구개발활동에 대한 자료의 수집 및 분석에 대한 개선방안을 제시하였다. 대부분의 국가에서는 대기업은 전수조사, 소규모 기업은 표본조사를 수행하고 있으나, 우리나라에서는 연구소 등록법인에 대하여 전수조사를 행하고 있다. 전수조사는 비용이 많이 들고 비 표본오차로 인하여 모집단에 대한 체계적인 추정이 불가능하다는 문제점이 있다. 현재 산업기술진흥협회에 등록된 연구기관의 수가 20,000개를 넘어서고 있어 전수조사는 한계에 다다른 것으로 생각되어 표본조사 도입에 대한 타당성과 방법론을 중점적으로 검토하였다. 먼저, 표본조사의 타당성을 평가하기 위하여 현재 전수조사를 통해 수집된 자료를 이용하여 표본조사를 수행한 결과를 비교 분석하였다. 산업별(24개), 그룹별(8개)로 구분하여 216개 셀별로 모집단수/표본수를 곱하여 산정 (셀별추정법)한 결과, 전수 통계치와 거의 동일하게 나타났다. 따라서, 산업별, 그룹별로 세분하여 모집단수/표본수를 곱하여 추정하는 셀별추정법이 타당한 것으로 평가할 수 있다. 이상의 분석결과를 토대로 새로운 조사설계방안을 제시하면 다음과 같다. 직전연도 조사기업은 직전연도 연구개발비 수준과 기업종류(대기업, 벤처기업, 중소기업), 그리고 산업에 따라 셀을 분할한다. 대기업, 연구개발비 수준이 높은 기업 등 주요한 셀에 대하여는 전수조사를 실시한다. 나머지 셀에 대하여는 각 셀별 연구개발지출의 분포가 동질적이기 때문에 표본 추출방법은 단순임의추출법(SRS)을 사용한다. 다만 전년도 미계상된(또는 미포함된) 기업에 대하여는 신규 대형 연구소 진입 등을 고려하여 규모비례확률추출법(PPS)을 고려하는 것이 바람직할 것으로 판단된다. 일부 기업들이 특정 항목에 대한 자료를 제공하지 않는 항목무응답의 경우, 누락된 자료에 대하여는 대체기법(Imputation Algorithm)에 따라 이를 추정한다. 이러한 표본조사방법은 전수조사에서 발생하는 비 표본오차를 해소하고, 자료수집비용 및 소규모기업의 행정적 부담을 경감할 수 있다는 장점이 있다. 향후 연구에서는 좀 더 구체적인 조사방법론을 강구할 필요가 있으며, 이와 함께, 연구개발에 대한 다양한 측면의 정보를 수집하기 위해 새로운 설문지를 개발할 필요성이 있다.

  • PDF

고등학교 수학과 교육과정 중 확률.통계에 나타난 의미의 연결망 구조와 분석 (Network Structure and Analysis on the Meaning of Probability.Statistics in the High School Mathematics Curriculum)

  • 최경호
    • Communications for Statistical Applications and Methods
    • /
    • 제15권2호
    • /
    • pp.245-254
    • /
    • 2008
  • 제7차 교육과정 개편에 따라 고등학교 수학교과 구성에 있어, 확률 통계관련 내용이 과거에 비하여 양적으로 많이 증대되었다. 따라서 내용적인 측면에서도 확률 통계관련 각 영역이 단원 목표를 제대로 달성될 수 있도록 구성된다면, 정보화 사회에 요구되는 보다 효율적인 통계교육이 이루어질 수 있을 것이다. 이에 본 논문에서는 고등학교 수학교과 중 확률 통계관련 내용이 단원의 학습목표를 달성할 수 있도록 구성되어 있는지를, 제7차 고등학교 수학 교육과정 해설서에 제시된 중심용어와 기호를 중심으로 '연결망분석(network analysis)'을 활용하여 알아보았다. 그 결과 확률변수를 매개로 확률분포에 대한 개념과 통계적 추정에 대한 개념을 연결하는 서술구조는 통계적인 측면에서 매우 잘 표현되어 있으나, '전수조사'와 '표본조사'는 여타의 항목과 연결되지 않는 등, 일부에 있어서는 기술상에 문제점을 내포하고 있는 것으로 나타났다.

대용량 학습 데이터를 갖는 태양광 발전 시스템의 확률론적 모델링 (Probabilistic Modeling of Photovoltaic Power Systems with Big Learning Data Sets)

  • 조현철;정영진
    • 한국지능시스템학회논문지
    • /
    • 제23권5호
    • /
    • pp.412-417
    • /
    • 2013
  • 태양광 발전 시스템의 해석적 모델링은 시스템의 동특성을 예측하거나 고장검출 및 진단 등과 같은 고급 공학 기술에 중요하게 적용할 수 있어 최근 많은 각광을 받고 있다. 본 논문은 대용량 학습 데이터를 갖는 태양광 발전 시스템에 대한 확률론적 모델링을 제시한다. 우선 태양광 일사량과 온도 입력 변수에 대한 태양광 시스템의 출력 전력과의 입출력 함수관계를 정의한다. 이 함수관계를 바탕으로 세 확률변수(일사량, 온도, 전력)에 대하여 조건부 확률 식으로 표현한다. 조건부 확률 분포 추정은 대용량 데이터 시스템에 적합한, 전체 표본 데이터 수 대비 관련 변수의 경우의 수에 대한 비율로 나타내었다. 추정한 확률분포를 통해 평균값 이론을 적용하여 시스템의 출력을 추정하게 된다. 본 논문에서 제안한 모델링 기법은 두 태양광 발전 단지의 사례 연구를 통해 성능을 검증하였다.

이산확률분포에 대한 예비수학교사의 이해 분석 (A study on the understanding of mathematics preservice teachers for discrete probability distribution)

  • 이봉주;윤용식;임해미
    • 한국수학교육학회지시리즈A:수학교육
    • /
    • 제59권1호
    • /
    • pp.47-62
    • /
    • 2020
  • 본 연구에서는 이산확률분포 파악에 필요한 지식을 표본공간의 각 원소에 정의된 확률, 이산확률변수의 정의, 이산확률변수에 정의되는 확률, 그리고 이들 사이의 관계에 대한 지식으로 정의하고, 예비수학교사가 해당 지식을 어느 정도 이해하고 있는지에 대하여 살펴보았다. 이를 위해 검사 도구를 개발하고 사범대학생 47명을 대상으로 조사하였다.

Thinking Science 프로그램의 확률 활동이 중학생의 확률적 사고 형성에 미치는 효과 (The Effects of the Probability Activities in Thinking Science Program on the Development of the Probabilistic Thinking of Middle School Students)

  • 신경인;이상권;신애경;최병순
    • 대한화학회지
    • /
    • 제47권2호
    • /
    • pp.165-174
    • /
    • 2003
  • 이 연구의 목적은 중학생의 인지수준과 확률적 사고수준을 측정하여 그 관계를 분석하고 Thinking Science (TS) 프로그램의 확률 활동을 적용하여 그 효과를 분석하는 것이다. 중학교 1학년 219명을 실험집단과 통제집단으로 나누어, 실험집단에는 TS 프로그램의 확률 활동을, 통제집단에는 전통적인 과학 수업을 적용하였다. 결과에 의하면, 중학생의 인지수준은 대부분 구체적 조작기에 해당하였고, 많은 학생들의 확률적 사고수준은 확률 문제 해결에 양적 전략을 사용하면서 주관적 전략도 함께 사용하는 과도기적인 수준이었다. 또한, 인지수준이 높을수록 확률적 사고 수준도 높았으며, 확률의 구성요소 중에서 표본 공간과 한 사건에 대한 확률이 확률 비교와 조건부 확률보다 먼저 발달하였다. TS 프로그램의 확률 활동은 학생들이 확률 문제 해결에 양적 전략을 사용하도록 하는 데에 효과적이었다. 특히 사전에 확률 문제 해결에 주관적 전략과 양적 전략을 혼용하던 중기 구체적 조작기인 학생들이 사후에 양적 전략을 사용하도록 하고, 한 사건에 대한 확률을 인식하도록 하는 데에 효과가 있었다.

주변값이 주어진 이원분할표에 대한 카이제곱 검정통계량의 소표본 분포 및 대표본 분포와의 일치성 연구 (On the Small Sample Distribution and its Consistency with the Large Sample Distribution of the Chi-Squared Test Statistic for a Two-Way Contigency Table with Fixed Margins)

  • 박철용;최재성;김용곤
    • Journal of the Korean Data and Information Science Society
    • /
    • 제11권1호
    • /
    • pp.83-90
    • /
    • 2000
  • 이원분할표의 두 범주형 변수에 대한 독립성을 검정할 때 흔히 카이제곱 검정통계량이 사용된다. 표본추출 모형이 다항이나 곱다항인 경우 이 검정통계량이 독립성 가정하에서 근사적으로 카이제곱 분포를 따르게 되는 것은 잘 알려진 사실이다. 두 주변값이 모두 주어진 경우 독립성 가정하에서 표본추출 모형은 다중 초기하분포가 되며 앞의 모형과 마찬가지로 카이제곱 통계량에 근거한 검정을 사용할 수 있다. 이 연구에서는 주변값이 주어진 경우에 카이제곱 통계량의 소표본 분포를 대표본 분포인 카이제곱 분포와 비교하고자 한다. 표본크기가 작은 몇 개의 경우에 대해 카이제곱 통계량의 소표본 분포를 직접 계산해보았다. 표본크기가 큰 몇 개의 경우는 간단한 몬테칼로 알고리듬을 통해 소표본 분포를 생성하고 카이제곱 확률도와 콜모고로브-스미노브 단일표본 검정을 이용하여 대표본 분포와의 일치성을 알아보았다.

  • PDF

응답률이 관심변수의 지수함수를 따를 경우 정보적 표본설계 기법을 이용한 모수추정 (Estimation using informative sampling technique when response rate follows exponential function of variable of interest)

  • 정희영;신기일
    • 응용통계연구
    • /
    • 제30권6호
    • /
    • pp.993-1004
    • /
    • 2017
  • 표본조사에서는 추정의 정확성 및 정밀성 향상을 위해 흔히 층화추출법을 사용하며 층 내에서는 동일한 표본 가중치를 이용하여 표본을 추출한다. 그러나 실제 응답률은 관심변수 값에 영향을 받을 수 있기 때문에 주어진 동일한 가중치는 응답률을 반영하여 보정되어야 한다. 또한 관심변수가 연속형 보조변수와 선형 관계가 있고 보조변수를 기준으로 층이 나누어진 경우에는 층 내에서 동일한 가중치를 사용하는 것 보다 층을 세분화한 후 얻어진 가중치를 사용하는 것이 효과적일 수 있다. 본 연구에서는 응답률이 관심변수 자료 값의 지수함수이고, 관심변수가 보조변수와 선형 관계가 있을 때 정보적 표본설계 기법을 이용하여 추정의 정확성과 정밀성을 높이는 방법을 제안하였다. 또한 모의실험을 통하여 제안된 방법의 우수성을 확인하였다.

기업도산 예측력 분석방법에 대한 연구 : IMF후 국내 상장회사를 중심으로 (The Bankruptcy Prediction Analysis : Focused on Post IMF KSE-listed Companies)

  • 정유석;이현수;채영일;홍봉화
    • 인터넷정보학회논문지
    • /
    • 제7권1호
    • /
    • pp.75-89
    • /
    • 2006
  • 본 연구는 IMF후에 도산한 기업을 대상으로 다변량판별분석 모형, 확률모형(로짓분석모형) 그리고 인공신경망 모형을 개발하여 각 모형의 도산예측력을 비교하고 인공신경망 모형의 일반화 가능성을 높이는데 목적이 있다. 본 연구는 도산예측 모형간의 예측력 비교 측면에서는 기존 연구와 유사하나 연구표본을 IMF후에 도산한 기업으로 하여 도산예측력을 향상시키고 모형의 일반화 가능성을 높이기 위해 상장회사 중 동일한 업종인 제조업종에 한정하여 모형을 개발한다는 측면에서 기존 연구와 차이가 있다고 할 수 있다. 또한, 보다 의미있는 연구를 위하여 학습용 표본과 검증용 표본을 동일한 기간에서 추출하지 않고 검증용 표본을 학습용 표본기간 이후의 기간에서 추출하여 도산예측의 타당성을 현재가 아닌 미래의 시점에서 검증함으로써, 개발한 모형이 미래의 환경변화에 적응력을 보이는지를 분석하였다.

  • PDF

가중 정규화에 기반한 반복적 바이스펙트럼 추정과 신호복원 (Iterative Bispectrum Estimation and Signal Recovery Based On Weighted Regularization)

  • 임원배;허봉수;이학무;강문기
    • 대한전자공학회논문지SP
    • /
    • 제37권3호
    • /
    • pp.98-109
    • /
    • 2000
  • 바이스펙트럼은 신호 처리 및 영상 복원을 위한 적합한 특성을 강고 있고, 여러 응용분야에 적용될 수 있음에도 불구하고 설제로 적용된 결과가 문헌상으로 거의 나와 있지 않다 이는 표본이 부족하여 바이스펙트럼의 평균 연산이 어렵기 때문이다. 본 논문에서는, 참 바이스펙트럼을 표본 바이스펙트럼의 평균으로 정의한다. 그리고 표본 바이스펙트럼의 평균은 표본의 3중 상관함수의 푸리에 변환으로 나타낸다 표본 바이스펙트럼의 특성을 분석하고 일반화된 기중 정규화 이론을 적용하여 확률적으로 평균을 구하지 않고 참 바이스펙트럼을 추정하는 방법을 제안한다. 번지고 잡음이 낀 조건에서 제안한 알고리즘으로 바이스펙트럼을 추정 하고 이 결과가 신호의 복원에 유용함을 실험을 통해 증명한다.

  • PDF