• 제목/요약/키워드: 다차원 분할표

검색결과 9건 처리시간 0.023초

다차원 임의 분할표 생성 (Generating Multidimensional Random Tables)

  • 최현집
    • 응용통계연구
    • /
    • 제19권3호
    • /
    • pp.545-554
    • /
    • 2006
  • 로그선형모형에 기반을 둔 다차원 임의 분할표를 생성하는 방법을 제안하였다. 이를 위해 Lee(1997)가 제안한 선형 결합에 의한 결합분포 생성 방법을 적용하였으며, Pearson 통계량을 연관성 측도로 사용하는 것을 제안하였다. 세 변수가 서로 완전한 연관을 갖는 삼차원 결합분포를 생성할 수 있으므로 본 연구에서 제안한 방법은 사차원 이상 다차원 임의 분할표를 생성하는 문제로 확장될 수 있다.

반복비율적합에 의한 다차원 분할표의 결측칸값 추정 (Estimating Missing Cells in Contingency Table with IPE)

  • 최현집;신상준
    • 응용통계연구
    • /
    • 제13권1호
    • /
    • pp.197-206
    • /
    • 2000
  • 반복비율적합 방법을 확장하여 준독립성모형하에서 불완전한 다차원 분할표에 포함된 결측칸의 최우추정값을 얻기 위한 추정방법을 제안하였다. 제안된 방법은 주변합이 영이 아닌 모든 불완전한 분할표에 적용할 수 있으며 주어진 준로그선형모형의 구조를 해치지 않는다. 또한 결측칸의 위치와 수에 영향을 받지 않고 항상 수렴한다는 것을 확인하였다.

  • PDF

분할표 분석을 위한 절사 LAD 추정량과 최적 절사율 결정 (Trimmed LAD Estimators for Multidimensional Contingency Tables)

  • 최현집
    • 응용통계연구
    • /
    • 제23권6호
    • /
    • pp.1235-1243
    • /
    • 2010
  • 다차원 분할표를 구성하는 범주형 변수들의 연관관계를 식별하기 위하여 널리 이용되는 로그선형모형을 위한 절사 LAD(least absolute deviations) 추정방법을 제안하였다. 제안된 방법은 가중 LAD 추정을 반복하여 계산이 수행되므로 분할표 분석을 위해 적용할 수 있는 여러 연관성 모형(association models)에 직접 적용할 수 있다. 또한 붓스트랩을 이용한 최적절사율을 결정하는 방법이 갖는 공분산행렬을 과소추정하는 문제를 해결하기위한 절사율 결정 방법을 제안하였다. 모의실험을 통해 제안된 방법이 붓스트랩 방법에 비하여 항상 우수한 절사율을 보인다는 것을 설명하였으며, 제안된 방법들의 실제 자료분석 결과를 제시하였다.

범주형 자료 분석을 위한 LAD 추정량 (LAD Estimators for Categorical Data Analysis)

  • 최현집
    • 응용통계연구
    • /
    • 제16권1호
    • /
    • pp.55-69
    • /
    • 2003
  • 일반적인 다차원 분할표 분석을 위해 고려 할 수 있는 로그 선형 모형 (log-linear model)과 순위 변수(ordered variables)가 고려된 여러 연관성 모형(association models)을 위한 가중값이 부여된 LAD(least absolute deviations) 추정량을 제안하고 추정을 위한 반복 추정법을 제안하였다. 모의실험을 통하여 제안된 LAD추정량이 최우추정량에 비해 로버스트한 성질을 갖는 다는 것을 밝히고, 이상칸 식별을 위해 많은 선행 연구들에서 인용된 자료들의 경험적 분석을 통해 제안된 추정량과 추정방법이 가질 수 있는 문제점과 특징에 관하여 토론하였다

범주형 자료분석을 위한 최대절사우도추정 (Maximum Trimmed Likelihood Estimator for Categorical Data Analysis)

  • 최현집
    • Communications for Statistical Applications and Methods
    • /
    • 제16권2호
    • /
    • pp.229-238
    • /
    • 2009
  • 범주형 자료분석을 위해 고려할 수 있는 모형들은 일반적으로 최우추정에 의하여 적합이 이루어지므로 이상값에 쉽게 영향을 받을 수 있다. 본 연구에서는 분할표 자료에 포함된 이상칸(outlying cell)에 영향을 받지 않는 최대 절삭우도 추정 값(maximum trimmed likelihood estimates)을 얻기 위한 추정 방법을 제안하였다. 제안된 방법은 우도에 의존하여 분할표에 포함된 칸을 제거해나가며 절사우도의 최대값을 찾기 때문에 완전탐색(complete enumeration)에 비해 계산의 양이 매우 적다. 따라서 일반적인 다차원 분할표 자료분석을 위해 쉽게 적용될 수 있다. 실제 자료분석 예를 통해 제안된 추정방법을 설명하였으며, 모의실험을 통해 문제점과 특징을 토론하였다.

다차원 범주형 자료의 변환과 그의 응용 (The Transform of Multidimensional Categorical Data and its Applications)

  • 안주선
    • 응용통계연구
    • /
    • 제20권3호
    • /
    • pp.585-595
    • /
    • 2007
  • Ahn등 (2003)의 P-행렬을 사용한 두 $c^d$-분할표의 변환자료들의 유클리드 거리제곱은 두 분할표의 셀 (cell) 상대도수벡터들 사이의 유클리드 거리 제곱에 비례함을 보이고, PP-자료의 플롯을 현대시분석과 설문자료의 탐색에 사용하는 방법을 제안한다.

베이지안 네트워크를 이용한 다차원 범주형 분석 (Multi-dimension Categorical Data with Bayesian Network)

  • 김용철
    • 한국정보전자통신기술학회논문지
    • /
    • 제11권2호
    • /
    • pp.169-174
    • /
    • 2018
  • 일반적으로 자료의 효과 연속형인 경우 분산분석과 이산형인 경우 분할표 카이제곱 검정을 통계적 분석방법으로 사용한다. 다차원의 자료에서는 계층적 구조의 분석이 요구되어지며 자료간의 인과관계를 나타내기 위해 통계적 선형모형을 채택하여 분석한다. 선형모형의 구조에서는 자료의 정규성이 요구되어지며 일부 자료에서는 비 선형모형을 채택할 수도 있다. 특히, 설문조사 자료 구조는 문항의 특성상 이산형 자료의 형태가 많아 모형의 조건에 만족하지 않는 경우가 종종 발생한다. 자료구조의 차원이 높아질수록 인과관계, 교호작용, 연관성분석 등에 다차원 범주형 자료 분석 방법을 사용한다. 본 논문에서는 확률분포의 계산을 이용한 베이지안 네트워크 모형이 범주형 자료 분석에서 분석절차를 줄이고 교호작용 및 인과관계를 분석할 수 있다는 것을 제시하였다.

19대 대선 여론조사에서 무응답 메카니즘의 민감도 분석 (Sensitivity analysis of missing mechanisms for the 19th Korean presidential election poll survey)

  • 김성용;곽동호
    • 응용통계연구
    • /
    • 제32권1호
    • /
    • pp.29-40
    • /
    • 2019
  • 선거여론조사 자료의 경우 무응답이 흔히 관측되며, 이와 같이 무응답이 존재하는 범주형 자료는 불완전 분할표로 표현된다. 불완전 분할표로 표현된 선거여론조사 자료에서 후보자 지지율을 추정하는 경우, 지지율은 무응답이 어떤 메카니즘을 따르는가에 따라 다르게 추정되며, 따라서 자료가 어떠한 무응답 메카니즘을 따르는지에 대한 판별이 분석에 선행되어야 한다. 그러나 최근 연구에 따르면, 관측된 자료를 이용해서는 무응답 메카니즘을 판별할 수 없음이 밝혀졌다. 이러한 문제를 해결하기 위해 다양한 무응답 메카니즘을 반영할 수 있는 민감도 분석이 제안되었다. 그러나 기존에 제안된 민감도 분석의 경우, 이원 분할표에서 각 변수의 범주 수가 두 개인 경우만을 대상으로 한다. 우리나라 선거여론조사에서 고려되는 요인이 지역, 성, 연령 등임을 감안할 때, 기존 방법론으로 민감도 분석을 시행하기에는 한계점이 존재한다. 이에 따라 본 논문에서는 기존의 민감도 분석을 다차원 불완전 분할표에 적용할 수 있도록 확장하고, 이를 우리나라 19대 대선 여론조사 자료에 적용하였다. 분석 결과, 민감도 분석의 구간이 실제 지지율을 포함하고 있을 뿐 아니라, 다양한 무응답 메카니즘의 결과를 포괄하고 있으며, 실제 지지율과 가장 가까운 예측치의 경우 후보자에 대한 지지가 무응답의 발생에 영향을 미침을 알 수 있었다.

무응답을 가지고 있는 범주형 자료에 대한 모형 선택 방법 (Model selection method for categorical data with non-response)

  • 윤용화;최보승
    • Journal of the Korean Data and Information Science Society
    • /
    • 제23권4호
    • /
    • pp.627-641
    • /
    • 2012
  • 본 연구는 다차원 분할표 형태로 정리된 범주형 자료가 결측치나 무응답을 가지고 있을 때 주어진 자료를 가장 잘 설명하고 예측의 정확도를 높일 수 있는 모형의 추정과 모형의 선택 문제를 다루었다. 무시할 수 없는 무응답 (non-ignorable non-response)체계하에서 최대우도 추정에서 발생할 수 있는 변방값 문제를 해결하기 위하여 계층적 베이지안 모형을 고려하였다. 또한 모형 적도를 높이기 위한 변수 조합을 찾는 모형 선택의 문제를 함께 다루었다. 베이지안 접근하에서 모형 선택의 문제를 다루기 위하여 베이즈 인자 (Bayes factor)를 모형 선택의 기준으로 이용하였다. 제시된 방법은 2004년 실시된 우리나라 국회의원 선거를 앞두고 수행된 여론조사 데이터를 이용하여 실증분석을 수행하였다. 분석결과 무시할 수 없는 무응답 체계하에서 설명변수로 투표참여여부를 이용하는 것이 가장 적합한 모형으로 판명되었다.