• 제목/요약/키워드: categorical data analysis

검색결과 195건 처리시간 0.025초

Bayesian approach for categorical Table with Nonignorable Nonresponse

  • Choi, Bo-Seung;Park, You-Sung
    • 한국통계학회:학술대회논문집
    • /
    • 한국통계학회 2005년도 추계 학술발표회 논문집
    • /
    • pp.59-65
    • /
    • 2005
  • We propose five Bayesian methods to estimate the cell expectation in an incomplete multi-way categorical table with nonignorable nonresponse mechanism. We study 3 Bayesian methods which were previously applied to one-way categorical tables. We extend them to multi-way tables and, in addition, develop 2 new Bayesian methods for multi-way categorical tables. These five methods are distinguished by different priors on the cell probabilities: two of them have the priors determined only by information of respondents; one has a constant prior; and the remaining two have priors reflecting the difference in the response mechanisms between respondent and non-respondent. We also compare the five Bayesian methods using a categorical data for a prospective study of pregnant women.

  • PDF

A Bayesian uncertainty analysis for nonignorable nonresponse in two-way contingency table

  • Woo, Namkyo;Kim, Dal Ho
    • Journal of the Korean Data and Information Science Society
    • /
    • 제26권6호
    • /
    • pp.1547-1555
    • /
    • 2015
  • We study the problem of nonignorable nonresponse in a two-way contingency table and there may be one or two missing categories. We describe a nonignorable nonresponse model for the analysis of two-way categorical table. One approach to analyze these data is to construct several tables (one complete and the others incomplete). There are nonidentifiable parameters in incomplete tables. We describe a hierarchical Bayesian model to analyze two-way categorical data. We use a nonignorable nonresponse model with Bayesian uncertainty analysis by placing priors in nonidentifiable parameters instead of a sensitivity analysis for nonidentifiable parameters. To reduce the effects of nonidentifiable parameters, we project the parameters to a lower dimensional space and we allow the reduced set of parameters to share a common distribution. We use the griddy Gibbs sampler to fit our models and compute DIC and BPP for model diagnostics. We illustrate our method using data from NHANES III data to obtain the finite population proportions.

A Bayesian model for two-way contingency tables with nonignorable nonresponse from small areas

  • Woo, Namkyo;Kim, Dal Ho
    • Journal of the Korean Data and Information Science Society
    • /
    • 제27권1호
    • /
    • pp.245-254
    • /
    • 2016
  • Many surveys provide categorical data and there may be one or more missing categories. We describe a nonignorable nonresponse model for the analysis of two-way contingency tables from small areas. There are both item and unit nonresponse. One approach to analyze these data is to construct several tables corresponding to missing categories. We describe a hierarchical Bayesian model to analyze two-way categorical data from different areas. This allows a "borrowing of strength" of the data from larger areas to improve the reliability in the estimates of the model parameters corresponding to the small areas. Also we use a nonignorable nonresponse model with Bayesian uncertainty analysis by placing priors in nonidentifiable parameters instead of a sensitivity analysis for nonidentifiable parameters. We use the griddy Gibbs sampler to fit our models and compute DIC and BPP for model diagnostics. We illustrate our method using data from NHANES III data on thirteen states to obtain the finite population proportions.

로짓모형을 이용한 통신 서비스품질 평가방법 (Evaluation Method of Quality of Service in Telecommunications Using Logit Model)

  • 조재균;안혜숙
    • 산업공학
    • /
    • 제15권2호
    • /
    • pp.209-217
    • /
    • 2002
  • Quality of Service(QoS) in the telecommunications can be evaluated by analyzing the opinion data which result from the surveyed opinions of respondents and quantify subjective satisfaction on the QoS from the customers' viewpoints. For analyzing the opinion data, MOS(mean opinion score) method and Cumulative Probability Curve method are often used. The methods are based on the scoring method, and therefore, have the intrinsic deficiency due to the assignment of arbitrary scores. In this paper, we propose an analysis method of the opinion data using logit models which can be used to analyze the ordinal categorical data without assigning arbitrary scores to customers' opinion, and develop an analysis procedure considering the usage of procedures provided by SAS(Statistical Analysis System) statistical package. By the proposed method, we can estimate the relationship between customer satisfaction and network performance parameters, and provide guidelines for network planning. In addition, the proposed method is compared with Cumulative Probability Curve method with respect to prediction errors.

Nonlinear Canonical Correlation Analysis for Paralysis Disease Data

  • Shin, Yang-Kyu
    • Journal of the Korean Data and Information Science Society
    • /
    • 제15권3호
    • /
    • pp.515-521
    • /
    • 2004
  • Categorical data are mostly found in oriental medical research. The nonlinear canonical correlation analysis does not assume an interval level of measurement. In this paper, we apply nonlinear canonical correlation analysis to quantification and explain how similar sets of variables are to one another for paralysis disease data.

  • PDF

국내 주요 10대 기업에 대한 국민 감성 분석: 다범주 감성사전을 활용한 빅 데이터 접근법 (Public Sentiment Analysis of Korean Top-10 Companies: Big Data Approach Using Multi-categorical Sentiment Lexicon)

  • 김서인;김동성;김종우
    • 지능정보연구
    • /
    • 제22권3호
    • /
    • pp.45-69
    • /
    • 2016
  • 최근에 빅 데이터를 활용하여 감성을 측정하는 시도가 활발히 이루어지고 있다. 통신 매체와 SNS의 발달로 기업은 국민의 감성을 파악하고 즉시 대응해야할 필요성이 생겼다. 우리나라의 경제는 대기업에 대한 의존도가 높기 때문에 10대 기업에 대한 감성분석은 의미가 있다고 할 수 있다. 이러한 측면에서 본 연구는 다 범주를 기준으로 구축한 감성사전을 활용하여 우리나라 10대 기업에 대한 감성을 분석하였다. 빅 데이터를 이용하여 감성을 분석한 기존의 선행연구는 감성을 차원으로 분류하는 경향이 있다. 차원적 감성으로 감성을 분류하는 것은 분류의 기준이 학술적으로 증명되었기에 감성 분석에 주로 사용되어 왔지만 전문가 정도의 지식이 있어야 분류할 수 있어 보편적인 감성을 대변하는 데 비효과적이기에 보완이 필요하다고 할 수 있다. 개별 범주적 감성은 이 점을 보완할 수 있는 분류 방식으로 일정 수준의 주관성이 개입되지만 보편적으로 느낄 수 있는 감성을 측정하는데 효과적이다. 따라서 본 연구는 보편적인 감성의 측정을 위해 감성을 차원으로 분류하지 않고 개별 범주로 분류하여 9가지 영역으로 나누었다. 선행 연구에서 추출한 9가지 범주에 해당하는 감성 단어에 기초하여 감성사전을 구축하였으며 감성 단어가 검출된 빈도를 기준으로 감성을 분석했다. 대상 데이터는 2014년 1월부터 2016년 1월까지 우리나라 10대 기업에 대하여 축적된 뉴스 데이터이다. 대상 데이터에서 검출된 감성 단어의 빈도를 기준으로 각 기업에 대한 감성 순위를 나누고 분포를 확인하였다. 기업에 따라서 감성이 다를 수 있는지, 특정 사건이 각 기업에 대한 감성에 영향을 줄 수 있는지 가설을 세우고 검정하였다. 결론적으로, 다 범주 감성 사전을 활용한 감성 분석은 기업 간 비교와 시점 간 비교에 유의한 것으로 나타났다. 본 연구는 빅 데이터에 산재해있는 감성을 국민의 시각으로 측정하는 하나의 대안으로서 의의가 있다.

정량적, 정성적 회귀분석의 오적용과 이해 (Understanding of the Misuse Cases of Quantitative and Qualitative Regression Analysis)

  • 최성운
    • 대한안전경영과학회:학술대회논문집
    • /
    • 대한안전경영과학회 2011년도 추계학술대회
    • /
    • pp.213-217
    • /
    • 2011
  • The research shows misuse cases of quantitative regression analysis used in QC circle activity and six sigma movement which presents guidelines of correct use for quality practitioners. Additionally, the qualitative regression analysis that responses nonconforming ratio of variable y, is reviewed based on misuse cases for proper use by practitioners in the field. In most cases, there are frequent errors that involve the correlation analysis or ANOVA, regardless of using quantitative regression analysis. In addition, qualitative regression analysis for the nonconforming ratio that has dependent variable of discrete and categorical data, is often applied with quantitative regression and result in ineffective quality improvement.

  • PDF

유사상관계수의 개념을 도입한 범주형 변수의 축약에 관한 연구 (A Method for Reduction of Categorical Variables Based on a Concept of Pseudo-Correlation Coefficient)

  • 권철신;홍순욱
    • 산업공학
    • /
    • 제14권1호
    • /
    • pp.79-83
    • /
    • 2001
  • In this paper, we propose a simple method to reduce categorical variables into smaller, but significant numbers, and also demonstrate how the proposed method can be applied to the problem of reduction that empirical research often faces in the course of data processing. For the purpose, we introduce a concept of pseudo-correlation coefficient to make it possible to use factor analysis (FA) as a tool for reducing variables. The main idea of the concept is to deal with the measures of association of categorical variables in the sense of the concept of Pearson's correlation coefficient in order to meet the input requirement of FA. Upon examination of existing measures that could play as pseudo-correlation coefficients, Cramer's V coefficient is selected for the best result among them. To show the detailed procedure of the proposed method, a specific demonstration with the data from 329 R&D projects conducted in 18 private laboratories in electric and electronics industry is presented.

  • PDF

스파크 프레임워크를 위한 병렬적 k-Modes 알고리즘 (Parallel k-Modes Algorithm for Spark Framework)

  • 정재화
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제6권10호
    • /
    • pp.487-492
    • /
    • 2017
  • 클러스터링은 빅데이터 분석 및 데이터 마이닝 분야에서 데이터 간 유사성을 파악하기 위해 사용하는 기법으로 다양한 클러스터링 기법 중 범주적 데이터를 위해 k-Modes 알고리즘이 대표적으로 사용된다. k-Modes와 같이 반복적 연산이 집중된 작업의 속도를 향상시키기 위해 많은 관심을 받고 있는 분산 병행 프레임워크 스파크는 하둡과 달리 RDD라는 추상화 객체 개념을 사용하여 대용량의 데이터를 메모리 상에서 처리 가능한 환경을 제공한다. 스파크는 다양한 기계학습을 위한 라이브러리인 Mllib을 제공하고 있으나 연속적 데이터만 처리 가능한 k-means만 포함되어 있어 범주적 데이터 처리가 불가능한 한계가 있다. 따라서 본 논문에서는 스파크 환경에서 범주적 데이터 클러스터링을 위한 k-Modes 알고리즘을 위한 RDD 설계하고 효과적으로 동작할 수 있는 알고리즘을 구현하였다. 실험을 통해 제안한 알고리즘이 스파크 환경에서 선형적으로 증가한다는 것을 보였다.

A multivariate latent class profile analysis for longitudinal data with a latent group variable

  • Lee, Jung Wun;Chung, Hwan
    • Communications for Statistical Applications and Methods
    • /
    • 제27권1호
    • /
    • pp.15-35
    • /
    • 2020
  • In research on behavioral studies, significant attention has been paid to the stage-sequential process for multiple latent class variables. We now explore the stage-sequential process of multiple latent class variables using the multivariate latent class profile analysis (MLCPA). A latent profile variable, representing the stage-sequential process in MLCPA, is formed by a set of repeatedly measured categorical response variables. This paper proposes the extended MLCPA in order to explain an association between the latent profile variable and the latent group variable as a form of a two-dimensional contingency table. We applied the extended MLCPA to the National Longitudinal Survey on Youth 1997 (NLSY97) data to investigate the association between of developmental progression of depression and substance use behaviors among adolescents who experienced Authoritarian parental styles in their youth.