• Title/Summary/Keyword: 범주형 변수모형

Search Result 54, Processing Time 0.021 seconds

Categorical Date Analysis System in the internet (인터넷상에서의 범주형 자료분석 시스템 개발)

  • 홍종선;김동욱;오민권
    • The Korean Journal of Applied Statistics
    • /
    • v.12 no.1
    • /
    • pp.83-95
    • /
    • 1999
  • 본 논문의 목적은 인터넷에서 범주형 자료분석에 대한 전문적인 지식이 없는 일반 분석자들에게 보다 쉽고, 간편하게 다룰 수 있는 범주형 자료 분석 시스템을 제공하는것이다. 이 분석 시스템은 크게 세 가지 측면으로 설계하여 구현하였다. 첫째, 범주형 자료에 대한 탐색적 자료분석을 위하여 세 가지 종류의 히스토그램을 제공한다. 둘째, 범주형 변수들간에 존재하는 연관성을 측정하기 위한 여러 연관성 측도들을 제공한다. 특히, 현재 많이 사용되는 통계 패키지들에서 제공하지 못하는 모자익 그림과 연관 그림을 동적 그래픽스로 구현하여 연관성을 측정하거나 모형을 설정하는데 유용한 정보를 얻을 수 있도록 하였다. 셋째, 대수선형모형에 대한 분석을 통해 사용자가 가장 잘 적합된 대수선형모형을 선택할 수 있게 하였다.

  • PDF

Computing Algorithm for Genetic Evaluations on Several Linear and Categorical Traits in A Multivariate Threshold Animal Model (범주형 자료를 포함한 다형질 임계개체모형에서 유전능력 추정 알고리즘)

  • Lee, D.H.
    • Journal of Animal Science and Technology
    • /
    • v.46 no.2
    • /
    • pp.137-144
    • /
    • 2004
  • Algorithms for estimating breeding values on several categorical data by using latent variables with threshold conception were developed and showed. Thresholds on each categorical trait were estimated by Newton’s method via gradients and Hessian matrix. This algorithm was developed by way of expansion of bivariate analysis provided by Quaas(2001). Breeding values on latent variables of categorical traits and observations on linear traits were estimated by preconditioned conjugate gradient(PCG) method, which was known having a property of fast convergence. Example was shown by simulated data with two linear traits and a categorical trait with four categories(CE=calving ease) and a dichotomous trait(SB=Still Birth) in threshold animal mixed model(TAMM). Breeding value estimates in TAMM were compared to those in linear animal mixed model (LAMM). As results, correlation estimates of breeding values to parameters were 0.91${\sim}$0.92 on CE and 0.87${\sim}$0.89 on SB in TAMM and 0.72~0.84 on CE and 0.59~0.70 on SB in LAMM. As conclusion, PCG method for estimating breeding values on several categorical traits with linear traits were feasible in TAMM.

Variable selection for latent class analysis using clustering efficiency (잠재변수 모형에서의 군집효율을 이용한 변수선택)

  • Kim, Seongkyung;Seo, Byungtae
    • The Korean Journal of Applied Statistics
    • /
    • v.31 no.6
    • /
    • pp.721-732
    • /
    • 2018
  • Latent class analysis (LCA) is an important tool to explore unseen latent groups in multivariate categorical data. In practice, it is important to select a suitable set of variables because the inclusion of too many variables in the model makes the model complicated and reduces the accuracy of the parameter estimates. Dean and Raftery (Annals of the Institute of Statistical Mathematics, 62, 11-35, 2010) proposed a headlong search algorithm based on Bayesian information criteria values to choose meaningful variables for LCA. In this paper, we propose a new variable selection procedure for LCA by utilizing posterior probabilities obtained from each fitted model. We propose a new statistic to measure the adequacy of LCA and develop a variable selection procedure. The effectiveness of the proposed method is also presented through some numerical studies.

Ring Chart for Categorical Data (다차원 범주형 자료에 대한 링차트)

  • 오민권;홍종선;이종철
    • The Korean Journal of Applied Statistics
    • /
    • v.12 no.1
    • /
    • pp.225-239
    • /
    • 1999
  • 범주형 자료에 대하여 탐색적 자료분석을 할 수 있는 기존의 여러 그림들을 변수의 수가 많아지면 시각적인 식별이 어렵다는 단점이 있다. 본 논문에서는 삼차원이상의 다차원 범주형 자료를 이차원 평면성에 표현할 수 있는 링차트(ring chart)를 제안한다. 각 칸의 확률값을 표현하는 링차트는 범주형 자료의 구조 전체를 시각적으로 파악할 수 있으며, 관측값을 표준화한 링차트는 변수들간의 연관성 여부를 시각적으로 판단하는데 유용한 정보를 제공한다. 삼차원이상의 자료에서는 이중 링차트(조건부 링차트)를 개발하여 일차 및 이차교호작용 검정까지도 가능하다. 또한, 관측값과 잔차를 동시에 표현한 잔차 링차트는 설정된 모형의 적합성 여부를 시각적으로 평가할 수 있는 장점이 있다.

  • PDF

Data Mining for Road Traffic Accident Type Classification (데이터 마이닝을 이용한 교통사고 심각도 분류분석)

  • 손소영;신형원
    • Journal of Korean Society of Transportation
    • /
    • v.16 no.4
    • /
    • pp.187-194
    • /
    • 1998
  • 본 연구는 교통사고 심각도와 관련된 중요변수를 찾고 이들 변수를 바탕으로 신경망, Decision Tree, 로지스틱 회귀분석을 이용하여 사고 심각도 분류 예측모형을 추정하였다. 다수의 범주형 변수로 이루어진 교통사고 통계원표상의 설명변수 들로부터 사고 심각도 변화에 영향력 있는 변수 선택을 위하여 독립성 검정을 위한 $x^2$ test와 Decision Tree를 이용하였고, 선택된 변수들은 신경망과 로지스틱 회귀분석의 기초로 이용되었다. 분석결과 세가지기법간에 분류정확도에는 유의한 차이가 없는 것으로 나타났다. 그러나 Decision Tree가 설명변수 선택능력과 분석수행시간, 사고 심각도 결정요인 식별의 용이함 측면에서 범주형 종속변수인 사고 심각도의 분석에 적합한 것으로 보이며 사고 심각도에는 보호장구가 가장 큰 영향을 미치는 것으로 재입증되었다.

  • PDF

Data Mining for Road Traffic Accident Type Classification (데이터 마이닝을 이용한 교통사고 심각도 분류분석)

  • 손소영
    • Proceedings of the KOR-KST Conference
    • /
    • 1998.10a
    • /
    • pp.373-381
    • /
    • 1998
  • 본 연구는 교통사고 심각도와 관련된 중요변수를 찾고 이들 변수를 바탕으로 신경망, Decision Tree, 로지스틱 회귀분석을 이용하여 사고 심각도 분류 예측모형을 추정하였다. 다수의 범주형 변수로 이루어진 교통사고 통계원표상의 설명변수 들로부터 사고 심각도변화에 영향력 있는 변수선택을 위하여 $X^2$ 독립성 검정과 Decision Tree를 이용하였고, 선택된 변수들은 신경망과 로지스틱 회귀분석의 기초로 이용되었다. 분석결과 세가지기법간에 분류정확도에는 유의한 차이가 없는 것으로 나타났다. 그러나 decision Tree가 설명변수 선택능력과 분석수행시간, 사고 심각도 결정요인 식별의 용이함 측면에서 범주형 종속변수인 사고 심각도의 분석에 적합합 것으로 보이며 사고 심각도에는 보호장구가 가장 큰 영향을 미치는 것으로 재입증되었다.

  • PDF

Estimating Average Causal Effect in Latent Class Analysis (잠재범주분석을 이용한 원인적 영향력 추론에 관한 연구)

  • Park, Gayoung;Chung, Hwan
    • The Korean Journal of Applied Statistics
    • /
    • v.27 no.7
    • /
    • pp.1077-1095
    • /
    • 2014
  • Unlike randomized trial, statistical strategies for inferring the unbiased causal relationship are required in the observational studies. Recently, new methods for the causal inference in the observational studies have been proposed such as the matching with the propensity score or the inverse probability treatment weighting. They have focused on how to control the confounders and how to evaluate the effect of the treatment on the result variable. However, these conventional methods are valid only when the treatment variable is categorical and both of the treatment and the result variables are directly observable. Research on the causal inference can be challenging in part because it may not be possible to directly observe the treatment and/or the result variable. To address this difficulty, we propose a method for estimating the average causal effect when both of the treatment and the result variables are latent. The latent class analysis has been applied to calculate the propensity score for the latent treatment variable in order to estimate the causal effect on the latent result variable. In this work, we investigate the causal effect of adolescents delinquency on their substance use using data from the 'National Longitudinal Study of Adolescent Health'.

Bayesian ordinal probit semiparametric regression models: KNHANES 2016 data analysis of the relationship between smoking behavior and coffee intake (베이지안 순서형 프로빗 준모수 회귀 모형 : 국민건강영양조사 2016 자료를 통한 흡연양태와 커피섭취 간의 관계 분석)

  • Lee, Dasom;Lee, Eunji;Jo, Seogil;Choi, Taeryeon
    • The Korean Journal of Applied Statistics
    • /
    • v.33 no.1
    • /
    • pp.25-46
    • /
    • 2020
  • This paper presents ordinal probit semiparametric regression models using Bayesian Spectral Analysis Regression (BSAR) method. Ordinal probit regression is a way of modeling ordinal responses - usually more than two categories - by connecting the probability of falling into each category explained by a combination of available covariates using a probit (an inverse function of normal cumulative distribution function) link. The Bayesian probit model facilitates posterior sampling by bringing a latent variable following normal distribution, therefore, the responses are categorized by the cut-off points according to values of latent variables. In this paper, we extend the latent variable approach to a semiparametric model for the Bayesian ordinal probit regression with nonparametric functions using a spectral representation of Gaussian processes based BSAR method. The latent variable is decomposed into a parametric component and a nonparametric component with or without a shape constraint for modeling ordinal responses and predicting outcomes more flexibly. We illustrate the proposed methods with simulation studies in comparison with existing methods and real data analysis applied to a Korean National Health and Nutrition Examination Survey (KNHANES) 2016 for investigating nonparametric relationship between smoking behavior and coffee intake.

상관분석을 응용한 산업재해사례 요인의 고찰

  • 홍광수;정국삼
    • Proceedings of the Korean Institute of Industrial Safety Conference
    • /
    • 1997.11a
    • /
    • pp.331-336
    • /
    • 1997
  • 본 연구에서 산업재해 사례를 연구 대상으로 재해 발생의 여러 가지 요인들의 관련을 검토하고자 통계적 기법을 이용한 재해요인별 상관분석, 또는 영향의 정도 파악, 재해 요인의 통제에 따른 기타 재해요인에 대한 영향 분석을 시도하는 통계학적 분석 방법을 이용한 재해 발생의 중요요인을 분석하고자 첫째, 산업재해 통계 자료의 내용을 분석하여 재해 관련 변수들을 파악하는데 불안전 행동 및 불안전상태에 의한 재해 형태와 기타 변수들 간의 정성적 상관분석을 통한 상관계수를 고찰, 둘째, 명목척도인 범주형 변수 상호 간의 관련 여부를 파악하기 위해 카이제곱(chi-square)검정을 행하여 입원 일수를 종속 변수로 하는 기타 변수들의 독립성 여부와 변수 상호간 연관이 있다고 판단될 때 각 변수의 연관의 정도 비교, 셋째, 어떤 변수 상호간 일정한 관계를 가질 때 변수의 범주별로 반응변수(종속변수)에 미치는 영향을 회귀식 형태로 파악하고 비교하기 위하여 로짓(logit)모형을 적용하였다. (중략)

  • PDF

A generalized logit model with mixed effects for categorical data (다가자료에 대한 혼합효과모형)

  • 최재성
    • The Korean Journal of Applied Statistics
    • /
    • v.15 no.1
    • /
    • pp.129-137
    • /
    • 2002
  • This paper suggests a generalized logit model with mixed effects for analysing frequency data in multi-contingency table. In this model nominal response variable is assumed to be polychotomous. When some factors are fixed but considered as ordinal and others are random, this paper shows how to use baseline-category logits to incoporate the mixed-effects of those factors into the model. A numerical algorithm was used to estimate model parameters by using marginal log-likelihood.