• Title/Summary/Keyword: 범주형

Search Result 550, Processing Time 0.028 seconds

다차원 범주형 자료에 대한 링차트 II : 조건부 링차트를 이용한 자료 분석

  • 홍종선;이종철
    • The Korean Journal of Applied Statistics
    • /
    • v.13 no.1
    • /
    • pp.163-177
    • /
    • 2000
  • 다차원 범주형 자료를 표준화된 링차트로 구현하면, 자료에 적합한 모형이 갖는 일차교호작용의 존재 유무를 파악할 수 있으며 또한 표준화된 조건부 링챠트를 통하여 동시에 두 개 이상의 일차교호작용의 존재유무를 발견할 수 있는데 3차원 자료에서는 최대 두 개의 일차교호작용항을, 그리고 4차원 자료에서는 최대 4개의 일차교호작용항의 존재를 파악할 수 있다.

  • PDF

Categorical Data Analysis by Using Spatial Scan Statistics and Echelon Analysis

  • Mun, Seung-Ho;Sin, Jae-Gyeong
    • 한국데이터정보과학회:학술대회논문집
    • /
    • 2004.04a
    • /
    • pp.183-194
    • /
    • 2004
  • 본 연구에서는 공간 검색 통계량(spatial scan statistics)과 에셜론 해석법을 이용한 범주형 자료분석을 다룬다. 이를 위해 우선, 에셜론 덴드로그램을 이용하여 주어진 분활표의 계층적 구조(hierarchical structure)를 결정하고서 이로부터 핫스팟(hotspot)의 후보를 검출한다. 다음으로 우도비(likelihood ratio)를 기초로 유의하게 높거나 낮게 나타나는 지역에 대한 공간 검색 통계량을 산출한다. 마지막으로, 이 통계량을 바탕으로 핫스팟을 검출한다.

  • PDF

Tense and Aspects in English (영어 시제와 상)

  • Kim, Jeong-O
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2012.07a
    • /
    • pp.127-129
    • /
    • 2012
  • 본고에서는 시제의 일반적 정의와 상에 관한 개념들을 정리하였다. 시제는 시간을 나타내는 동사의 굴절형'이고 따라서 시제는 문법범주의 하나로서 영어의 경우 현재시제와 과거시제를 인정하고 있다. 시제처럼 상을 문법범주로 인정한다면 그 기술 대상은 당연히 문법적 표현에 국한될 것이고 반대로 문법범주가 아닌 의미범주로 간주하면 문법적 표현은 물론이고 어휘적 표현까지 기술대상이 될 것이다. 따라서 상은 문법범주로서 명시되어 있고 특히 영어의 상은 진행형과 완료형의 두 형태로 국한하고 있다. 이 경우에 진행상(the progressive aspect)은 진행형, 완료상(the perfect aspect)은 완료형을 가리킨다. 이렇듯 시제와 상의 밀접한 관계가 있다 하겠다. 더하여 다양한 영역에서 상에 관한 개념정의가 필요하고 더 많은 연구가 있어야 할 것으로 여겨진다.

  • PDF

범주형 자료에서 연관성 측도들의 비교 분석

  • 홍종선;임한승
    • Communications for Statistical Applications and Methods
    • /
    • v.4 no.3
    • /
    • pp.645-661
    • /
    • 1997
  • 연속형 변수들의 상관관계와 범주형 변수들의 연관성 측도들을 비교 연구하였다. 이 연구를 위하여 연속형 변수들이며 +1에서 -1까지 완벽한 상관관계를 갖고 있는 2 변량 정규분포를 이용하여 2$\times$2 분할표와 확장하여 일반적인 I$\times$J 분할표를 대신하는 3$\times$3 분할표를 생성하였다. 2 차원 분할표에서 정의된 연관성 측도들을 구하여 논의하였는데 2$\times$2 분할표에서는 교차적비 $\alpha$ 통계량과 교차적비의 함수로 표현되는 Yule [1912]의 Q와 Y의 통계량 그리고 상관계수 R 통계량과 R 통계량의 함수인 P 통계량을 설명하고 생성된 분할표에서 구한 통계량값을 분석하였으며, 3$\times$3 분할표에서는 Pearson의 독립성 검정통계량 $X^2$의 함수로 표현되는 P. T. V 통계량과 Goodman과 Kruskal [1954]의 $\lambda_{C/R}$통계량과 Light와 Margolin [1971]의 $\tau_{R/C}$ 통계량을 설명하고 그 값들을 Pearson의 상관계수와 비교 분석하였다.

  • PDF

Multidimensional scaling of categorical data using the partition method (분할법을 활용한 범주형자료의 다차원척도법)

  • Shin, Sang Min;Chun, Sun-Kyung;Choi, Yong-Seok
    • The Korean Journal of Applied Statistics
    • /
    • v.31 no.1
    • /
    • pp.67-75
    • /
    • 2018
  • Multidimensional scaling (MDS) is an exploratory analysis of multivariate data to represent the dissimilarity among objects in the geometric low-dimensional space. However, a general MDS map only shows the information of objects without any information about variables. In this study, we used MDS based on the algorithm of Torgerson (Theory and Methods of Scaling, Wiley, 1958) to visualize some clusters of objects in categorical data. For this, we convert given data into a multiple indicator matrix. Additionally, we added the information of levels for each categorical variable on the MDS map by applying the partition method of Shin et al. (Korean Journal of Applied Statistics, 28, 1171-1180, 2015). Therefore, we can find information on the similarity among objects as well as find associations among categorical variables using the proposed MDS map.

A Fuzzy Clustering Algorithm for Clustering Categorical Data (범주형 데이터의 분류를 위한 퍼지 군집화 기법)

  • Kim, Dae-Won;Lee, Kwang-H.
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.13 no.6
    • /
    • pp.661-666
    • /
    • 2003
  • In this paper, the conventional k-modes and fuzzy k-modes algorithms for clustering categorical data is extended by representing the clusters of categorical data with fuzzy centroids instead of the hard-type centroids used in the original algorithm. The hard-type centroids of the traditional algorithms had difficulties in dealing with ambiguous boundary data, which might be misclassified and lead to thelocal optima. Use of fuzzy centroids makes it possible to fully exploit the power of fuzzy sets in representing the uncertainty in the classification of categorical data. The distance measure between data and fuzzy centroids is more precise and effective than those of the k-modes and fuzzy k-modes. To test the proposed approach, the proposed algorithm and two conventional algorithms were used to cluster three categorical data sets. The proposed method was found to give markedly better clustering results.

An educational tool for regression models with dummy variables using Excel VBA (엑셀 VBA을 이용한 가변수 회귀모형 교육도구 개발)

  • Choi, Hyun Seok;Park, Cheolyong
    • Journal of the Korean Data and Information Science Society
    • /
    • v.24 no.3
    • /
    • pp.593-601
    • /
    • 2013
  • We often need to include categorial variables as explanatory variables in regression models. The categorial variables in regression models can be quantified through dummy variables. In this study, we provide an education tool using Excel VBA for displaying regression lines along with test results for regression models with a continuous explanatory variable and one or two categorical explanatory variables. The regression lines with test results are provided step by step for the model(s) with interaction(s), the model(s) without interaction(s) but with dummy variables, and the model without dummy variable(s). With this tool, we can easily understand the meaning of dummy variables and interaction effect through graphics and further decide which model is more suited to the data on hand.

Small Sample Characteristics of Generalized Estimating Equations for Categorical Repeated Measurements (범주형 반복측정자료를 위한 일반화 추정방정식의 소표본 특성)

  • 김동욱;김재직
    • The Korean Journal of Applied Statistics
    • /
    • v.15 no.2
    • /
    • pp.297-310
    • /
    • 2002
  • Liang and Zeger proposed generalized estimating equations(GEE) for analyzing repeated data which is discrete or continuous. GEE model can be extended to model for repeated categorical data and its estimator has asymptotic multivariate normal distribution in large sample sizes. But GEE is based on large sample asymptotic theory. In this paper, we study the properties of GEE estimators for repeated ordinal data in small sample sizes. We generate ordinal repeated measurements for two groups using two methods. Through Monte Carlo simulation studies we investigate the empirical type 1 error rates, powers, relative efficiencies of the GEE estimators, the effect of unequal sample size of two groups, and the performance of variance estimators for polytomous ordinal response variables, especially in small sample sizes.

Comparing Accuracy of Imputation Methods for Categorical Incomplete Data (범주형 자료의 결측치 추정방법 성능 비교)

  • 신형원;손소영
    • The Korean Journal of Applied Statistics
    • /
    • v.15 no.1
    • /
    • pp.33-43
    • /
    • 2002
  • Various kinds of estimation methods have been developed for imputation of categorical missing data. They include category method, logistic regression, and association rule. In this study, we propose two fusions algorithms based on both neural network and voting scheme that combine the results of individual imputation methods. A Mont-Carlo simulation is used to compare the performance of these methods. Five factors used to simulate the missing data pattern are (1) input-output function, (2) data size, (3) noise of input-output function (4) proportion of missing data, and (5) pattern of missing data. Experimental study results indicate the following: when the data size is small and missing data proportion is large, modal category method, association rule, and neural network based fusion have better performances than the other methods. However, when the data size is small and correlation between input and missing output is strong, logistic regression and neural network barred fusion algorithm appear better than the others. When data size is large with low missing data proportion, a large noise, and strong correlation between input and missing output, neural networks based fusion algorithm turns out to be the best choice.