• 제목/요약/키워드: 범주형자료분석

검색결과 176건 처리시간 0.022초

Categorical Data Analysis by Using Spatial Scan Statistics and Echelon Analysis

  • 문승호;신재경
    • 한국데이터정보과학회:학술대회논문집
    • /
    • 한국데이터정보과학회 2004년도 춘계학술대회
    • /
    • pp.183-194
    • /
    • 2004
  • 본 연구에서는 공간 검색 통계량(spatial scan statistics)과 에셜론 해석법을 이용한 범주형 자료분석을 다룬다. 이를 위해 우선, 에셜론 덴드로그램을 이용하여 주어진 분활표의 계층적 구조(hierarchical structure)를 결정하고서 이로부터 핫스팟(hotspot)의 후보를 검출한다. 다음으로 우도비(likelihood ratio)를 기초로 유의하게 높거나 낮게 나타나는 지역에 대한 공간 검색 통계량을 산출한다. 마지막으로, 이 통계량을 바탕으로 핫스팟을 검출한다.

  • PDF

범주형 자료를 포함한 다형질 임계개체모형에서 유전능력 추정 알고리즘 (Computing Algorithm for Genetic Evaluations on Several Linear and Categorical Traits in A Multivariate Threshold Animal Model)

  • 이득환
    • Journal of Animal Science and Technology
    • /
    • 제46권2호
    • /
    • pp.137-144
    • /
    • 2004
  • 불연속 범주형 자료에 대한 잠재변수가 존재한다는 가정하에 임계값을 추정하고 잠재변수를 생성하며 생성된 잠재변수 및 기타 연속변량에 대한 관측치를 포함하는 다변량 임계개체모형을 설정하고 유전능력을 예측하기 위한 방법을 제시하였다. 각각의 범주형 조사 자료의 특성을 갖는 형질에 있어서 임계점의 추정은 추정 가능한 임계점에 대한 1차 미분값(gradient)과 2차 미분값(Hessian)을 이용한 Newton 방법을 이용하면 추정가능하며 지역모수인 육종가의 추정은 PCG 방법으로 구현 가능하다. 이러한 이론은 Quaas(2001)가 제시한 하나의 이산형 자료와 하나의 연속형 자료의 2변량 동시 분석방법을 확장하여 전개한 것이며 이때 잠재변수 및 임계점의 추정은 기타 형질의 잔차 회귀계수 및 상관을 고려해야 한다. 본 연구를 위한 모의실험은 2개의 연속변량으로 체중과 유량을 고려하였고 또 다른 2개의 불연속 변량인 분만난이도와 출생시 생존유무를 고려하여 4형질 동시 분석을 실시하였다. 임계모형에 의한 육종가 추정치의 정확도는 4개의 구간으로 분류되어 기록된 분만난이도의 경우에 91${\sim}$92%의 정확도를 보였고 이항분포인 분만시 생존유무에 대하여는 87~89%의 정확도를 보였다. 반면에 이들 범주형 자료를 선형으로 간주하고 분석한 선형 동물개체 혼합모형에서는 72${\sim}$84% 및 59${\sim}$70%으로 비교적 낮은 추정의 정확도를 보였다. 따라서 범주형 자료의 유전분석은 선형 혼합모형 보다 임계형 혼합모형이 크게 타당할 것으로 사료되었다.

범주형 시계열 자료의 군집화: 프로야구 자료의 사례 연구 (Categorical time series clustering: Case study of Korean pro-baseball data)

  • 박노진
    • Journal of the Korean Data and Information Science Society
    • /
    • 제27권3호
    • /
    • pp.621-627
    • /
    • 2016
  • 범주형 시계열 자료의 군집화에 대하여 정리해 보았다. 시계열 자료의 군집화는 일반적인 군집화에 시간을 고려해야하는 측면이 있다. 한편, 범주형 시계열 자료의 군집화에 대한 연구가 진행되었으나 현재 정리 요약된 국내외 논문을 찾기 어렵다. 본 논문에서는 범주형 시계열을 군집화 하는 몇 가지 방법들을 제시하고 그 방법들을 비교하기 위해 프로야구 데이터를 이용하였다. 프로야구 팀들 간에 어떤 팀이 특정 팀에 유독 약한 경기력을 보이는 경우가 있다. 국내 최강이라는 S팀이 유독 H팀에게 그런 경우가 그렇다. 2015년 S팀의 상대전적의 군집화를 통해 S팀과 H팀의 관계가 유별난 지를 밝히려 한다. 통계적으로 말하자면, 승/패로 이루어진 시계열 자료의 군집화를 수행하려는 것이다. 분석결과 S팀과 H팀과의 관계가 다른 팀들과의 관계에 비해 눈에 띠는 차이가 있음을 알 수 있었다.

범주형 반복측정자료를 위한 일반화 추정방정식의 소표본 특성 (Small Sample Characteristics of Generalized Estimating Equations for Categorical Repeated Measurements)

  • 김동욱;김재직
    • 응용통계연구
    • /
    • 제15권2호
    • /
    • pp.297-310
    • /
    • 2002
  • Liang과 Zeger는 이산형 혹은 연속형 반복측정자료를 분석하기 위한 일반화 추정방정식 (GEE)을 제안하였다 GEE모형은 범주형 반복측정자료의 모형으로 확장될 수 있으며, 이 GEE추정량은 대표본인 경우 다변량 정규분포를 따른다. 그러나 GEE는 대표본근사이론에 기초한다. 본 논문에서는 소표본인 경우 반복 측정된 순서자료에 대한 GEE추정량의 성질을 연구한다. 우리는 두가지 방법을 사용하여 두그룹의 반복 측정된 순서자료를 생성하며 모의실험을 통하여 소표본인 경우 여러 개 범주를 갖는 순서반응 자료에 대하여 GEE추정량의 1종 오류율, 검정력, 상대효율, 두 그룹의 표본크기가 다를 경우 효과, 그리고 분산 추정량의 성질등을 연구한다.

분할법을 활용한 범주형자료의 다차원척도법 (Multidimensional scaling of categorical data using the partition method)

  • 신상민;천선경;최용석
    • 응용통계연구
    • /
    • 제31권1호
    • /
    • pp.67-75
    • /
    • 2018
  • 다차원척도법은 개체간의 비유사성을 저차원 공간에 기하적으로 표현하기 위한 다변량 자료의 탐색적 분석기법이다. 그러나 일반적인 다차원척도그림에서는 개체들의 유사성 정보만이 표현될 뿐 변수와 관련된 정보가 나타나지 않기 때문에 그림의 해석 상에 한계점이 존재한다. 본 연구에서는 범주형 자료를 다중표시행렬로 변환하고 Torgerson (1958)의 알고리즘에 의한 다차원척도법을 적용하여 개체들의 군집화 성향과 군집들의 상대적 크기를 다차원척도그림으로 시각화하였다. 그리고 Shin 등 (2015)의 분할법을 적용하여 범주형변수의 범주수준별 정보를 다차원척도그림 상에 투영하여 추가적인 정보를 표현하였다. 따라서 본 연구에서 제안하고자 하는 다차원척도그림을 이용하면 개체들의 유사성 정보와 함께 범주형변수들 사이의 연관성도 탐색할 수 있는 장점이 있다.

지분구조의 다가자료에 관한 모형

  • 최재성
    • Communications for Statistical Applications and Methods
    • /
    • 제4권2호
    • /
    • pp.377-384
    • /
    • 1997
  • 본 논문은 지분구조를 갖는 범주형 자료가 명목상의 다가자료일 때, 지분구조의 각 단계에서 정의될 수 있는 지분변수들의 유형과 지분변수들의 관심확률들에 영향을 미치는 변수들을 고려한 자료분석 모형들을 제시하고 있다.

  • PDF

무응답을 포함하는 범주형 자료의 분석 (Analysis of categorical data with nonresponses)

  • 박태성;이승연
    • 응용통계연구
    • /
    • 제11권1호
    • /
    • pp.83-95
    • /
    • 1998
  • 본 논문에서는 여론조사를 비롯한 표본조사에서 얻어지는 범주형 자료에서 결측치(missing observation)나 무응답(nonresponse)이 발생했을 때 이러한 자료를 적절하게 처리하여 분석할 수 있는 통계모형을 소개하고 실제 사례로서 1948년도에 미국에서 실시한 대통령 선거에 대한 여론조사 자료를 분석하였다. 당시 미국 여론조사 기관에서는 Dewey 후보가 압승을 거둘 것으로 예상을 했지만 실제 선거에서는 Truman 후보가 승리했었다.

  • PDF

범주형 자료에서 경험적 베이지안 오분류 분석 (Empirical Bayesian Misclassification Analysis on Categorical Data)

  • 임한승;홍종선;서문섭
    • 응용통계연구
    • /
    • 제14권1호
    • /
    • pp.39-57
    • /
    • 2001
  • 범주형 자료에서 오분류는 자료를 수집하는 과정에서 발생될 수 있다. 오분류되어 있는 자료를 정확한 자료로 간주하여 분석한다면 추정결과에 편의가 발생하고 검정력이 약화되는 결과를 초래하게 되며, 정확하게 분류된 자료를 오분류하고 판단한다면 오분류의 수정을 위해 불필요한 비용과 시간을 낭비해야 할 것이다. 따라서 정확하게 분류된 표본인지 오분류된 표본인지를 판정하는 것은 자료를 분석하기 전에 이루어져야할 매우 중요한 과정이다. 본 논문은 I$\times$J 분할표로 주어지는 범주형 자료에서 두 변수 중 하나의 변수에서만 오분류가 발생되는 경우에 오분류 여부를 검정하기 위해서 오분류 가능성이 없는 변수에 대한 주변합은 고정시키고, 오분류 여부를 가능성이 있는 변수의 주변합을 Sebastiani와 Ramoni(1997)가 제안한 Bound와 외부정보로 표현되는 Collapse의 개념, 그리고 베이지안 방법을 확장하여 자료에 적합한 모형과 사전정보를 고려한 사전모수를 다양하게 설정하면서 재분류하는 연구를 하였다. 오분류에 대한 정보를 얻기 위해서 Tenenbein(1970)에 의해 연구된 이중추출법을 이용하여 오분류 검정을 위한 새로운 통계량을 제안하였으며, 제안된 오분류 검정통계량에 관한 분포를 다양한 모의실험을 통하여 연구하였다.

  • PDF

순서범주형자료 분석을 위한 베이지안 분계점 모형 (A Bayesian Threshold Model for Ordered Categorical Traits)

  • 최병수;이승천
    • 응용통계연구
    • /
    • 제18권1호
    • /
    • pp.173-182
    • /
    • 2005
  • 순서를 갖는 범주형자료의 분석을 위한 중요한 통계적 방법인 순위로짓모형의 대안으로 무정보 사전분포에 의한 베이지안 분계점 모형을 정의하고, 실증 자료분석을 통해 베이지안 모형의 유용성을 살펴보았다.