• 제목/요약/키워드: 순서적 범주형 자료

검색결과 8건 처리시간 0.022초

조건부 확률에 기반한 범주형 자료의 거리 측정 (A distance metric of nominal attribute based on conditional probability)

  • 이재호;우종하;오경환
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2003년도 추계 학술대회 학술발표 논문집
    • /
    • pp.53-56
    • /
    • 2003
  • 유사도 혹은 자료간의 거리 개념은 많은 기계학습 알고리즘에서 사용되고 있는 중요한 측정개념이다 하지만 입력되는 자료의 속성들중 순서가 정의되지 않은 범주형 속성이 포함되어 있는 경우, 자료간의 유사도나 거리 측정에 어려움이 따른다. 비거리 기반의 알고리즘들의 경우-C4.5, CART-거리의 측정없이 작동할 수 있지만, 거리기반의 알고리즘들의 경우 범주형 속성의 거리 정보 결여로 효과적으로 적용될 수 없는 문제점을 갖고 있다. 본 논문에서는 이러한 범주형 자료들간 거리 측정을 자료 집합의 특성을 충분히 고려한 방법을 제안한다. 이를 위해 자료 집합의 선험적인 정보를 필요로 한다. 이런 선험적 정보인 조건부 확률을 기반으로한 거리 측정방법을 제시하고 오류 피드백을 통해서 속성 간 거리 측정을 최적화 하려고 노력한다. 주어진 자료 집합에 대해 서로 다른 두 범주형 값이 목적 속성에 대해서 유사한 분포를 보인다면 이들 값들은 비교적 가까운 거리로 결정한다 이렇게 결정된 거리를 기반으로 학습 단계를 진행하며 이때 발생한 오류들에 대해 피드백 작업을 진행한다. UCI Machine Learning Repository의 자료들을 이용한 실험 결과를 통해 제안한 거리 측정 방법의 우수한 성능을 확인하였다.

  • PDF

영 과잉 순서적 프로빗 모형을 이용한 한국인의 음주자료에 대한 베이지안 분석 (Bayesian Analysis of Korean Alcohol Consumption Data Using a Zero-Inflated Ordered Probit Model)

  • 오만숙;오현탁;박세미
    • 응용통계연구
    • /
    • 제25권2호
    • /
    • pp.363-376
    • /
    • 2012
  • 순서적 다항 반응변수의 경우 종종 과도하게 많은 수의 관측치가 0 범주에서 발생하는 영 과잉 특성을 지닌다. 이러한 영 과잉 자료에서 0범주를 발생시키는 요인이 여러 개 존재할 때 일반적인 순서적 프로빗 모형은 자료를 설명함에 있어서 한계를 지닌다. 본 논문에서는 영 과잉 특성을 반영한 이 단계 영 과잉 순서적 프로빗 모형의 베이지안 분석기법을 제시하고 이를 2008년도 통계청에서 조사한 한국인의 음주소비 자료에 적용시킨다. 첫 번째 단계에서는 음주소비가 하나도 없다고 답한 0 범주에 속하는 비음주자들을 신념 또는 영구적 건강상의 문제 등으로 상황에 관계없이 음주를 하지 않는 절대적 비음주자(genuine non-drinker, non-participant)와 현재 소비가 없지만 상황에 따라 음주자가 될 가능성이 있는 잠재적 음주자(zero consumption potential drinker)로 구분하는 프로빗 모형을 적용시켜 분석한다. 두 번째 단계에서는 잠재적 음주자와 1 이상의 범주에 속하는 실제적 음주자를 합하여 음주자 집단으로 보고 이에 대하여 순서적 프로빗 모형을 적용하여 분석한다. 분석결과, 비음주자 중 약 30%가 절대적 비음주자로 음주자료가 일반적 순서적 자료에 비하여 뚜렷한 영 과잉 특성을 가짐을 알 수 있었다. 각 변수의 한계효과를 분석함으로써 같은 설명변수가 절대적 비음주자와 잠재적 음주자에 미치는 영향이 서로 반대로 나타날 수 있음을 발견하였고, 따라서 한국인의 음주자료에 대하여 제안된 영 과잉 순서적 프로빗 모형이 유용함을 보여주었다.

범주형 자료 분석을 활용한 사회경제적 가뭄 피해 발생확률 산정 : 충청북도의 적용사례를 중심으로 (Estimation of Occurrence Probability of Socioeconomic Damage Caused by Meteorological Drought Using Categorical Data Analysis)

  • 유지수;유지영;김민지;김태웅
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2021년도 학술발표회
    • /
    • pp.348-348
    • /
    • 2021
  • 가뭄 연구의 궁극적 목표는 가뭄 발생의 메커니즘에 대한 이해를 높이고, 예측기술을 향상시켜 선제적 대응이 가능하도록 하는 것이다. 일반적으로 가뭄분석에 활용되는 가뭄지표는 연속형 변수로 간주하여 확률모형을 구축하지만, 가뭄상태와 가뭄피해 자료는 순서형 및 이산형 변수이므로 범주형 자료 분석 기법을 적용하는 것이 더 적절하다. 따라서 본 연구에서는 기상학적 가뭄과 피해발생 사이의 관계를 규명하기 위해 범주형 자료 분석 방법 중 로그선형(log-linear) 모형과 로지스틱(logistic) 회귀모형을 활용하였다. 가뭄피해 예측을 위한 가뭄 피해 정보를 수집하는 것은 매우 어려운 일이다. 가뭄의 영향으로 인해 발생할 수 있는 피해의 종류가 다양하며, 여러 분야의 이해관계자가 받아들이는 가뭄의 피해 양상이 다르기 때문이다. 본 연구에서는 국가가뭄정보포털(drought.go.kr)에서 충청북도의 가뭄피해현황 자료를 수집하였다. 30년(1991~2020년)동안 238개 읍면동 중 34개 행정구역에서 총 272건의 가뭄피해가 발생한 것으로 확인되었다. 표준강수지수(SPI)를 이용하여 분석된 지역별 연평균 가뭄발생횟수는 약 8.44회이며, 가뭄이 가장 많이 발생한 해는 2001년(평균 가뭄발생 18.7회)이었다. 강수의 부족으로 인해 발생하는 기상학적 가뭄이 사회경제적 피해를 야기하는 수문학적 가뭄으로 전이되기까지 몇 주에서 몇 달까지 시간이 소요된다. 이러한 관계를 파악하기 위해 가뭄피해 발생 여부를 예측변수, 가뭄피해 발생 이전의 가뭄상태를 설명변수로 설정하여 기상학적 가뭄 발생에 따른 가뭄피해 발생 확률을 산정하였다. 그 결과 가뭄피해 발생 당시의 가뭄상태보다 그 이전에 연속된 가뭄상태가 있을 경우 가뭄피해 발생 확률이 약 2.5배 상승하는 것으로 나타났다.

  • PDF

베이지안 순서형 프로빗 준모수 회귀 모형 : 국민건강영양조사 2016 자료를 통한 흡연양태와 커피섭취 간의 관계 분석 (Bayesian ordinal probit semiparametric regression models: KNHANES 2016 data analysis of the relationship between smoking behavior and coffee intake)

  • 이다솜;이은지;조성일;최태련
    • 응용통계연구
    • /
    • 제33권1호
    • /
    • pp.25-46
    • /
    • 2020
  • 본 논문에서는 Bayesian spectral analysis regression (BSAR) 방법론을 이용한 베이지안 순서형 프로빗 준모수 회귀모형에 대해서 고찰한다. 순서형 프로빗 회귀모형은 순서가 있는 범주형 자료를 모형화하는 방법으로, 정규 분포의 분포함수의 역함수인 프로빗 연결함수를 이용해 각 범주의 확률과 설명변수을 연결함으로써 반응변수의 확률을 모형화한다. 베이지안 프로빗 회귀 모형은 정규 분포를 따르는 잠재변수를 도입함으로써 사후 분포 도출을 용이하게 하고, 절단점에 따라 나뉘어지는 잠재변수들의 값에 따라서 반응 변수들이 범주화된다. 본 논문에서는 이러한 잠재 변수 방법을 확장해 BSAR 방법론에 기반하여 단조증가/감소와 같은 형태제약을 반영할 수 있는 베이지안 이항형 및 순서형 프로빗 준모수 회귀모형에 대해 연구한다. 모의실험을 통하여 이항형 프로빗 준모수 회귀모형과 기존의 다른 모형들 간의 적합결과를 비교하고, 형태 제약에 따른 순서형 프로빗 준모수 회귀모형의 적합결과를 비교 분석하도록 한다. 아울러, 국민건강영양조사 제 7기 1차년도 (2016) 자료(Korean National Health and Nutrition Examination Survey (KNHANES), 2016)를 바탕으로, 본 논문에서 고찰한 이항형 및 순서형 프로빗 준모수 회귀모형을 적용하여, 흡연양태와 커피섭취 간의 관계에 대한 실증적 분석을 수행한다.

순서형 프로빗모형을 이용한 속도선택행태에 관한 연구 (Ordered Probit Model Of Speed Selection Behavior)

  • 강경우;백병성
    • 대한교통학회지
    • /
    • 제16권3호
    • /
    • pp.93-100
    • /
    • 1998
  • 지난 30여년간 운전자의 속도선택의 행태에 대하여 많은 연구가 이루어졌다. 그러 나, 과거 대부분의 연구는 운전자의 개별적인 특성과 제한속도에 대한 운전자의 인지 정도 를 고려하지 않고, 다만 운전자의 속도선택과 도로 및 차량간의 상호 관련성에 중점을 두고 있다. 본 연구는 운전자, 차량 및 통행특성 등의 요인을 고려하여 운전자의 속도 선택에 대 한 행태를 분석하고자 하였다. 이를 위하여 운전자의 속도 자료와 설문자료를 조사한 수, 두 가지 자료를 범주형 자료로 구분하여 Ordered Probit Model을 적용하여 분석하였다. 분 석결과 i) 고소득의 남성운전자가 고속의 주행 행태를 보였으며, 운전경력이 많은 운전자일 수록 높은 속도를 선택하는 것으로 나타났다. ii) 차량에 관해서는 배기량이 높은 차량일수 록 고속의 속도를 나타낸 반면에 안전장치가 많은 차량의 경우에는 저속의 주행속도를 보이 는 것으로 나타났다. iii) 통행 특성 면에서는 일일통행거리가 중요 변수인 것으로 나타났다. iv) 운전자의 심리적 측면에서는 운전자가 인식하고 있는 제한 속도가 또한 중요변수로 분 석되었다.

  • PDF

누적법에 관한 연구 (On Accumulation Analysis)

  • 백운봉;이우선
    • 응용통계연구
    • /
    • 제12권1호
    • /
    • pp.275-293
    • /
    • 1999
  • 다구찌의 누적법은 다구찌 품질공학에서 중요한 통계분석 방법이다. 그러나 이 방법이 복잡하고 비효율적일 뿐만 아니라 실험의 결과가 잘못 해석 될 수 있는 문제점을 가지고 이싿. 특히 순서 지어진 범주형에 관한 다요인(multificator) 실험에서는 이러한 가능성이 큰 것으로 지적되고 있다. 이에 대한 걱정과 비판이 Nair(1986) 그리고 Hamada and Wu(1990)에 의하여 심각하게 제기되어 왔다. 본 논문은 이러한 내용들을 정리하고 이들의 논란과 주장에 대한 평가와 이에대한 최선의 실천방안을 제안하고 있다. 아울러 실제 자료분석을 위하여 필요한 SAS/IML 프로그램을 제시하고 있다.

  • PDF

한우의 도체중, 배장근단면적 및 근내지방도의 유전모수 추정방법 (Methods for Genetic Parameter Estimations of Carcass Weight, Longissimus Muscle Area and Marbling Score in Korean Cattle)

  • 이득환
    • Journal of Animal Science and Technology
    • /
    • 제46권4호
    • /
    • pp.509-516
    • /
    • 2004
  • 한우 종모우 선발을 위한 유전능력 평가에서 고려되는 형질들 중 이산형 형태로 조사되는 근내지방도의 유전변이가 추정방법에 따라 어느 정도 차이가 있는지 알아보기 위한 모의실험을 실시하였다. 모의실험 자료는 연속변량으로 간주되는 도체중 및 배장근단면적과 근내지방도의 잠재변수를 다변량 정규분포함수에서 생성하였고 근내지방도의 잠재변수를 이용하여 특정 임계값을 중심으로 순서화된 근내지방도 점수로 변화 하였따. 근내지방도의 점수 부여방법으로써 비거세우에서 조사된 근내지방도의 점수 1${\sim}$5점 사이에 정규분포에서 크게 어긋나는 분포특성을 갖도록 자료(DSI)를 생성하였고 또한 한우 거세우에서 현재 조사되고 있는 점수 1${\sim}$7점 사이에 정규 분포에 좀더 접근한 분포특성을 갖는 모의 자료(DS2)를 생성하였다. 분석방법간에 유전변이 추정의 정확도를 알아보기 위하여 1) 생성된 이들 자료를 선형으로 간주하고 다형질 혼합 선형 개체모형에서 REML 분석방법으로 유전변이를 추정하였고 2) 특정 임계치를 중심으로 잠재변수가 존재한다는 가정하에 다형질 임계 개체 혼합모형을 설정하여 Gibbs sampling 방법으로 유전변이를 추정하였다. 여기서 추정된 유전변이(유전력, 유전상관 및 잔차상관)에 대하여 모수와의 차이를 검정함으로써 편의되는 정도를 알아보았다. 모의실험은 각 자료에 대하여 10회 실시하였다. 분석결과, 근내지방도의 유전력 추정치는 DS1에서는 다형질 임계개체혼합모형을 설정하여 Gibbs sampling 방법으로 모수에 대한 사후분포의 평균으로 계산한 결과 참값과 유의적인 차이가 없는 것으로 분석되었다. 반면에 근내지방도를 선형으로 간주하고 다형질 선형 개체혼합모형에 의한 유전력 추정치는 모수보다 매우 낮은 유전력을 보였다(0.500 vs 0.315). 유전상관 추정치는 선형모형에서의 REML 방법 또는 임계모형에서의Gibbs sampling 방법에서 모두 모수와 유의적인 차이가 없는 것으로 분석되었으나 근내지방도의 잔차상관에 있어서 REML 방법으로 분석하였을 경우에 모수보다 낮게 추정되었다. 반면에 범주형 모형에서는 모수와 추정치 간에 유의적인 차이가 없는 것으로 분석되었다. 또한 7개의 범주형으로 조사된 자료(DS2)에서 이들 추정치는 DS1에서와 동일한 경향을 보였는데 그 편의 정도는 다소 적어지는 경향을 보였다. 따라서 이산형으로 조사되는 근내지방도에 대한 유전변이를 추정하기 위해서는 범주형 임계모형이 선형모형 보다 사소 정확한 추정을 할 수 있을 것으로 판단 되었다.

역할놀이에 대한 어린이집 교사의 은유분석 (Metaphorical Analysis on Role Playing of Day Care Center Teachers)

  • 임진형;이진희
    • 한국산학기술학회논문지
    • /
    • 제18권2호
    • /
    • pp.524-531
    • /
    • 2017
  • 본 연구의 목적은 어린이집 교사들의 역할놀이에 대한 은유의 경향과 은유의 의미를 알아보는 것이다. 이를 위하여 A지역 대학 보수교육에 참여한 어린이집 교사 166명을 대상으로 문장 완성형 은유 방법을 활용하여 자료를 수집하였다. 수집한 자료는 은유분석에 관한 선행연구에 기초하여 유아교육전문가 2인이 질적 연구의 방법을 활용한 범주화의 과정을 거쳐 분석하였다. 연구결과 첫째, 역할놀이 은유의 경향은 3개 범주, 8개의 내용으로 분류되었으며, 3개 범주는 '사회성 발달', '정서발달', '발달'의 순서로 빈도가 높게 나타났다. 8개의 내용 중 '사회성 발달' 범주에서는 '모방'이 가장 빈도가 높게 나타났고 '정서발달' 범주에서는 '정서표현'이 가장 높은 빈도를 나타냈다. '발달' 범주에서는 '발달의 필수요인'이 단독내용으로 나타났다. 둘째, 역할놀이 은유의 의미는 먼저 '사회성 발달' 범주에서는 '사회적 기술', '역할체험', '모방', '사회이해'의 의미, '정서발달' 범주에서는 '상상력', '정화작용', '정서표현'의 의미, '발달' 범주에서는 '발달의 필수요인'으로 인식하고 있었다. 연구결과를 기초로 하여 유아교육기관에서 이루어지는 역할놀이의 가치와 교사의 역할에 대한 재조명이 필요함을 논의하였다.