• 제목/요약/키워드: categorical data analysis

검색결과 195건 처리시간 0.024초

Analysis of the relationships between topographic factors and landslide occurrence and their application to landslide susceptibility mapping: a case study of Mingchukur, Uzbekistan

  • Kadirhodjaev, Azam;Kadavi, Prima Riza;Lee, Chang-Wook;Lee, Saro
    • Geosciences Journal
    • /
    • 제22권6호
    • /
    • pp.1053-1067
    • /
    • 2018
  • This paper uses a probability-based approach to study the spatial relationships between landslides and their causative factors in the Mingchukur area, Bostanlik districts of Tashkent, Uzbekistan. The approach is based on digital databases and incorporates methods including probability analysis, spatial pattern analysis, and interactive mapping. First, an object-oriented conceptual model for describing landslide events is proposed, and a combined database of landslides and environmental factors is constructed by integrating various databases within a unifying conceptual framework. The frequency ratio probability model and landslide occurrence data are linked for interactive, spatial evaluation of the relationships between landslides and their causative factors. In total, 15 factors were analyzed, divided into topography, hydrology, and geology categories. All analyzed factors were also divided into numerical and categorical types. Numerical factors are continuous and were evaluated according to their $R^2$ values. A landslide susceptibility map was constructed based on conditioning factors and landslide occurrence data using the frequency ratio model. Finally, the map was validated and the accuracy showed the satisfactory value of 83.3%.

CHAID 技法에 의한 都市機能의 試論的 硏究 (An introductory study on the urban functions using CHAID technique)

  • 양순정
    • 대한지리학회지
    • /
    • 제29권3호
    • /
    • pp.360-368
    • /
    • 1994
  • 地理學에서는 地域의 特性을 규명하고자 수많은 計量的 分析手法을 사용하여 왔다. 본 고에서는 일종의 判別分析技法으로 최근에 도입된 CHAID技法을 사용하여 都市와 都市 機能에 관한 통계처리를 시도하였다. 2종류의 자료를 가지고 두 차례 처리를 실시하였는데, 하나는 인구 25만명 이상의 도시 20개를 예측변수로 하고, 行政, 市場, 金融機能 그리고 生 産機能을 반응변수로 하여 도시의 기능을 분류해 내었다. 두번째 처리에서는 앞서 언급한 행정, 시장, 금융, 생산기능 이외에 交通, 敎育, 의료, 文化, 그리고 運送機能의 9가지를 예측 변수로 선정하고, 수도권, 부산권, 대구권, 광주권, 충청권의 5개 권역을 반응변수로 하여 각 권역에서 탁월한 기능을 판별, 분류해 내었다. 이상에서 CHAID기법은 큰 양의 범주형 자료 를 처리할 수 있고, 樹形圖로 결과를 산출하여 해석이 용이하므로 地域을 分類하거나 특성 을 判別하는데 유용한 또 하나외 새로운 분석틀로 여겨진다.

  • PDF

연속형 반응변수를 위한 데이터마이닝 방법 성능 향상 연구 (A study for improving data mining methods for continuous response variables)

  • 최진수;이석형;조형준
    • Journal of the Korean Data and Information Science Society
    • /
    • 제21권5호
    • /
    • pp.917-926
    • /
    • 2010
  • 배깅과 부스팅의 기법은 예측력을 향상 시킨다고 알려져 있다. 이는 비교 실험을 통하여 성능이 검증 되었는데, 목표변수가 범주형인 경우에 특정 의사결정나무 알고리즘인 회귀분류나무만 주로 고려되었다. 본 논문에서는 의사결정나무 외에도 다른 데이터마이닝 방법도 고려하여 목표변수가 연속형인 경우에 배깅과 부스팅 기법의 성능 검증을 위한 비교 실험을 실시하였다. 구체적으로, 데이터마이닝 알고리즘 기법인 선형회귀, 의사결정나무, 신경망에 배깅 및 부스팅 앙상블 기법을 결합하여 8개의 데이터를 비교 분석하였다. 실험 결과로 연속형 자료에 대한 여러 데이터마이닝 알고리즘에도 배깅과 부스팅의 기법이 성능 향상에 도움이 되는 것으로 확인되었다.

상황변수의 조절효과 차이에 관한 연구 (SPSS와 AMOS프로그램을 중심으로) (The Study on the Different Moderation Effect of Contingency Variable (Focused on SPSS statistics and AOMS program))

  • 최창호;유연우
    • 디지털융복합연구
    • /
    • 제15권2호
    • /
    • pp.89-98
    • /
    • 2017
  • 본 연구는 인과관계 분석에서 주로 활용되는 SPSS statistics(회귀분석)과 구조방정식모델을 구현하는 프로그램 중 하나인 AMOS 프로그램을 각각 활용하여 동일한 데이터에 대하여 조절효과 검정을 위한 실증분석을 실시하였다. 실증분석 결과, SPSS statistics을 활용한 회귀분석에서 상황변수가 범주형데이터인 성별과 연속형데이터인 컨설팅만족도 모두에서 조절효과가 없는 것으로 나타난 반면, AMOS 프로그램을 활용한 구조방정식모델에서는 10% 유의수준에서 컨설턴트의 능력 및 태도가 컨설팅재구매에 미치는 영향관계를 컨설팅만족도가 부분적으로 조절하고 있는 것으로 나타났다. 결국, 조절효과 분석은 AMOS 프로그램을 활용한 구조방정식모델과 SPSS statistics을 활용한 회귀분석모델이 전혀 다른 접근방법을 사용하고 있어 얼마든지 상이한 결과가 나올 수 있음을 보여준다.

지열 히트펌프 시스템의 데이터 마이닝 기반 성능 예측 기술 (Data Mining-Based Performance Prediction Technology of Geothermal Heat Pump System)

  • 황민혜;박명규;전인기;손병후
    • 대한기계학회논문집 C: 기술과 교육
    • /
    • 제4권1호
    • /
    • pp.27-34
    • /
    • 2016
  • 지열 시스템을 대상으로 데이터 마이닝 기반 성능 예측 모델을 구축하였다. 지열 시스템의 실시간 성능 분석과 예측에 필요한 데이터의 기본 조건을 검토한 후, 데이터베이스의 구조를 설계하였다. 먼저 시스템 성능계수(COP)와 전력 소비량을 분석 대상으로 설정한 후, 이들 물리량의 추출 주기(1분 5분 10분 30분 60분 간격)가 예측 결과에 미치는 영향을 분석하였다. 이어서 범주형과 수치형 의사결정나무 모델을 적용하여 시스템의 성능을 예측하였다. 범주형 의사결정나무 모델을 적용했을 때, 10분 주기의 예측 결과의 정확도는 97.7%로 가장 높았다. 또한 수치형 의사결정나무 분석 결과를 통해 COP가 변하는 순간의 임계값을 찾을 수 있었다. 본 논문에서 제안한 방법은 지열 시스템의 실시간 성능 분석과 운전 상태 등에 적용할 수 있을 것으로 판단된다.

이산화 알고리즘을 이용한 계층적 클러스터링의 실험적 성능 평가 (Performance Comparison of Clustering using Discritization Algorithm)

  • 원재강;이정찬;정용규;이영호
    • 서비스연구
    • /
    • 제3권2호
    • /
    • pp.53-60
    • /
    • 2013
  • 데이터로부터 의미있는 형태의 정보를 얻기 위한 여러 가지 기법들이 개발되어 왔지만, 최근 들어 가장 각광받는 분야 중 하나는 패턴인식과 기계학습 방법이다. 기존의 학습 알고리즘은 대부분 범주 형 속성에 기반 한 규칙 또는 의사 결정 모델을 생성한다. 그런데, 실세계의 데이터는 보통 범주 형 속성 외에도 수치 값을 갖는 속성을 포함하고, 또 많은 경우에 있어 수치 형 속성으로만 구성되기도 한다. 따라서 이러한 경우, 데이터를 학습에 사용하기 위해서는 수치형 속성에 대한 적절한 처리 과정이 필요하다. 본 논문에서는, 수치형 속성의 도메인을 여러 개의 분절된 부분으로 나누어 학습 알고리즘에 사용하는 방법인 이산화 기법을 설명하고 또한 데이터마이닝의 기법으로 사용되는 클러스터링(Clustering)을 사용한다. 클러스터란 대량의 데이터베이스로부터 유사한 레코드 특성을 지닌 작은 그룹으로 여러 개를 분할하는 것으로 패턴 공간에 주어진 유한 개의 패턴들이 서로 가깝게 모여서 무리를 이루고 있는 패턴 집합이다. 그 집합들 중에서 특정한 카테고리를 지정하지 않고 주어진 데이터들에서 어떤 패턴을 추출하여, 비슷한 데이터들을 묶어서 데이터를 분류하는 기법인 클러스터링에 대해 실험한다.

  • PDF

RAINDROP PLOT을 이용한 차원축소 (Collapsibility Using Raindrop Plot)

  • 홍종선;김범준;박지용
    • 응용통계연구
    • /
    • 제18권2호
    • /
    • pp.471-485
    • /
    • 2005
  • 범주형 자료분석에서 차원축소(collapsibility)는 오즈비로 설명되었다. 실제의 $2{\times}2{\times}K$ 분할표 자료를 이 이론에 적응시켰을 때 오즈비의 값으로 차원축소가 가능한지의 여부를 판단하기는 어렵다. 오즈비를 시각적으로 표현하는 방법 중에서 Doi, Nakamura와 Yamamoto(2001)가 제안한 Contour plot을 통해서 분할표 자료를 설명하는 것은 가능하지만 차원축소의 가능성을 결정하기에는 한계가 있다. 본 연구에서는 오즈비의 신뢰구간을 시각적으로 표현할 수 있는 방법으로 Barrowman과 Myers(2003)가 제안한 Raindrop plot을 이용하여 $2{\times}2{\times}K$ 분할표 자료를 설명할 수 있으며 동시에 차원축소의 가능성을 판단할 수 있는 방법을 제안하고자 한다.

A pooled Bayes test of independence using restricted pooling model for contingency tables from small areas

  • Jo, Aejeong;Kim, Dal Ho
    • Communications for Statistical Applications and Methods
    • /
    • 제29권5호
    • /
    • pp.547-559
    • /
    • 2022
  • For a chi-squared test, which is a statistical method used to test the independence of a contingency table of two factors, the expected frequency of each cell must be greater than 5. The percentage of cells with an expected frequency below 5 must be less than 20% of all cells. However, there are many cases in which the regional expected frequency is below 5 in general small area studies. Even in large-scale surveys, it is difficult to forecast the expected frequency to be greater than 5 when there is small area estimation with subgroup analysis. Another statistical method to test independence is to use the Bayes factor, but since there is a high ratio of data dependency due to the nature of the Bayesian approach, the low expected frequency tends to decrease the precision of the test results. To overcome these limitations, we will borrow information from areas with similar characteristics and pool the data statistically to propose a pooled Bayes test of independence in target areas. Jo et al. (2021) suggested hierarchical Bayesian pooling models for small area estimation of categorical data, and we will introduce the pooled Bayes factors calculated by expanding their restricted pooling model. We applied the pooled Bayes factors using bone mineral density and body mass index data from the Third National Health and Nutrition Examination Survey conducted in the United States and compared them with chi-squared tests often used in tests of independence.

러프집합을 통한 취업의사결정 분석시스템 (Decision Analysis System for Job Guidance using Rough Set)

  • 이희태;박인규
    • 디지털융복합연구
    • /
    • 제11권10호
    • /
    • pp.387-394
    • /
    • 2013
  • 데이터 마이닝은 예측이나 분석을 위해서 많은 양의 데이터에 존재하는 여러 가지의 관계를 추출하는 과정이라고 할 수 있다. 그러한 데이터에는 매우 많은 변수로 인한 차원의 증가로 인하여 계산상의 어려움이 수반되어지고 변수의 중복성과 중요도에 있어서 다양한 통계적 관계가 존재한다. 따라서 동일하거나 유사한 데이터를 같은 그룹으로 형성하는 클러스터 해석은 데이터 마이닝에서 필수적인 요소이다. 본 연구는 범주형 데이터의 분류에서 발생하는 불확실성의 처리를 위해 러프집합을 이용하여 정보 엔트로피를 이용한 새로운 척도를 정의하고 연구 대상에 대한 유사행동을 분석하는 시스템 구현에 그 의의가 있다. 데이터는 평택공업고등학교에서 채집되었고 이를 토대로 제안된 방법이 학생들의 유사행동에 대한 보다 정확한 결과를 보임을 알 수 있었다. 또한 속성의 개수가 10개 이상인 경우에 기본 방법과의 차이를 보이며 취업의사결정에서 학생들의 의식을 기존 방법보다 효과적으로 반영하였다.

Influence of Global Competitive Capability on Global Performance of Distribution Industry in South Korea

  • KIM, Boine;KIM, Byoung-Goo
    • 유통과학연구
    • /
    • 제19권12호
    • /
    • pp.83-89
    • /
    • 2021
  • Purpose: Purpose of this study is to empirically analyze influence of global competitive capability on global performance of distribution industry in South Korea. Also based on the empirical results, give managerial implication to distribution industry and contribute to academies of management. Research design, data and methodology: This study focuses on relationship analysis between global competitive capability and global performance. This study measured global competitive capability with three concepts; human capability, network capability and product/service capability. And measured global performance with export performance. To empirically analyze relationship between variables, this study used 2,316 data of GCL Test by KOTRA and Kdata. This study used SPSS26 and analyzed frequency, reliability, correlation and stepwise regression analysis. Results: Result shows that, in control variable, business period and business field give significant positive influence on export performance. Among antecedents, human capability and network capability give significant positive influence on export performance. However, product/goods/service was not significant. Due to significant influence of business field which is categorical variable. This study additionally analyze relationship by business field group to confirm whether relationship differ by group or similar. Conclusions: Based on the results, this study try to give implication to distribution industry management and contribute to academic.