• 제목/요약/키워드: Ordinal Data

검색결과 118건 처리시간 0.021초

Relation for the Measure of Association and the Criteria of Association Rule in Ordinal Database

  • 박희창;이호순
    • 한국데이터정보과학회:학술대회논문집
    • /
    • 한국데이터정보과학회 2003년도 추계학술대회
    • /
    • pp.197-213
    • /
    • 2003
  • One of the well-studied problems in data mining is the search for association rules. The goal of association rule mining is to find all the rules with support and confidence exceeding some user specified thresholds. In this paper we consider the relation between the measure of association and the criteria of association rule for ordinal data.

  • PDF

천연가스 누출 예측을 위한 OrdinalEncoder 기반 DNN (OrdinalEncoder based DNN for Natural Gas Leak Prediction)

  • 홍고르출;이상무;김미혜
    • 한국융합학회논문지
    • /
    • 제10권10호
    • /
    • pp.7-13
    • /
    • 2019
  • 대부분의 천연가스(NG)는 공기 중으로 누출 되며 그중에서도 메탄가스의 누출은 기후에 많은 영향을 준다. 미국 도시의 거리에서 메탄가스 누출 데이터를 수집하였다. 본 논문은 메탄가스누출 정도를 예측하는 딥러닝(Deep Neural Network)방법을 제안하였으며 제안된 방법은 OrdinalEncoder(OE) 기반 K-means clustering과 Multilayer Perceptron(MLP)을 활용하였다. 15개의 특징을 입력뉴런과 오류역전파 알고리즘을 적용하였다. 데이터는 실제 미국의 거리에서 누출되는 메탄가스농도 오픈데이터를 활용하여 진행하였다. 우리는 OE 기반 K-means알고리즘을 적용하여 데이터를 레이블링 하였고 NG누출 예측을 위한 정규화 방법 OE, MinMax, Standard, MaxAbs. Quantile 5가지 방법을 실험하였다. 그 결과 OE 기반 MLP의 인식률이 97.7%, F1-score 96.4%이며 다른 방법보다 상대적으로 높은 인식률을 보였다. 실험은 SPSS 및 Python으로 구현하였으며 실제오픈 데이터를 활용하여 실험하였다.

데이터 마이닝에서 Cohen의 kappa를 이용한 분류정확도 측정 (Assessing Classification Accuracy using Cohen's kappa in Data Mining)

  • 엄용환
    • 한국컴퓨터정보학회논문지
    • /
    • 제18권1호
    • /
    • pp.177-183
    • /
    • 2013
  • 본 논문에서는 데이터 마이닝에서 분류 작업을 실시할 때 그 분류정확도을 측정하기 위해 Cohen의 kappa 계수와 weighted kappa 계수를 제안하였다. kappa 계수는 우연에 의해 생기는 분류를 보정하여 분류정확도을 측정하며 명목척도와 순서척도의 데이터에 대해 사용된다. 특히 순서척도의 데이터에서는 오분류의 크기를 가중치에 의해 정량화하여 분류정확도을 측정하는 weighted kappa 계수가 더 유용하게 사용된다. weighted kappa 계수 계산을 위해서는 2가지 가중치(일차형 가중치, 이차형 가중치)를 사용하였다.. 또한 실제 데이터인 지방간 데이터에 대해 kappa 계수와 weighted kappa 계수를 계산하여 비교하였다.

베이지안 순서형 프로빗 준모수 회귀 모형 : 국민건강영양조사 2016 자료를 통한 흡연양태와 커피섭취 간의 관계 분석 (Bayesian ordinal probit semiparametric regression models: KNHANES 2016 data analysis of the relationship between smoking behavior and coffee intake)

  • 이다솜;이은지;조성일;최태련
    • 응용통계연구
    • /
    • 제33권1호
    • /
    • pp.25-46
    • /
    • 2020
  • 본 논문에서는 Bayesian spectral analysis regression (BSAR) 방법론을 이용한 베이지안 순서형 프로빗 준모수 회귀모형에 대해서 고찰한다. 순서형 프로빗 회귀모형은 순서가 있는 범주형 자료를 모형화하는 방법으로, 정규 분포의 분포함수의 역함수인 프로빗 연결함수를 이용해 각 범주의 확률과 설명변수을 연결함으로써 반응변수의 확률을 모형화한다. 베이지안 프로빗 회귀 모형은 정규 분포를 따르는 잠재변수를 도입함으로써 사후 분포 도출을 용이하게 하고, 절단점에 따라 나뉘어지는 잠재변수들의 값에 따라서 반응 변수들이 범주화된다. 본 논문에서는 이러한 잠재 변수 방법을 확장해 BSAR 방법론에 기반하여 단조증가/감소와 같은 형태제약을 반영할 수 있는 베이지안 이항형 및 순서형 프로빗 준모수 회귀모형에 대해 연구한다. 모의실험을 통하여 이항형 프로빗 준모수 회귀모형과 기존의 다른 모형들 간의 적합결과를 비교하고, 형태 제약에 따른 순서형 프로빗 준모수 회귀모형의 적합결과를 비교 분석하도록 한다. 아울러, 국민건강영양조사 제 7기 1차년도 (2016) 자료(Korean National Health and Nutrition Examination Survey (KNHANES), 2016)를 바탕으로, 본 논문에서 고찰한 이항형 및 순서형 프로빗 준모수 회귀모형을 적용하여, 흡연양태와 커피섭취 간의 관계에 대한 실증적 분석을 수행한다.

A Study on the Scoring Method of the Ordinal Variable

  • Chung, Sung-S.;Chun, Young-M.;Oh, Seon-J.
    • Journal of the Korean Data and Information Science Society
    • /
    • 제15권1호
    • /
    • pp.95-105
    • /
    • 2004
  • The main characteristic of the ordinal scale is that its categories have a logically or continuously ordered relationship to each other. A continuous type permits measuring degrees of differences among categories. Also, the specific amount of differences is important. In this paper we consider the scoring method using a dummy variable based on distance among categories.

  • PDF

Nonparametric Procedure for Identifying the Minimum Effective Dose with Ordinal Response Data

  • Kang, Jongsook;Kim, Dongjae
    • Communications for Statistical Applications and Methods
    • /
    • 제11권3호
    • /
    • pp.597-607
    • /
    • 2004
  • The primary interest of drug development studies is identifying the lowest dose level producing a desirable effect over that of the zero-dose control, which is referred as the minimum effective dose (MED). In this paper, we suggest a nonparametric procedure for identifying the MED with binary or ordered categorical response data. Proposed test and Williams' test are compared by Monte Carlo simulation study and discussed.

단변량 및 이변량 순위변수의 비모수적 윌콕슨 검정법에 의한 표본수 결정방법 (Sample Size Determination of Univariate and Bivariate Ordinal Outcomes by Nonparametric Wilcoxon Tests)

  • 박해강;송혜향
    • 응용통계연구
    • /
    • 제22권6호
    • /
    • pp.1249-1263
    • /
    • 2009
  • 표본수 결정에서 요구되는 검정력 함수는 연구가설에 상응하는 가장 적절한 검정방법에 의한 것이어야 한다. 의학연구의 논문에 자주 나타나는 순위자료 또는 범주형 빈도자료의 분석에는 비모수적 방법이 적절하며, 본 논문에서는 단변량 및 이변량 순위변수에 대한 윌콕슨-만-휘트니(Wilcoxon-Mann-Whitney; WMW) 검정법에 의한 표본수 결정방법을 제시한다. 단변량 순위변수의 윌콕슨 검정에서는 귀무가설과 대립가설 하의 분산을 이용한 표본수 공식이 귀무가설 하의 분산만 이용한 표본수 공식보다 정확하지만, 대립가설 하의 분산식에 나타나는 확률값이 일반적으로 알려져 있지 않으므로 이 확률값의 추정이 문제가 된다. 모의실험으로 두 방법에 대한 장, 단점을 알아본다. 효능과 안전성의 이변량 순위변수에서는 이변량 WMW 검정법에 의한 표본수 결정방법이 모수적 검정법에 의한 표본수 결정방법보다 더욱 바람직하다.

Bayesian hierarchical model for the estimation of proper receiver operating characteristic curves using stochastic ordering

  • Jang, Eun Jin;Kim, Dal Ho
    • Communications for Statistical Applications and Methods
    • /
    • 제26권2호
    • /
    • pp.205-216
    • /
    • 2019
  • Diagnostic tests in medical fields detect or diagnose a disease with results measured by continuous or discrete ordinal data. The performance of a diagnostic test is summarized using the receiver operating characteristic (ROC) curve and the area under the curve (AUC). The diagnostic test is considered clinically useful if the outcomes in actually-positive cases are higher than actually-negative cases and the ROC curve is concave. In this study, we apply the stochastic ordering method in a Bayesian hierarchical model to estimate the proper ROC curve and AUC when the diagnostic test results are measured in discrete ordinal data. We compare the conventional binormal model and binormal model under stochastic ordering. The simulation results and real data analysis for breast cancer indicate that the binormal model under stochastic ordering can be used to estimate the proper ROC curve with a small bias even though the sample sizes were small or the sample size of actually-negative cases varied from actually-positive cases. Therefore, it is appropriate to consider the binormal model under stochastic ordering in the presence of large differences for a sample size between actually-negative and actually-positive groups.

Treatment of Missing Data by Decomposition and Voting with Ordinal Data

  • Chun, Young-M.;Son, Hong-K.;Chung, Sung-S.
    • Journal of the Korean Data and Information Science Society
    • /
    • 제18권3호
    • /
    • pp.585-598
    • /
    • 2007
  • It is so difficult to get complete data when we conduct a questionaire in actuality. And we get inefficient results if we analyze statistical tests with ignoring missing values. Therefore, we use imputation methods which evaluate quality of data. This study proposes a imputation method by decomposition and voting with ordinal data. First, data are sorted by each variable. After that, imputation methods are used by each decomposition level. And the last step is selection of values with voting. The proposed method is evaluated by accuracy and RMSE. In conclusion, missing values are related to each variable, median imputation method using decomposition and voting is powerful.

  • PDF

DEA/AHP 모형을 이용한 R&D 프로젝트 선정모형 및 Web 기반 R&D 프로젝트 선정시스템 개발 (Development of R&D Project Selection Model and Web-based R&D Project Selection System using Hybrid DEA/AHP Model)

  • 이덕주;배성식;강진수
    • 대한산업공학회지
    • /
    • 제32권1호
    • /
    • pp.18-28
    • /
    • 2006
  • Some issues which should be considered in an R&D project selection problem are as follows: First, quantitative analysis on the efficiencies of R&D projects is required to guarantee objective validity in the evaluation of the projects. For this reason, the methodology for selecting R&D projects should be based on mathematical models that perform quantitative analysis. Second, in general there are ordinal factors like Likert-scale in the data for evaluating R&D projects. Previous researches, however, couldn't suggest explicit methods incorporating these ordinal factors into models. Third, for the R&D project selection problems with limited resources like budget, it is necessary to decide the perfect ranking of the all projects. This paper develops a mathematical model that can be applicable to the problems of selecting R&D projects with the previous features. In this paper, we improve the original DEA model for evaluating efficiency to incorporate ordinal factors and suggest a new model which can decide the perfect ranking of all projects by merging the improved DEA model and AHP method. Furthermore a web-based R&D project selection system using the DEA/AHP model suggested in this paper is developed and illustrated.