• Title/Summary/Keyword: 오분류

Search Result 796, Processing Time 0.031 seconds

Empirical Bayesian Misclassification Analysis on Categorical Data (범주형 자료에서 경험적 베이지안 오분류 분석)

  • 임한승;홍종선;서문섭
    • The Korean Journal of Applied Statistics
    • /
    • v.14 no.1
    • /
    • pp.39-57
    • /
    • 2001
  • Categorical data has sometimes misclassification errors. If this data will be analyzed, then estimated cell probabilities could be biased and the standard Pearson X2 tests may have inflated true type I error rates. On the other hand, if we regard wellclassified data with misclassified one, then we might spend lots of cost and time on adjustment of misclassification. It is a necessary and important step to ask whether categorical data is misclassified before analyzing data. In this paper, when data is misclassified at one of two variables for two-dimensional contingency table and marginal sums of a well-classified variable are fixed. We explore to partition marginal sums into each cells via the concepts of Bound and Collapse of Sebastiani and Ramoni (1997). The double sampling scheme (Tenenbein 1970) is used to obtain informations of misclassification. We propose test statistics in order to solve misclassification problems and examine behaviors of the statistics by simulation studies.

  • PDF

반복조사를 통한 범주형 자료의 오분류 탐색

  • 고봉성
    • Communications for Statistical Applications and Methods
    • /
    • v.4 no.1
    • /
    • pp.75-90
    • /
    • 1997
  • 본 연구는 범주형자료의 오분류에 관한 연구로, 2$\times$2분할표의 자료에 오분류가 있다고 생각되는 조사와 반복조사를 통해 정확하게 분류한 새로운 범주형자료를 시간이라는 새변수의 결합을 통해 오분류 여부를 탐색하는 방법에 대한 연구이다.

  • PDF

Estimating the Spatial Distribution of Satellite Image Classification Error Using Index of Spatial Distribution (공간분포지표를 이용한 위성영상 분류오차의 공간적 분포 평가)

  • 이병길;김용일;어양담
    • Journal of the Korean Society of Surveying, Geodesy, Photogrammetry and Cartography
    • /
    • v.17 no.2
    • /
    • pp.129-136
    • /
    • 1999
  • The quality of image classification results is not always uniform over entire image. Thus, this study proposes the concept of ISDd (Index of Spatial Distribution by distance) and ISDs (ISD by scatteredness) for the evaluation of unevenness of result quality, and spatial distribution of satellite image classification errors. The ISDd is indexed mean distance of misclassified pixels and the ISDs is statistical indicator of scatteredness of misclassified pixels. In this study, the ISDd and the ISDs are calculated and evaluated for some satellite images, then misclassified area is extracted and the reasons of misclassification are examined. As the result of this study, using both the ISDd and the ISDs, the basis of decision on adoption/rejection of classification results is offered at sub-image level by evaluation of the local aggregation of misclassified pixels. Using Index of Spatial Distribution. as well as overall classification accuracy, users can understand the spatial distribution of misclassified pixels, and can have the additional criterion of the judgement on suitability and reliability of classification results.

  • PDF

Lexicon of Semantic-Polarity of Korean Adjectives for the Classification of On-line Opinion Documents (온라인 오피니언 문서 분류를 위한 한국어 형용사 의미 극성 사전)

  • Ahn, Ae-Lim;Shim, Seung-Hye;Nam, Jee-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2010.10a
    • /
    • pp.166-171
    • /
    • 2010
  • 본 논문은 한국어 온라인 리뷰 문서의 오피니언 분류(Opinion Classification)에 있어 그 핵심 키워드가 형용사 (Adjective) 범주라는 점을 고려하여, 한국어 형용사를 <문맥에 의존하지 않는 절대 극성>과, <문맥에 의존하여 극성이 바뀌는 상대극성>으로 대분류한 뒤 그 각각의 의미 극성을 하위 분류하는 작업을 수행하였다. 기존의 연구에서 특징적인 오피니언 어휘 수십개에 의존하여 자동 분류를 시도하고자 하였던 문제점을 극복하기 위해서는 한국어 형용사 전체 범주에 대한 체계적인 극성 분류가 이루어져야 할 필요가 있으며, 여기서 특히 상세히 주목받지 못했던 상대 극성 어휘에 대한 본격적인 의미 분류가 요구된다. 본 연구에서 제시하는 형용사의 극성 분류는 기존의 이론 언어학적 형용사 의미 분류와 달리 온라인 오피니언 문서에서 도메인에 따라 나타나는 특징적 의미 유형을 결정하고, 이를 기준으로 온라인 오피니언 문서의 극성 판별에 효과적으로 적용할 수 있는 사전을 구축하였다는 점에서 의의를 가진다.

  • PDF

불완비 데이터에서 분류 나무의 구축

  • 우주성;김규성
    • Proceedings of the Korean Statistical Society Conference
    • /
    • 2001.11a
    • /
    • pp.105-108
    • /
    • 2001
  • 본 논문에서는 결측치가 있는 불완비 데이터에서 분류나루를 구축하는 방법을 고찰하였다. 기존의 결측치 처리 방법인 대리 분리 방법의 대안으로 대체 방법으로 결측치를 처리한 후 분류나무를 구축하는 방법을 제안하였다.

  • PDF

Data Mining based Classification Model for False Alarm rate reducing of IDS (IDS의 False Alarm 발생율 감소를 위한 데이터 마이닝 기반의 분류모델)

  • 전원용;신문선;김은희;류근호
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04a
    • /
    • pp.247-249
    • /
    • 2004
  • IDS에서 발생되는 경보의 수는 최근 인터넷 애플리케이션의 발달로 인하여 급격히 증가하고 있으며. 그로 인해 오 경보의 수도 함께 증가하고 있다. 발생된 경보들은 침입탐지 시스템의 성능저하와 alert flooding 의 원인이 된다. 따라서 이 논문에서는 다량의 경보 중에서 오 경보(False Alarm)의 발생을 감소시킬 수 있는 오 경보 분류 모델을 제안한다. 제안된 오 경보 분류 모델은 데이터 마이닝 기법들 중에서 분류 기법을 기반으로 구현되었다. 실험 을 통해서 IDS에서 발생하는 경보 중에서 정상데이터이나 공격으로 잘못 판단하여 발생하는 False Positive의 발생율이 현저히 감소됨을 확인할 수 있었다. 제안된 오 경보 분류 모델은 경보메시지 축약의 효과가 있으며 침입탐지 시스템의 탐지율을 높이는데 활용될 수 있다.

  • PDF

Causes and Countermeasures of School Records Misclassifications : Focusing on the 'General Disposition Authority for School Records' (학교 기록물 분류의 문제점과 개선방안 학교 기록관리기준표 분석을 중심으로)

  • Woo, Jee-won;Seol, Moon-won
    • The Korean Journal of Archival Studies
    • /
    • no.58
    • /
    • pp.299-332
    • /
    • 2018
  • The purpose of this study is to investigate the current status and causes of misclassification of school records and to suggest the directions to improve the School Records Management Criteria Table(general disposition authority for school records), which will lead to misclassification reducement. This study begins with analysing the records created or received in four schools sampled for one year to investigate the status and causes of misclassifications. A advisory group including four administrative officers and seven records managers was formed and group meeting was held twice to identify the causes of the misclassification and to suggest alternatives. In this study, 33 unit tasks(transactions) with frequent misclassification were identified, and the cause of misclassification was analyzed based on focus group interviews. The main causes of misclassification were categorized into two types. This study concludes with suggesting the improvement of the School Records Management Criteria Table for addressing the causes, including commentary reinforcement and the addition of workflow to complex tasks.

커널 판별분석의 오분류확률에 대한 붓스트랩 조정

  • 백장선
    • Communications for Statistical Applications and Methods
    • /
    • v.2 no.2
    • /
    • pp.249-265
    • /
    • 1995
  • 본 논문에서는 확률분포가 알려져 있지 않은 두 모집단 중 어느 하나로 새로운 관측치를 분류할 때 오분류확률이 분석자에 의해 사전에 정해진 수준에 부합할 수 있도록 커널 판별함수의 임계치를 결정하였다. 정해진 오분류확률을 만족시키기 위한 판별함수의 임계치는 붓스트랩(bootstrap)기법을 판별 함수에 적용시켜 계산된다. 본 논문에서 제시도된 방법은 모집단에 대한 모수적 가정이 없으므로 어느 분포에도 적용가능하며, 모집단이 정규분포, 대수정규분포, 이산형과 연속형 변수가 혼합된 분포의 경우 모의실험을 통하여 그 성능에 대한 검증을 하였다.

  • PDF

Performance Analysis of Opinion Mining using Word2vec (Word2vec을 이용한 오피니언 마이닝 성과분석 연구)

  • Eo, Kyun Sun;Lee, Kun Chang
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2018.05a
    • /
    • pp.7-8
    • /
    • 2018
  • This study proposes an analysis of the Word2vec-based machine learning classifiers for the sake of opinion mining tasks. As a bench-marking method, BOW (Bag-of-Words) was adopted. On the basis of utilizing the Word2vec and BOW as feature extraction methods, we applied Laptop and Restaurant dataset to LR, DT, SVM, RF classifiers. The results showed that the Word2vec feature extraction yields more improved performance.

  • PDF

Weighted L1-Norm Support Vector Machine for the Classification of Highly Imbalanced Data (불균형 자료의 분류분석을 위한 가중 L1-norm SVM)

  • Kim, Eunkyung;Jhun, Myoungshic;Bang, Sungwan
    • The Korean Journal of Applied Statistics
    • /
    • v.28 no.1
    • /
    • pp.9-21
    • /
    • 2015
  • The support vector machine has been successfully applied to various classification areas due to its flexibility and a high level of classification accuracy. However, when analyzing imbalanced data with uneven class sizes, the classification accuracy of SVM may drop significantly in predicting minority class because the SVM classifiers are undesirably biased toward the majority class. The weighted $L_2$-norm SVM was developed for the analysis of imbalanced data; however, it cannot identify irrelevant input variables due to the characteristics of the ridge penalty. Therefore, we propose the weighted $L_1$-norm SVM, which uses lasso penalty to select important input variables and weights to differentiate the misclassification of data points between classes. We demonstrate the satisfactory performance of the proposed method through simulation studies and a real data analysis.