• Title/Summary/Keyword: 분류정확도

Search Result 2,354, Processing Time 0.025 seconds

Assessing Classification Accuracy using Cohen's kappa in Data Mining (데이터 마이닝에서 Cohen의 kappa를 이용한 분류정확도 측정)

  • Um, Yonghwan
    • Journal of the Korea Society of Computer and Information
    • /
    • v.18 no.1
    • /
    • pp.177-183
    • /
    • 2013
  • In this paper, Cohen's kappa and weighted kappa are applied to measuring classification accuracy when performing classification in data minig. Cohen's kappa compensates for classifications that may be due to chance and is used for the data with nominal or ordinal scales. Especially, for the ordinal data, weighted kappa which measures the classification accuracy by quantifying the classification errors as weights is used. We used two weights (linear weight, quadratic weight) for calculations of weighted kappa. Also for the calculation and comparison of kappa and weighted kappa we used a real data set, fat-liver data.

Automatic Text Classification by Learning from Unlabeled Data (레이블이 없는 데이터로부터의 학습에 의한 자동 문서 분류)

  • 박성배;김유환;장병탁
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.04b
    • /
    • pp.265-267
    • /
    • 2001
  • 본 논문에서는 레이블이 없는 데이터를 이용하는 새로운 자동 문서 분류 방법을 제시한다. 제시된 방법은 적은 수의 레이블이 있는 데이터로부터 학습된 후 많은 수의 레이블이 없는 데이터로 보강되는 일련의 분류기(classifier)에 기반한다. 레이블이 없는 데이터를 활용하기 때문에, 필요한 레이블이 있는 데이터의 수가 줄어들고, 분류 정확도가 향상된다. 두 개의 표준 데이터 집합에 대한 실험 결과, 레이블이 없는 데이터를 사용함으로써 분류 정확도가 증가함을 보였다. 분류 정확도는 전체 데이터의 2/3만 사용하고도 NIPS 2000 워크숍 데이터 집합에 대해서는 약 7.9% 정도, WebKB 데이터 집합에 대해서는 9.2% 증가하였다.

  • PDF

Extraction of Water Area using Artificial Neural Network from Satellite Imagery and DEM (신경망 알고리즘을 이용한 위성영상과 DEM으로부터의 수계지역 추출)

  • Sohn, Hong-Gyoo;Jung, Won-Jo;Yoo, Hwan-Hee;Song, Yeong-Sun
    • 한국지형공간정보학회:학술대회논문집
    • /
    • 2002.11a
    • /
    • pp.51-57
    • /
    • 2002
  • 국내에서 활발하게 연구되고 있는 위성영상을 이용한 원격탐사는 매핑, 환경관리, 시설물 관리 등에 이용되어 왔다. 본 연구에서는 날씨나 태양의 제약을 받지 않는 RADARSAT SAR 영상의 수계지역을 신경망 기법을 이용하여 분류하고자 하였다. RADARSAT은 경사관측을 통하여 영상을 취득하며 지형의 기복에 의한 음영효과(Shadow effect)로 인하여 수계지역 분류시 정확도를 감소시킨다. 이러한 문제를 해결하기 위해서 본 연구에서는 RADARSAT SAR 영상의 역산란계수를 계산하고 음영효과에 의한 분류오류를 감소시키기 위하여 수치고도모형을 사용하였다. 지형의 기복이 작은 평지와 지형의 기복이 심한 산악지로 나누어 연구를 수행하여 각 지역별로 분류 정확도를 평가하였다. 연구결과로 역산란계수를 신경망기법의 단일 입력 자료로 사용한 경우보다 수치고도모형을 같이 사용한 것이 분류 정확도가 높았다. 또한, 수치고도모형을 역산란계수와 함께 입력 자료로 이용할 경우 평지보다 산악지에서 효율적이었다. 산악지역이 많은 국내에서는 SAR영상의 수계지역 추출을 신경망 기법으로 할 경우에는 수치고도모형을 함께 이용함으로써 분류정확도 향상을 시킬 수 있다고 사료된다.

  • PDF

Optimal threshold using the correlation coefficient for the confusion matrix (혼동행렬의 상관계수를 이용한 최적분류점)

  • Hong, Chong Sun;Oh, Se Hyeon;Choi, Ye Won
    • The Korean Journal of Applied Statistics
    • /
    • v.35 no.1
    • /
    • pp.77-91
    • /
    • 2022
  • The optimal threshold estimation is considered in order to discriminate the mixture distribution in the fields of Biostatistics and credit evaluation. There exists well-known various accuracy measures that examine the discriminant power. Recently, Matthews correlation coefficient and the F1 statistic were studied to estimate optimal thresholds. In this study, we explore whether these accuracy measures are appropriate for the optimal threshold to discriminate the mixture distribution. It is found that some accuracy measures that depend on the sample size are not appropriate when two sample sizes are much different. Moreover, an alternative method for finding the optimal threshold is proposed using the correlation coefficient that defines the ratio of the confusion matrix, and the usefulness and utility of this method are also discusses.

Segment-based Shape-Size Index Extraction for Classification of High Resolution Satellite Imagery (세그먼트 기반의 Shape-Size Index 추출을 통한 고해상도 영상의 분류정확도 개선)

  • Han, You-Kyung;Kim, Hye-Jin;Choi, Jae-Wan;Kim, Yong-Il
    • Proceedings of the KSRS Conference
    • /
    • 2009.03a
    • /
    • pp.207-212
    • /
    • 2009
  • 고해상도 위성영상이 갖는 공간 객체의 복잡성과 다양성에 의해 기존 중 저해상도 영상에서 사용하던 분류 방식을 고해상도 영상에 그대로 적용하기에는 한계가 있다. 이러한 문제를 극복하기 위하여 영상은 공간적인 특성을 추가적으로 추출하여 분광정보와 결합하여 분류를 수행하는 방식의 연구가 진행되고 있다. 본 연구의 목적은 고해상도 영상의 분류정확도를 개선하기 위하여 새로운 공간 개체(spatial feature)인 SSI(Shape-Size Index)를 제안하는데 있다. SSI는 영역 확장(Region Growing) 기반의 영상 분할(Image Segmentation)을 수행한 후, 객체 내에 객체의 크기와 모양에 대한 고려를 모두 할 수 있는 공간 속성값을 할당하여 공간정보를 추출한다. 추출된 공간정보를 고해강도 영상의 다중분광 밴드와 결합하여 Support Vector Machine(SVM)을 이용한 분류를 수행하였다. 실험 결과, 제안한 기법의 분류 결과가 분광밴드만을 이용하여 분류를 수행한 결과뿐만 아니라 기존의 공간 개체 추출방식인 GLCM, PSI 기법을 이용한 분류 결과에 비해 높은 분류정확도를 도출함을 알 수 있었다.

  • PDF

An Evaluation of the Use of the Texture in Land Cover Classification Accuracy from SPOT HRV Image of Pusan Metropolitan Area (SPOT HRV 영상을 이용한 부산 지역 토지피복분류에 있어서의 질감의 기여에 관한 평가)

  • Jung, In-Chul
    • Journal of the Korean Association of Geographic Information Studies
    • /
    • v.2 no.1
    • /
    • pp.32-44
    • /
    • 1999
  • Texture features can be incorporated in classification procedure to resolve class confusions. However, there have been few application-oriented studies made to evaluate the relative powers of texture analysis methods in a particular environment. This study evaluates the increases in the land-cover classification accuracy of the SPOT HRV multispectral data of Pusan Metropolitan area from texture processing. Twenty-four texture measures were derived from the SPOT HRV band 3 image. Each of these features were used in combination with the three spectral images in the classification of 10 land-cover classes. Supervised training and a Gaussian maximum likelihood classifier were used in the classification. It was found that while entropy produces the best empirical results in terms of the overall classification, other texture features can also largely improve the classification accuracies obtained by the use of the spectral images only. With the inclusion of texture, the classification for each category improves. Specially, urban built-up areas had much increase in accuracy. The results indicate that texture size 5 by 5 and 7 by 7 may be suitable at land cover classification of Pusan Metropolitan area.

  • PDF

Improving of land-cover map using IKONOS image data (IKONOS 영상자료를 이용한 토지피복도 개선)

  • 장동호;김만규
    • Spatial Information Research
    • /
    • v.11 no.2
    • /
    • pp.101-117
    • /
    • 2003
  • High resolution satellite image analysis has been recognized as an effective technique for monitoring local land-cover and atmospheric changes. In this study, a new high resolution map for land-cover was generated using both high-resolution IKONOS image and conventional land-use mapping. Fuzzy classification method was applied to classify land-cover, with minimum operator used as a tool for joint membership functions. In separateness analysis, the values were not great for all bands due to discrepancies in spectral reflectance by seasonal variation. The land-cover map generated in this study revealed that conifer forests and farm land in the ground and tidal flat and beach in the ocean were highly changeable. The kappa coefficient was 0.94% and the overall accuracy of classification was 95.0%, thus suggesting a overall high classification accuracy. Accuracy of classification in each class was generally over 90%, whereas low classification accuracy was obtained for classes of mixed forest, river and reservoir. This may be a result of the changes in classification, e.g. reclassification of paddy field as water area after water storage or mixed use of several classification class due to similar spectral patterns. Seasonal factors should be considered to achieve higher accuracy in classification class. In conclusion, firstly, IKONOS image are used to generated a new improved high resolution land-cover map. Secondly, IKONOS image could serve as useful complementary data for decision making when combined with GIS spatial data to produce land-use map.

  • PDF

Improvement Method of Classification Rate in ML Antivirus systems using Kaggle Datasets (캐글 데이터셋을 이용한 머신러닝 악성코드 분류시스템에서 분류정확도 향상방법)

  • Kim, Kyungshin
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2019.07a
    • /
    • pp.49-52
    • /
    • 2019
  • 머신러닝을 이용한 악성코드 분류 시스템의 대부분이 캐글 데이터셋 10,868건을 사용하여 분류의 정확도를 측정한다. 이 데이터셋에 포함된 바이러스 바이트코드에는 미확인(undefined)필드라는 부분이 과도하게 존재한다. 캐글 데이터셋 특정 Label의 미확인필드 포함도는 75%가 넘는 경우도 존재한다. 이 경우 미확인 필드를 어떻게 처리하느냐가 시스템의 성능에 가장 큰 영향을 끼친다. 본 연구에서는 이러한 캐글 데이터셋의 미확인필드 처리방법을 제시하고 그에 따른 분류 정확도를 연구하였다. 다양한 처리방법에 대한 정확도를 측정하여 제안한 방식의 타당성을 증명하였다.

  • PDF

Analysis of the SVM using High Resolution Satellite Imagery (고해상도 위성영상을 이용한 SVM의 분류정확도 분석)

  • Kang, Joon-Mook;Lee, Sung-Soon;Park, Joon-Kyu;Baek, Seung-Hee
    • Proceedings of the Korean Society of Surveying, Geodesy, Photogrammetry, and Cartography Conference
    • /
    • 2010.04a
    • /
    • pp.271-273
    • /
    • 2010
  • 고해상도 위성영상을 이용하여 대상물을 분류하는 것은 원격탐사의 중요한 분야이며, 위성영상 분류에 대한 주요 주제 중 하나는 분류정확도를 높이는 것이다. 본 연구에서는 KOMPSAT-2 영상을 이용하여 SVM(Support Vector Machine)과 MLC(Maximum Likelihood Classification) 방법으로 감독분류를 수행하고 각 분류결과의 비교를 통해 분류방법에 따른 정확도를 평가하고자 하였다. 적은 수의 표본 데이터를 이용한 고해상도 위성영상의 분류결과 SVM이 MLC에 비해 양호한 분류결과를 나타냄을 알 수 있었다.

  • PDF

Optimal Threshold from ROC and CAP Curves (ROC와 CAP 곡선에서의 최적 분류점)

  • Hong, Chong-Sun;Choi, Jin-Soo
    • The Korean Journal of Applied Statistics
    • /
    • v.22 no.5
    • /
    • pp.911-921
    • /
    • 2009
  • Receiver Operating Characteristic(ROC) and Cumulative Accuracy Profile(CAP) curves are two methods used to assess the discriminatory power of different credit-rating approaches. The points of optimal classification accuracy on an ROC curve and of maximal profit on a CAP curve can be found by using iso-performance tangent lines, which are based on the standard notion of accuracy. In this paper, we offer an alternative accuracy measure called the true rate. Using this rate, one can obtain alternative optimal threshold points on both ROC and CAP curves. For most real populations of borrowers, the number of the defaults is much less than that of the non-defaults, and in such cases the true rate may be more efficient than the accuracy rate in terms of cost functions. Moreover, it is shown that both alternative scores of optimal classification accuracy and maximal profit are the identical, and this single score coincides with the score corresponding to Kolmogorov-Smirnov statistic used to test the homogeneous distribution functions of the defaults and non-defaults.