• 제목/요약/키워드: Supervised Classification

검색결과 421건 처리시간 0.023초

비감독형 학습 기법을 사용한 심각도 기반 결함 예측 (Severity-based Fault Prediction using Unsupervised Learning)

  • 홍의석
    • 한국인터넷방송통신학회논문지
    • /
    • 제18권3호
    • /
    • pp.151-157
    • /
    • 2018
  • 소프트웨어 결함 예측에 관한 기존의 연구들은 대부분 모델의 입력 모듈이 결함을 가지고 있는지 여부를 판단하는 이진 감독형 분류 모델들에 관한 것들이었다. 하지만 이진 분류 모델은 결함의 복잡한 특성들을 고려하지 않고 단순히 입력 모듈의 결함 유무만을 판단한다는 문제점이 있고, 감독형 모델은 대부분의 개발 집단이 보유하고 있지 않은 훈련 데이터 집합을 필요로 한다는 한계점이 있다. 본 논문은 이러한 두 가지 문제점을 해결하기 위해 비감독형 알고리즘을 사용한 심각도 기반 삼진 분류 모델을 제안하였으며, 평가 실험 결과 제안 모델이 감독형 모델들에 필적하는 예측 성능을 보였다.

기계학습을 이용한 기록 텍스트 자동분류 사례 연구 (A Study on Automatic Classification of Record Text Using Machine Learning)

  • 김해찬솔;안대진;임진희;이해영
    • 정보관리학회지
    • /
    • 제34권4호
    • /
    • pp.321-344
    • /
    • 2017
  • 기록이나 문헌의 자동분류에 관한 연구는 오래 전부터 시작되었다. 최근에는 인공지능 기술이 발전하면서 기계학습이나 딥러닝을 접목한 연구로 발전되고 있다. 이 연구에서는 우선 문헌의 자동분류와 인공지능의 학습방식이 발전해 온 과정을 살펴보았다. 또 기계학습 중 특히 지도학습 방식의 특징과 다양한 사례를 통해 기록관리 분야에 인공지능 기술을 적용해야 할 필요성에 대해 알아보았다. 그리고 실제로 지도학습 방식으로 서울시의 결재문서를 ETRI의 엑소브레인을 통해 정부기능분류체계로 자동분류해 보았다. 이를 통해 기록을 다양한 방식의 분류체계로 자동분류하기 위한 각 과정의 고려사항을 도출하였다.

의미 기반 유전 알고리즘을 사용한 특징 선택 (Semantic-based Genetic Algorithm for Feature Selection)

  • 김정호;인주호;채수환
    • 인터넷정보학회논문지
    • /
    • 제13권4호
    • /
    • pp.1-10
    • /
    • 2012
  • 본 논문은 문서 분류의 전처리 단계인 특징 선택을 위해 의미를 고려한 최적의 특징 선택 방법을 제안한다. 특징 선택은 불필요한 특징을 제거하고 분류에 필요한 특징을 추출하는 작업으로 분류 작업에서 매우 중요한 역할을 한다. 특징 선택 기법으로 특징의 의미를 파악하여 특징을 선택하는 LSA(Latent Semantic Analysis) 기법을 사용하지만 기본 LSA는 분류 작업에 특성화 된 기법이 아니므로 지도적 학습을 통해 분류에 적합하도록 개선된 지도적 LSA를 사용한다. 지도적 LSA를 통해 선택된 특징들로부터 최적화 기법인 유전 알고리즘을 사용하여 더 최적의 특징들을 추출한다. 마지막으로, 추출한 특징들로 분류할 문서를 표현하고 SVM (Support Vector Machine)을 이용한 특정 분류기를 사용하여 분류를 수행하였다. 지도적 LSA를 통해 의미를 고려하고 유전 알고리즘을 통해 최적의 특징 집합을 찾음으로써 높은 분류 성능과 효율성을 보일 것이라 가정하였다. 인터넷 뉴스 기사를 대상으로 분류 실험을 수행한 결과 적은 수의 특징들로 높은 분류 성능을 확인할 수 있었다.

Text Classification with Heterogeneous Data Using Multiple Self-Training Classifiers

  • William Xiu Shun Wong;Donghoon Lee;Namgyu Kim
    • Asia pacific journal of information systems
    • /
    • 제29권4호
    • /
    • pp.789-816
    • /
    • 2019
  • Text classification is a challenging task, especially when dealing with a huge amount of text data. The performance of a classification model can be varied depending on what type of words contained in the document corpus and what type of features generated for classification. Aside from proposing a new modified version of the existing algorithm or creating a new algorithm, we attempt to modify the use of data. The classifier performance is usually affected by the quality of learning data as the classifier is built based on these training data. We assume that the data from different domains might have different characteristics of noise, which can be utilized in the process of learning the classifier. Therefore, we attempt to enhance the robustness of the classifier by injecting the heterogeneous data artificially into the learning process in order to improve the classification accuracy. Semi-supervised approach was applied for utilizing the heterogeneous data in the process of learning the document classifier. However, the performance of document classifier might be degraded by the unlabeled data. Therefore, we further proposed an algorithm to extract only the documents that contribute to the accuracy improvement of the classifier.

문헌간 유사도를 이용한 자동분류에서 미분류 문헌의 활용에 관한 연구 (Utilizing Unlabeled Documents in Automatic Classification with Inter-document Similarities)

  • 김판준;이재윤
    • 정보관리학회지
    • /
    • 제24권1호
    • /
    • pp.251-271
    • /
    • 2007
  • 문헌간 유사도를 자질로 사용하는 분류기에서 미분류 문헌을 학습에 활용하여 분류 성능을 높이는 방안을 모색해 보았다. 자동분류를 위해서 다량의 학습문헌을 수작업으로 확보하는 것은 많은 비기 들기 때문에 미분류 문헌의 활용은 실용적인 면에서 중요하다. 미분류 문헌을 활용하는 준지도학습 알고리즘은 대부분 수작업으로 분류된 문헌을 학습데이터로 삼아서 미분류 문헌을 분류하는 첫 번째 단계와, 수작업으로 분류된 문헌과 자동으로 분류된 문헌을 모두 학습 데이터로 삼아서 분류기를 학습시키는 두 번째 단계로 구성된다. 이 논문에서는 문헌간 유사도 자질을 적용하는 상황을 고려하여 두 가지 준지도학습 알고리즘을 검토하였다. 이중에서 1단계 준지도학습 방식은 미분류 문헌을 문헌유사도 자질 생성에만 활용하므로 간단하며, 2단계 준지도학습 방식은 미분류 문헌을 문헌유사도 자질생성과 함께 학습 예제로도 활용하는 알고리즘이다. 지지벡터기계와 나이브베이즈 분류기를 이용한 실험 결과, 두 가지 준지도학습 방식 모두 미분류 문헌을 활용하지 않는 지도학습 방식보다 높은 성능을 보이는 것으로 나타났다. 특히 실행효율을 고려한다면 제안된 1단계 준지도학습 방식이 미분류 문헌을 활용하여 분류 성능을 높일 수 있는 좋은 방안이라는 결론을 얻었다.

제조 공정 결함 탐지를 위한 MixMatch 기반 준지도학습 성능 분석 (Performance Analysis of MixMatch-Based Semi-Supervised Learning for Defect Detection in Manufacturing Processes)

  • 김예준;정예은;김용수
    • 산업경영시스템학회지
    • /
    • 제46권4호
    • /
    • pp.312-320
    • /
    • 2023
  • Recently, there has been an increasing attempt to replace defect detection inspections in the manufacturing industry using deep learning techniques. However, obtaining substantial high-quality labeled data to enhance the performance of deep learning models entails economic and temporal constraints. As a solution for this problem, semi-supervised learning, using a limited amount of labeled data, has been gaining traction. This study assesses the effectiveness of semi-supervised learning in the defect detection process of manufacturing using the MixMatch algorithm. The MixMatch algorithm incorporates three dominant paradigms in the semi-supervised field: Consistency regularization, Entropy minimization, and Generic regularization. The performance of semi-supervised learning based on the MixMatch algorithm was compared with that of supervised learning using defect image data from the metal casting process. For the experiments, the ratio of labeled data was adjusted to 5%, 10%, 25%, and 50% of the total data. At a labeled data ratio of 5%, semi-supervised learning achieved a classification accuracy of 90.19%, outperforming supervised learning by approximately 22%p. At a 10% ratio, it surpassed supervised learning by around 8%p, achieving a 92.89% accuracy. These results demonstrate that semi-supervised learning can achieve significant outcomes even with a very limited amount of labeled data, suggesting its invaluable application in real-world research and industrial settings where labeled data is limited.

Unsupervised feature learning for classification

  • Abdullaev, Mamur;Alikhanov, Jumabek;Ko, Seunghyun;Jo, Geun Sik
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2016년도 제54차 하계학술대회논문집 24권2호
    • /
    • pp.51-54
    • /
    • 2016
  • In computer vision especially in image processing, it has become popular to apply deep convolutional networks for supervised learning. Convolutional networks have shown a state of the art results in classification, object recognition, detection as well as semantic segmentation. However, supervised learning has two major disadvantages. One is it requires huge amount of labeled data to get high accuracy, the second one is to train so much data takes quite a bit long time. On the other hand, unsupervised learning can handle these problems more cheaper way. In this paper we show efficient way to learn features for classification in an unsupervised way. The network trained layer-wise, used backpropagation and our network learns features from unlabeled data. Our approach shows better results on Caltech-256 and STL-10 dataset.

  • PDF

ACCOUNTING FOR IMPORTANCE OF VARIABLES IN MUL TI-SENSOR DATA FUSION USING RANDOM FORESTS

  • Park No-Wook;Chi Kwang-Hoon
    • 대한원격탐사학회:학술대회논문집
    • /
    • 대한원격탐사학회 2005년도 Proceedings of ISRS 2005
    • /
    • pp.283-285
    • /
    • 2005
  • To account for the importance of variable in multi-sensor data fusion, random forests are applied to supervised land-cover classification. The random forests approach is a non-parametric ensemble classifier based on CART-like trees. Its distinguished feature is that the importance of variable can be estimated by randomly permuting the variable of interest in all the out-of-bag samples for each classifier. Supervised classification with a multi-sensor remote sensing data set including optical and polarimetric SAR data was carried out to illustrate the applicability of random forests. From the experimental result, the random forests approach could extract important variables or bands for land-cover discrimination and showed good performance, as compared with other non-parametric data fusion algorithms.

  • PDF

Evaluation of Attribute Selection Methods and Prior Discretization in Supervised Learning

  • Cha, Woon Ock;Huh, Moon Yul
    • Communications for Statistical Applications and Methods
    • /
    • 제10권3호
    • /
    • pp.879-894
    • /
    • 2003
  • We evaluated the efficiencies of applying attribute selection methods and prior discretization to supervised learning, modelled by C4.5 and Naive Bayes. Three databases were obtained from UCI data archive, which consisted of continuous attributes except for one decision attribute. Four methods were used for attribute selection : MDI, ReliefF, Gain Ratio and Consistency-based method. MDI and ReliefF can be used for both continuous and discrete attributes, but the other two methods can be used only for discrete attributes. Discretization was performed using the Fayyad and Irani method. To investigate the effect of noise included in the database, noises were introduced into the data sets up to the extents of 10 or 20%, and then the data, including those either containing the noises or not, were processed through the steps of attribute selection, discretization and classification. The results of this study indicate that classification of the data based on selected attributes yields higher accuracy than in the case of classifying the full data set, and prior discretization does not lower the accuracy.

Classification ofWarm Temperate Vegetations and GIS-based Forest Management System

  • Cho, Sung-Min
    • International journal of advanced smart convergence
    • /
    • 제10권1호
    • /
    • pp.216-224
    • /
    • 2021
  • Aim of this research was to classify forest types at Wando in Jeonnam Province and develop warm temperate forest management system with application of Remote Sensing and GIS. Another emphasis was given to the analysis of satellite images to compare forest type changes over 10 year periods from 2009 to 2019. We have accomplished this study by using ArcGIS Pro and ENVI. For this research, Landsat satellite images were obtained by means of terrestrial, airborne and satellite imagery. Based on the field survey data, all land uses and forest types were divided into 5 forest classes; Evergreen broad-leaved forest, Evergreen Coniferous forest, Deciduous broad-leaved forest, Mixed fores, and others. Supervised classification was carried out with a random forest classifier based on manually collected training polygons in ROI. Accuracy assessment of the different forest types and land-cover classifications was calculated based on the reference polygons. Comparison of forest changes over 10 year periods resulted in different vegetation biomass volumes, producing the loss of deciduous forests in 2019 probably due to the expansion of residential areas and rapid deforestation.