• 제목/요약/키워드: data classification

검색결과 7,945건 처리시간 0.035초

Multimodal 분포 데이터를 위한 Bhattacharyya distance 기반 분류 에러예측 기법 (Estimation of Classification Error Based on the Bhattacharyya Distance for Data with Multimodal Distribution)

  • 최의선;이철희
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2000년도 하계종합학술대회 논문집(4)
    • /
    • pp.85-87
    • /
    • 2000
  • In pattern classification, the Bhattacharyya distance has been used as a class separability measure and provides useful information for feature selection and extraction. In this paper, we propose a method to predict the classification error for multimodal data based on the Bhattacharyya distance. In our approach, we first approximate the pdf of multimodal distribution with a Gaussian mixture model and find the bhattacharyya distance and classification error. Exprimental results showed that there is a strong relationship between the Bhattacharyya distance and the classification error for multimodal data.

  • PDF

지식 기반 시스템에서 GIS 자료를 활용하기 위한 기계 학습 기법에 관한 연구 - Landsat ETM+ 영상의 토지 피복 분류를 사례로 (A Machine learning Approach for Knowledge Base Construction Incorporating GIS Data for land Cover Classification of Landsat ETM+ Image)

  • 김화환;구자용
    • 대한지리학회지
    • /
    • 제43권5호
    • /
    • pp.761-774
    • /
    • 2008
  • 원격탐사에서 위성 영상의 디지털 처리 기술이 발달하면서 GIS 자료와 지식 기반 전문가 시스템과의 통합에 대한 관심이 증가하고 있다. 본 연구에서는 위성영상을 토지피복 분류하는 과정에서 GIS 자료를 통합하기 위하여 기계 학습 기법과 규칙 기반 분류 기법을 적용하였다. 사례 지역을 대상으로 Landsat ETM+ 영상과 고도, 경사, 향, 수역과의 거리, 도로와의 거리, 인구밀도 등의 GIS 자료를 함께 활용하였다. C5.0 추론 기계 학습 알고리듬을 이용하여 350개의 표본점으로부터 결정 트리와 분류 규칙을 생성하였다. 본 연구에서 도출된 규칙을 이용하여 분류한 결과, 고독 수역과의 거리, 인구밀도 등의 GIS 자료가 규칙 기반 분류에 효과적인 것으로 나타났다. 본 연구에서 제안한 기계 학습과 지식 기반 분류 기법을 이용하면 다양한 GIS 자료들을 통합하여 위성영상을 보다 효과적으로 분류할 수 있다.

캘린더 패턴 기반의 시간 연관적 분류 기법 (Temporal Associative Classification based on Calendar Patterns)

  • 이헌규;노기용;서성보;류근호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제32권6호
    • /
    • pp.567-584
    • /
    • 2005
  • 시간 데이타마이닝은 기존 데이타마이닝에 시간 개념을 추가하여 시간 속성을 가진 데이타로부터 이전에 잘 알려지지는 않았지만 묵시적이고 잠재적으로 유용한 시간 지식을 탐사하는 기술이다. 대표적 데이타마이닝 기법인 연관규칙과 분류기법은 실세계의 여러 응용분야에서 사용된다. 그러나 대부분의 데이타가 시간 속성을 포함함에도 불구하고 기존의 기법들은 시간 속성을 고려하지 않고 주로 정적인 데이타에 대한 지식 탐사만이 진행되었다. 그리고 시간 데이타에 대한 데이타마이닝 연구들은 데이타의 발생시점과 시간 제약조건을 추가한 지식 탐사에 중점을 두고 있어 데이타가 포함한 시간 의미나 시간 관계를 탐사하는데 부족하였다. 이 논문에서는 시간 클래스 연관규칙에 기반한 시간 연관적 분류기법을 제안한다. 이 기법은 분류규칙 생성을 위해서 연관적 분류에 시간 차원을 포함하여 확장한 시간 클래스 연관규칙에 의해 탐사된 규칙들을 적용하는 것이다. 그러므로 이 기법은 기존의 분류 기법들에 비해 더 유용한 지식탐사가 가능하다.

슬라이딩 윈도우 기반 다변량 스트림 데이타 분류 기법 (A Sliding Window-based Multivariate Stream Data Classification)

  • 서성보;강재우;남광우;류근호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제33권2호
    • /
    • pp.163-174
    • /
    • 2006
  • 분산 센서 네트워크에서 대용량 스트림 데이타를 제한된 네트워크, 전력, 프로세서를 이용하여 모든 센서 데이타를 전송하고 분석하는 것은 어렵고 바람직하지 않다. 그러므로 연속적으로 입력되는 데이타를 사전에 분류하여 특성에 따라 선택적으로 데이타를 처리하는 데이타 분류 기법이 요구된다. 이 논문에서는 다차원 센서에서 주기적으로 수집되는 스트림 데이타를 슬라이딩 윈도우 단위로 데이타를 분류하는 기법을 제안한다. 제안된 기법은 전처리 단계와 분류단계로 구성된다. 전처리 단계는 다변량 스트림 데이타를 포함한 각 슬라이딩 윈도우 입력에 대해 데이타의 변화 특성에 따라 문자 기호를 이용하여 다양한 이산적 문자열 데이타 집합으로 변환한다. 분류단계는 각 윈도우마다 생성된 이산적 문자열 데이타를 분류하기 위해 표준 문서 분류 알고리즘을 이용하였다. 실험을 위해 우리는 Supervised 학습(베이지안 분류기, SVM)과 Unsupervised 학습(Jaccard, TFIDF, Jaro, Jaro Winkler) 알고리즘을 비교하고 평가하였다. 실험결과 SVM과 TFIDF 기법이 우수한 결과를 보였으며, 특히 속성간의 상관 정도와 인접한 각 문자 기호를 연결한 n-gram방식을 함께 고려하였을 때 높은 정확도를 보였다.

SVM 기반 실리콘 웨이퍼 마이크로크랙의 분류성능 분석 (Classification Performance Analysis of Silicon Wafer Micro-Cracks Based on SVM)

  • 김상연;김경범
    • 한국정밀공학회지
    • /
    • 제33권9호
    • /
    • pp.715-721
    • /
    • 2016
  • In this paper, the classification rate of micro-cracks in silicon wafers was improved using a SVM. In case I, we investigated how feature data of micro-cracks and SVM parameters affect a classification rate. As a result, weighting vector and bias did not affect the classification rate, which was improved in case of high cost and sigmoid kernel function. Case II was performed using a more high quality image than that in case I. It was identified that learning data and input data had a large effect on the classification rate. Finally, images from cases I and II and another illumination system were used in case III. In spite of different condition images, good classification rates was achieved. Critical points for micro-crack classification improvement are SVM parameters, kernel function, clustered feature data, and experimental conditions. In the future, excellent results could be obtained through SVM parameter tuning and clustered feature data.

웨이블릿에 기반한 시그널 형태를 지닌 대형 자료의 feature 추출 방법 (A Wavelet based Feature Selection Method to Improve Classification of Large Signal-type Data)

  • 장우성;장우진
    • 대한산업공학회지
    • /
    • 제32권2호
    • /
    • pp.133-140
    • /
    • 2006
  • Large signal type data sets are difficult to classify, especially if the data sets are non-stationary. In this paper, large signal type and non-stationary data sets are wavelet transformed so that distinct features of the data are extracted in wavelet domain rather than time domain. For the classification of the data, a few wavelet coefficients representing class properties are employed for statistical classification methods : Linear Discriminant Analysis, Quadratic Discriminant Analysis, Neural Network etc. The application of our wavelet-based feature selection method to a mass spectrometry data set for ovarian cancer diagnosis resulted in 100% classification accuracy.

Multivariate Procedure for Variable Selection and Classification of High Dimensional Heterogeneous Data

  • Mehmood, Tahir;Rasheed, Zahid
    • Communications for Statistical Applications and Methods
    • /
    • 제22권6호
    • /
    • pp.575-587
    • /
    • 2015
  • The development in data collection techniques results in high dimensional data sets, where discrimination is an important and commonly encountered problem that are crucial to resolve when high dimensional data is heterogeneous (non-common variance covariance structure for classes). An example of this is to classify microbial habitat preferences based on codon/bi-codon usage. Habitat preference is important to study for evolutionary genetic relationships and may help industry produce specific enzymes. Most classification procedures assume homogeneity (common variance covariance structure for all classes), which is not guaranteed in most high dimensional data sets. We have introduced regularized elimination in partial least square coupled with QDA (rePLS-QDA) for the parsimonious variable selection and classification of high dimensional heterogeneous data sets based on recently introduced regularized elimination for variable selection in partial least square (rePLS) and heterogeneous classification procedure quadratic discriminant analysis (QDA). A comparison of proposed and existing methods is conducted over the simulated data set; in addition, the proposed procedure is implemented to classify microbial habitat preferences by their codon/bi-codon usage. Five bacterial habitats (Aquatic, Host Associated, Multiple, Specialized and Terrestrial) are modeled. The classification accuracy of each habitat is satisfactory and ranges from 89.1% to 100% on test data. Interesting codon/bi-codons usage, their mutual interactions influential for respective habitat preference are identified. The proposed method also produced results that concurred with known biological characteristics that will help researchers better understand divergence of species.

손가락 동작 분류를 위한 니트 데이터 글러브 시스템 (Knitted Data Glove System for Finger Motion Classification)

  • 이슬아;최유나;차광열;성민창;배지현;최영진
    • 로봇학회논문지
    • /
    • 제15권3호
    • /
    • pp.240-247
    • /
    • 2020
  • This paper presents a novel knitted data glove system for pattern classification of hand posture. Several experiments were conducted to confirm the performance of the knitted data glove. To find better sensor materials, the knitted data glove was fabricated with stainless-steel yarn and silver-plated yarn as representative conductive yarns, respectively. The result showed that the signal of the knitted data glove made of silver-plated yarn was more stable than that of stainless-steel yarn according as the measurement distance becomes longer. Also, the pattern classification was conducted for the performance verification of the data glove knitted using the silver-plated yarn. The average classification reached at 100% except for the pointing finger posture, and the overall classification accuracy of the knitted data glove was 98.3%. With these results, we expect that the knitted data glove is applied to various robot fields including the human-machine interface.

Text Classification with Heterogeneous Data Using Multiple Self-Training Classifiers

  • William Xiu Shun Wong;Donghoon Lee;Namgyu Kim
    • Asia pacific journal of information systems
    • /
    • 제29권4호
    • /
    • pp.789-816
    • /
    • 2019
  • Text classification is a challenging task, especially when dealing with a huge amount of text data. The performance of a classification model can be varied depending on what type of words contained in the document corpus and what type of features generated for classification. Aside from proposing a new modified version of the existing algorithm or creating a new algorithm, we attempt to modify the use of data. The classifier performance is usually affected by the quality of learning data as the classifier is built based on these training data. We assume that the data from different domains might have different characteristics of noise, which can be utilized in the process of learning the classifier. Therefore, we attempt to enhance the robustness of the classifier by injecting the heterogeneous data artificially into the learning process in order to improve the classification accuracy. Semi-supervised approach was applied for utilizing the heterogeneous data in the process of learning the document classifier. However, the performance of document classifier might be degraded by the unlabeled data. Therefore, we further proposed an algorithm to extract only the documents that contribute to the accuracy improvement of the classifier.

다중분광 및 다중시기 영상자료 통합을 통한 토지피복분류 갱신 (Updating Land Cover Classification Using Integration of Multi-Spectral and Temporal Remotely Sensed Data)

  • 장동호
    • 대한지리학회지
    • /
    • 제39권5호
    • /
    • pp.786-803
    • /
    • 2004
  • 최근, 다중 센서 영상과 GIS 주제도 정보를 이용한 토지 피복 분류에 대해 관심이 증가하고 있는 추세이다. 그러나. 분류에 필요한 효과적인 GIS 정보를 충분히 보유하고 있음에도 불구하고, 최대우도법(MLE) 같은 전통적인 방법은 기존의 컴퓨터 프로그램들이 GTS 자료를 제대로 다룰 수 없다는 이유로 유용한 정보의 이용에 제한을 받아 왔다. 본 연구에서는 다중 파장대 및 다중 시기 영상을 이용하여 새로운 영상 분류기법을 제안하고자 한다. 특히 MLE기법을 확대하여 다중 스펙트럼 영상 자료 및 토지 피복 분류 자료 등을 함께 사용할 수 있도록 하였다. 또한 파라미터가 데이터에서 추정되는 경우 우도비(LRE) 추정법이 오히려 더 적합할 수 있어서 LRE기법도 함께 사용하였다. 연구 지역은 서해안 안면도 지역이며, 자료는 Landsat ETM+ 영상과 Landsat TM 영상을 이용하여 만든 토지 피복도이다. 연구 결과. 제안된 방법은 단일 스펙트럼 자료를 사용하는 것보다 현저히 개선된 분류 정확도를 나타낸다. 즉, 개선된 분류 영상들은. MLE를 사용했을 때는 $6.2\%$, LRE를 사용했을 때는 $9.2\%$의 분류 정확도 개선을 보였다. 또한 본 연구는 제시된 알고리즘이 토지 피복 변화에 따른 그 지역의 변화 지역 추출도 가능할 것으로 판단된다. 향후 토지피복 분류 결과는 실 세계에서 보다 정확한 의사결정을 위한 보완적인 자료로써 유용하게 사용될 수 있을 것이라는 판단된다.