• Title/Summary/Keyword: UCI

Search Result 194, Processing Time 0.026 seconds

A Comparison Study of Classification Algorithms in Data Mining

  • Lee, Seung-Joo;Jun, Sung-Rae
    • International Journal of Fuzzy Logic and Intelligent Systems
    • /
    • v.8 no.1
    • /
    • pp.1-5
    • /
    • 2008
  • Generally the analytical tools of data mining have two learning types which are supervised and unsupervised learning algorithms. Classification and prediction are main analysis tools for supervised learning. In this paper, we perform a comparison study of classification algorithms in data mining. We make comparative studies between popular classification algorithms which are LDA, QDA, kernel method, K-nearest neighbor, naive Bayesian, SVM, and CART. Also, we use almost all classification data sets of UCI machine learning repository for our experiments. According to our results, we are able to select proper algorithms for given classification data sets.

Ambient Vibration-Measurement of Real Building Structure by Using Fiber Optic Accelerometer System

  • Kim, Dae-Hyun
    • Journal of the Korean Society for Nondestructive Testing
    • /
    • v.26 no.6
    • /
    • pp.373-379
    • /
    • 2006
  • Vibration-based structural health monitoring is one of non-destructive evaluation (NDE) techniques for civil infrastructures. This paper presents a novel fiber optic accelerometer system to monitor civil engineering structures and a successful application of the novel sensor system for measuring ambient vibration of a real building structure. This sensor system integrates the Moire fringe phenomenon with fiber optics to achieve accurate and reliable measurements. The sensor system is immune to electromagnetic (EM) interference making it suitable for difficult applications in such environments involving strong EM fields, electrical spark-induced explosion risks, and cabling problems, prohibiting the use of conventional electromagnetic accelerometers. A prototype sensor system has been developed, together with a signal processing software. The experimental studies demonstrated the high-performance of the fiber optic sensor system. Especially, the sensor was successfully used for monitoring a real building on UCI (University of California Irvine, USA).

Weight Adjustment Methods Based on Statistical Information for Fuzzy Weighted Mean Classifiers (퍼지 가중치 평균 분류기를 위한 통계적 정보 기반의 가중치 설정 방안)

  • Shin, Sang-Ho;Cho, Jae-Hyun;Woo, Young-Woon
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2009.01a
    • /
    • pp.25-30
    • /
    • 2009
  • 패턴 인식에서 분류기 모형으로 많이 사용되는 퍼지 가중치 평균 분류기는 가중치를 적절히 설정함으로써 뛰어난 분류 성능을 얻을 수 있다는 장점이 있다. 그러나 일반적으로 가중치는 인식 문제 분야의 특성이나 해당 전문가의 지식이나 주관적 경험을 기반으로 설정되므로 설정된 가중치의 일관성과 객관성을 보장하기가 어려운 문제점을 갖고 있다. 따라서 이 논문에서는 퍼지 가중치 평균 분류기의 가중치를 설정하기 위한 객관적 기준을 제시하기 위하여 특징값들 간의 통계적 정보를 이용한 가중치 설정 기법들을 제안하였다. 제안한 기법들을 이용하여 UCI machine learning repository 사이트에서 제공되는 표준 데이터들 중의 하나인 Iris 데이터 세트를 이용하여 실험하고 그 결과를 비교, 분석하였다.

  • PDF

Web Documents Classification with Fuzzy Integration of Multiple Structure-Adaptive Self-Organizing Maps (다중 구조적응 자기구성지도의 퍼지결합을 이용한 웹 문서 분류)

  • 김경중;조성배
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04c
    • /
    • pp.371-373
    • /
    • 2003
  • 웹 문서를 분류하는 목적은 특정 주제별로 중요한 문서들을 구분하려는 것과 사용자의 선호도를 바탕으로 개인화를 하려는 것으로 나누어 볼 수 있다. 특히, 웹의 효율적인 탐색을 위해 사용자가 관심 있어 할 웹 문서를 분류하는 것은 중요하다 일반적으로 하나의 웹 문서는 특징 추출방법에 의해 문서 벡터로 표시되며 사용자의 선호여부나 주제번호를 클래스로 삼는다. 사용자가 선호도를 표시한 웹 문서를 사용하여 새로운 웹 문서의 선호 여부를 예측하기 위해 자기 구성지도(SOM)를 사용하면, 시각적으로 구조를 보여주어 데이터 사이의 관계를 효과적으로 이해할 수 있다. 그러나 SOM은 노드의 개수와 구조를 자동적으로 결정하지 못하는 단점이 있기 때문에, SOM의 장점을 활용하면서 자동적으로 구조를 결정하기 위해 구조적응 자기구성지도(SASOM)를 이용한다. 보다 나은 성능과 다양한 해석을 위해, 여러 개의 SASOM을 서로 다른 특징추출 방법을 이용하여 학습시킨 후 사용자가 주관적으로 분류기의 중요도를 결정할 수 있는 퍼지적분을 사용하여 결합하였다. UCI Syskill & Webert 데이터에 대한 실험결과 기존의 DT, MLP, naive Bayes 분류기 보다 향상된 성능을 보였다.

  • PDF

Ensemble Learning of Region Based Classifiers (지역 기반 분류기의 앙상블 학습)

  • Choe, Seong-Ha;Lee, Byeong-U;Yang, Ji-Hun;Kim, Seon-Ho
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2007.06c
    • /
    • pp.267-270
    • /
    • 2007
  • 기계학습에서 분류기들의 집합으로 구성된 앙상블 분류기는 단일 분류기에 비해 정확도가 높다는 것이 입증되었다. 본 논문에서는 새로운 앙상블 학습으로서 데이터의 지역 기반 분류기들의 앙상블 학습을 제시하여 기존의 앙상블 학습과의 비교를 통해 성능을 검증하고자 한다. 지역 기반 분류기의 앙상블 학습은 데이터의 분포가 지역에 따라 다르다는 점에 착안하여 학습 데이터를 분할하고 해당하는 지역에 기반을 둔 분류기들을 만들어 나간다. 이렇게 만들어진 분류기들로부터 지역에 따라 가중치를 둔 투표를 하여 앙상블 방법을 이끌어낸다. 본 논문에서 제시한 앙상블 분류기의 성능평가를 위해 UCI Machine Learning Repository에 있는 11개의 데이터 셋을 이용하여 단일 분류기와 기존의 앙상블 분류기인 배깅과 부스팅등의 정확도를 비교하였다. 그 결과 기본 분류기로 나이브 베이즈와 SVM을 사용했을 때 새로운 앙상블 방법이 다른 방법보다 좋은 성능을 보이는 것을 알 수 있었다.

  • PDF

Pattern Selection for Classification Using the Bias and Variance of Ensemble Network (신경망 앙상블의 편기와 분산을 이용한 분류 패턴 선택)

  • 신현정;조성준
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10b
    • /
    • pp.307-309
    • /
    • 2001
  • 분류문제에서 유용한 학습패턴은 클래스들간의 분류경계에 근접한 정상패턴들을 말한다. 본 연구에서는 다양한 구조와 학습 파라미터를 가진 신경망 앙상블을 구성하고 그 출력값의 편기와 분산에 기초한 패턴절수를 정의한다. 전체 학습패턴 중 일정한 임계값 이상의 패턴점수를 가진 패턴들만이 학습패턴으로 선정된다. 제안한 방법은 두 개의 인공문제와 두 개의 실제문제 (UCI Repository)에 적응, 검증되었다. 그 결과 선택된 패턴만으로 학습한 경우, 메모리 공간 절약 및 계산시간 단축의 효과뿐만 아니라 복잡도가 큰 모델이라도 과적합을 하지 않았고 실험적으로 안정된 결과를 산출했으며, 적은 수의 학습패턴만으로도 일반화 성능을 향상시키거나 적어도 저하시키지 않았다는 것을 보였다.

  • PDF

Performance Improvement of Ensemble Speciated Neural Networks using Kullback-Leibler Entropy (Kullback-Leibler 엔트로피를 이용한 종분화 신경망 결합의 성능향상)

  • Kim, Kyung-Joong;Cho, Sung-Bae
    • The Transactions of the Korean Institute of Electrical Engineers D
    • /
    • v.51 no.4
    • /
    • pp.152-159
    • /
    • 2002
  • Fitness sharing that shares fitness if calculated distance between individuals is smaller than sharing radius is one of the representative speciation methods and can complement evolutionary algorithm which converges one solution. Recently, there are many researches on designing neural network architecture using evolutionary algorithm but most of them use only the fittest solution in the last generation. In this paper, we elaborate generating diverse neural networks using fitness sharing and combing them to compute outputs then, propose calculating distance between individuals using modified Kullback-Leibler entropy for improvement of fitness sharing performance. In the experiment of Australian credit card assessment, breast cancer, and diabetes in UCI database, proposed method performs better than not only simple average output or Pearson Correlation but also previous published methods.

R명령어들의 속도 평가

  • Lee, Jin-A;Heo, Mun-Yeol
    • Proceedings of the Korean Statistical Society Conference
    • /
    • 2003.10a
    • /
    • pp.301-305
    • /
    • 2003
  • 최근에 R은 여러 분야에서 많이 사용되고 있다. 특히 모의실험(simulation)이나 통계학 관련 연구에 많이 사용되고 있다. 모의실험을 하는 경우에는 많은 반복으로 인해 R 프로그램의 수행 속도가 매우 중요하다. 또한 데이터마이닝 분야에서도 R을 많이 사용하고 있다. 우리는 데이터 마이닝에서 데이터의 전처리 과정 중 Fayyad & Irani 방법을 사용하여 연속형 변수를 이산화하는 실험을 하였으며, 이를 위해 R을 사용하였다. 이 프로그램은 재귀 함수를 이용하고 이런 과정에서 빈도표 작성, information계산, 빈도표의 분할, 정지 규칙 등의 여러 함수를 사용하게 되어있다. 우리가 작성한 R 로드를 사용하여 UCI DB의 Iono 자료를 (속성이 35개, 사례수가 약 1000개정도) 이산화 하였을 때 7초 이상의 상당한 시간이 소요된다. 반면에 JAVA로 만들어진 Weka에서 똑같은 Fayyad & Irani 방법을 수행했을 때 위와 같은 큰 자료를 이산화하는 속도가 매우 빨라 수행시간은 거의 무시할 만하였다. 이런 차이점을 보고 R 프로그램의 수행 속도를 늘이는 방법을 찾게 되었다. 이 본 발표에서는 R 코드 중 시간이 많이 소요되는 것들을 몇 가지 선정하고 이들을 더 효율적으로 만들 수 있는 코드를 작성하여 이들 코드의 수행속도를 비교하였다. 또한 몇 가지 명령에 대해서는SAS와도 비교하였다.

  • PDF

Evaluation of Attribute Selection Methods and Prior Discretization in Supervised Learning

  • Cha, Woon Ock;Huh, Moon Yul
    • Communications for Statistical Applications and Methods
    • /
    • v.10 no.3
    • /
    • pp.879-894
    • /
    • 2003
  • We evaluated the efficiencies of applying attribute selection methods and prior discretization to supervised learning, modelled by C4.5 and Naive Bayes. Three databases were obtained from UCI data archive, which consisted of continuous attributes except for one decision attribute. Four methods were used for attribute selection : MDI, ReliefF, Gain Ratio and Consistency-based method. MDI and ReliefF can be used for both continuous and discrete attributes, but the other two methods can be used only for discrete attributes. Discretization was performed using the Fayyad and Irani method. To investigate the effect of noise included in the database, noises were introduced into the data sets up to the extents of 10 or 20%, and then the data, including those either containing the noises or not, were processed through the steps of attribute selection, discretization and classification. The results of this study indicate that classification of the data based on selected attributes yields higher accuracy than in the case of classifying the full data set, and prior discretization does not lower the accuracy.

Hybrid Self Organizing Map using Monte Carlo Computing

  • Jun Sung-Hae;Park Min-Jae;Oh Kyung-Whan
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2006.05a
    • /
    • pp.381-384
    • /
    • 2006
  • Self Organizing Map(SOM) is a powerful neural network model for unsupervised loaming. In many clustering works with exploratory data analysis, it has been popularly used. But it has a weakness which is the poorly theoretical base. A lot more researches for settling the problem have been published. Also, our paper proposes a method to overcome the drawback of SOM. As compared with the presented researches, our method has a different approach to solve the problem. So, a hybrid SOM is proposed in this paper. Using Monte Carlo computing, a hybrid SOM improves the performance of clustering. We verify the improved performance of a hybrid SOM according to the experimental results using UCI machine loaming repository. In addition to, the number of clusters is determined by our hybrid SOM.

  • PDF