• 제목/요약/키워드: kNN classifier

검색결과 101건 처리시간 0.03초

다변량 데이터의 분류 성능 향상을 위한 특질 추출 및 분류 기법을 통합한 신경망 알고리즘 (Feature Selecting and Classifying Integrated Neural Network Algorithm for Multi-variate Classification)

  • 윤현수;백준걸
    • 산업공학
    • /
    • 제24권2호
    • /
    • pp.97-104
    • /
    • 2011
  • Research for multi-variate classification has been studied through two kinds of procedures which are feature selection and classification. Feature Selection techniques have been applied to select important features and the other one has improved classification performances through classifier applications. In general, each technique has been independently studied, however consideration of the interaction between both procedures has not been widely explored which leads to a degraded performance. In this paper, through integrating these two procedures, classification performance can be improved. The proposed model takes advantage of KBANN (Knowledge-Based Artificial Neural Network) which uses prior knowledge to learn NN (Neural Network) as training information. Each NN learns characteristics of the Feature Selection and Classification techniques as training sets. The integrated NN can be learned again to modify features appropriately and enhance classification performance. This innovative technique is called ALBNN (Algorithm Learning-Based Neural Network). The experiments' results show improved performance in various classification problems.

A New Fine-grain SMS Corpus and Its Corresponding Classifier Using Probabilistic Topic Model

  • Ma, Jialin;Zhang, Yongjun;Wang, Zhijian;Chen, Bolun
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제12권2호
    • /
    • pp.604-625
    • /
    • 2018
  • Nowadays, SMS spam has been overflowing in many countries. In fact, the standards of filtering SMS spam are different from country to country. However, the current technologies and researches about SMS spam filtering all focus on dividing SMS message into two classes: legitimate and illegitimate. It does not conform to the actual situation and need. Furthermore, they are facing several difficulties, such as: (1) High quality and large-scale SMS spam corpus is very scarce, fine categorized SMS spam corpus is even none at all. This seriously handicaps the researchers' studies. (2) The limited length of SMS messages lead to lack of enough features. These factors seriously degrade the performance of the traditional classifiers (such as SVM, K-NN, and Bayes). In this paper, we present a new fine categorized SMS spam corpus which is unique and the largest one as far as we know. In addition, we propose a classifier, which is based on the probability topic model. The classifier can alleviate feature sparse problem in the task of SMS spam filtering. Moreover, we compare the approach with three typical classifiers on the new SMS spam corpus. The experimental results show that the proposed approach is more effective for the task of SMS spam filtering.

ART2 신경회로망을 이용한 선형 시스템의 다중고장진단 (Multiple faults diagnosis of a linear system using ART2 neural networks)

  • 이인수;신필재;전기준
    • 제어로봇시스템학회논문지
    • /
    • 제3권3호
    • /
    • pp.244-251
    • /
    • 1997
  • In this paper, we propose a fault diagnosis algorithm to detect and isolate multiple faults in a system. The proposed fault diagnosis algorithm is based on a multiple fault classifier which consists of two ART2 NN(adaptive resonance theory2 neural network) modules and the algorithm is composed of three main parts - parameter estimation, fault detection and isolation. When a change in the system occurs, estimated parameters go through a transition zone in which residuals between the system output and the estimated output cross the threshold, and in this zone, estimated parameters are transferred to the multiple faults classifier for fault isolation. From the computer simulation results, it is verified that when the proposed diagnosis algorithm is performed successfully, it detects and isolates faults in the position control system of a DC motor.

  • PDF

단행본 서명의 단어 임베딩에 따른 자동분류의 성능 비교 (Performance Comparison of Automatic Classification Using Word Embeddings of Book Titles)

  • 이용구
    • 정보관리학회지
    • /
    • 제40권4호
    • /
    • pp.307-327
    • /
    • 2023
  • 이 연구는 짧은 텍스트인 서명에 단어 임베딩이 미치는 영향을 분석하기 위해 Word2vec, GloVe, fastText 모형을 이용하여 단행본 서명을 임베딩 벡터로 생성하고, 이를 분류자질로 활용하여 자동분류에 적용하였다. 분류기는 k-최근접 이웃(kNN) 알고리즘을 사용하였고 자동분류의 범주는 도서관에서 도서에 부여한 DDC 300대 강목을 기준으로 하였다. 서명에 대한 단어 임베딩을 적용한 자동분류 실험 결과, Word2vec와 fastText의 Skip-gram 모형이 TF-IDF 자질보다 kNN 분류기의 자동분류 성능에서 더 우수한 결과를 보였다. 세 모형의 다양한 하이퍼파라미터 최적화 실험에서는 fastText의 Skip-gram 모형이 전반적으로 우수한 성능을 나타냈다. 특히, 이 모형의 하이퍼파라미터로는 계층적 소프트맥스와 더 큰 임베딩 차원을 사용할수록 성능이 향상되었다. 성능 측면에서 fastText는 n-gram 방식을 사용하여 하부문자열 또는 하위단어에 대한 임베딩을 생성할 수 있어 재현율을 높이는 것으로 나타났다. 반면에 Word2vec의 Skip-gram 모형은 주로 낮은 차원(크기 300)과 작은 네거티브 샘플링 크기(3이나 5)에서 우수한 성능을 보였다.

적응형 재귀 분할 평균법을 이용한 메모리기반 추론 알고리즘 (A Memory-based Reasoning Algorithm using Adaptive Recursive Partition Averaging Method)

  • 이형일;최학윤
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권4호
    • /
    • pp.478-487
    • /
    • 2004
  • 메모리 기반 추론에서 기억공간의 효율적인 사용과 분류성능의 향상을 위하여 제안되었던 RPA(Recursive Partition Averaging)알고리즘은 대상 패턴 공간을 분할 한 후 대표 패턴을 추출하여 분류 기준 패턴으로 사용한다. 이 기법은 메모리 사용 효율과 분류 성능 면에서 우수한 결과를 보였지만, 분할 종료 조건과 대표패턴의 추출 방법이 분류 성능 저하의 원인이 되는 단점을 가지고 있었다. 여기에서는 기존 RPA의 단점을 보안한 ARPA(Adaptive RPA) 알고리즘을 제안한다. 제안된 알고리즘은 패턴 공간의 분할 종료 조건으로 특징별 최빈 패턴 구간(FPD: Feature-based population densimeter)추출 알고리즘을 사용하며, 학습 결과 패턴의 생성을 대표패턴 추출기법 대신 최빈 패턴 구간을 이용하여 생성한 최적초월평면(OH: Optimized Hyperrectangle)을 사용한다. 제안된 알고리즘은 k-NN 분류기에서 필요로 하는 메모리 공간의 40%정도를 사용하며, 분류에 있어서도 RPA보다 우수한 인식 성능을 보이고 있다. 또한 저장된 패턴의 감소로 인하여, 실제 분류에 소요되는 시간 비교에 있어서도 k-NN보다 월등히 우수한 성능을 보이고 있다.

선형-비선형 특징추출에 의한 비정상 심전도 신호의 랜덤포레스트 기반 분류 (Random Forest Based Abnormal ECG Dichotomization using Linear and Nonlinear Feature Extraction)

  • 김혜진;김병남;장원석;유선국
    • 대한의용생체공학회:의공학회지
    • /
    • 제37권2호
    • /
    • pp.61-67
    • /
    • 2016
  • This paper presented a method for random forest based the arrhythmia classification using both heart rate (HR) and heart rate variability (HRV) features. We analyzed the MIT-BIH arrhythmia database which contains half-hour ECG recorded from 48 subjects. This study included not only the linear features but also non-linear features for the improvement of classification performance. We classified abnormal ECG using mean_NN (mean of heart rate), SD1/SD2 (geometrical feature of poincare HRV plot), SE (spectral entropy), pNN100 (percentage of a heart rate longer than 100 ms) affecting accurate classification among combined of linear and nonlinear features. We compared our proposed method with Neural Networks to evaluate the accuracy of the algorithm. When we used the features extracted from the HRV as an input variable for classifier, random forest used only the most contributed variable for classification unlike the neural networks. The characteristics of random forest enable the dimensionality reduction of the input variables, increase a efficiency of classifier and can be obtained faster, 11.1% higher accuracy than the neural networks.

Pitch 히스토그램을 이용한 내용기반 음악 정보 검색 (Content-based Music Information Retrieval using Pitch Histogram)

  • 박만수;박철의;김회린;강경옥
    • 방송공학회논문지
    • /
    • 제9권1호
    • /
    • pp.2-7
    • /
    • 2004
  • 본 논문에서는 내용 기반 음악 정보 검색에 MPEG-7에 정의된 오디오 서술자를 적용하는 방법을 제안한다. 특히 Pitch 정보와 timbral 특징들은 음색 구분을 용이하게 할 수 있어 음악 검색뿐만 아니라 음악 장르 분류 또는 QBH(Query By Humming)에 이용 될 수 있다. 이러한 방법을 통하여 오디오 신호의 대표적인 특성을 표현 할 수 있는 특징벡터를 구성 할 수 있다면 추후에 멀티모달 시스템을 이용한 검색 알고리즘에도 오디오 특징으로 이용 될 수 있을 것이다. 본 논문에서는 방송 시스템에 적용하기 위해 영화나 드라마의 배경음악에 해당하는 O.S.T 앨범으로 검색 범위를 제한하였다. 즉, 사용자가 임의로 검색을 요청한 시점에서 비디오 컨텐츠로부터 추출한 임의의 오디오 클립만을 이용하여 그 컨텐츠 전체의 O.S.T 앨범 내에서 음악을 검색할 수 있도록 하였다. 오디오 특징 백터를 구성하기 위해 필요한 MPEG-7 오디오 서술자의 조합 방법을 제안하고 distance 또는 ratio 계산 방식을 통해 성능 향상을 추구하였다. 또한 reference 음악의 템플릿 구성 방식의 변화를 통해 성능 향상을 추구하였다. Classifier로 k-NN 방식을 사용하여 성능평가를 수행한 결과 timbral spectral feature 보다는 pitch 정보를 이용한 특징이 우수한 성능을 보였고 vector distance 방식으로는 특징들의 비율을 이용한 IFCR(Intra-Feature Component Ratio) 방식이 ED(Euclidean Distance) 방식보다 우수한 성능을 보였다.

HKIB-20000 & HKIB-40075: Hangul Benchmark Collections for Text Categorization Research

  • Kim, Jin-Suk;Choe, Ho-Seop;You, Beom-Jong;Seo, Jeong-Hyun;Lee, Suk-Hoon;Ra, Dong-Yul
    • Journal of Computing Science and Engineering
    • /
    • 제3권3호
    • /
    • pp.165-180
    • /
    • 2009
  • The HKIB, or Hankookilbo, test collections are two archives of Korean newswire stories manually categorized with semi-hierarchical or hierarchical category taxonomies. The base newswire stories were made available by the Hankook Ilbo (The Korea Daily) for research purposes. At first, Chungnam National University and KISTI collaborated to manually tag 40,075 news stories with categories by semi-hierarchical and balanced three-level classification scheme, where each news story has only one level-3 category (single-labeling). We refer to this original data set as HKIB-40075 test collection. And then Yonsei University and KISTI collaborated to select 20,000 newswire stories from the HKIB-40075 test collection, to rearrange the classification scheme to be fully hierarchical but unbalanced, and to assign one or more categories to each news story (multi-labeling). We refer to this modified data set as HKIB-20000 test collection. We benchmark a k-NN categorization algorithm both on HKIB-20000 and on HKIB-40075, illustrating properties of the collections, providing baseline results for future studies, and suggesting new directions for further research on Korean text categorization problem.

멀웨어 검출을 위한 기계학습 알고리즘과 특징 추출에 대한 성능연구 (A Study on Performance of ML Algorithms and Feature Extraction to detect Malware)

  • 안태현;박재균;권영만
    • 한국인터넷방송통신학회논문지
    • /
    • 제18권1호
    • /
    • pp.211-216
    • /
    • 2018
  • 이 논문에서는 알려지지 않은 PE 파일이 멀웨어의 여부를 분류하는 방법을 연구하였다. 멀웨어 탐지 영역의 분류 문제에서는 특징 추출과 분류가 중요하다. 위와 같은 목적으로 멀웨어 탐지를 위해 우리는 어떠한 특징들이 분류기에 적합한지, 어떠한 분류기가 선택된 특징들에 대해 연구하였다. 그래서 우리는 멀웨어 탐지를 위한 기능과 분류기의 좋은 조합을 찾기 위해 실험하였다. 이를 위해 두 단계로 실험을 실시하였다. 1 단계에서는 Opcode, Windows API, Opcode + Windows API의 특징들을 이용하여 정확도를 비교하였다. 여기에서 Opcode + Windows API 특징이 다른 특징보다 더 좋은 결과를 나타내었다. 2 단계에서는 나이브 베이즈, K-NN, SVM, DT의 분류기들의 AUC 값을 비교하였다. 그 결과 DT의 분류기가 더 좋은 결과 값을 나타내었다.

거리 기반 유사도 측정을 통한 유방 초음파 영상의 내용 기반 검색 컴퓨터 보조 진단 시스템에 관한 연구 (A Study of CBIR(Content-based Image Retrieval) Computer-aided Diagnosis System of Breast Ultrasound Images using Similarity Measures of Distance)

  • 김민정;조현종
    • 전기학회논문지
    • /
    • 제66권8호
    • /
    • pp.1272-1277
    • /
    • 2017
  • To assist radiologists for the characterization of breast masses, Computer-aided Diagnosis(CADx) system has been studied. The CADx system can improve the diagnostic accuracy of radiologists by providing objective information about breast masses. Morphological and texture features were extracted from the breast ultrasound images. Based on extracted features, the CADx system retrieves masses that are similar to a query mass from a reference library using a k-nearest neighbor (k-NN) approach. Eight similarity measures of distance, Euclidean, Chebyshev(Minkowski family), Canberra, Lorentzian($F_2$ family), Wave Hedges, Motyka(Intersection family), and Cosine, Dice(Inner Product family) are evaluated by ROC(Receiver Operating Characteristic) analysis. The Inner Product family measure used with the k-NN classifier provided slightly higher performance for classification of malignant and benign masses than those with the Minkowski, $F_2$, and Intersection family measures.