• 제목/요약/키워드: k-NN classification

검색결과 188건 처리시간 0.027초

문헌빈도와 장서빈도를 이용한 kNN 분류기의 자질선정에 관한 연구 (A Study on Feature Selection for kNN Classifier using Document Frequency and Collection Frequency)

  • 이용구
    • 한국도서관정보학회지
    • /
    • 제44권1호
    • /
    • pp.27-47
    • /
    • 2013
  • 이 연구에서는 자동 색인을 통해 쉽게 얻을 수 있는 자질의 문헌빈도와 장서빈도를 이용하여 자동분류에서 자질 선정 기법을 kNN 분류기에 적용하였을 때, 어떠한 분류성능을 보이는지 알아보고자 하였다. 실험집단으로 한국일보-20000(HKIB-20000)의 일부를 이용하였다. 실험 결과 첫째, 장서빈도를 이용하여 고빈도 자질을 선정하고 저빈도 자질을 제거한 자질선정 방법이 문헌빈도보다 더 좋은 성능을 가져오는 것으로 나타났다. 둘째, 문헌빈도와 장서빈도 모두 저빈도 자질을 우선으로 선정하는 방법은 좋은 분류성능을 가져오지 못했다. 셋째, 장서빈도와 같은 단순빈도에서 자질 선정 구간을 조정하는 것이 문헌빈도와 장서빈도의 조합보다 더 좋은 성능을 가져오는 것으로 나타났다.

An Improved Text Classification Method for Sentiment Classification

  • Wang, Guangxing;Shin, Seong Yoon
    • Journal of information and communication convergence engineering
    • /
    • 제17권1호
    • /
    • pp.41-48
    • /
    • 2019
  • In recent years, sentiment analysis research has become popular. The research results of sentiment analysis have achieved remarkable results in practical applications, such as in Amazon's book recommendation system and the North American movie box office evaluation system. Analyzing big data based on user preferences and evaluations and recommending hot-selling books and hot-rated movies to users in a targeted manner greatly improve book sales and attendance rate in movies [1, 2]. However, traditional machine learning-based sentiment analysis methods such as the Classification and Regression Tree (CART), Support Vector Machine (SVM), and k-nearest neighbor classification (kNN) had performed poorly in accuracy. In this paper, an improved kNN classification method is proposed. Through the improved method and normalizing of data, the purpose of improving accuracy is achieved. Subsequently, the three classification algorithms and the improved algorithm were compared based on experimental data. Experiments show that the improved method performs best in the kNN classification method, with an accuracy rate of 11.5% and a precision rate of 20.3%.

자질 선정 기준과 가중치 할당 방식간의 관계를 고려한 문서 자동분류의 개선에 대한 연구 (An Empirical Study on Improving the Performance of Text Categorization Considering the Relationships between Feature Selection Criteria and Weighting Methods)

  • 이재윤
    • 한국문헌정보학회지
    • /
    • 제39권2호
    • /
    • pp.123-146
    • /
    • 2005
  • 이 연구에서는 문서 자동분류에서 분류자질 선정과 가중치 할당을 위해서 일관된 전략을 채택하여 kNN 분류기의 성능을 향상시킬 수 있는 방안을 모색하였다. 문서 자동 분류에서 분류자질 선정 방식과 자질 가중치 할당 방식은 자동분류 알고리즘과 함께 분류성능을 좌우하는 중요한 요소이다. 기존 연구에서는 이 두 방식을 결정할 때 상반된 전략을 사용해왔다. 이 연구에서는 색인파일 저장공간과 실행시간에 따른 분류성능을 기준으로 분류자질 선정 결과를 평가해서 기존 연구와 다른 결과를 얻었다. 상호정보량과 같은 저빈도 자질 선호 기준이나 심지어는 역문헌빈도를 이용해서 분류 자질을 선정하는 것이 kNN 분류기의 분류 효과와 효율 면에서 바람직한 것으로 나타났다. 자질 선정기준으로 저빈도 자질 선호 척도를 자질 선정 및 자질 가중치 할당에 일관되게 이용한 결과 분류성능의 저하 없이 kNN 분류기의 처리 속도를 약 3배에서 5배정도 향상시킬 수 있었다.

RPA분류기의 성능 향상을 위한 OHC알고리즘 (OHC Algorithm for RPA Memory Based Reasoning)

  • 이형일
    • 한국멀티미디어학회논문지
    • /
    • 제6권5호
    • /
    • pp.824-830
    • /
    • 2003
  • 메모리 기반 추론에서 기억공간의 효율적인 사용과 분류성능의 향상을 위하여 제안되었던 RPA(Recursive Partition Averaging)알고리즘은 대상 패턴 공간을 분할 한 후 대표 패턴을 추출하여 분류 기준 패턴으로 사용한다. 이 기법은 구성된 초월 평면상에서 단순히 대표패턴을 추출하여 분류 성능 저하의 원인이 되는 단점을 가지고 있었다. 여기에서는 기존 RPA의 단점을 보완하기 위해 FPD (Feature-based Population Densimeter)를 이용한 OHC (Optimized Hyperrectangle Calving) 알고리즘을 제안한다. 제안된 알고리즘은 RPA분할 종료 후 OHC를 이용하여 초월 평면을 최적화한 후 패턴 평균 기법을 적용하여 학습 결과를 산출한다. 제안된 알고리즘은 k-NN분류기에서 필요로 하는 메모리 공간의 40%정도를 사용하며 분류에 있어서도 RPA보다 우수한 인식 성능을 보이고 있다. 또한 저장된 패턴의 감소로 인하여, 실제 분류에 소요되는 시간비교에 있어서도 k-NN보다 월등히 우수한 성능을 보이고 있다.

  • PDF

k-NN 분류 모델의 학습 데이터 구성에 따른 PIC 보의 하중 충실도 향상에 관한 연구 (Load Fidelity Improvement of Piecewise Integrated Composite Beam by Construction Training Data of k-NN Classification Model)

  • 함석우;전성식
    • Composites Research
    • /
    • 제33권3호
    • /
    • pp.108-114
    • /
    • 2020
  • Piecewise Integrated Composite (PIC) 보는 하중 유형에 따라 구간을 나누어, 각 구간마다 하중 유형에 강한 복합재료의 적층 순서를 배열한 보이다. 본 연구는 PIC 보의 구간을 머신 러닝의 일종인 k-NN(k-Nearest Neighbor) 분류를 통해 나누어 기존에 제시되었던 PIC 보에 비해 우수한 굽힘 특성을 갖게 하는 것이 목적이다. 먼저, 알루미늄 보의 3점 굽힘 해석을 통하여 참조점에서의 3축 특성(Triaxiality) 값 데이터를 얻었고, 이를 통해 인장, 전단, 압축의 레이블을 가진 학습 데이터가 만들어진다. 학습 데이터를 통해 각 면마다 독립적인 k-NN 분류 모델을 구성하는 방법(Each plane)과 전체 면에 대한 k-NN 분류 모델을 구성하는 방법(one part)을 이용하여 k-NN 분류 모델을 생성하였고, 하이퍼파라미터의 튜닝을 통하여 다양한 하중 충실도를 도출하였다. 가장 높은 하중 충실도를 가진 k-NN 분류 모델을 기반으로 보를 매핑(mapping)하였고, PIC 보에 대하여 유한요소 해석을 진행한 결과, 기존에 제시되었던 PIC 보에 비해 최대하중과 흡수 에너지가 커지는 특성을 보였다. 하중 충실도를 수동으로 조절하여 100%로 만든 PIC 보와 비교하였을 때, 최대하중과 흡수에너지가 미소한 차이가 나타났으며 이는 타당한 하중 충실도로 보여진다.

바이올린과 첼로 연주 데이터를 이용한 분류 알고리즘의 성능 비교 (Performance Comparison of Classification Algorithms in Music Recognition using Violin and Cello Sound Files)

  • 김재천;곽경섭
    • 한국통신학회논문지
    • /
    • 제30권5C호
    • /
    • pp.305-312
    • /
    • 2005
  • 음악인식에 주로 사용되는 세 가지 알고리즘의 성능을 비교하였다. 다양한 분류알고리즘을 소개하고 그 중 베이지안법, 최근접이웃법과 k-최근접이웃법을 이용하여 악기를 분류하였다. 악기 샘플파일에서 영교차율, 평균, 분산, 평균피크레벨의 4가지 특성값을 추출하여 분류시스템의 데이터로 사용하였다. 사용된 악기 샘플은 바이올린, 바로크 바이올린, 바로크 첼로이다. 실험결과 최근접이웃 알고리즘이 악기 분류에 있어서 가장 좋은 성능을 보여 주었다. 최근접이웃 알고리즘은 단순하면서도 빠른 계산결과를 보여 악기 분류에 적절한 알고리즘으로 판단되었다.

Academic Registration Text Classification Using Machine Learning

  • Alhawas, Mohammed S;Almurayziq, Tariq S
    • International Journal of Computer Science & Network Security
    • /
    • 제22권1호
    • /
    • pp.93-96
    • /
    • 2022
  • Natural language processing (NLP) is utilized to understand a natural text. Text analysis systems use natural language algorithms to find the meaning of large amounts of text. Text classification represents a basic task of NLP with a wide range of applications such as topic labeling, sentiment analysis, spam detection, and intent detection. The algorithm can transform user's unstructured thoughts into more structured data. In this work, a text classifier has been developed that uses academic admission and registration texts as input, analyzes its content, and then automatically assigns relevant tags such as admission, graduate school, and registration. In this work, the well-known algorithms support vector machine SVM and K-nearest neighbor (kNN) algorithms are used to develop the above-mentioned classifier. The obtained results showed that the SVM classifier outperformed the kNN classifier with an overall accuracy of 98.9%. in addition, the mean absolute error of SVM was 0.0064 while it was 0.0098 for kNN classifier. Based on the obtained results, the SVM is used to implement the academic text classification in this work.

향상된 텍스트 분류 (An Improved Text Classification)

  • 왕광싱;신성윤;신광성;이현창
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2019년도 제59차 동계학술대회논문집 27권1호
    • /
    • pp.125-126
    • /
    • 2019
  • In this paper, we propose an improved kNN classification method. Through improved the mothed and normalizing the data, the purpose of improving the accuracy is achieved. Then we compared the three classification algorithms and the improved algorithm by experimental data.

  • PDF

목차 정보와 kNN 분류기를 이용한 사회과학 분야 도서 자동 분류에 관한 연구 (A Study on Book Categorization in Social Sciences Using kNN Classifiers and Table of Contents Text)

  • 이용구
    • 정보관리학회지
    • /
    • 제37권1호
    • /
    • pp.1-21
    • /
    • 2020
  • 이 연구에서는 한 대학도서관의 신착 도서 리스트 중 사회 과학 분야 6,253권에 대해 목차 정보를 이용하여 자동 분류를 적용하였다. 분류기는 kNN 알고리즘을 사용하였으며 자동 분류의 범주로 도서관에서 도서에 부여한 DDC 300대 강목을 사용하였다. 분류 자질은 도서의 서명과 목차를 사용하였으며, 목차는 인터넷 서점으로부터 Open API를 통해 획득하였다. 자동 분류 실험 결과, 목차 자질은 분류 재현율과 분류 정확률 모두를 향상시키는 좋은 자질임을 알 수 있었다. 또한 목차는 풍부한 자질로 불균형인 데이터의 과적합 문제를 완화시키는 것으로 나타났다. 법학과 교육학은 사회 과학 분야에서 특정성이 높아 서명 자질만으로도 좋은 분류 성능을 가져오는 점도 파악할 수 있었다.

A Study on Data Classification of Raman OIM Hyperspectral Bone Data

  • Jung, Sung-Hwan
    • 한국멀티미디어학회논문지
    • /
    • 제14권8호
    • /
    • pp.1010-1019
    • /
    • 2011
  • This was a preliminary research for the goal of understanding between internal structure of Osteogenesis Imperfecta Murine (OIM) bone and its fragility. 54 hyperspectral bone data sets were captured by using JASCO 2000 Raman spectrometer at UMKC-CRISP (University of Missouri-Kansas City Center for Research on Interfacial Structure and Properties). Each data set consists of 1,091 data points from 9 OIM bones. The original captured hyperspectral data sets were noisy and base-lined ones. We removed the noise and corrected the base-lined data for the final efficient classification. High dimensional Raman hyperspectral data on OIM bones was reduced by Principal Components Analysis (PCA) and Linear Discriminant Analysis (LDA) and efficiently classified for the first time. We confirmed OIM bones could be classified such as strong, middle and weak one by using the coefficients of their PCA or LDA. Through experiment, we investigated the efficiency of classification on the reduced OIM bone data by the Bayesian classifier and K -Nearest Neighbor (K-NN) classifier. As the experimental result, the case of LDA reduction showed higher classification performance than that of PCA reduction in the two classifiers. K-NN classifier represented better classification rate, compared with Bayesian classifier. The classification performance of K-NN was about 92.6% in case of LDA.