• 제목/요약/키워드: k-nn classification

검색결과 188건 처리시간 0.024초

단행본 서명의 단어 임베딩에 따른 자동분류의 성능 비교 (Performance Comparison of Automatic Classification Using Word Embeddings of Book Titles)

  • 이용구
    • 정보관리학회지
    • /
    • 제40권4호
    • /
    • pp.307-327
    • /
    • 2023
  • 이 연구는 짧은 텍스트인 서명에 단어 임베딩이 미치는 영향을 분석하기 위해 Word2vec, GloVe, fastText 모형을 이용하여 단행본 서명을 임베딩 벡터로 생성하고, 이를 분류자질로 활용하여 자동분류에 적용하였다. 분류기는 k-최근접 이웃(kNN) 알고리즘을 사용하였고 자동분류의 범주는 도서관에서 도서에 부여한 DDC 300대 강목을 기준으로 하였다. 서명에 대한 단어 임베딩을 적용한 자동분류 실험 결과, Word2vec와 fastText의 Skip-gram 모형이 TF-IDF 자질보다 kNN 분류기의 자동분류 성능에서 더 우수한 결과를 보였다. 세 모형의 다양한 하이퍼파라미터 최적화 실험에서는 fastText의 Skip-gram 모형이 전반적으로 우수한 성능을 나타냈다. 특히, 이 모형의 하이퍼파라미터로는 계층적 소프트맥스와 더 큰 임베딩 차원을 사용할수록 성능이 향상되었다. 성능 측면에서 fastText는 n-gram 방식을 사용하여 하부문자열 또는 하위단어에 대한 임베딩을 생성할 수 있어 재현율을 높이는 것으로 나타났다. 반면에 Word2vec의 Skip-gram 모형은 주로 낮은 차원(크기 300)과 작은 네거티브 샘플링 크기(3이나 5)에서 우수한 성능을 보였다.

땅밀림 위험지 평가를 위한 기계학습 분류모델 비교 (A Performance Comparison of Machine Learning Classification Methods for Soil Creep Susceptibility Assessment)

  • 이제만;서정일;이진호;임상준
    • 한국산림과학회지
    • /
    • 제110권4호
    • /
    • pp.610-621
    • /
    • 2021
  • 지진 발생과 집중호우에 의해 땅밀림형 산사태 유형으로 분류되는 땅밀림 현상이 전국적으로 광범위하게 나타나고 있다. 산림청은 땅밀림으로 인한 인명 및 재산 피해를 예방하기 위해 땅밀림 우려지 현장조사 판정표를 통해 땅밀림 발생 위험지를 사전에 파악하고 있다. 한편 최근에는 컴퓨터 기술의 발달로 인공지능의 한 분야인 기계학습 분류기법을 이용하여 산지재해 취약성을 평가하거나 자연재해를 예측하고 있다. 따라서 이 연구에서는 기계학습 분류기법인 k-Nearest Neighbor(k-NN), Naive Bayes(NB), Random Forest(RF), 그리고 Support Vector Machine(SVM) 분류모델을 이용하여 땅밀림 발생 위험등급을 분류하였다. 한국치산기술협회의 2018~2020년 조사 자료 4,618개 중에서 땅밀림 현상의 발생 여부를 고려하여 발생지 총 146개소, 그리고 미발생지 146개소를 임의추출하여 292개 자료를 선정하였으며, 이 중 70%에 해당하는 204개소 자료를 훈련자료로 하여 모델을 구축하였다. 전체 자료의 30%에 해당하는 88개 검증자료에 대해 모델을 평가한 결과, k-NN은 0.727, NB는 0.750, RF는 0.807, 그리고 SVM은 0.750의 분류정확도를 보였다. 또한, Kappa 상관계수는 각각 0.534, 0.580, 0.673 및 0.585, 그리고 AUC는 각각 0.872, 0.912, 0.943 및 0.834로 계산되었다. 따라서 땅밀림 위험지역 판정을 위한 기계학습 분류모델은 RF, NB, SVM, 그리고 k-NN 순으로 높은 성능을 보였다. 기계학습 분류모델은 향후 산지토사재해의 예방 및 대응을 위한 기초자료로 활용 가능하며, 땅밀림 재해 관리 및 피해 경감에 위한 정책 개발에 필요한 정보를 제공할 것이다.

로빈스-몬로 확률 근사 알고리즘을 이용한 데이터 분류 (Data Classification Using the Robbins-Monro Stochastic Approximation Algorithm)

  • 이재국;고춘택;최원호
    • 전력전자학회:학술대회논문집
    • /
    • 전력전자학회 2005년도 전력전자학술대회 논문집
    • /
    • pp.624-627
    • /
    • 2005
  • This paper presents a new data classification method using the Robbins Monro stochastic approximation algorithm k-nearest neighbor and distribution analysis. To cluster the data set, we decide the centroid of the test data set using k-nearest neighbor algorithm and the local area of data set. To decide each class of the data, the Robbins Monro stochastic approximation algorithm is applied to the decided local area of the data set. To evaluate the performance, the proposed classification method is compared to the conventional fuzzy c-mean method and k-nn algorithm. The simulation results show that the proposed method is more accurate than fuzzy c-mean method, k-nn algorithm and discriminant analysis algorithm.

  • PDF

모의결함을 갖는 고체절연재에서 발생하는 부분방전 및 패턴분류 (Classification of PD Signals Generated in Solid Dielectrics by Neural Networks)

  • 박성희;이강원;박재열;강성화;임기조
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2003년도 하계학술대회 논문집 C
    • /
    • pp.1876-1878
    • /
    • 2003
  • The recognition of PD(Partial Discharge) phenomenon is useful for classification of defects. The distribution of stochastic parameters which consisted of those PD pulses data and pulses train can show discriminable characteristics of PD sources. But it is not sufficient to discriminate among to PD sources. In this paper, we suggests that classification method of PD source by NN(Neural Networks) are good tools for differentiate of those. The learning scheme of NN is (Back Propagation learning algorithm(BP).

  • PDF

내용기반 오디오 장르 분류를 위한 신호 처리 연구 (A Study on the Signal Processing for Content-Based Audio Genre Classification)

  • 윤원중;이강규;박규식
    • 대한전자공학회논문지SP
    • /
    • 제41권6호
    • /
    • pp.271-278
    • /
    • 2004
  • 본 논문에서는 디지털 신호처리를 이용하여 Classic, Hiphop, Jazz, Rock, Speech 등 5개의 오디오 장르를 자동적으로 분류하는 내용기반 오디오 장르 분류기를 제안하였다. 20초 분량의 질의 오디오로부터 23ms 크기의 Hamming window를 이동시켜 가며 Spectral Centroid, Rolloff, Flux 등 STFT 기반의 특징 계수들과 MFCC, LPC 등의 계수들을 구하여 총 54차에 해당하는 특징 벡터 열을 추출하였으며 분류 알고리즘으로는 k-NN, Gaussian, GMM 분류기를 사용하였다. 최적의 특징 벡터를 선별하는 알고리즘으로 총 54차의 특징벡터 중 가장 성능이 좋은 특징 계수들을 찾아 순차적으로 재배치하는 SFS(Sequential Forward Selection)방법을 사용하였고, 이를 이용하여 최적화 된 10차의 특징 벡터만을 선정해서 오디오 장르 분류에 사용하였다. SFS를 적용한 실험 결과 약 90% 가까운 분류 성공률을 보이고 있어 기존 연구에 비하여 약 10%∼20% 정도의 성능 향상을 꾀 할 수 있었다. 한편 실제 사용자들이 오디오 자동 장르 분류 시스템을 사용할 때 일어날 수 있는 상황을 가정하여 임의 구간에서 질의 데이터를 추출하여 실험을 수행하였으며 실험 결과 오디오 파일의 맨 앞과 맨 뒤 등 worst-case 질의를 제외하고는 약 80%대의 분류 성공률을 얻을 수 있었다.

텍스트 마이닝 기법을 이용한 컴퓨터 네트워크의 침입 탐지 (Using Text Mining Techniques for Intrusion Detection Problem in Computer Network)

  • 오승준;원민관
    • 한국컴퓨터정보학회논문지
    • /
    • 제10권5호
    • /
    • pp.27-32
    • /
    • 2005
  • 최근 들어 데이터 마이닝 기법을 컴퓨터 네트워크의 침입 탐지에 적용하려는 많은 연구가 진행되고 있다. 본 논문에서는 침입 탐지 분야에서 프로그램 행위가 정상적인지 비정상적인지를 분류하기 위한 방법을 연구한다. 이를 위해, 택스트 마이닝 기법중의 하나인 k 최근접 이웃 (kNN) 분류기를 이용한 새로운 방법을 제안한다. 본 논문에서는 택스트 분류 기법을 적용하기 위해 각각의 시스템 호출을 단어로 간주하고, 시스템 호출의 집합들을 문서로 간주한다. 이러한 문서들은 kNN 분류기를 이용하여 분류된다. 간단한 예제를 통하여 제안하는 절차를 소개한다.

  • PDF

k-NN과 SVM을 이용한 유도전동기 고장 분류 (Fault Classification of Induction Motors by k-NN and SVM)

  • 박성무;이대종;권석영;김용삼;전명근
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2006년도 추계학술대회 학술발표 논문집 제16권 제2호
    • /
    • pp.109-112
    • /
    • 2006
  • 본 논문에서는 PCA에 의한 특징추출과 k-NN과 SVM에 기반을 계층구조의 분류기에 의한 유도전동기의 고장진단 알고리즘을 제안한다. 제안된 방법은 k-NN에 의해 선형적으로 분류 가능한 고장패턴을 분류한 후, 분류가 되지 않는 부분을 커널 함수에 의해 고차원 공간으로 입력패턴을 매핑한 후 SVM에 의해 고장을 진단하는 계층구조를 갖는다. 실험장치를 구축한 후, 다양한 부하에 대하여 몇몇의 전기적 고장과 기계적 고장 하에서 획득한 데이터를 이용하여 제안된 방법의 타당성을 검증한다.

  • PDF

적응형 재귀 분할 평균법을 이용한 메모리기반 추론 알고리즘 (A Memory-based Reasoning Algorithm using Adaptive Recursive Partition Averaging Method)

  • 이형일;최학윤
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권4호
    • /
    • pp.478-487
    • /
    • 2004
  • 메모리 기반 추론에서 기억공간의 효율적인 사용과 분류성능의 향상을 위하여 제안되었던 RPA(Recursive Partition Averaging)알고리즘은 대상 패턴 공간을 분할 한 후 대표 패턴을 추출하여 분류 기준 패턴으로 사용한다. 이 기법은 메모리 사용 효율과 분류 성능 면에서 우수한 결과를 보였지만, 분할 종료 조건과 대표패턴의 추출 방법이 분류 성능 저하의 원인이 되는 단점을 가지고 있었다. 여기에서는 기존 RPA의 단점을 보안한 ARPA(Adaptive RPA) 알고리즘을 제안한다. 제안된 알고리즘은 패턴 공간의 분할 종료 조건으로 특징별 최빈 패턴 구간(FPD: Feature-based population densimeter)추출 알고리즘을 사용하며, 학습 결과 패턴의 생성을 대표패턴 추출기법 대신 최빈 패턴 구간을 이용하여 생성한 최적초월평면(OH: Optimized Hyperrectangle)을 사용한다. 제안된 알고리즘은 k-NN 분류기에서 필요로 하는 메모리 공간의 40%정도를 사용하며, 분류에 있어서도 RPA보다 우수한 인식 성능을 보이고 있다. 또한 저장된 패턴의 감소로 인하여, 실제 분류에 소요되는 시간 비교에 있어서도 k-NN보다 월등히 우수한 성능을 보이고 있다.

유전알고리즘을 이용한 최적 k-최근접이웃 분류기 (Optimal k-Nearest Neighborhood Classifier Using Genetic Algorithm)

  • 박종선;허균
    • Communications for Statistical Applications and Methods
    • /
    • 제17권1호
    • /
    • pp.17-27
    • /
    • 2010
  • 분류분석에 사용되는 k-최근접이웃 분류기에 유전알고리즘을 적용하여 의미 있는 변수들과 이들에 대한 가중치 그리고 적절한 k를 동시에 선택하는 알고리즘을 제시하였다. 다양한 실제 자료에 대하여 기존의 여러 방법들과 교차타당성 방법을 통하여 비교한 결과 효과적인 것으로 나타났다.

회전기계 고장 진단에 적용한 인공 신경회로망과 통계적 패턴 인식 기법의 비교 연구 (A Comparison of Artificial Neural Networks and Statistical Pattern Recognition Methods for Rotation Machine Condition Classification)

  • 김창구;박광호;기창두
    • 한국정밀공학회지
    • /
    • 제16권12호
    • /
    • pp.119-125
    • /
    • 1999
  • This paper gives an overview of the various approaches to designing statistical pattern recognition scheme based on Bayes discrimination rule and the artificial neural networks for rotating machine condition classification. Concerning to Bayes discrimination rule, this paper contains the linear discrimination rule applied to classification into several multivariate normal distributions with common covariance matrices, the quadratic discrimination rule under different covariance matrices. Also we discribes k-nearest neighbor method to directly estimate a posterior probability of each class. Five features are extracted in time domain vibration signals. Employing these five features, statistical pattern classifier and neural networks have been established to detect defects on rotating machine. Four different cases of rotation machine were observed. The effects of k number and neural networks structures on monitoring performance have also been investigated. For the comparison of diagnosis performance of these two method, their recognition success rates are calculated form the test data. The result of experiment which classifies the rotating machine conditions using each method presents that the neural networks shows the highest recognition rate.

  • PDF