• 제목/요약/키워드: k-NN분류

검색결과 189건 처리시간 0.024초

단어간 연관성을 사용한 kNN 알고리즘 (kNN Alogrithm by Using Relationship with Words)

  • 전승룡;이재문;오하령
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2007년도 추계학술발표대회
    • /
    • pp.471-474
    • /
    • 2007
  • 본 논문은 연관규칙탐사 기술에서 사용되는 빈발항목집합과 동일한 개념으로 문서분류의 문서에서 빈발단어집합을 정의하고, 이를 사용하여 문서분류 방법으로 잘 알려진 kNN에 적용하였다. 이를 위하여 하나의 문서는 여러 개의 문단으로 나뉘어졌으며, 각 문단에 나타나는 단어들의 집합을 트랜잭션화하여 빈발단어집합을 찾을 수 있도록 하였다. 제안한 방법은 AI::Categorizer 프레임워크에서 구현되었으며 로이터-21578 데이터를 사용하여 학습문서의 크기에 따라 그 정확도가 측정되었다. 정확도의 측정된 결과로 부터 제안된 방법이 기존의 방법에 비하여 정확도를 개선한다는 사실을 알 수 있었다.

내용기반 오디오 장르 분류를 위한 신호 처리 연구 (A Study on the Signal Processing for Content-Based Audio Genre Classification)

  • 윤원중;이강규;박규식
    • 대한전자공학회논문지SP
    • /
    • 제41권6호
    • /
    • pp.271-278
    • /
    • 2004
  • 본 논문에서는 디지털 신호처리를 이용하여 Classic, Hiphop, Jazz, Rock, Speech 등 5개의 오디오 장르를 자동적으로 분류하는 내용기반 오디오 장르 분류기를 제안하였다. 20초 분량의 질의 오디오로부터 23ms 크기의 Hamming window를 이동시켜 가며 Spectral Centroid, Rolloff, Flux 등 STFT 기반의 특징 계수들과 MFCC, LPC 등의 계수들을 구하여 총 54차에 해당하는 특징 벡터 열을 추출하였으며 분류 알고리즘으로는 k-NN, Gaussian, GMM 분류기를 사용하였다. 최적의 특징 벡터를 선별하는 알고리즘으로 총 54차의 특징벡터 중 가장 성능이 좋은 특징 계수들을 찾아 순차적으로 재배치하는 SFS(Sequential Forward Selection)방법을 사용하였고, 이를 이용하여 최적화 된 10차의 특징 벡터만을 선정해서 오디오 장르 분류에 사용하였다. SFS를 적용한 실험 결과 약 90% 가까운 분류 성공률을 보이고 있어 기존 연구에 비하여 약 10%∼20% 정도의 성능 향상을 꾀 할 수 있었다. 한편 실제 사용자들이 오디오 자동 장르 분류 시스템을 사용할 때 일어날 수 있는 상황을 가정하여 임의 구간에서 질의 데이터를 추출하여 실험을 수행하였으며 실험 결과 오디오 파일의 맨 앞과 맨 뒤 등 worst-case 질의를 제외하고는 약 80%대의 분류 성공률을 얻을 수 있었다.

TextRank 알고리즘을 이용한 문서 범주화 (Text Categorization Using TextRank Algorithm)

  • 배원식;차정원
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권1호
    • /
    • pp.110-114
    • /
    • 2010
  • 본 논문에서는 TextRank 알고리즘을 이용한 문서 범주화 방법에 대해 기술한다. TextRank 알고리즘은 그래프 기반의 순위화 알고리즘이다. 문서에서 나타나는 각각의 단어를 노드로, 단어들 사이의 동시출현성을 이용하여 간선을 만들면 문서로부터 그래프를 생성할 수 있다. TextRank 알고리즘을 이용하여 생성된 그래프로부터 중요도가 높은 단어를 선택하고, 그 단어와 인접한 단어를 묶어 하나의 자질로 사용하여 문서 분류를 수행하였다. 동시출현 자질(인접한 단어 쌍)은 단어 하나가 갖는 의미를 보다 명확하게 만들어주므로 문서 분류에 좋은 자질로 사용될 수 있을 것이라 가정하였다. 문서 분류기로는 지지 벡터 기계, 베이지언 분류기, 최대 엔트로피 모델, k-NN 분류기 등을 사용하였다. 20 Newsgroups 문서 집합을 사용한 실험에서 모든 분류기에서 제안된 방법을 사용했을 때, 문서 분류 성능이 향상된 결과를 확인할 수 있었다.

단어 중의성 해소를 위한 지도학습 방법의 통계적 자질선정에 관한 연구 (A Study on Statistical Feature Selection with Supervised Learning for Word Sense Disambiguation)

  • 이용구
    • 한국비블리아학회지
    • /
    • 제22권2호
    • /
    • pp.5-25
    • /
    • 2011
  • 이 연구는 지도학습 방법을 이용한 단어 중의성 해소가 최적의 성능을 가져오는 통계적 자질선정 방법과 다양한 문맥의 크기를 파악하고자 하였다. 실험집단인 한글 신문기사에 자질선정 기준으로 정보획득량, 카이제곱 통계량, 문헌빈도, 적합성 함수 등을 적용하였다. 실험 결과, 텍스트 범주화 기법과 같이 단어 중의성 해소에서도 자질선정 방법이 매우 유용한 수단이 됨을 알 수 있었다. 실험에 적용한 자질선중 기준 중에 정보획득량이 가장 좋은 성능을 보였다. SVM 분류기는 자질집합 크기와 문맥 크기가 클수록 더 좋은 성능을 보여 자질선정에 영향을 받지 않았다. 나이브 베이즈 분류기는 10% 정도의 자질집합 크기에서 가장 좋은 성능을 보였다. kNN의 경우 10% 이하의 자질에서 가장 좋은 성능을 보였다. 단어 중의성 해소를 위한 자질선정을 적용할 때 작은 자질집합 크기와 큰 문맥 크기를 조합하거나, 반대로 큰 자질집합 크기와 작은 문맥 크기를 조합하면 성능을 극대화 할 수 있다.

근전도 신호 기반 손목 움직임 패턴 분류 알고리즘에 대한 연구 (Pattern Classification Algorithm for Wrist Movements based on EMG)

  • 최항적;김유현;심현민;윤광섭;이상민
    • 재활복지공학회논문지
    • /
    • 제7권2호
    • /
    • pp.69-74
    • /
    • 2013
  • 본 연구에서는 손목 움직임의 추정을 위한 근전도 신호 기반 동작 분류 알고리즘을 제안한다. 근전도의 특징점을 추출하기 위하여 절대차분표준편차(DASDV)과 제곱평균제곱근(RMS)을 사용하며, 측정 된 근전도 신호를 이용하여 동작 마다 30개의 특징점(RMS, DASDV)을 추출한다. 근전도 신호를 특정한 패턴으로 나타내어 적용시키기 위하여 평균값을 기준으로 집단을 두 부분으로 나누고, 패턴분류 방법인 k-NN으로 패턴을 학습시킨 후, 집단을 나누지 않은 방법을 사용한 기존의 연구와 비교하여 제안한 알고리즘의 성능을 검증한다. 실험결과 제안한 알고리즘은 92.59%의 인식률을 보였으며, 이전 연구 결과보다 0.84% 포인트의 성능 개선을 보였다.

  • PDF

단행본 서명의 단어 임베딩에 따른 자동분류의 성능 비교 (Performance Comparison of Automatic Classification Using Word Embeddings of Book Titles)

  • 이용구
    • 정보관리학회지
    • /
    • 제40권4호
    • /
    • pp.307-327
    • /
    • 2023
  • 이 연구는 짧은 텍스트인 서명에 단어 임베딩이 미치는 영향을 분석하기 위해 Word2vec, GloVe, fastText 모형을 이용하여 단행본 서명을 임베딩 벡터로 생성하고, 이를 분류자질로 활용하여 자동분류에 적용하였다. 분류기는 k-최근접 이웃(kNN) 알고리즘을 사용하였고 자동분류의 범주는 도서관에서 도서에 부여한 DDC 300대 강목을 기준으로 하였다. 서명에 대한 단어 임베딩을 적용한 자동분류 실험 결과, Word2vec와 fastText의 Skip-gram 모형이 TF-IDF 자질보다 kNN 분류기의 자동분류 성능에서 더 우수한 결과를 보였다. 세 모형의 다양한 하이퍼파라미터 최적화 실험에서는 fastText의 Skip-gram 모형이 전반적으로 우수한 성능을 나타냈다. 특히, 이 모형의 하이퍼파라미터로는 계층적 소프트맥스와 더 큰 임베딩 차원을 사용할수록 성능이 향상되었다. 성능 측면에서 fastText는 n-gram 방식을 사용하여 하부문자열 또는 하위단어에 대한 임베딩을 생성할 수 있어 재현율을 높이는 것으로 나타났다. 반면에 Word2vec의 Skip-gram 모형은 주로 낮은 차원(크기 300)과 작은 네거티브 샘플링 크기(3이나 5)에서 우수한 성능을 보였다.

일반엑스선검사 교육용 시뮬레이터 개발을 위한 기계학습 분류모델 비교 (Comparison of Machine Learning Classification Models for the Development of Simulators for General X-ray Examination Education)

  • 이인자;박채연;이준호
    • 대한방사선기술학회지:방사선기술과학
    • /
    • 제45권2호
    • /
    • pp.111-116
    • /
    • 2022
  • In this study, the applicability of machine learning for the development of a simulator for general X-ray examination education is evaluated. To this end, k-nearest neighbor(kNN), support vector machine(SVM) and neural network(NN) classification models are analyzed to present the most suitable model by analyzing the results. Image data was obtained by taking 100 photos each corresponding to Posterior anterior(PA), Posterior anterior oblique(Obl), Lateral(Lat), Fan lateral(Fan lat). 70% of the acquired 400 image data were used as training sets for learning machine learning models and 30% were used as test sets for evaluation. and prediction model was constructed for right-handed PA, Obl, Lat, Fan lat image classification. Based on the data set, after constructing the classification model using the kNN, SVM, and NN models, each model was compared through an error matrix. As a result of the evaluation, the accuracy of kNN was 0.967 area under curve(AUC) was 0.993, and the accuracy of SVM was 0.992 AUC was 1.000. The accuracy of NN was 0.992 and AUC was 0.999, which was slightly lower in kNN, but all three models recorded high accuracy and AUC. In this study, right-handed PA, Obl, Lat, Fan lat images were classified and predicted using the machine learning classification models, kNN, SVM, and NN models. The prediction showed that SVM and NN were the same at 0.992, and AUC was similar at 1.000 and 0.999, indicating that both models showed high predictive power and were applicable to educational simulators.

외골격 로봇의 동작인식을 위한 보행의 운동학적 요인을 이용한 보행유형 분류 (Gait Type Classification Based on Kinematic Factors of Gait for Exoskeleton Robot Recognition)

  • 조재훈;봉원우;김동현;최현기
    • 대한의용생체공학회:의공학회지
    • /
    • 제38권3호
    • /
    • pp.129-136
    • /
    • 2017
  • 외골격 로봇은 군사, 산업 및 의료와 같은 다양한 분야에서 사용되도록 개발된 기술이다. 외골격 로봇은 착용자의 움직임을 감지하여 작동한다. 외골격 로봇이 착용자의 일상적인 행동을 인지함으로써 착용자를 신속하게 보조하고 시스템을 효율적으로 활용할 수 있다. 본 연구에서는 피실험자로부터 얻은 운동학적 데이터를 통해 LDA, QDA, kNN을 활용하여 보행유형을 분류한다. 보행은 주로 일상생활에서 수행되는 일반보행과 계단보행을 선정하였다. 피실험자에게 7개의 IMUs 센서를 정해진 위치에 부착하여 운동학적 요소를 측정 하였다. 결과적으로, LDA는 78.42%, QDA는 86.16%, kNN는 k값에 따라 87.10% ~ 94.49%의 정확도로 분류하였다.

메타데이터를 활용한 조사자료의 문서범주화에 관한 연구 (An Exploratory Study on Survey Data Categorization using DDI metadata)

  • 박자현;송민
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2012년도 제19회 학술대회 논문집
    • /
    • pp.73-76
    • /
    • 2012
  • 본 연구는 DDI 메타데이터를 활용하여 귀납적 학습모델(supervised learning model)의 문서범주화 실험을 수행함으로써 조사자료의 체계적이고 효율적인 분류작업을 설계하는데 그 목적이 있다. 구체적으로 조사자료의 DDI 메타데이터를 대상으로 단순 TF 가중치, TF-IDF 가중치, Okapi TF 가중치에 따른 나이브 베이즈(Naive Bayes), kNN(k nearest neighbor), 결정트리(Decision tree) 분류기의 성능비교 실험을 하였다. 그 결과, 나이브 베이즈가 가장 좋은 성능을 보였으며, 단순 TF 가중치와 TF-IDF 가중치는 나이브 베이즈, kNN, 결정트리 분류기에서 동일한 성능을 보였으나, Okapi TF 가중치의 경우 나이브 베이즈에서 가장 좋은 성능을 보였다.

  • PDF

반복적 고정분할 평균기법을 이용한 메모리기반 학습기법 (A Memory-based Learning using Repetitive Fixed Partitioning Averaging)

  • 이형일
    • 한국멀티미디어학회논문지
    • /
    • 제10권11호
    • /
    • pp.1516-1522
    • /
    • 2007
  • FPA(Fixed Partition Averaging) 기법은 기억공간의 효율적인 사용과 분류성능의 향상을 위하여 제안되었던 메모리 기반 추론 기법으로 대상 패턴 공간을 분할 한 후 대표 패턴을 추출하여 분류 기준 패턴으로 사용한다. 이 기법은 메모리 사용 효율과 분류 성능 면에서 우수한 결과를 보인다. 그러나 여러 클래스가 혼합된 분할패턴공간의 경우에 원래의 패턴들을 그대로 저장하여 메모리와 분류성능에 부담으로 작용하는 문제점을 가지고 있다. 본 논문에서는 여러 클래스가 혼합된 분할공간에서 패턴비율을 고려하여 고정분할을 반복적으로 실행하여 초월평면을 생성하고 분류하는 반복적 고정분할평균기법을 제안한다. 본 논문에서 제안한 기법은 기존의 k-NN 기법과 비교하여 현저하게 줄어든 대표패턴을 이용하여 유사한 분류 성능을 보여주며, NGE 이론을 구현한 EACH 시스템과 FPA 기법 등과 비교하여 탁월한 분류 성능을 보여준다.

  • PDF