• 제목/요약/키워드: k-NN분류

검색결과 189건 처리시간 0.039초

범주형 시퀀스 데이터의 K-Nearest Neighbor알고리즘 (A K-Nearest Neighbor Algorithm for Categorical Sequence Data)

  • 오승준
    • 한국컴퓨터정보학회논문지
    • /
    • 제10권2호
    • /
    • pp.215-221
    • /
    • 2005
  • 최근에는 단백질 시퀀스, 소매점 거래 데이터, 웹 로그 등과 같은 상업적이거나 과학적인 데이터의 폭발적인 증가를 볼 수 있다. 이런 데이터들은 순서적인 면을 가지고 있는 시퀀스 데이터들이다. 본 논문에서는 이런 시퀀스 데이터들을 분류하는 문제를 다룬다. 분류 기법 으로는 의사결정 나무나 베이지안 분류기, K-NN방법 등 석러 종류가 있는데, 본 연구에서는 또-U방법을 이용하여 시퀀스들을 분류한다. 또한, 시퀀스들간의 유사도를 구하기 위한 새로운 계산 방법과 효율적인 계산 방법도 제안한다.

  • PDF

바이올린과 첼로 연주 데이터를 이용한 분류 알고리즘의 성능 비교 (Performance Comparison of Classification Algorithms in Music Recognition using Violin and Cello Sound Files)

  • 김재천;곽경섭
    • 한국통신학회논문지
    • /
    • 제30권5C호
    • /
    • pp.305-312
    • /
    • 2005
  • 음악인식에 주로 사용되는 세 가지 알고리즘의 성능을 비교하였다. 다양한 분류알고리즘을 소개하고 그 중 베이지안법, 최근접이웃법과 k-최근접이웃법을 이용하여 악기를 분류하였다. 악기 샘플파일에서 영교차율, 평균, 분산, 평균피크레벨의 4가지 특성값을 추출하여 분류시스템의 데이터로 사용하였다. 사용된 악기 샘플은 바이올린, 바로크 바이올린, 바로크 첼로이다. 실험결과 최근접이웃 알고리즘이 악기 분류에 있어서 가장 좋은 성능을 보여 주었다. 최근접이웃 알고리즘은 단순하면서도 빠른 계산결과를 보여 악기 분류에 적절한 알고리즘으로 판단되었다.

한국 전통음악 (국악)에 대한 자동 장르 분류 시스템 구현 (An Implementation of Automatic Genre Classification System for Korean Traditional Music)

  • 이강규;윤원중;박규식
    • 한국음향학회지
    • /
    • 제24권1호
    • /
    • pp.29-37
    • /
    • 2005
  • 본 논문은 한국의 전통 음악, 즉 국악 장르를 자동으로 분류하는 시스템을 제안한다. 제안된 시스템은 입력 음악의 내용기반 분석을 통하여 궁중음악, 풍류방음악, 민속성악, 민속기악, 불교음악, 무속음악 등 6가지 장르중 하나로 자동분류하여 해당 음악의 장르 결과를 보여준다. 국악 장르 분류에 사용된 내용기반 알고리즘은 크게 음악의 특징 벡터 추출 그리고 장르 분류를 위한 패턴인식 과정 2가지로 구성된다. 음악의 특징 벡터 추출은 디지탈 신호 처리기술을 이용하여 해당 음악의 spectral centroid, rolloff, flux 등 STFT (Short Time Fourier Transform) 기반의 특징 계수들과 MFCC (Mel frequency cepstral coefficient), LPC (Linear predictive coding) 등의 계수들을 구한 후 SFS (Sequential Forward Selection) 최적 특징 벡터 열을 선별하여 사용하였으며 패틴 분류 알고리즘으로는 k-NN (k -Nearest Neighbor), Gaussian, GMM (Gaussian Mixture Model), SVM (Support Vector Machine) 분류기를 사용하였다. 특히 본 연구에서는 입력 질의의 패턴 (혹은 구간) 변화에 따른 시스템의 불확실성을 개선하기 위하여 MFC (Multi Feature Clustring) 방법을 이용하여 DB를 구축하였다. 모의실험 결과 k-NN 과 SVM 분류기 모두 $97{\%}$ 이상의 장르 분류 성공률을 보였으나, SVM 이 k-NN에 비해 약 3배 이상의 빠른 분류 성능을 가지고 있음을 확인하였다.

데이터베이스 워크로드 식별을 위한 수정된 퍼지 k-NN 알고리즘 (A Modified Fuzzy k-NN Algorithm for Identifying Database Workloads)

  • 오정석;이상호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 가을 학술발표논문집 Vol.32 No.2 (2)
    • /
    • pp.70-72
    • /
    • 2005
  • 데이터베이스 관리자는 효과적인 데이터베이스 관리를 위해 워크로드 특성을 잘 알아야 한다. 워크로드 특성은 데이터베이스 응용분야에 따라 다르며, 데이터베이스 환경에서 하나 이상의 응용 분야가 수행될 수 있다. 복합적인 데이터베이스 응용 분야 때문에, 관리자가 데이터베이스 시스템에서 발생하는 워크로드를 식별하기가 더욱 어려워졌다. 복합적인 데이터베이스 응용 분야의 효과적인 데이터베이스 관리를 수행하기 위해 워크로드를 식별할 수 있는 방법이 요구된다. 이를 위해, 본 연구는 TPC-C와 TPC-W 성능평가의 워크로드와 두 성능평가의 혼합된 워크로드들을 생성하여 워크로드 식별을 수행하였다. 워크로드 식별은 퍼지 k-NN 알고리즘을 수정하여 진행하였다. 수정된 k-NN 알고리즘은 혼합 비율에 따라 시험 워크로드 데이터와 훈련 워크로드 데이터간의 워크로드 식별 실험에 사용되었고, 분류를 위한 k-NN, 퍼지 k-NN, 분산 가중치 퍼지 k-NN 알고리즘의 결과와 비교되었다. 수정된 k-NN 알고리즘은 다른 알고리즘보다 k 인자에 따른 변동과 오차율이 감소하여 워크로드 식별에 더 적합함을 보였다. 본 논문의 결과는 복합된 데이터베이스 응용 분야의 특성을 보이는 데이터베이스 환경에서 워크로드 식별 정보를 창조하여 융통성 있는 튜닝 기법을 고려하는데 기여한다.

  • PDF

음성 신호를 이용한 화자의 5가지 감성 인식 (Recognizing Five Emotional States Using Speech Signals)

  • 강봉석;한철희;우경호;양태영;이충용;윤대희
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1999년도 학술발표대회 논문집 제18권 2호
    • /
    • pp.101-104
    • /
    • 1999
  • 본 논문에서는 음성 신호를 이용해서 화자의 감정을 인식하기 위해 3가지 시스템을 구축하고 이들의 성능을 비교해 보았다. 인식 대상으로 하는 감정은 기쁨, 슬픔, 화남, 두려움, 지루함, 평상시의 감정이고, 각 감정에 대한 감정 음성 데이터베이스를 직접 구축하였다. 피치와 에너지 정보를 감성 인식의 특징으로 이용하였고, 인식 알고리듬은 MLB(Maximum-Likelihood Bayes)분류기, NN(Nearest Neighbor)분류기 및 HMM(Hidden Markov Model)분류기를 이용하였다. 이 중 MLB 분류기와 NN 분류기에서는 특징벡터로 피치와 에너지의 평균과 표준편차, 최대값 등 통계적인 정보를 이용하였고, TMM 분류기에서는 각 프레임에서의 델타 피치와 델타델타 피치, 델타 에너지와 델타델타 에너지 등 시간적 정보를 이용하였다. 실험은 화자종속, 문장독립형 방식으로 하였고, 인식 실험 결과는 MLB를 이용해서 $68.9\%, NN을 이용해서 $66.7\%를 얻었고, HMM 분류기를 이용해서 $89.30\%를 얻었다.

  • PDF

땅밀림 위험지 평가를 위한 기계학습 분류모델 비교 (A Performance Comparison of Machine Learning Classification Methods for Soil Creep Susceptibility Assessment)

  • 이제만;서정일;이진호;임상준
    • 한국산림과학회지
    • /
    • 제110권4호
    • /
    • pp.610-621
    • /
    • 2021
  • 지진 발생과 집중호우에 의해 땅밀림형 산사태 유형으로 분류되는 땅밀림 현상이 전국적으로 광범위하게 나타나고 있다. 산림청은 땅밀림으로 인한 인명 및 재산 피해를 예방하기 위해 땅밀림 우려지 현장조사 판정표를 통해 땅밀림 발생 위험지를 사전에 파악하고 있다. 한편 최근에는 컴퓨터 기술의 발달로 인공지능의 한 분야인 기계학습 분류기법을 이용하여 산지재해 취약성을 평가하거나 자연재해를 예측하고 있다. 따라서 이 연구에서는 기계학습 분류기법인 k-Nearest Neighbor(k-NN), Naive Bayes(NB), Random Forest(RF), 그리고 Support Vector Machine(SVM) 분류모델을 이용하여 땅밀림 발생 위험등급을 분류하였다. 한국치산기술협회의 2018~2020년 조사 자료 4,618개 중에서 땅밀림 현상의 발생 여부를 고려하여 발생지 총 146개소, 그리고 미발생지 146개소를 임의추출하여 292개 자료를 선정하였으며, 이 중 70%에 해당하는 204개소 자료를 훈련자료로 하여 모델을 구축하였다. 전체 자료의 30%에 해당하는 88개 검증자료에 대해 모델을 평가한 결과, k-NN은 0.727, NB는 0.750, RF는 0.807, 그리고 SVM은 0.750의 분류정확도를 보였다. 또한, Kappa 상관계수는 각각 0.534, 0.580, 0.673 및 0.585, 그리고 AUC는 각각 0.872, 0.912, 0.943 및 0.834로 계산되었다. 따라서 땅밀림 위험지역 판정을 위한 기계학습 분류모델은 RF, NB, SVM, 그리고 k-NN 순으로 높은 성능을 보였다. 기계학습 분류모델은 향후 산지토사재해의 예방 및 대응을 위한 기초자료로 활용 가능하며, 땅밀림 재해 관리 및 피해 경감에 위한 정책 개발에 필요한 정보를 제공할 것이다.

인공신경망 기반 가스 분류기의 설계 (Design of Gas Classifier Based On Artificial Neural Network)

  • 정우재;김민우;조재찬;정윤호
    • 전기전자학회논문지
    • /
    • 제22권3호
    • /
    • pp.700-705
    • /
    • 2018
  • 본 논문에서는 restricted coulomb energy(RCE) 신경망 기반 가스 분류기를 제안하고, 이의 실시간 학습 및 분류를 위한 하드웨어 구현 결과를 제시한다. RCE 신경망은 네트워크 구조가 학습에 따라 유동적이며, 실시간 학습 및 분류가 가능하므로, 가스 분류 응용에 적합한 특징을 갖는다. 설계된 가스 분류기는 UCI gas dataset에 대해 99.2%의 분류 정확도를 보였으며, Intel-Altera cyclone IV FPGA 기반 구현 결과, 26,702개의 logic elements로 구현 가능함을 확인하였다. 또한, FPGA test system을 구성하여 63MHz의 동작 주파수로 실시간 검증을 수행하였다.

신경망 또는 k-NN에 의한 신문 기사 분류와 그의 성능 비교 (The Comparison of Neural Network and k-NN Algorithm for News Article Classification)

  • 조태호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1998년도 가을 학술발표논문집 Vol.25 No.2 (2)
    • /
    • pp.363-365
    • /
    • 1998
  • 텍스트 마이닝(Text Mining)이란 텍스트형태의 문서들의 패턴 또는 관계를 추출하여 사용자가 원하는 새로운 정보를 가공하거나 기존의 정보를 변형하는 과정을 말한다. 텍스트 마이닝의 기능에는 문서 범주화(Document Categorization), 문서 군집화(Document Clustering), 그리고 문서 요약(Document Summarization)이 이에 해당된다. 문서 범주화란 문서에게 사전에 정의한 범주를 부여하는 과정을 말하고, 문서 군집화란 문서들을 계층적 구조로 형성하는 과정을 말하고, 문서 요약이란 문서의 전체 내용을 대표할 수 있는 내용의 일부만을 추출하는 과정을 말한다. 이 논문에서는 문서 범주화만을 다룰 것이며 그 대상으로는 신문기사로 설정하였다. 그의 범주는 4가지로 정치, 경제, 스포츠, 그리고 정보통신으로 설정하였다. 문서 범주화는 문서 분류(Document Classification)라고도 하며 문서에 범주를 자동으로 부여하여 기존에 인위적으로 부여함으로써 소요되는 시간과 비용을 절감하는 것이 목적이다. 문서 범주화에 대하여 k-NN(k-Nearest Neighbor)와 신경망을 이용하였으며, 신경망을 이용한 경우가 k-NN을 이용한 경우보다 성능이 우수하였다.

  • PDF

k-NN 기법을 이용한 학습자 데이터의 노이즈 선별 방법 (Noise-Reduction of Student's Learning Data using k-NN Method)

  • 윤태복;이지형;정영모;차현진;박선희;김용세
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2006년도 추계학술대회 학술발표 논문집 제16권 제2호
    • /
    • pp.135-138
    • /
    • 2006
  • 사용자 모델링을 위해서는 사용자의 성향 및 행위 등의 다양한 정보를 수집하여 분석에 이용한다. 하지만 사용자(인간)로 부터 얻은 데이터는 기계나 환경에서 수집된 데이터 보다 패턴을 찾기 힘들어 모델링하기 어렵다. 그 이유는 사용자는 사용자의 현재 상태와 상황에 따라 다양한 결과를 보이며, 일관성을 유지 하지 않는 경우가 있기 때문이다. 사용자 모델링을 위해서는 분산되어 있는 데이터에서 노이즈를 선별하고 연관성 있는 데이터를 분류할 수 있는 기술이 필요하다. 본 논문은 사용자로 부터 수집된 데이터를 k-NN(Nearest Neighbor) 기법을 이용하여 노이즈를 선별한다. 노이즈가 제거된 데이터는 의사결정나무(Decision Tree)방법을 이용하여 학습하였고, 노이즈가 분류되기 전과 비교 분석 하였다. 실험에서는 홈 인테리어 학습 컨텐츠인 DOLLS-HI를 이용하여 수집된 학습자의 데이터를 이용하였고, 생성된 학습자 모델링의 신뢰도가 높아지는 것을 확인하였다.

  • PDF

BCI에서 기계 학습을 위한 간질 뇌파 특징 선택을 통한 차원 감소 방법 분석 (Analysis of Dimensionality Reduction Methods Through Epileptic EEG Feature Selection for Machine Learning in BCI)

  • 양통;;임창균
    • 한국전자통신학회논문지
    • /
    • 제13권6호
    • /
    • pp.1333-1342
    • /
    • 2018
  • 지금까지 뇌파(Electroencephalography - EEG)는 뇌전증 진단 및 치료를 위한 가장 중요하고 편리한 방법이었다. 그러나 뇌전증 뇌파 신호의 파형 특성은 매우 약하고 비 정지 상태이며 배경 노이즈가 강하기 때문에 식별하기가 어렵다. 이 논문에서는 간질 뇌파의 특징 선택을 통한 차원 감소를 통한 분류 방법의 효과를 분석한다. 우리는 차원 감소를 위해 주 요소 분석, 커널 요소 분석, 선형 판별 분석 방법을 사용하였다. 차원 감소방법의 성능 분석을 위해 Support Vector Machine: SVM), Logistic Regression(: LR), K-Nearestneighbor(: K-NN), Decision Tree(: DR), Random Forest(: RF) 분류 방법들을 사용해 평가하였다. 실험 결과에 따르면, PCA는 SVM, LR 및 K-NN에서 75% 정확도를 나타냈다. KPCA는 SVM과 K-KNN에서 85%의 성능을 보였으며 LDA는 K-NN를 이용했을 때 100 %의 정확도 보여주었다. 따라서 LDA를 이용한 차원 감소가 뇌전증 EEG 신호에 대한 최고의 분류 결과 보여주었다.