• 제목/요약/키워드: k-NN classification

검색결과 188건 처리시간 0.024초

점진적 모델에 기반한 다채널 시계열 데이터 EEG의 특징 분석 (Feature Analysis of Multi-Channel Time Series EEG Based on Incremental Model)

  • 김선희;양형정;;정종문
    • 정보처리학회논문지B
    • /
    • 제16B권1호
    • /
    • pp.63-70
    • /
    • 2009
  • BCI 기술은 생체신호인 뇌파를 수집하여 신호처리를 거친 후 실질적인 기기제어 및 통신 시스템 등을 제어하는 시스템 관련 기술이다. BCI 시스템 구현을 위해서는 뇌파의 특성을 실시간으로 분석하여 학습 시키고 학습된 뇌파의 특성을 적용하는 단계가 요구된다. 본 논문에서는 EEG 데이터를 효율적으로 분석하기 위해 점진적으로 갱신되는 주성분 분석을 이용하여 왼손/오른손 동작에 영향을 미치는 EEG 신호의 특징을 찾고, 이를 반영하여 데이터의 차원을 축소한다. 입력 자료의 특징을 충분히 포함하면서 낮은 차원을 가지는 데이터를 이용한다면 분류를 위한 계산량을 감소시킬 수 있을 뿐만 아니라 불필요한 특징을 제거함으로써 분류 성능을 향상 시킬 수 있다. 본 논문에서는 점진적으로 갱신되는 주성분 분석을 이용하여 데이터의 차원을 축소하고 이에 대한 효율성을 검증하기 위해 K-NN분류기를 이용하여 분류 정확도 측정을 수행하였다. 그 결과 주성분 분석을 이용하여 특징을 추출하고 분류율을 측정한 경우보다 평균 5% 높은 분류 정확율을 보였다.

특징선택 기법에 기반한 UNSW-NB15 데이터셋의 분류 성능 개선 (Classification Performance Improvement of UNSW-NB15 Dataset Based on Feature Selection)

  • 이대범;서재현
    • 한국융합학회논문지
    • /
    • 제10권5호
    • /
    • pp.35-42
    • /
    • 2019
  • 최근 사물인터넷과 다양한 웨어러블 기기들이 등장하면서 인터넷 기술은 보다 편리하게 정보를 얻고 업무를 수행하는데 기여하고 있으나 인터넷이 다양한 부분에 이용되면서 공격에 노출되는 Attack Surface 지점이 증가하고 있으며 개인정보 획득, 위조, 사이버 테러 등 부당한 이익을 취하기 위한 목적의 네트워크 침입 시도 또한 증가하고 있다. 본 논문에서는 네트워크에서 발생하는 트래픽에서 비정상적인 행동을 분류하기 위한 희소클래스의 분류 성능을 개선하는 특징선택을 제안한다. UNSW-NB15 데이터셋은 다른 클래스에 비해 상대적으로 적은 인스턴스를 가지는 희소클래스 불균형 문제가 발생하며 이를 제거하기 위해 언더샘플링 방법을 사용한다. 학습 알고리즘으로 SVM, k-NN 및 decision tree를 사용하고 훈련과 검증을 통하여 탐지 정확도와 RMSE가 우수한 조합의 서브셋들을 추출한다. 서브셋들은 래퍼 기반의 실험을 통해 재현률 98%이상의 유효성을 입증하였으며 DT_PSO 방법이 가장 우수한 성능을 보였다.

이동통신 환경에서 강인한 음성 감성특징 추출에 대한 연구 (A Study on Robust Speech Emotion Feature Extraction Under the Mobile Communication Environment)

  • 조윤호;박규식
    • 한국음향학회지
    • /
    • 제25권6호
    • /
    • pp.269-276
    • /
    • 2006
  • 본 논문은 이동전화 (Cellular phone)를 통해 실시간으로 습득된 음성으로부터 사람의 감성 상태를 평상 혹은 화남으로 인식할 수 있는 음성 감성인식 시스템을 제안하였다. 일반적으로 이동전화를 통해 수신된 음성은 화자의 환경 잡음과 네트워크 잡음을 포함하고 있어 음성 신호의 감성특정을 왜곡하게 되고 이로 인해 인식 시스템에 심각한 성능저하를 초래하게 된다. 본 논문에서는 이러한 잡음 영향을 최소화하기 위해 비교적 단순한 구조와 적은 연산량을 가진 MA (Moving Average) 필터를 감성 특정벡터에 적용해서 잡음에 의한 시스템 성능저하를 최소화하였다. 또한 특정벡터를 최적화할 수 있는 SFS (Sequential Forward Selection) 기법을 사용해서 제안 감성인식 시스템의 성능을 한층 더 안 정화시켰으며 감성 패턴 분류기로는 k-NN과 SVM을 비교하였다. 실험 결과 제안 시스템은 이동통신 잡음 환경에서 약 86.5%의 높은 인식률을 달성할 수 있어 향후 고객 센터 (Call-center) 등에 유용하게 사용될 수 있을 것으로 기대된다.

디지털 영상처리와 신경망을 이용한 2차원 평면 물체 품질 제어 (Quality Control of Two Dimensions Using Digital Image Processing and Neural Networks)

  • 김진환;서보혁;박성욱
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2004년도 하계학술대회 논문집 D
    • /
    • pp.2580-2582
    • /
    • 2004
  • In this paper, a Neural Network(NN) based approach for classification of two dimensions images. The proposed algorithm is able to apply in the actual industry. The described diagnostic algorithm is presented to defect surface failures on tiles. A way to get data for a digital image process is several kinds of it. The tiles are scanned and the digital images are preprocessed and classified using neural networks. It is important to reduce the amount of input data with problem specific preprocessing. The auto-associative neural network is used for feature generation and selection while the probabilistic neural network is used for classification. The proposed algorithm is evaluated experimentally using one hundred of the real tile images. Sample image data to preprocess have histogram. The histogram is used as input value of probabilistic neural network. Auto-associative neural network compress input data and compressed data is classified using probabilistic neural network. Classified sample images are determined by human state. So it is intervened human subjectivity. But digital image processing and neural network are better than human classification ability. Therefore it is very useful of quality control improvement.

  • PDF

근육 활성화 모델 기반의 데이터 증강을 활용한 동시 동작 인식 프레임워크 (Simultaneous Motion Recognition Framework using Data Augmentation based on Muscle Activation Model)

  • 김세진;정완균
    • 로봇학회논문지
    • /
    • 제19권2호
    • /
    • pp.203-212
    • /
    • 2024
  • Simultaneous motion is essential in the activities of daily living (ADL). For motion intention recognition, surface electromyogram (sEMG) and corresponding motion label is necessary. However, this process is time-consuming and it may increase the burden of the user. Therefore, we propose a simultaneous motion recognition framework using data augmentation based on muscle activation model. The model consists of multiple point sources to be optimized while the number of point sources and their initial parameters are automatically determined. From the experimental results, it is shown that the framework has generated the data which are similar to the real one. This aspect is quantified with the following two metrics: structural similarity index measure (SSIM) and mean squared error (MSE). Furthermore, with k-nearest neighbor (k-NN) or support vector machine (SVM), the classification accuracy is also enhanced with the proposed framework. From these results, it can be concluded that the generalization property of the training data is enhanced and the classification accuracy is increased accordingly. We expect that this framework reduces the burden of the user from the excessive and time-consuming data acquisition.

Evaluation of Machine Learning Algorithm Utilization for Lung Cancer Classification Based on Gene Expression Levels

  • Podolsky, Maxim D;Barchuk, Anton A;Kuznetcov, Vladimir I;Gusarova, Natalia F;Gaidukov, Vadim S;Tarakanov, Segrey A
    • Asian Pacific Journal of Cancer Prevention
    • /
    • 제17권2호
    • /
    • pp.835-838
    • /
    • 2016
  • Background: Lung cancer remains one of the most common cancers in the world, both in terms of new cases (about 13% of total per year) and deaths (nearly one cancer death in five), because of the high case fatality. Errors in lung cancer type or malignant growth determination lead to degraded treatment efficacy, because anticancer strategy depends on tumor morphology. Materials and Methods: We have made an attempt to evaluate effectiveness of machine learning algorithms in the task of lung cancer classification based on gene expression levels. We processed four publicly available data sets. The Dana-Farber Cancer Institute data set contains 203 samples and the task was to classify four cancer types and sound tissue samples. With the University of Michigan data set of 96 samples, the task was to execute a binary classification of adenocarcinoma and non-neoplastic tissues. The University of Toronto data set contains 39 samples and the task was to detect recurrence, while with the Brigham and Women's Hospital data set of 181 samples it was to make a binary classification of malignant pleural mesothelioma and adenocarcinoma. We used the k-nearest neighbor algorithm (k=1, k=5, k=10), naive Bayes classifier with assumption of both a normal distribution of attributes and a distribution through histograms, support vector machine and C4.5 decision tree. Effectiveness of machine learning algorithms was evaluated with the Matthews correlation coefficient. Results: The support vector machine method showed best results among data sets from the Dana-Farber Cancer Institute and Brigham and Women's Hospital. All algorithms with the exception of the C4.5 decision tree showed maximum potential effectiveness in the University of Michigan data set. However, the C4.5 decision tree showed best results for the University of Toronto data set. Conclusions: Machine learning algorithms can be used for lung cancer morphology classification and similar tasks based on gene expression level evaluation.

동적 분할 평균을 이용한 새로운 메모리 기반 학습기법 (A New Memory-based Learning using Dynamic Partition Averaging)

  • 이형일
    • 한국지능시스템학회논문지
    • /
    • 제18권4호
    • /
    • pp.456-462
    • /
    • 2008
  • 분류란 새로운 자료를 주어진 클래스 중의 하나로 구분하는 것으로 가장 일반적으로 사용되는 데이터마이닝 기법 중의 하나이다. 그중 메모리기반 추론(MBR : Memory-Based Reasoning)은 추론 규칙 없이 특징들의 최초의 벡터 형태에 의해 표현된 학습패턴을 단순히 저장한다. 그리고 분류 시에 새로운 자료가 메모리에 저장된 학습패턴들과의 거리를 계산하여 가장 가까운 거리에 있는 학습패턴의 클래스로 분류하는 기법이다. MBR 기법에서 학습패턴이 커지면 저장에 필요한 메모리의 크기도 커질 뿐만 아니라 추론을 위한 계산도 많아지는 문제점을 가지고 있다. 이러한 문제를 해결하기 위한 대표적인 방법으로 초월평면을 이용하는 NGE 이론과 대표패턴을 추출하여 학습하는 FPA 기법과 RPA 기법 등을 들을 수 있다. 본 논문에서는 학습패턴 공간을 GINI-Index값을 이용하여 일련의 최적 분할점을 찾아 가변크기로 분할하는 동적분할평균(DPA : Dynamic Partition Averaging)기법을 제안하였다. 제안한 기법의 성능을 검증하기 위하여 MBR기법 중 널리 사용되는 k-NN 기법과 비교하였다. 제안한 기법이 k-NN기법에 비해 대표패턴 개수는 줄이고 분류성능은 유사하게 유지시킨 것을 보여주었다. 또한, 제안한 기법은 NGE 이론을 구현한 EACH 시스템과 대표패턴 기법인 FPA기법과 RPA기법 등과 비교하여 탁월한 분류 성능을 보여주었다.

학습문헌집합에 기 부여된 범주의 정확성과 문헌 범주화 성능 (The Effect of the Quality of Pre-Assigned Subject Categories on the Text Categorization Performance)

  • 심경;정영미
    • 정보관리학회지
    • /
    • 제23권2호
    • /
    • pp.265-285
    • /
    • 2006
  • 문헌범주화에서는 학습문헌집합에 부여된 주제범주의 정확성이 일정 수준을 가진다고 가정한다. 그러나, 이는 실제 문헌집단에 대한 지식이 없이 이루어진 가정이다. 본 연구는 실제 문헌집단에서 기 부여된 주제범주의 정확성의 수준을 알아보고, 학습문헌집합에 기 부여된 주제범주의 정확도와 문헌범주화 성능과의 관계를 확인하려고 시도하였다. 특히, 학습문헌집합에 부여된 주제범주의 질을 수작업 재색인을 통하여 향상시킴으로써 어느 정도까지 범주화 성능을 향상시킬 수 있는가를 파악하고자 하였다. 이를 위하여 과학기술분야의 1,150 초록 레코드 1,150건을 전문가 집단을 활용하여 재색인한 후, 15개의 중복문헌을 제거하고 907개의 학습문헌집합과 227개의 실험문헌집합으로 나누었다. 이들을 초기문헌집단, Recat-1, Recat-2의 재 색인 이전과 이후 문헌집단의 범주화 성능을 kNN 분류기를 이용하여 비교하였다. 초기문헌집단의 범주부여 평균 정확성은 16%였으며, 이 문헌집단의 범주화 성능은 $F_1$값으로 17%였다. 반면, 주제범주의 정확성을 향상시킨 Recat-1 집단은 $F_1$값 61%로 초기문헌집단의 성능을 3.6배나 향상시켰다.

확장된 Relief-F 알고리즘을 이용한 소규모 크기 문서의 자동분류 (Document Classification of Small Size Documents Using Extended Relief-F Algorithm)

  • 박흠
    • 정보처리학회논문지B
    • /
    • 제16B권3호
    • /
    • pp.233-238
    • /
    • 2009
  • 자질 수가 적은 소규모 크기 문서들의 자동분류는 좋은 성능을 얻기 어렵다. 그 이유는 문서집단 전체의 자질 수는 크지만 단위 문서 내 자질 수가 상대적으로 너무 적기 때문에 문서간 유사도가 너무 낮아 우수한 분류 알고리즘을 적용해도 좋은 성능을 얻지 못한다. 특히 웹 디렉토리 문서들의 자동분류에서나, 디스크 복구 작업에서 유사도 평가와 자동분류로 연결되지 않은 섹터를 연결하는 작업에서와 같은 소규모 크기 문서의 자동분류에서는 좋은 성능을 얻지 못한다. 따라서 본 논문에서는 소규모 크기 문서의 자동분류에서의 문제점을 해결하기 위해 분류 사전작업으로, 예제기반 자질 필터링 방법 Relief-F알고리즘을 소규모 문서 내 자질 필터링에 적합한 ERelief-F 알고리즘을 제시한다. 또 비교 실험을 위해, 기존의 자질 필터링 방법 중 Odds Ratio와 정보이득, 또 Relief-F 알고리즘을 함께 실험하여 분류결과를 비교하였다. 그 결과, ERelief-F 알고리즘을 사용했을 때의 결과가 정보이득과 Odds Ratio, Relief-F보다 월등히 우수한 성능을 보였고 부적절한 자질도 많이 줄일 수 있었다.

HOG와 인공신경망을 이용한 자동차 모델 인식 시스템 성능 분석 (Performance Evaluation of Car Model Recognition System Using HOG and Artificial Neural Network)

  • 박기완;방지성;김병만
    • 한국산업정보학회논문지
    • /
    • 제21권5호
    • /
    • pp.1-10
    • /
    • 2016
  • 본 논문에서는 영상처리와 기계학습을 이용하여 자동차를 판별하는 시스템을 제안하고 그 성능을 확인한다. 차량의 앞면을 인식 하도록 하였으며 앞면을 선택한 이유는 제조사, 모델별로 앞면이 다르고 개조가 힘들기 때문이다. 제안하는 방법은 먼저 학습 데이터로부터 HOG특징을 추출하고, 이 특징 데이터에 대해 인공신경망 학습기법을 적용하여 판별 모델을 구축한다. 그리고 사용자가 자동차의 앞면을 찍으면 그 사진에서 특징점을 추출하고 특징점을 학습된 판별 모델을 거쳐 차량의 정보를 표시한다. 실험 결과, 98%의 높은 평균 인식률을 보였다.