• 제목/요약/키워드: 최근접 이웃 분류

검색결과 77건 처리시간 0.024초

데이터 전처리와 앙상블 기법을 통한 불균형 데이터의 분류모형 비교 연구 (A Comparison of Ensemble Methods Combining Resampling Techniques for Class Imbalanced Data)

  • 이희재;이성임
    • 응용통계연구
    • /
    • 제27권3호
    • /
    • pp.357-371
    • /
    • 2014
  • 최근 들어 데이터 마이닝의 분류문제에 있어 목표변수의 불균형 문제가 많은 관심을 받고 있다. 이러한 문제를 해결하기 위해, 이전 연구들은 원 자료에 대하여 데이터 전처리 과정을 실시했는데, 전처리 과정에는 목표변수의 다수계급을 소수계급의 비율에 맞게 조정하는 과소표집법, 소수계급을 복원추출하여 다수계급의 비율에 맞게 조정하는 과대표집법, 소수계급에 K-최근접 이웃 방법 등을 활용하여 과대표집법을 적용 후 다수계급에는 과소표집법을 적용한 하이브리드 기법 등이 있다. 또한 앙상블 기법도 이러한 불균형 데이터의 분류 성능을 높일 수 있다고 알려져 있어, 본 논문에서는 데이터의 전처리 과정과 앙상블 기법을 함께 고려한 여러 모형들을 사용하여, 불균형 자료에 대한 이들모형의 분류성능을 비교평가한다.

가우시안 과정 분류에 대한 변분 베이지안 다항 프로빗 모형: 쥐 단백질 발현 데이터에의 적용 (Variational Bayesian multinomial probit model with Gaussian process classification on mice protein expression level data)

  • 손동현;황범석
    • 응용통계연구
    • /
    • 제36권2호
    • /
    • pp.115-127
    • /
    • 2023
  • 다항 프로빗 모형은 다중 분류와 선택 모형에서 흔히 사용하는 모형이다. 다항 프로빗 모형을 추정하기 위해 일반적으로 널리 사용하는 베이지안 접근법인 마르코프 연쇄 몬테카를로(MCMC) 방법은 계산 복잡도가 매우 높다는 문제점을 가지고 있다. 반면, 변분 베이즈 방법은 MCMC 방법보다 계산 복잡도는 낮으면서도 분류 성능적인 면에서 큰 차이가 나지 않아 더 효율적인 방법으로 알려져 있다. 본 연구에서는 가우시안 과정에 기반한 다항 프로빗 모형을 설명하고 해당 모형에 적용할 수 있는 변분 베이지안 근사법을 알아보고자 한다. 그리고 UCI에서 제공되는 쥐 단백질 발현 데이터에 가우시안 과정 분류에 대한 변분 베이지안 다항 프로빗 모형을 적용하여 그 성능을 확인하고 나이브 베이즈, K-최근접 이웃법, 서포트 벡터 머신 분류기의 성능과 비교한다.

Tei Index를 이용한 경도의 좌심실 이완 기능 장애 분류 모델 평가 (Evaluation of Classification Models of Mild Left Ventricular Diastolic Dysfunction by Tei Index)

  • 김수민;예수영
    • 한국방사선학회논문지
    • /
    • 제17권5호
    • /
    • pp.761-766
    • /
    • 2023
  • 본 논문에는 경도의 좌심실 이완 기능 장애 유무를 분류하기 위해 TI을 측정하였다. 분류에 사용된 기계 학습 모델은 SVM과 KNN을 이용하였다. 총 306개의 데이터 중에서 206개는 트레이닝 데이터, 100개는 테스트 데이터로 사용하였다. 그 결과, SVM이 KNN에 비하여 비교적 높은 정확도를 보여 좌심실 이완 기능 장애 유무 진단에 더 유용함을 확인했다. 향후 연구에서 TI 뿐만 아니라 심장의 기능을 평가하는 다양한 지표들을 추가하고 더 많은 데이터를 확보한다면 분류 성능을 더 높일 수 있을 것으로 기대된다. 나아가, 타 질환의 예측 및 분류, 증가하는 검사 건수에 비해 부족한 의료 인력 문제를 해결하는데 기초 자료로 활용될 것으로 기대된다.

Genetic Algorithm과 다중부스팅 Classifier를 이용한 암진단 시스템 (Cancer Diagnosis System using Genetic Algorithm and Multi-boosting Classifier)

  • 온승엽;지승도
    • 한국시뮬레이션학회논문지
    • /
    • 제20권2호
    • /
    • pp.77-85
    • /
    • 2011
  • 생물 및 의학계에서는 생물정보학(bioinformatics)의 데이터 중 혈청 단백질(proteome)에서 추출한 데이터가 질병의 진단에 관련된 정보를 가지고 있고, 이 데이터를 분류 분석함으로 질병을 조기에 진단 할 수 있다고 믿고 있다. 본 논문에서는 혈청 단백질(2-D PAGE: Two-dimensional polyacrylamide gel electrophoresis)로부터 암과 정상을 판별하는 새로운 복합분류기를 제안한다. 새로운 복합 분류기에서는 support vector machine(SVM)와 다층 퍼셉트론(multi-layer perceptron: MLP)와 k-최근 접 이웃(k-nearest neighbor: k-NN)분류기를 앙상블(ensemble) 방법으로 통합하는 동시에 다중 부스팅(boosting) 방법으로 각 분류기를 확장하여 부분류기(subclassifier)의 배열(array)으로서 복합분류기를 구성하였다. 각 부분류기에서는 최적 특성 집합 (feature set)을 탐색하기 위하여 유전 알고리즘(genetic algorithm: GA)를 적용하였다. 복합분류기의 성능을 측정하기 위하여 암연구에서 얻어진 임상 데이터를 복합분류기에 적용하였고 결과로서 단일 분류기 보다 높은 분류 정확도와 안정성을 보여 주었다.

곡가공 프로세스를 고려한 곡판 분류 알고리즘 (An Algorithm of Curved Hull Plates Classification for the Curved Hull Plates Forming Process)

  • 노재규;신종계
    • 대한조선학회논문집
    • /
    • 제46권6호
    • /
    • pp.675-687
    • /
    • 2009
  • In general, the forming process of the curved hull plates consists of sub tasks, such as roll bending, line heating, and triangle heating. In order to complement the automated curved hull forming system, it is necessary to develop an algorithm to classify the curved hull plates of a ship into standard shapes with respect to the techniques of forming task, such as the roll bending, the line heating, and the triangle heating. In this paper, the curved hull plates are classified by four standard shapes and the combination of them, or saddle, convex, flat, cylindrical shape, and the combination of them, that are related to the forming tasks necessary to form the shapes. In preprocessing, the Gaussian curvature and the mean curvature at the mid-point of a mesh of modeling surface by Coon's patch are calculated. Then the nearest neighbor method to classify the input plate type is applied. Tests to verify the developed algorithm with sample plates of a real ship data have been performed.

쉴드 TBM 디스크 커터 교체 유무 판단을 위한 머신러닝 분류기법 성능 비교 (Performance comparison of machine learning classification methods for decision of disc cutter replacement of shield TBM)

  • 김윤희;홍지연;김범주
    • 한국터널지하공간학회 논문집
    • /
    • 제22권5호
    • /
    • pp.575-589
    • /
    • 2020
  • 최근 국내 터널에서 지속적으로 증가하고 있는 쉴드 TBM 공법의 주된 굴착도구는 디스크 커터로 굴진과정에서 자연스럽게 마모가 발생하고 이는 TBM의 굴진효능을 현저히 저하시키기 때문에 적절한 시기에 교체하는 것이 중요하다. 따라서 본 연구에서는 디스크 커터 교체 여부를 판단할 수 있는 예측 모델을 머신러닝 기법을 사용한 방법으로 제안하였다. 이를 위해 국내 기 시공된 쉴드 TBM 현장의 데이터 중 디스크 커터 소모에 상관성이 높은 굴진데이터(TBM 기계데이터, 지반정보 등)와 교체이력을 입력데이터로 사용하여 다양한 머신러닝 분류기법 중 서포트 벡터 머신, 최근접이웃 알고리즘, 의사결정트리 알고리즘을 사용하여 최적의 예측 모델을 구축하고 모델의 성능을 평가하기 위하여 분류성능평가 지표로 비교 분석하였다.

지능형 IoT 미러 시스템을 활용한 인터랙티브 콘텐츠 서비스 구현 (Development of Interactive Content Services through an Intelligent IoT Mirror System)

  • 정원석;서정욱
    • 한국항행학회논문지
    • /
    • 제22권5호
    • /
    • pp.472-477
    • /
    • 2018
  • 본 논문에서는 지능형 IoT (internet of things) 미러 시스템을 통해 사용자의 우울증 예방을 위한 인터랙티브 콘텐츠 서비스를 구현한다. 인터랙티브 콘텐츠 서비스를 위해 IoT 미러 장치는 뇌파 헤드셋 디바이스로부터 집중도 및 명상도 데이터를 측정하고, 웹캠을 통해 다층 퍼셉트론 알고리즘으로 분류된 "슬픔", "분노", "혐오감", "중립", "행복" 및 "놀람"과 같은 표정 데이터를 측정한 후, oneM2M 표준을 준용한 IoT 서버로 전송한다. IoT 서버에 수집된 데이터는 제안한 병합 레이블링 과정을 거쳐 세 가지의 우울 단계(RED, YELLOW, GREEN)를 분류하는 기계학습 모델을 생성한다. 실험을 통해 k-최근접 이웃 모델로 우울 단계를 분류한 결과 약 93%의 정확도를 얻을 수 있었고, 분류된 우울 단계에 따라 가족, 친구 및 사회복지사에게 소셜 네트워크 서비스 에이전트를 통해 알림 메시지를 전송하여 사용자와 보호자 간의 인터랙티브 콘텐츠 서비스를 구현하였다.

인공신경회로망을 이용한 원공결함을 갖는 유한 폭 판재의 음향방출 음원특성과 파괴거동에 관한 연구 (Acoustic Emission Source Characterization and Fracture Behavior of Finite-width Plate with a Circular Hole Defect using Artificial Neural Network)

  • 이장규;우창기
    • 한국공작기계학회논문집
    • /
    • 제18권2호
    • /
    • pp.170-177
    • /
    • 2009
  • The objective of this study is to evaluate an acoustic emission (AE) source characterization and fracture behavior of the SM45C steel by using back-propagation neural network (BPN). In previous research Ref. [8] about k-nearest neighbor classifier (k-NNC) continuity, we used K-means clustering method as an unsupervised learning method for obtaining multi-variate AE main data sets, such as AE counts, energy, amplitude, risetime, duration and counts to peak. Similarly, we applied k-NNC and BPN as a supervised learning method for obtaining multi-variate AE working data sets. According to the error of convergence for determinant criterion Wilk's ${\lambda}$, heuristic criteria D&B(Rij) and Tou values are discussed. As a result, in k-NNC before fracture signal is detected or when fracture signal is detected, showed that produce some empty classes in BPN. And we confirmed that could save trouble in AE signal processing if suitable error of convergence or acceptable encoding error give to BPN.

k-최근접 이웃 알고리즘을 이용한 원공결함을 갖는 유한 폭 판재의 음향방출 음원분류에 대한 연구 (Acoustic Emission Source Classification of Finite-width Plate with a Circular Hole Defect using k-Nearest Neighbor Algorithm)

  • 이장규;오진수
    • 대한안전경영과학회지
    • /
    • 제11권1호
    • /
    • pp.27-33
    • /
    • 2009
  • A study of fracture to material is getting interest in nuclear and aerospace industry as a viewpoint of safety. Acoustic emission (AE) is a non-destructive testing and new technology to evaluate safety on structures. In previous research continuously, all tensile tests on the pre-defected coupons were performed using the universal testing machine, which machine crosshead was move at a constant speed of 5mm/min. This study is to evaluate an AE source characterization of SM45C steel by using k-nearest neighbor classifier, k-NNC. For this, we used K-means clustering as an unsupervised learning method for obtained multi -variate AE main data sets, and we applied k-NNC as a supervised learning pattern recognition algorithm for obtained multi-variate AE working data sets. As a result, the criteria of Wilk's $\lambda$, D&B(Rij) & Tou are discussed.

KNN 알고리즘을 활용한 초음파 센서 간 간섭 제거 기법 (Interference Elimination Method of Ultrasonic Sensors Using K-Nearest Neighbor Algorithm)

  • 임형철;이성수
    • 전기전자학회논문지
    • /
    • 제26권2호
    • /
    • pp.169-175
    • /
    • 2022
  • 본 논문에서는 k-최근접 이웃 (KNN) 알고리즘을 이용하여 초음파 센서 간 간섭을 줄이고 정확한 거리값을 예측하는 기법을 제안한다. 기존 기법에서는 이전 측정값과 현재 측정값을 비교하여 그 차이가 한계값을 벗어나면 간섭 신호로 인식하고 배제하지만 부정확한 예측이 자주 발생한다. KNN 알고리즘은 다수의 초음파 센서에서 입력되는 측정값을 분류하여 정확도 높은 예측이 가능하다. 간섭이 잘 발생하는 환경을 만들기 위해 다수의 동종 초음파 센서로 간섭 신호를 발생시킨 상태에서 거리 측정 실험을 진행하였고, 간섭으로 인해 발생하는 오류를 KNN 알고리즘을 통해 크게 줄일 수 있음을 확인하였다. 또한 기존 보팅 기법과 제안하는 기법의 결과를 비교하여 제안하는 기법의 성능이 우수한 것을 확인하였다.