• 제목/요약/키워드: Nearest Neighbor (NN)

검색결과 217건 처리시간 0.027초

Identification of Differentially Expressed Genes Using Tests Based on Multiple Imputations

  • Kim, Sang Cheol;Yu, Donghyeon
    • Quantitative Bio-Science
    • /
    • 제36권1호
    • /
    • pp.23-31
    • /
    • 2017
  • Datasets from DNA microarray experiments, which are in the form of large matrices of expression levels of genes, often have missing values. However, the existing statistical methods including the principle components analysis (PCA) and Hotelling's t-test are not directly applicable for the datasets having missing values due to the fact that they assume the observed dataset is complete in general. Many methods have been proposed in previous literature to impute the missing in the observed data. Troyanskaya et al. [1] study the k-nearest neighbor (kNN) imputation, Kim et al. [2] propose the local least squares (LLS) method and Rubin [3] propose the multiple imputation (MI) for missing values. To identify differentially expressed genes, we propose a new testing procedure when the missing exists in the observed data. The proposed procedure uses the Stouffer's z-scores and combines the test results of individual imputed samples, which are dependent to each other. We numerically show that the proposed test procedure based on MI performs better than the existing test procedures based on single imputation (SI) by comparing their ROC curves. We apply the proposed method to analyzing a public microarray data.

회전수가 변하는 기기의 상태 진단에 있어서 특성 기반 분류 알고리즘과 합성곱 기반 알고리즘의 예측 정확도 비교 (Comparison of Classification and Convolution algorithm in Condition assessment of the Failure Modes in Rotational equipments with varying speed)

  • 문기영;황세윤;이장현
    • 한국항해항만학회:학술대회논문집
    • /
    • 한국항해항만학회 2022년도 춘계학술대회
    • /
    • pp.301-301
    • /
    • 2022
  • 본 연구는 운영 조건이 달라짐에 따라 회전수가 변하는 기기의 정상적 가동 여부와 고장 종류를 판별하기 위한 인공지능 알고리즘의 적용을 다루고 있다. 회전수가 변하는 장비로부터 계측된 상태 모니터링 센서의 신호는 비정상(non-stationary)적 특성이 있으므로, 상태 신호의 한계치가 고장 판별의 기준이 되기 어렵다는 점을 해결하고자 하였다. 정상 가동 여부는 이상 감지에 효율적인 오토인코더 및 기계학습 알고리즘을 적용하였으며, 고장 종류 판별에는 기계학습법과 합성곱 기반의 심층학습 방법을 적용하였다. 변하는 회전수와 연계된 주파수의 비정상적 시계열도 적절한 고장 특징 (Feature)로 대변될 수 있도록 시간 및 주파수 영역에서 특징 벡터를 구성할 수 있음을 예제로 설명하였다. 차원 축소 및 카이 제곱 기법을 적용하여 최적의 특징 벡터를 추출하여 기계학습의 분류 알고리즘이 비정상적 회전 신호를 가진 장비의 고장 예측에 활용될 수 있음을 보였다. 이 과정에서 k-NN(k-Nearest Neighbor), SVM(Support Vector Machine), Random Forest의 기계학습 알고리즘을 적용하였다. 또한 시계열 기반의 오토인코더 및 CNN (Convolution Neural Network) 적용하여 이상 감지와 고장진단을 수행한 결과를 비교하여 제시하였다.

  • PDF

근육 활성화 모델 기반의 데이터 증강을 활용한 동시 동작 인식 프레임워크 (Simultaneous Motion Recognition Framework using Data Augmentation based on Muscle Activation Model)

  • 김세진;정완균
    • 로봇학회논문지
    • /
    • 제19권2호
    • /
    • pp.203-212
    • /
    • 2024
  • Simultaneous motion is essential in the activities of daily living (ADL). For motion intention recognition, surface electromyogram (sEMG) and corresponding motion label is necessary. However, this process is time-consuming and it may increase the burden of the user. Therefore, we propose a simultaneous motion recognition framework using data augmentation based on muscle activation model. The model consists of multiple point sources to be optimized while the number of point sources and their initial parameters are automatically determined. From the experimental results, it is shown that the framework has generated the data which are similar to the real one. This aspect is quantified with the following two metrics: structural similarity index measure (SSIM) and mean squared error (MSE). Furthermore, with k-nearest neighbor (k-NN) or support vector machine (SVM), the classification accuracy is also enhanced with the proposed framework. From these results, it can be concluded that the generalization property of the training data is enhanced and the classification accuracy is increased accordingly. We expect that this framework reduces the burden of the user from the excessive and time-consuming data acquisition.

절대 유사 임계값 기반 사례기반추론과 유전자 알고리즘을 활용한 시스템 트레이딩 (System Trading using Case-based Reasoning based on Absolute Similarity Threshold and Genetic Algorithm)

  • 한현웅;안현철
    • 한국정보시스템학회지:정보시스템연구
    • /
    • 제26권3호
    • /
    • pp.63-90
    • /
    • 2017
  • Purpose This study proposes a novel system trading model using case-based reasoning (CBR) based on absolute similarity threshold. The proposed model is designed to optimize the absolute similarity threshold, feature selection, and instance selection of CBR by using genetic algorithm (GA). With these mechanisms, it enables us to yield higher returns from stock market trading. Design/Methodology/Approach The proposed CBR model uses the absolute similarity threshold varying from 0 to 1, which serves as a criterion for selecting appropriate neighbors in the nearest neighbor (NN) algorithm. Since it determines the nearest neighbors on an absolute basis, it fails to select the appropriate neighbors from time to time. In system trading, it is interpreted as the signal of 'hold'. That is, the system trading model proposed in this study makes trading decisions such as 'buy' or 'sell' only if the model produces a clear signal for stock market prediction. Also, in order to improve the prediction accuracy and the rate of return, the proposed model adopts optimal feature selection and instance selection, which are known to be very effective in enhancing the performance of CBR. To validate the usefulness of the proposed model, we applied it to the index trading of KOSPI200 from 2009 to 2016. Findings Experimental results showed that the proposed model with optimal feature or instance selection could yield higher returns compared to the benchmark as well as the various comparison models (including logistic regression, multiple discriminant analysis, artificial neural network, support vector machine, and traditional CBR). In particular, the proposed model with optimal instance selection showed the best rate of return among all the models. This implies that the application of CBR with the absolute similarity threshold as well as the optimal instance selection may be effective in system trading from the perspective of returns.

가중치 벡터합을 이용한 이동객체의 방향계산 및 미디어 검색방법 (A Direction Computation and Media Retrieval Method of Moving Object using Weighted Vector Sum)

  • 서창덕;한기태
    • 정보처리학회논문지D
    • /
    • 제15D권3호
    • /
    • pp.399-410
    • /
    • 2008
  • 본 논문은 기존 위치기반 서비스에서 최근접질의 및 한 지점에서의 방향성분을 고려한 최근접질의의 단점을 해소하고자 가중치 벡터합을 이용하는 새로운 검색방법을 제안한다. 검색반경으로 1차 필터링된 영역에서, 2차 필터링을 위해 이용자의 이동방향, 관심방향 및 검색각도를 조합한 방향정보를 이용한다. 이동방향은 일정구간내 존재하는 벡터들의 가중치 합으로 계산하며, 검색각도를 $0{\sim}360^{\circ}$까지 세분화하여 검색방향에 대한 범위를 조절 하도록 한다. 본 검색방법에 사용되는 데이터는 촬영위치가 기록된 정지영상 및 동영상, 업체나 관광지의 위치정보와 함께 소비자에게 제공되는 텍스트, 웹, 영상 등 각종 미디어 형태의 데이터가 될 수 있다. 제안하는 방법은 이동 중인 이용자가 현 위치를 기준으로 일정 반경 내에 있으면서 유사방향에 부합하는 미디어만을 검색하도록 함으로써, 이미 지났거나 혹은 관련 없는 방향의 미디어를 배제한 검색결과를 제공하기 때문에 기존의 위치만을 고려한 검색방법에 비해 보다 정확한 검색을 보장할 수 있으며, 방향성을 고려한 기존 최근접질의 에 비해서도 보다 유연하고 포괄적인 검색결과를 보장한다.

미분진화 기반의 초단기 호우예측을 위한 특징 선택 (Feature Selection to Predict Very Short-term Heavy Rainfall Based on Differential Evolution)

  • 서재현;이용희;김용혁
    • 한국지능시스템학회논문지
    • /
    • 제22권6호
    • /
    • pp.706-714
    • /
    • 2012
  • 본 논문에서는 대한민국의 국립기상연구소에서 제공한 최근 4년간의 데이터를 훈련 데이터, 검증 데이터 및 테스트 데이터로 나누어 초단기 호우 예측을 하고자 한다. 우리는 데이터 셋을 훈련 데이터, 검증 데이터와 테스트 데이터 세 부분으로 나눴다. 데이터의 차원이 커짐에 따라 해 공간의 크기가 지수적으로 증가하여 실험의 속도가 현저히 떨어지는 문제를 피하기 위하여 72개의 특징들 중에서 주요한 특징들만을 선택하게 되었다. 예측의 정확도를 높이기 위해 미분진화 알고리즘을 사용하였고, 진화연산의 적합도 함수로 두 개의 분류기를 선택하였는데, 일반적으로 우수한 성능을 보이는 서포트 벡터 머신(SVM)과 분류 속도가 빠른 최근린법(k-NN)을 사용하였다. 또한, 실험에 사용할 데이터 가공을 위해 언더샘플링과 정규화를 하였다. 진화연산의 적합도 함수로 SVM 분류기를 사용하였을 때 실험 결과가 대체로 우수하였는데, 미분진화 알고리즘 실험은 모든 특징을 선택한 실험보다 약 5 배 정도 우수한 성능을 보였고, 유전 알고리즘을 사용한 실험보다 약 1.36 배 정도 더 우수한 성능을 보였다. 실험 속도 면에서는 미분진화 알고리즘을 사용한 실험이 유전 알고리즘을 사용한 실험보다 약 20배 이상 실험 시간이 단축되었다.

Efficient Processing of k-Farthest Neighbor Queries for Road Networks

  • Kim, Taelee;Cho, Hyung-Ju;Hong, Hee Ju;Nam, Hyogeun;Cho, Hyejun;Do, Gyung Yoon;Jeon, Pilkyu
    • 한국컴퓨터정보학회논문지
    • /
    • 제24권10호
    • /
    • pp.79-89
    • /
    • 2019
  • 본 연구에서는 도로 네트워크에서 k-최원접 이웃 검색을 위한 효율적인 FANS(k-FArthest Neighbor Search) 알고리즘을 제안한다. 양의 정수 k, 질의 객체 q, 일련의 데이터 객체 집합 P가 주어지면, k-최원접 이웃 질의는 질의 객체 q에서 가장 멀리 있는 k개의 데이터 객체를 찾는다. 데이터베이스 분야에서 대부분의 연구는 k-최근접 이웃 질의에 중점을 두고 있어서, k-최원접 이웃 질의라는 중요한 근접 질의유형은 별다른 관심을 받지 못했다. 이 논문에서는 도로 네트워크에서 가장 멀리 있는 이웃을 찾는 문제를 다룬다. 도로 네트워크에서 k-최원접 이웃 질의를 처리하는 연구는 거의 없었다. 도로 네트워크에서 k-최원접 이웃 질의를 처리해야 하는 문제는 최단 경로 거리를 계산하는 횟수를 줄이는 것인데, 이는 도로 네트워크와 유클리드 공간의 질의 처리에서 가장 중요한 차이다. 질의 객체와 데이터 객체 사이의 최단 경로 거리에 대한 중복 계산을 줄이기 위하여 공유 계산 전략을 사용한다. 질의 객체에서 데이터 세그먼트까지 최대 거리를 기반으로 효과적으로 후보군을 제거하는 방법은 제시한다. 마지막으로 실제 도로 지도를 사용한 광범위한 실험을 통해 제시된 방법의 효율성과 확장성을 보여준다.

강우사상의 지속기간별 분포 특성을 고려한 일강우 모의 기법 개발 (Development of methodology for daily rainfall simulation considering distribution of rainfall events in each duration)

  • 정재원;김수전;김형수
    • 한국수자원학회논문집
    • /
    • 제52권2호
    • /
    • pp.141-148
    • /
    • 2019
  • 기존의 Markov Chain 모형으로 일강우량 모의시에 강우의 발생여부를 모의하고 강우일의 강우량은 Monte Carlo 시뮬레이션을 통해 일강우 분포 특성에 맞는 분포형에서 랜덤으로 강우량을 추정하는 것이 일반적이다. 이때 강우 지속기간에 따른 강도 및 강우의 시간별 분포 등의 강우 사상의 특성을 반영할 수 없다는 한계가 있다. 본 연구에서는 이를 개선하기 위해 강우 사상을 1일 지속강우, 2일 지속강우, 3일 지속강우, 4일이상 지속강우로 구분하여 강우의 지속기간에 따라 강우량을 추정하였다. 즉 강우 사상의 강우 지속일별로 총강우량의 분포형을 비매개변수 추정이 가능한 핵밀도추정(Kernel Density Estimation, KDE)를 적용하여 각각 추정하였고, 강우가 지속될 경우에 지속일별로 해당하는 분포형에서 강우량을 구하였다. 각 강우사상에 대해 추정된 총 강우량은 k-최근접 이웃 알고리즘(k-Nearest Neighbor algorithm, KNN)을 통해 관측 강우자료에서 가장 유사한 강우량을 가지는 강우사상의 강우량 일분포 형태에 따라 각 일강우량으로 분배하였다. 본 연구는 기존의 강우량 추정 방법의 한계점을 개선하고자 하였으며, 연구 결과는 미래 강우에 대한 예측에도 활용될 수 있으며 수자원 설계에 있어서 기초자료로 활용될 수 있을 것으로 기대된다.

무선 센서 네트워크에서 클러스터링 기반 Sleep Deprivation Attack 탐지 모델 (Sleep Deprivation Attack Detection Based on Clustering in Wireless Sensor Network)

  • 김숙영;문종섭
    • 정보보호학회논문지
    • /
    • 제31권1호
    • /
    • pp.83-97
    • /
    • 2021
  • 무선 센서 네트워크를 구성하는 무선 센서는 일반적으로 전력 및 자원이 극히 제한적이다. 무선 센서는 전력을 보존하기 위해 일정 주기마다 sleep 상태로 진입한다. Sleep deprivation attack은 무선 센서의 sleep 상태 진입을 막음으로써 전력을 소진 시키는 치명적인 공격이지만 이에 대한 뚜렷한 대응책이 없다. 이에 본 논문에서는 클러스터링 기반 이진 탐색 트리 구조의 Sleep deprivation attack 탐지 모델을 제안한다. 본 논문에서 제안하는 sleep deprivation attack 탐지 모델은 기계학습을 통해 분류한 공격 센서 노드와 정상 센서 노드의 특징을 사용한다. 이때 탐지 모델에 사용한 특징은 Long Short-Term Memory(LSTM), Decision Tree(DT), Support Vector Machine(SVM), K-Nearest Neighbor(K-NN)을 이용하여 결정하였다. 결정된 특징은 본 논문에서 제안한 알고리즘에 사용하여 공격 탐지를 위한 값들을 계산하였으며, 계산한 값을 판정하기 위한 임계값은 SVM을 적용하여 도출하였다. 본 논문에서 제안하는 탐지 모델은 기계학습으로 도출된 특징과 임계값을 본 논문에서 제안한 탐지 알고리즘에 적용하여 구성하였으며, 실험을 통해 전체 센서 노드 20개 중 공격 센서 노드의 비율이 0.35일 때 94%의 탐지율을 갖고 평균 에너지 잔량은 기존 연구보다 최대 26% 향상된 결과를 보였다.

재무예측을 위한 Support Vector Machine의 최적화 (Optimization of Support Vector Machines for Financial Forecasting)

  • 김경재;안현철
    • 지능정보연구
    • /
    • 제17권4호
    • /
    • pp.241-254
    • /
    • 2011
  • Support vector machines(SVM)은 비교적 최근에 등장한 데이터마이닝 기법이지만, 재무, CRM 등의 경영학 분야에서 많이 연구되고 있다. SVM은 인공신경망과 필적할 만큼의 예측 정확도를 보이는 사례가 많았지만, 암상자로 불리는 인공신경망 모형에 비해 구축된 예측모형의 구조를 이해하기 쉽고, 인공신경망에 비해 과도적합의 가능성이 적어서 적은 수의 데이터에서도 적용 가능하다는 장점을 가지고 있다. 하지만, 일반적인 SVM을 이용하려면, 인공신경망과 마찬가지로 여러 가지 설계요소들을 설계자가 선택하여야 하기 때문에 임의성이 높고, 국부 최적해에 수렴할 가능성도 크다. 또한, 많은 수의 데이터가 존재하는 경우에는 데이터를 분석하고 이용하는데 시간이 소요되고, 종종 잡음이 심한 데이터가 포함된 경우에는 기대하는 수준의 예측성과를 얻지 못할 가능성이 있다. 본 연구에서는 일반적인 SVM의 장점을 그대로 유지하면서, 전술한 두 가지 단점을 보완한 새로운 SVM 모형을 제안한다. 본 연구에서 제안하는 모형은 사례선택기법을 일반적인 SVM에 융합한 것으로 대용량의 데이터에서 예측에 불필요한 데이터를 선별적으로 제거하여 예측의 정확도와 속도를 제고할 수 있는 방법이다. 본 연구에서는 잡음이 많고 예측이 어려운 것으로 알려진 재무 데이터를 활용하여 제안 모형의 유용성을 확인하였다.