• 제목/요약/키워드: k-nearest neighbor

검색결과 647건 처리시간 0.026초

사례기반추론 모델의 최근접 이웃 설정을 위한 Similarity Threshold의 사용

  • 이재식;이진천
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2005년도 공동추계학술대회
    • /
    • pp.588-594
    • /
    • 2005
  • 사례기반추론(Case-Based Reasoning)은 다양한 예측 문제에 있어서 성공적으로 활용되고 있는 데이터마이닝 기법 중 하나이다. 사례기반추론 시스템의 예측 성능은 예측에 사용되는 최근접이웃(Nearest Neighbor)을 어떻게 설정하느냐에 따라 영향을 받게 된다. 따라서 최근접 이웃을 결정짓는 k 값의 설정은 성공적인 사례기반추론 시스템을 구축하기 위한 중요 요인 중 하나가 된다. 최근접 이웃의 설정에 있어서 대부분의 선행 연구들은 고정된 k 값을 사용하는 사례기반추론 시스템은 k 값을 크게 설정할 경우 최근접 이웃 안에 주어진 오류를 일으킬 수 있으며, k 값이 작게 설정된 경우에는 유사 사례 중 일부만을 예측에 사용하기 때문에 예측 결과의 왜곡을 초래할 수 있다. 본 이웃을 결정함에 있어서 Similarity Threshold를 이용하는 s-NN 방법을 제안하였다. 본 연구의 실험을 위해 UCI(University of california, Irvine) Machine Learning Repository에서 제공하는 두 개의 신용 데이터 셋을 사용하였으며, 실험 결과 s-NN 적용한 CBR 모델이 고정된 k 값을 적용한 전통적인 CBR 모델보다 더 우수한 성능을 보여주었다.

  • PDF

거리 가중치와 층화를 이용한 최근린기반 임목축적 추정치의 정확도 비교 (Comparison of Forest Growing Stock Estimates by Distance-Weighting and Stratification in k-Nearest Neighbor Technique)

  • 임종수;유병오;신만용
    • 한국산림과학회지
    • /
    • 제101권3호
    • /
    • pp.374-380
    • /
    • 2012
  • 본 연구는 최근린 기법에서 거리가중치와 훈련자료의 층화에 의한 추정치의 정확도를 비교하여 효율적인 방법을 모색하기 위하여 수행하였다. 거리가중치의 경우, 유사성이 높은 훈련자료에 가중치를 부여하는 방법으로 일반적으로 적용되는 5가지의 계수(0, 0.5, 1, 1.5, 그리고 2)를 비교한 결과, 평균 편차에서 최대 ${\pm}0.6m^3/ha$로 정확도는 유사한 것으로 나타났다. 훈련자료의 층화에서는 임상구분을 적용하였을 때 추정치의 정확도가 가장 높은 것으로 나타났으며, 임상구분과 참조수평거리(반경=100 km)를 통합하여 적용하였을 경우에는 임상구분에 의한 추정치와 유사한 정확도를 나타내었다. 연구대상지의 2010년 기준 평균임목축적과 비교한 결과 최근린 기반 추정치가 약 $5m^3/ha$ 정도 과소 추정되었지만, 조사시점을 고려하였을 때 상당한 정확도를 나타낸 것으로 평가된다.

대규모 무리 짓기에서 이웃 에이전트 탐색의 개선된 알고리즘 (An Improved Algorithm of Searching Neighbor Agents in a Large Flocking Behavior)

  • 이재문;정인환
    • 한국멀티미디어학회논문지
    • /
    • 제13권5호
    • /
    • pp.763-770
    • /
    • 2010
  • 본 논문은 무리 짓기에서 공간분할 방법의 성능을 개선하는 알고리즘을 제안한다. 무리 짓기에서 여러 특성중의 하나는 두 에이전트가 공간적으로 가깝게 있다면 많은 공동 이웃들을 공유한다는 것이다. 본 논문은 이 특성을 적용하여 공간분할 방법을 개선한다. 기존의 공간분할 방법이 한 번에 하나의 에이전트에 대한 k개의 가장 가까운 이웃 에이전트들을 찾는 것에 반하여, 제안하는 방법은 에이전트들이 공간적으로 가까이 있다면 그들에 대하여 동시에 k개의 가장 가까운 이웃 에이전트들을 계산한다. 제안된 알고리즘은 구현되었으며, 그것의 성능은 기존의 공간분할 방법과 실험적으로 비교되었다. 비교의 결과로부터 제안하는 알고리즘이 기존의 방법을 평균적으로 33%정도 개선한다는 것을 알 수 있었다.

A Modified Grey-Based k-NN Approach for Treatment of Missing Value

  • Chun, Young-M.;Lee, Joon-W.;Chung, Sung-S.
    • Journal of the Korean Data and Information Science Society
    • /
    • 제17권2호
    • /
    • pp.421-436
    • /
    • 2006
  • Huang proposed a grey-based nearest neighbor approach to predict accurately missing attribute value in 2004. Our study proposes which way to decide the number of nearest neighbors using not only the deng's grey relational grade but also the wen's grey relational grade. Besides, our study uses not an arithmetic(unweighted) mean but a weighted one. Also, GRG is used by a weighted value when we impute missing values. There are four different methods - DU, DW, WU, WW. The performance of WW(Wen's GRG & weighted mean) method is the best of any other methods. It had been proven by Huang that his method was much better than mean imputation method and multiple imputation method. The performance of our study is far superior to that of Huang.

  • PDF

데이터 분포에 기반한 유사 군집 선택법 (Neighborhood Selection with Intrinsic Partitions)

  • 김계현;최승진
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2007년도 가을 학술발표논문집 Vol.34 No.2 (C)
    • /
    • pp.428-432
    • /
    • 2007
  • We present a novel method for determining k nearest neighbors, which accurately recognizes the underlying clusters in a data set. To this end, we introduce the "tiling neighborhood" which is constructed by tiling a number of small local circles rather than a single circle, as existing neighborhood schemes do. Then we formulate the problem of determining the tiling neighborhood as a minimax optimization, leading to an efficient message passing algorithm. For several real data sets, our method outperformed the k-nearest neighbor method. The results suggest that our method can be an alternative to existing for general classification tasks, especially for data sets which have many missing values.

  • PDF

부도예측 개선을 위한 하이브리드 언더샘플링 접근법 (A Hybrid Under-sampling Approach for Better Bankruptcy Prediction)

  • 김태훈;안현철
    • 지능정보연구
    • /
    • 제21권2호
    • /
    • pp.173-190
    • /
    • 2015
  • 부도는 막대한 사회적, 경제적 손실을 야기할 수 있으므로, 미리 부도여부를 정확하게 예측하여 선제 대응하는 것은 경영분야에서 대단히 중요한 의사결정문제 중 하나이다. 이에 지능정보시스템 분야에서도 그간 기업의 재무 데이터에 기반해 부도예측을 개선하기 위한 노력을 기울여왔는데, 안타깝게도 기존의 연구들은 대부분 분류모형의 성능 개선을 통해 예측 정확도를 개선하는 것에만 주로 초점을 맞추어 다른 요소들을 충분히 고려하지 못했다는 한계가 있다. 이러한 배경에서 본 연구는 부도예측 모형의 정확도를 개선하기 위한 방편으로 새로운 데이터 전처리 방법, 그 중에서도 효과적인 표본추출 방법을 제안하고자 한다. 일반적으로 부도예측을 위해 사용되는 데이터들은 극심한 데이터 불균형 문제에 노출되어 있는데, 본 연구에서는 k-reverse nearest neighbor(k-RNN)와 one-class support vector machine(OCSVM) 방법을 결합한 하이브리드 언더샘플링(hybrid under-sampling) 접근법을 통해 이같은 데이터 불균형 문제를 해결하고자 하였다. 본 연구에서 제안한 접근법에서 k-RNN은 이상치를 효과적으로 제거할 수 있으며, OCSVM은 다수를 구성하는 등급의 데이터로부터 정보량이 풍부한 표본만 효과적으로 선택할 수 있는 수단으로 활용될 수 있다. 제안된 기법의 성능을 검증하기 위해, 본 연구에서는 국내 한 은행의 비외감기업 부도예측모형 구축에 제안 기법을 적용해 본 뒤, 일반적으로 많이 사용되는 랜덤샘플링(random sampling)과 제안 기법의 성능을 비교해 보았다. 그 결과, 로지스틱 회귀분석, 판별분석, 의사결정나무, SVM 등 대다수의 분류모형에 있어 분류 정확도가 개선됨을 확인할 수 있었으며, 모든 분류모형에 있어 부정 오류, 즉 부실기업을 정상으로 예측하는 오류율이 크게 감소함을 확인할 수 있었다.

A Classification Algorithm Based on Data Clustering and Data Reduction for Intrusion Detection System over Big Data

  • Wang, Qiuhua;Ouyang, Xiaoqin;Zhan, Jiacheng
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제13권7호
    • /
    • pp.3714-3732
    • /
    • 2019
  • With the rapid development of network, Intrusion Detection System(IDS) plays a more and more important role in network applications. Many data mining algorithms are used to build IDS. However, due to the advent of big data era, massive data are generated. When dealing with large-scale data sets, most data mining algorithms suffer from a high computational burden which makes IDS much less efficient. To build an efficient IDS over big data, we propose a classification algorithm based on data clustering and data reduction. In the training stage, the training data are divided into clusters with similar size by Mini Batch K-Means algorithm, meanwhile, the center of each cluster is used as its index. Then, we select representative instances for each cluster to perform the task of data reduction and use the clusters that consist of representative instances to build a K-Nearest Neighbor(KNN) detection model. In the detection stage, we sort clusters according to the distances between the test sample and cluster indexes, and obtain k nearest clusters where we find k nearest neighbors. Experimental results show that searching neighbors by cluster indexes reduces the computational complexity significantly, and classification with reduced data of representative instances not only improves the efficiency, but also maintains high accuracy.

SOSiM: 형태 특징 기술자를 사용한 형태 기반 객체 유사성 매칭 (SOSiM: Shape-based Object Similarity Matching using Shape Feature Descriptors)

  • 노충호;이석룡;정진완;김상희;김덕환
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제36권2호
    • /
    • pp.73-83
    • /
    • 2009
  • 본 논문에서는 영상 내의 객체의 형태(shape)에 기반한 객체 유사성 매칭(matching) 방법을 제안한다. 제안한 방법에서는 객체의 윤곽선(edge)에서 점들(edge points)을 추출하고, 추출된 점들의 위치 관계를 나타내기 위하여 각 점을 기준으로 로그 원형 히스토그램(log polar histogram)을 생성하였다. 객체의 윤곽을 따라가며 각 점에 대한 원형 히스토그램을 순차적으로 비교함으로써 객체간의 매칭이 이루어지며, 데이타베이스로부터 유사한 객체를 검색하기 위하여 사용한 매칭 방식은 널리 알려진 k-NN(nearest neighbor) 질의 방식을 사용하였다. 제안한 방법을 검증하기 위하여 기존의 형태 문맥 기법(Shape Context method)과 제안한 방법을 비교하였으며, 객체 유사성 매칭 실험에서 k=5일 때 기존 방법의 정확도가 0.37, 제안한 방법이 0.75-0.90이며, k=10일 때 기존 방법이 0.31, 제안한 방법이 0.61-0.80로서 기존의 방법에 비해 정확한 매칭 결과를 보여 주었다. 또한 영상의 회전 변형 실험에서 기존 방법의 정확도가 0.30, 제안한 방법이 0.69로서 기존 방법보다 회전 변형에 강인한(robust) 특성을 가짐을 관찰할 수 있었다.

K번째 최근접 표본 재추출 방법에 의한 일 강우량의 추계학적 분해에 대한 연구 (Stochastic disaggregation of daily rainfall based on K-Nearest neighbor resampling method)

  • 박희성;정건희
    • 한국수자원학회논문집
    • /
    • 제49권4호
    • /
    • pp.283-291
    • /
    • 2016
  • 산업의 발전에 따라 기반시설 및 인구 등이 대도시에 밀집되어, 도시홍수방어는 인명피해 뿐만 아니라 재산피해 저감 차원에서도 매우 중요한 문제가 되었다. 요즘은 이러한 도시유역의 유출해석을 보다 정확하게 하기 위해 시강우나 분단위의 강우자료를 활용하고 있다. 하지만 기후변화 시나리오와 같은 미래 강우시나리오는 현재 일단위 수준으로 제공되므로 미래 강우에 대한 확률빈도 해석에 제한이 있다. 이에 본 연구에서는 추계학적 기법을 이용해 일강우 자료를 시강우 자료로 분해하고자 하였다. 일자료를 시자료로 분해하기 위해 과거 시강우 자료를 기반으로 Gram Schmidt 변환과 K개의 최근접 표본 중 하나를 재추출하는 비모수적인 기법(KNNR)을 적용하였다. 이 방법은 연유출량을 월유출량으로 분해하기 위해 개발된 것이다. 하지만 강우자료는 유출량 자료와 달리 확률밀도가 작아 일강우를 시강우로 분해하는 데 직접 적용하는 경우 결과가 실제와 유사한 통계 패턴을 갖는다고 보기 어려웠다. 이를 보완하기 위해 본 연구에서는 분해하고자 하는 일자의 전일과 후일을 포함한 3일 강우패턴을 7개로 구분하고 동일 패턴을 가진 자료들만 분해에 이용하도록 하여 강우자료에 대한 적용성을 높였다. 과거 52년간의 서울기상관측소 시강우 자료를 이용하여 강우자료의 분해에 대한 결과를 분석한 결과, 분해된 시강우 자료가 관측된 시강우자료와 통계적으로 매우 유사한 것을 확인하였다. 향후 기후변화자료의 시강우 분해 등에 활용하여 보다 정확한 도시유출에 대한 빈도해석 등에 적용할 수 있을 것으로 판단된다.

A Study on the Treatment of Missing Value using Grey Relational Grade and k-NN Approach

  • 천영민;정성석
    • 한국데이터정보과학회:학술대회논문집
    • /
    • 한국데이터정보과학회 2006년도 PROCEEDINGS OF JOINT CONFERENCEOF KDISS AND KDAS
    • /
    • pp.55-62
    • /
    • 2006
  • Huang proposed a grey-based nearest neighbor approach to predict accurately missing attribute value in 2004. Our study proposes which way to decide the number of nearest neighbors using not only the dong's grey relational grade but also the wen's grey relational grade. Besides, our study uses not an arithmetic(unweighted) mean but a weighted one. Also, GRG is used by a weighted value when we impute a missing values. There are four different methods - DU, DW, WU, WW. The performance of WW(wen's GRG & weighted mean) method is the best of my other methods. It had been proven by Huang that his method was much better than mean imputation method and multiple imputation method. The performance of our study is far superior to that of Huang.

  • PDF