• 제목/요약/키워드: ${\kappa}$-Nearest Neighbor

검색결과 9건 처리시간 0.032초

Adaptive Nearest Neighbors를 활용한 판별분류방법 (Adaptive Nearest Neighbors for Classification)

  • 전명식;최인경
    • 응용통계연구
    • /
    • 제22권3호
    • /
    • pp.479-488
    • /
    • 2009
  • 비모수적 판별분류방법으로 널리 사용되는 ${\kappa}$-Nearest Neighbors Classification(KNNC) 방법은 자료의 국소적 특징을 고려하지 않고 전체 자료에 대해 고정된 이웃의 개수 ${\kappa}$를 사용하여 개체를 분류하는 방법이다. 본 연구에서는 KNNC의 대안으로 자료의 국소적 특징을 고려하는 Adaptive Nearest Neighbors Classificaion(ANNC) 방법을 제안하였다. 제안된 방법의 특징을 규명하기 위하여 실제 자료에 대한 분석을 통하여 제안된 방법의 응용 가능성을 제시하였으며, 나아가 모의실험을 통하여 기존의 방법과의 효율성을 비교하였다.

적응형 복합 분류 알고리즘을 이용한 초소형 전자소자 탐지 향상 기법 (Improved Detecting Schemes for Micro-Electronic Devices Based on Adaptive Hybrid Classification Algorithms)

  • 김광열;임정환;김송강;조준경;신요안
    • 한국통신학회논문지
    • /
    • 제38A권6호
    • /
    • pp.504-511
    • /
    • 2013
  • 본 논문은 지적재산권 보호를 위한 방안으로 적응형 알고리즘 기반의 초소형 전자소자 탐지 기법을 제안한다. 전자소자를 탐지하는 기본 원리는 분류기의 송신기에서 특정 기본 주파수의 전파가 은닉된 물체로 전파되면, 물체로부터 반사되어 수신기로 들어오는 2차 및 3차 고조파의 크기를 분류기가 비교함으로써 판별하게 된다. 하지만, 측정 과정에서 발생하는 잡음 및 전자파의 간섭으로 인해 분류의 성능이 저하되므로, 이러한 환경에서도 은닉된 전자소자를 적응적으로 판별하기 위해 Fuzzy c-Means 클러스터링 알고리즘과 ${\kappa}$-Nearest Neighbor 분류 알고리즘을 복합적으로 이용하는 방안을 제시한다. 모의실험 결과, 제안 기법이 잡음 및 전자파 간섭 환경에서도 적응적으로 전자소자 잘 탐지할 수 있었으며, 이에 따라 지적재산권을 효율적으로 보호할 수 있을 것으로 기대된다.

안드로이드 모바일 악성 앱 탐지를 위한 확률적 K-인접 이웃 분류기 (Probabilistic K-nearest neighbor classifier for detection of malware in android mobile)

  • 강승준;윤지원
    • 정보보호학회논문지
    • /
    • 제25권4호
    • /
    • pp.817-827
    • /
    • 2015
  • 현대인은 스마트폰과 매우 밀접한 관계를 가지고 있으며 이로 인한 수 많은 보안 위협에 노출되어 있다. 실제로 해커들은 스마트폰에 악성 프로그램을 은밀하게 설치하여 장치 이용 제한 및 개인정보 유출 등의 보안 위협을 야기하고 있다. 그리고 그러한 악성 프로그램은 일반적인 프로그램과 다르게 필요 이상의 권한을 요구한다. 본 논문에서는 이 같은 문제를 바탕으로 사용되는 안드로이드 기반 앱들이 요구하는 권한 데이터를 이용하여 주성분 분석(Principle Component Analysis:PCA)과 확률적 K-인접 이웃(Probabilistic K-Nearest Neighbor:PKNN) 방식을 사용하여 효과적으로 악성 프로그램과 일반 프로그램을 분류하고자 한다. 이뿐 아니라 이를 k-묶음 교차 검증(K-fold Croos Validation)을 통해 PKNN의 정확도를 측정하였다. 그리고 일반적으로 사용되는 K-인접 이웃(K-Nearest Neighbor:KNN) 방식과 비교하여, KNN이 분류하기 힘든 부분을 확률적으로 해결하는 PKNN방법을 제안한다. 최종적으로 제안한 방식을 최적화하는 ${\kappa}$${\beta}$ 파라미터를 구하는 것을 목표로 한다. 본 논문에서 사용된 악성 앱 샘플은 Contagio에 요청하여 이용하였다.

세포독성 자료를 이용한 분류 알고리즘 성능 비교 (Comparison of the performance of classification algorithms using cytotoxicity data)

  • 윤여창;정의배;조나래;주수인;이성덕
    • 응용통계연구
    • /
    • 제31권3호
    • /
    • pp.417-426
    • /
    • 2018
  • 최근 동물실험의 대체방법 중 하나로 쥐의 줄기세포 유래 배상체를 이용하여 독성을 시험하는 방법이 개발되었다. 이는 동물에 직접 약물을 주입하는 것이 아닌 배상체 세포에 약물을 투입하여 세포의 변화에 따른 측정값들을 얻는 방법이다. 본 연구에서는 다범주 세포독성 자료를 이용해 통계적 기법인 판별분석(discriminant analysis)과 머신러닝 기법인 서포트 벡터 머신(support vector machine), 인공신경망(artificial neural network), k-인접이웃분류(k-nearest neighbor)의 성능을 비교하였다. 알고리즘의 성능은 분류 정확도(accuracy)와 가중카파계수(weighted Cohen's kappa coefficient)로 비교하였다.

FCC구조에서 포논분산과 비열 (Phonon Dispersion and Specific Heat in FCC Structure)

  • 정재동;이경태
    • 대한기계학회:학술대회논문집
    • /
    • 대한기계학회 2004년도 추계학술대회
    • /
    • pp.1207-1212
    • /
    • 2004
  • A model for the phonon dispersion relationship for cubic zinc sulfide structure, for example SiC, is developed in terms of two unknown force constants. Born model that incorporates bond bending and bond stretching, is used for the force constants. The force constants are determined by fitting to experimental data. Using only the nearest-neighbor coupling results in $6{\times}6$ sized dynamic matrix. The eigenvalues of dynamics matrix for each wavenumber in 3-D ${\kappa}$ space correspond to frequencies, 3 for optical phonon and 3 for acoustic phonon, which is so-called dispersion relation (${\kappa}$-${\omega}$). The density of state is determined by counting the states for each frequency bin, and the properties such as specific heat and thermal conductivity can be obtained. The specific heat is estimated on this model and compared with experiment and other models, i.e. Debye model, Einstein model and combined Debye-Einstein model. In spite of the simple bond potential model, reasonable agreements are found.

  • PDF

STATISTICAL NOISE BAND REMOVAL FOR SURFACE CLUSTERING OF HYPERSPECTRAL DATA

  • Huan, Nguyen Van;Kim, Hak-Il
    • 대한원격탐사학회:학술대회논문집
    • /
    • 대한원격탐사학회 2008년도 International Symposium on Remote Sensing
    • /
    • pp.111-114
    • /
    • 2008
  • The existence of noise bands may deform the typical shape of the spectrum, making the accuracy of clustering degraded. This paper proposes a statistical approach to remove noise bands in hyperspectral data using the correlation coefficient of bands as an indicator. Considering each band as a random variable, two adjacent signal bands in hyperspectral data are highly correlative. On the contrary, existence of a noise band will produce a low correlation. For clustering, the unsupervised ${\kappa}$-nearest neighbor clustering method is implemented in accordance with three well-accepted spectral matching measures, namely ED, SAM and SID. Furthermore, this paper proposes a hierarchical scheme of combining those measures. Finally, a separability assessment based on the between-class and the within-class scatter matrices is followed to evaluate the applicability of the proposed noise band removal method. Also, the paper brings out a comparison for spectral matching measures.

  • PDF

땅밀림 위험지 평가를 위한 기계학습 분류모델 비교 (A Performance Comparison of Machine Learning Classification Methods for Soil Creep Susceptibility Assessment)

  • 이제만;서정일;이진호;임상준
    • 한국산림과학회지
    • /
    • 제110권4호
    • /
    • pp.610-621
    • /
    • 2021
  • 지진 발생과 집중호우에 의해 땅밀림형 산사태 유형으로 분류되는 땅밀림 현상이 전국적으로 광범위하게 나타나고 있다. 산림청은 땅밀림으로 인한 인명 및 재산 피해를 예방하기 위해 땅밀림 우려지 현장조사 판정표를 통해 땅밀림 발생 위험지를 사전에 파악하고 있다. 한편 최근에는 컴퓨터 기술의 발달로 인공지능의 한 분야인 기계학습 분류기법을 이용하여 산지재해 취약성을 평가하거나 자연재해를 예측하고 있다. 따라서 이 연구에서는 기계학습 분류기법인 k-Nearest Neighbor(k-NN), Naive Bayes(NB), Random Forest(RF), 그리고 Support Vector Machine(SVM) 분류모델을 이용하여 땅밀림 발생 위험등급을 분류하였다. 한국치산기술협회의 2018~2020년 조사 자료 4,618개 중에서 땅밀림 현상의 발생 여부를 고려하여 발생지 총 146개소, 그리고 미발생지 146개소를 임의추출하여 292개 자료를 선정하였으며, 이 중 70%에 해당하는 204개소 자료를 훈련자료로 하여 모델을 구축하였다. 전체 자료의 30%에 해당하는 88개 검증자료에 대해 모델을 평가한 결과, k-NN은 0.727, NB는 0.750, RF는 0.807, 그리고 SVM은 0.750의 분류정확도를 보였다. 또한, Kappa 상관계수는 각각 0.534, 0.580, 0.673 및 0.585, 그리고 AUC는 각각 0.872, 0.912, 0.943 및 0.834로 계산되었다. 따라서 땅밀림 위험지역 판정을 위한 기계학습 분류모델은 RF, NB, SVM, 그리고 k-NN 순으로 높은 성능을 보였다. 기계학습 분류모델은 향후 산지토사재해의 예방 및 대응을 위한 기초자료로 활용 가능하며, 땅밀림 재해 관리 및 피해 경감에 위한 정책 개발에 필요한 정보를 제공할 것이다.

k-NN기법을 이용한 산림바이오매스 자원량 평가 - 강원대학교 학술림을 대상으로 - (Assessment of Forest Biomass using k-Neighbor Techniques - A Case Study in the Research Forest at Kangwon National University -)

  • 서환석;박동환;임종수;이정수
    • 한국산림과학회지
    • /
    • 제101권4호
    • /
    • pp.547-557
    • /
    • 2012
  • 본 연구는 강원대학교 학술림을 대상으로 현장조사자료와 Landsat TM-5 위성영상 정보를 이용하여 k-NN기법을 통해 산림바이오매스를 추정하는 것을 목적으로 하였다. 임상 층화 및 최소수평 참조거리(HRA)와 공간필터링의 조건변화에 따른 최적의 참조표본점 개수(k)를 검토하였으며, 이에 따른 산림바이오매스량 추정과 정확도를 비교 분석하였다. 침엽수는 $5{\times}5$ 필터링을 적용한 HRA 4 km와 k=8를 적용하였을 때 최소의 RMSE를 나타냈으며, 편차는 1.8 t/ha으로 과대추정되었다. 한편, 잣나무와 활엽수는 필터링을 적용하지 않은 HRA 4km의 k=8과 HRA 10 km의 k=6을 적용하였을 때 최소의 RMSE가 나타났으며, 편차는 각각 -1.6 t/ha, -5.2 t/ha로 과소추정되었다. k-NN기법에 의하여 추정된 총 바이오매스량은 799천t이며, ha당 평균 산림바이오매스량은 237 t/ha로서 표본점자료를 이용한 추정치보다 약 1 t/ha 높게 나타났다.

머신 러닝을 활용한 과학 논변 구성 요소 코딩 자동화 가능성 탐색 연구 (Exploratory Research on Automating the Analysis of Scientific Argumentation Using Machine Learning)

  • 이경건;하희수;홍훈기;김희백
    • 한국과학교육학회지
    • /
    • 제38권2호
    • /
    • pp.219-234
    • /
    • 2018
  • 본 연구에서는 국내 교육학 연구에서 거의 사용되지 않던 머신 러닝 기술을 과학 교육 연구에 접목하여, 학생들의 과학 논변 활동에서 나타나는 논변의 구성 요소를 분석하는 과정을 자동화할 수 있는 가능성을 탐색해보았다. 학습 데이터로는 Toulmin이 제안하였던 틀에 따라 학생들의 과학 논변 구성 요소를 코딩한 국내 선행 문헌 18건을 수합하고 정리하여 990개의 문장을 추출하였으며, 테스트 데이터로는 실제 교실 환경에서 발화된 과학 논변 전사 데이터를 사용하여 483개의 문장을 추출하고 연구자들이 사전 코딩을 수행하였다. Python의 'KoNLPy' 패키지와 '꼬꼬마(Kkma)' 모듈을 사용한 한국어 자연어 처리(Natural Language Processing, NLP)를 통해 개별 논변을 구성하는 단어와 형태소를 분석하였으며, 연구자 2인과 국어교육 석사학위 소지자 1인의 검토 과정을 거쳤다. 총 1,473개의 문장에 대한 논변-형태소:품사 행렬을 만든 후에 다섯 가지 방법으로 머신 러닝을 수행하고 생성된 예측 모델과 연구자의 사전 코딩을 비교한 결과, 개별 문장의 형태소만을 고려하였을 때에는 k-최근접 이웃 알고리즘(KNN)이 약 54%의 일치도(${\kappa}=0.22$)를 보임으로써 가장 우수하였다. 직전 문장이 어떻게 코딩되어 있는지에 관한 정보가 주어졌을 때, k-최근접 이웃 알고리즘(KNN)이 약 55%의 일치도(${\kappa}=0.24$)를 보였으며 다른 머신 러닝 기법에서도 전반적으로 일치도가 상승하였다. 더 나아가, 본 연구의 결과는 과학 논변 활동의 분석에서 개별문장을 고려하는 단순한 방법이 어느 정도 유용함과 동시에, 담화의 맥락을 고려하는 것 또한 필요함을 데이터에 기반하여 보여주었다. 또한 머신 러닝을 통해 교실에서 한국어로 이루어진 과학 논변 활동을 분석하여 연구자와 교사들에게 유용하게 사용될 수 있는 가능성을 보여준다.