• 제목/요약/키워드: Nearest Neighbor (NN)

검색결과 217건 처리시간 0.028초

범주형 시퀀스들에 대한 확장성 있는 클러스터링 방법 (A Scalable Clustering Method for Categorical Sequences)

  • 오승준;김재련
    • 한국지능시스템학회논문지
    • /
    • 제14권2호
    • /
    • pp.136-141
    • /
    • 2004
  • 소매점 거래 데이터와 단백질 시퀀스, 웹 로그 등과 같은 상업적이거나 과학적인 데이터의 폭발적인 증가를 볼 수 있다. 이런 데이터들은 순서적인 면을 가지고 있는 시퀀스 데이터들이다. 그러나, 순서적인 면을 고려한 클러스터링 알고리듬은 소수이다. 따라서, 본 연구에서는 시퀀스 데이터들을 클러스터링 하는 방법을 연구한다. 시퀀스들 간의 유사도를 계산하기 위한 새로운 유사도를 제안한다. 또한, 유사도를 효율적으로 계산하기 위한 방법과 클러스터링 방법도 제안한다. 계층적 클러스터링 알고리듬은 높은 계산량을 가지고 있기에, 새로운 클러스터링 방법이 요구된다. 그러므로, 본 연구에서는 샘플링과 k-nn 방법을 이용한 확장성 있는 클러스터링 방법을 제안한다. 실제 데이터 셋과 합성 데이터 셋을 이용하여, 본 연구에서 제안하는 방법이 기존 방법보다 성능이 우수함을 보여준다.

개인화된 전문가 그룹을 활용한 추천 시스템 (Personalized Expert-Based Recommendation)

  • 정연오;이성우;이지형
    • 한국지능시스템학회논문지
    • /
    • 제23권1호
    • /
    • pp.7-11
    • /
    • 2013
  • 전문가의 지식을 기반으로 한 추천시스템에 대한 다양한 연구가 최근 활발히 진행되고 있다. 지금까지의 전문가 기반 추천 시스템이 공통된 전문가 그룹의 지식을 바탕으로 모두에게 아이템을 추천하였다면, 본 논문에서는 개인의 필요와 전문가에 대한 관점을 반영한 개인화된 전문가 그룹의 지식을 기반으로 한 추천 시스템을 제안한다. 개인화된 전문가 그룹을 찾는 과정이 제안하는 추천 시스템에서 가장 중요한 부분이다. 이를 위해 개인화된 전문가를 효율적으로 찾아내는 지지 벡터 머신(SVM) 기반 기법을 제안한다. 추천 시스템에서 널리 사용되는 k 근접이웃 알고리즘과의 비교를 통하여서 개인화된 전문가를 기반으로 한 협업 필터링 추천 시스템의 효용성을 입증한다.

멀웨어 검출을 위한 기계학습 알고리즘과 특징 추출에 대한 성능연구 (A Study on Performance of ML Algorithms and Feature Extraction to detect Malware)

  • 안태현;박재균;권영만
    • 한국인터넷방송통신학회논문지
    • /
    • 제18권1호
    • /
    • pp.211-216
    • /
    • 2018
  • 이 논문에서는 알려지지 않은 PE 파일이 멀웨어의 여부를 분류하는 방법을 연구하였다. 멀웨어 탐지 영역의 분류 문제에서는 특징 추출과 분류가 중요하다. 위와 같은 목적으로 멀웨어 탐지를 위해 우리는 어떠한 특징들이 분류기에 적합한지, 어떠한 분류기가 선택된 특징들에 대해 연구하였다. 그래서 우리는 멀웨어 탐지를 위한 기능과 분류기의 좋은 조합을 찾기 위해 실험하였다. 이를 위해 두 단계로 실험을 실시하였다. 1 단계에서는 Opcode, Windows API, Opcode + Windows API의 특징들을 이용하여 정확도를 비교하였다. 여기에서 Opcode + Windows API 특징이 다른 특징보다 더 좋은 결과를 나타내었다. 2 단계에서는 나이브 베이즈, K-NN, SVM, DT의 분류기들의 AUC 값을 비교하였다. 그 결과 DT의 분류기가 더 좋은 결과 값을 나타내었다.

효율적인 Nearest Surrounder 질의 처리 방법 (Efficient Nearest Surrounder Queries Processing)

  • 최정임;정재화;김종완;임석진;강상원;정순영
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2007년도 한국컴퓨터종합학술대회논문집 Vol.34 No.1 (C)
    • /
    • pp.124-129
    • /
    • 2007
  • 지금까지 질의 점을 중심으로 최근접 객체(Nearest Neighbor : NN)를 찾는 다양한 연구가 진행되었다. 하지만 이 방법은 질의 점과 객체의 거리만을 고려하기 때문에 질의 점을 둘러싸고 있는 객체들을 찾을 수 없다는 문제점이 있다. 이것을 해결하기 위해서 제안 된 것이 최근접 주변객체(Nearest Surrounder : NS) 질의 처리이다. 최근접 주변 객체는 질의 점을 둘러싸고 있으면서 가장 가까운 객체들을 찾는 것에 대한 연구이다. 기존의 NS를 찾는 방법은 객체 인덱싱을 위하여 R-tree를 사용하며, 질의 점과 최소경계사각형(minimum bounding rectangle : MBR)이 이루는 각의 범위를 계산한다. 계산 수행 결과 각 MBR들 이 이루는 각의 범위가 겹치는 부분이 발생하면 해당 각 범위 내에서 질의 점으로부터 최소거리에 있는 MBR을 선택해야 하므로 범위별 질의 점과 MBR들의 최대 최소 거리를 구해야 한다. 이러한 범위별 계산 과정은 계산 비용을 높이는 단점이 있다. 따라서 본 논문에서는 NS를 필요로 하는 영역에서 각 범위별 겹쳐지는 MBR들의 꼭지점 좌표만을 비교한다. 이것은 기존 연구에서 계산 비용을 높이는 공통 각 계산 절차를 개선하고, 최대 최소 거리 계산 수행은 생략하여 NS를 찾는다. 제안 기법을 위해 논문에서 사용하는 각 알고리즘은 이전 연구보다 나은 계산비용 절감 효과를 가져 올 수 있다.

  • PDF

음성/음악 판별을 위한 특징 파라미터와 분류기의 성능비교 (Performance Comparison of Feature Parameters and Classifiers for Speech/Music Discrimination)

  • 김형순;김수미
    • 대한음성학회지:말소리
    • /
    • 제46호
    • /
    • pp.37-50
    • /
    • 2003
  • In this paper, we evaluate and compare the performance of speech/music discrimination based on various feature parameters and classifiers. As for feature parameters, we consider High Zero Crossing Rate Ratio (HZCRR), Low Short Time Energy Ratio (LSTER), Spectral Flux (SF), Line Spectral Pair (LSP) distance, entropy and dynamism. We also examine three classifiers: k Nearest Neighbor (k-NN), Gaussian Mixure Model (GMM), and Hidden Markov Model (HMM). According to our experiments, LSP distance and phoneme-recognizer-based feature set (entropy and dunamism) show good performance, while performance differences due to different classifiers are not significant. When all the six feature parameters are employed, average speech/music discrimination accuracy up to 96.6% is achieved.

  • PDF

복합 분류기를 이용한 웹 문서 범주화에 관한 실험적 연구 (An Experimental Study on Categorization of Web Documents Using an Ensemble Classifier)

  • 이혜원;정영미
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2003년도 제10회 학술대회 논문집
    • /
    • pp.73-82
    • /
    • 2003
  • 본 연구에서는 웹 문서를 분류하기 위해 문서로부터 다양한 자질을 추출하고, 두 가지의 분류기를 통해 여러 개의 분류 예측치를 구한 다음, 그것들을 하나의 결과물로 통합하는 복합분류기를 사용하였다. 먼저 다양한 자질 집합에 대해 일반적으로 많이 사용되는 kNN(k nearest neighbor) 분류기와 나이브 베이즈(Naive Bayes) 분류기를 사용한 범주화 실험을 수행하고, 실험을 통해 나온 범주 예측치를 통합하는 복합 분류기들의 성능을 비교하였다. 또한 단일 분류기들을 통해 나온 모든 범주 예측치를 통합하는 과정을 수행하여, 단일 분류기만을 사용할 경우와 복합 분류기를 사용할 경우를 비교해 더 좋은 성능을 나타내는 분류기를 밝히고자 한다.

  • PDF

움직임 실루엣 영상의 일반적인 표현 방식에 대한 연구 (A General Representation of Motion Silhouette Image: Generic Motion Silhouette Image(GMSI))

  • 홍성준;이희성;김은태
    • 제어로봇시스템학회논문지
    • /
    • 제13권8호
    • /
    • pp.749-753
    • /
    • 2007
  • In this paper, a generalized version of the Motion Silhouette Image(MSI) called the Generic Motion Silhouette Image (GMSI) is proposed for gait recognition. The GMSI is a gray-level image and involves the spatiotemporal information of individual motion. The GMSI not only generalizes the MSI but also reflects a flexible feature of a gait sequence. Along with the GMSI, we use the Principal Component Analysis(PCA) to reduce the dimensionality of the GMSI and the Nearest Neighbor(NN) for classification. We apply the proposed feature to NLPR database and compare it with the conventional MSI. Experimental results show the effectiveness of the GMSI.

입력패턴과 그 k 근방 원형상에서 최근접 결정법칙에 의한 패턴식별 (Pattern Classification using the Nearest Desion Method in Input Pattern and its k Neighbor Prototypes)

  • 김응규
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2008년도 제39회 하계학술대회
    • /
    • pp.1853-1854
    • /
    • 2008
  • 본 논문에서는 입력패턴과 그 k 근방 원형상에 잇어서 노름 평균에 기초한 최근접 결정법칙에 의한 패턴식별법을 제안한다. 이 방법은 식별경계 근방의 원형상에 있어서 분산의 차에 의한 가중치를 고려하기 때문에 패턴의 수가 적을 때 입력패턴을 정확하게 분류할 때 사용될 수 있다. 본 방법의 유효성을 평가하기 위해 인공적인 패턴과 실제패턴에 대해 k-NN 등 기존방법과 제안하는 방법을 적용하여 식별률에 의한 평가를 행한 결과, 특히 원형상의 분포가 희박한 경우 제안하는 방법이 기존방법에 비해 높은 식별률을 나타냈다.

  • PDF

문서분류 기법을 이용한 웹 문서 분류의 실험적 비교 (Empirical Analysis & Comparisons of Web Document Classification Methods)

  • 이상순;최정민;장근;이병수
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (2)
    • /
    • pp.154-156
    • /
    • 2002
  • 인터넷의 발전으로 우리는 많은 정보와 지식을 인터넷에서 제공받을 수 있으며 HTML, 뉴스그룹 문서, 전자메일 등의 웹 문서로 존재한다. 이러한 웹 문서들은 여러가지 목적으로 분류해야 할 필요가 있으며 이를 적용한 시스템으로는 Personal WebWatcher, InfoFinder, Webby, NewT 등이 있다. 웹 문서 분류 시스템에서는 문서분류 기법을 사용하여 웹 문서의 소속 클래스를 결정하는데 문서분류를 위한 기법 중 대표적인 알고리즘으로 나이브 베이지안(Naive Baysian), k-NN(k-Nearest Neighbor), TFIDF(Term Frequency Inverse Document Frequency)방법을 이용한다. 본 논문에서는 웹 문서를 대상으로 이러한 문서분류 알고리즘 각각의 성능을 비교 및 평가하고자 한다.

  • PDF

머신러닝을 활용한 주식 투자 시스템 구현 (Development of Stock Investment System Using Machine Learning)

  • 남기백;장정식;오훈;김태형
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 추계학술발표대회
    • /
    • pp.810-812
    • /
    • 2017
  • 최근 기계학습에 대한 관심이 높아지면서 금융 분야에서는 인공지능을 이용하여 투자 포트폴리오를 제안하는 로보어드바이저(robo-advisor)를 출시하고 있다. 이는 고객에게 저렴한 수수료를 제공하며 높은 접근성, 인건비의 절감 등의 장점으로 이를 도입하여 다양한 상품을 개발하고 있다. 본 연구에서는 머신러닝 알고리즘인 SVM(support vector machine)과 kNN(k-nearest neighbor)을 활용하여 매월 12개월 이전의 KOSPI 지수 데이터를 학습시킨 후 예측하는 투자 시스템을 구현하였다. 실험결과 SVM이 2.90413배의 성적으로 가장 우수했으며 수익률은 Precision(예측정확도)와 비례함을 보였다. 또한 수익곡선은 추세에 따라 유사한 형태를 보인 성과를 도출하였다.