• 제목/요약/키워드: K-Nearest Neighbor 알고리즘

검색결과 204건 처리시간 0.02초

데이터 크기에 따른 k-NN의 예측력 연구: 삼성전자주가를 사례로 (The Effect of Data Size on the k-NN Predictability: Application to Samsung Electronics Stock Market Prediction)

  • 천세학
    • 지능정보연구
    • /
    • 제25권3호
    • /
    • pp.239-251
    • /
    • 2019
  • 본 논문은 학습데이터의 크기에 따른 사례기반추론기법이 주가예측력에 어떻게 영향을 미치는지 살펴본다. 삼성전자 주가를 대상을 학습데이터를 2000년부터 2017년까지 이용한 경우와 2015년부터 2017년까지 이용한 경우를 비교하였다. 테스트데이터는 두 경우 모두 2018년 1월 1일부터 2018년 8월 31일까지 이용하였다. 시계 열데이터의 경우 과거데이터가 얼마나 유용한지 살펴보는 측면과 유사사례개수의 중요성을 살펴보는 측면에서 연구를 진행하였다. 실험결과 학습데이터가 많은 경우가 그렇지 않은 경우보다 예측력이 높았다. MAPE을 기준으로 비교할 때, 학습데이터가 적은 경우, 유사사례 개수와 상관없이 k-NN이 랜덤워크모델에 비해 좋은 결과를 보여주지 못했다. 그러나 학습데이터가 많은 경우, 일반적으로 k-NN의 예측력이 랜덤워크모델에 비해 좋은 결과를 보여주었다. k-NN을 비롯한 다른 데이터마이닝 방법론들이 주가 예측력 제고를 위해 학습데이터의 크기를 증가시키는 것 이외에, 거시경제변수를 고려한 기간유사사례를 찾아 적용하는 것을 제안한다.

k-NN 알고리즘을 활용한 단기 교통상황 예측: 서울시 도시고속도로 사례 (Short-term Traffic States Prediction Using k-Nearest Neighbor Algorithm: Focused on Urban Expressway in Seoul)

  • 김형주;박신형;장기태
    • 대한교통학회지
    • /
    • 제34권2호
    • /
    • pp.158-167
    • /
    • 2016
  • 본 연구는 실시간 자료를 기반으로 k-NN을 활용한 단기 교통상황 예측 시 각 단계별 세부절차 및 변수결정, 입력자료 구축 등의 각 단계별 잠재적 예측오차에 대한 원인분석 및 시사점 도출을 목적으로 한다. 다양한 단기 예측모형에 대한 선행연구 검토를 통하여 k-NN 모형의 유용성을 검토하였고 이에 대한 적용가능성을 분석하였다. 본 연구의 k-NN 모형은 이력자료 평활화 및 패턴DB 구축의 입력자료 부분, 실시간 자료와 과거 이력자료와의 유사성 측정 및 k 근접이웃 결정 등의 k-NN 알고리즘 부분, 그리고 예측 시간간격에 따른 출력결과 부분 등으로 구성되며 올림픽대로 김포방향 한강대교 남단~여의상류IC 구간을 대상으로 분석을 실시하였다. 교통자료의 불규칙 잡음으로 인하여 정확한 패턴매칭을 위해서 이력자료의 평활화를 실시하였으며, 이력자료 패턴 DB는 일반 및 이벤트 상황으로 구분하여 활용하였다. 최적의 시계열 자료 및 k 근접이웃 결정을 위해서 시행착오 방법을 적용하였으며, 단기 교통상황 예측 시 예측 시간간격이 증가할수록 예측오차가 증가하는 패턴, 그리고 교통상태가 급변하는 시점에서도 예측오차가 증가함을 알 수 있었다. 본 연구의 k-NN 모형에 대한 각 단계별 예측오차에 대한 원인을 분석하여 개선방향을 제시함으로써 향후 신뢰성 있는 단기 교통상황예측 정보제공 및 시스템에 활용이 가능할 것으로 판단된다.

구형 피라미드 기법을 이용한 최근접 질의 처리 기법 (Nearest Neighbor Query Processing using the Spherical Pyramid Technique)

  • 이동호;김형주
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제28권1호
    • /
    • pp.86-94
    • /
    • 2001
  • 구형 피라미드 기법[1,2]은 d-차원의 공간을 2d개의 구형 피라미드들로 분할하는 특별한 공간 분할 방식을 이용하여 고차원 데이터를 효율적으로 색인할 수 있는 새로운 색인 방법으로 제안되었다. 구형 피라미드 기법은 구형태의 영역질의를 처리하는 알고리즘을 제안하였으나 유사 검색에 많이 사용되는 또 다른 종류의 질의인 최근접 질의를 처리하는 알고리즘을 제안하지 못했다. 본 논문에서는 점진적 최근접 질의 처리 알고리즘을 확장하여 구형피라미드 기법 상에서 효율적으로 최근접 질의를 처리하는 알고리즘을 제안한다. 마지막으로, R*-tree와 X-tree 상에서 구현된 점진적 k-최근접 질의 처리 방법과 다양한 비교 실험을 통하여 구형 피라미드 기법을 이용한 k-최근접 질의 처리 방법이 더 효율적임을 보인다.

  • PDF

자기 조직화 맵 기반 유사화상 검색의 고속화 수법 (A Method of Highspeed Similarity Retrieval based on Self-Organizing Maps)

  • 오군석;양성기;배상현;김판구
    • 정보처리학회논문지B
    • /
    • 제8B권5호
    • /
    • pp.515-522
    • /
    • 2001
  • 특징정보를 기반으로 한 유사화상 검색은 화상 데이터베이스에 있어서 중요한 과제의 하나이다. 화상 데이터의 특징정보를 각 화상을 식별하는데 유용한 정보이다. 본 논문에서는 자기조직화 맵기반의 고속 k-NN 탐색 알고리즘을 제안한다. 자기조직화 맵은 학습을 통하여 고차원 특징벡터를 2차원 공간에 맵핑함으로서 위상 특징맵을 생성한다. 위상 특징맵은 입력 데이터의 특징공간의 상호간의 유사성을 가지고 있으며, 각 노드는 노드벡터와 각 노드벡터에 가장 가까운 유사화상이 분류된다. 이러한 자기조직화 맴에 의한 유사화상 분류결과에 대한 k-NN 탐색을 구현하기 위한여, (1) 위상특징 맵에 대한 접근방법, (2) 고속탐색을 위한 pruning strategy의 적용을 실현하였다. 본 연구에서는 실험을 통하여 실제화상으로부터 추출한 색상 특징을 사용하여 제안한 알고리즘의 성능을 평가함으로써 유사화상 검색에 유효한 결과를 얻을 수 있었다.

  • PDF

효율적인 병렬 고차원 색인구조 설계 (Design of an Efficient Parallel High-Dimensional Index Structure)

  • 박춘서;송석일;신재룡;유재수
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제29권1호
    • /
    • pp.58-71
    • /
    • 2002
  • 일반적으로 이미지나 공간 데이터베이스와 같은 다차원의 특징을 갖는 데이터들은 대용량의 저장공간을 요구한다. 이 대량의 데이터를 하나의 워크스테이션에 저장하고 검색을 수행하는 데는 한계가 있다. 최근 활발히 연구되고 있는 병렬 컴퓨팅 환경에서 이들에 대한 저장 및 검색을 수행한다면 훨씬 더 높은 성능 향상을 가져 올 수 있을 것이다. 이 논문에서는 기존에 존재하는 병렬 컴퓨팅 환경의 장점을 최대한 이용하는 병렬 고차원 색인구조를 제안한다. 제안하는 색인구조는 nP(프로세서)-nD(디스크)와 lP-nD의 결합 형태인 nP-n$\times$mD의 구조라고 볼 수 있다. 노드 구조는 팬-아웃을 증가시키고 트리의 높이를 줄일 수 있도록 설계되었다. 또한 I/O의 별렬성을 최대화하는 범위 탐색 알고리즘을 제안하고 이것을 K-최근접 탐색 알고리즘에 적용하여 탐색 성능향상을 꾀한다. 마지막으로, 다양한 환경에서의 실험을 통해 제안하는 색인구조의 탐색 성능을 테스트하고 기존에 제안된 병렬 다차원 색인구조와의 비교를 통해 제안한 방법의 우수함을 보인다.

kNN 알고리즘과 계절별 Landsat TM 위성영상을 이용한 단양군 지역의 지상부 바이오매스 탄소저장량 추정 (Estimation of Aboveground Biomass Carbon Stock in Danyang Area using kNN Algorithm and Landsat TM Seasonal Satellite Images)

  • 정재훈;허준;유수홍;김경민;이정빈
    • 대한공간정보학회지
    • /
    • 제18권4호
    • /
    • pp.119-129
    • /
    • 2010
  • 원격탐사 자료와 현장 자료를 이용한 산림 바이오매스 탄소량 추정은 전 세계적으로 각광을 받고 있으며, 국내의 경우 2010년 국립산림과학원에서 개발한 수종별 탄소배출계수를 통해 보다 정확한 탄소량 추정이 가능하게 되었다. 본 연구에서는 2006년부터 2009년까지 구축된 제5차 국가산림자원조사(National Forest Inventory, NFI) 자료를 기반으로 k-Nearest Neighbor(kNN) 알고리즘을 이용하여 충청북도 단양군의 지상부 바이오매스 탄소량을 추정하였다. 원격탐사 자료로는 계절 변화가 뚜렷한 한반도의 기후가 산림 지역의 분광 특성 및 이에 따른 탄소량 추정에 미치는 영향을 조사하기 위해 2004년부터 2005년까지 계절별로 취득된 Landsat TM 위성영상을 이용하였다. 분석결과 단양군 지역의 지상부 바이오매스 총 탄소량은 최대 3542768.49tonC에서 최소 3329037.51tonC 사이로 추정되었으나, 계절에 따른 특정 경향은 발견되지 않았다.

근접 이웃 선정 협력적 필터링 추천시스템에서 이웃 선정 방법에 관한 연구 (A study on neighbor selection methods in k-NN collaborative filtering recommender system)

  • 이석준
    • Journal of the Korean Data and Information Science Society
    • /
    • 제20권5호
    • /
    • pp.809-818
    • /
    • 2009
  • 협력적 필터링 기법은 전자상거래에서 거래되는 아이템에 대하여 고객들이 평가한 선호 정보를 이용하여 특정 상품에 대한 선호도 예측 대상 고객의 선호도를 예측하는 기법이다. 협력적 필터링 기법을 통한 예측 정확도를 향상시키기 위해서는 예측에 이용할 수 있는 고객들의 선호 정보를 충분히 확보하여야 한다. 그러나 과도한 이웃 고객의 선호 정보는 오히려 예측 정확도에 부정적 영향을 미치며 또한 과소 정보 역시 예측 정확도 감소에 영향을 미칠 수 있다. 본 연구에서는 협력적 필터링 알고리즘 적용에 있어 k명의 근접 이웃을 결정하는 이웃 선정방법을 개선하였으며 개별 고객의 선호도 평가 정보를 이용하여 적정 이웃 수를 결정할 수 있는 방법을 제시한다. 본 연구의 결과는 근접 이웃 수 결정을 위한 기존 방법인 탐색적 방법을 개선함과 동시에 선호도 예측 정확도를 향상시키는데 유용한 방법을 제공할 수 있다.

  • PDF

ELIS : 효과적인 식물 잎 이미지 검색 시스템 (ELIS : An Effective Leaf Image Retrieval System)

  • 남윤영;황인준
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 한국컴퓨터종합학술대회 논문집 Vol.32 No.1 (B)
    • /
    • pp.118-120
    • /
    • 2005
  • 본 논문은 모양 특성을 이용한 효과적인 식물 잎 이미지 검색 시스템을 제시한다. 잎 이미지의 더 효과적인 표현을 위해 개선된 MPP 알고리즘을 제안하고, 매칭에 소요되는 시간을 줄이기 위해 기존의 Nearest Neighbor(NN) 검색을 수정한 동적인 매칭 알고리즘을 제시한다. 특히, 더 나은 정확율과 효율성을 위해, 잎 모양과 잎차례를 스케치하여 질의할 수 있도록 하였다. 실험에서는 제안한 알고리즘과 기존의 알고리즘인 Fourier Descriptor, Moment Invariants, MPP와 비교하였다. 1000여개의 식물 잎 이미지를 통한 실험결과는 제안한 방법이 기존의 기법보다 더 좋은 성능임을 보였다.

  • PDF

Genetic Algorithm과 다중부스팅 Classifier를 이용한 암진단 시스템 (Cancer Diagnosis System using Genetic Algorithm and Multi-boosting Classifier)

  • 온승엽;지승도
    • 한국시뮬레이션학회논문지
    • /
    • 제20권2호
    • /
    • pp.77-85
    • /
    • 2011
  • 생물 및 의학계에서는 생물정보학(bioinformatics)의 데이터 중 혈청 단백질(proteome)에서 추출한 데이터가 질병의 진단에 관련된 정보를 가지고 있고, 이 데이터를 분류 분석함으로 질병을 조기에 진단 할 수 있다고 믿고 있다. 본 논문에서는 혈청 단백질(2-D PAGE: Two-dimensional polyacrylamide gel electrophoresis)로부터 암과 정상을 판별하는 새로운 복합분류기를 제안한다. 새로운 복합 분류기에서는 support vector machine(SVM)와 다층 퍼셉트론(multi-layer perceptron: MLP)와 k-최근 접 이웃(k-nearest neighbor: k-NN)분류기를 앙상블(ensemble) 방법으로 통합하는 동시에 다중 부스팅(boosting) 방법으로 각 분류기를 확장하여 부분류기(subclassifier)의 배열(array)으로서 복합분류기를 구성하였다. 각 부분류기에서는 최적 특성 집합 (feature set)을 탐색하기 위하여 유전 알고리즘(genetic algorithm: GA)를 적용하였다. 복합분류기의 성능을 측정하기 위하여 암연구에서 얻어진 임상 데이터를 복합분류기에 적용하였고 결과로서 단일 분류기 보다 높은 분류 정확도와 안정성을 보여 주었다.

질의 결과를 이용한 거리 브라우징 질의의 처리 (Distance Browsing Query Processing using Query Result Set)

  • 박동주;박상원;정태선;이상원
    • 정보처리학회논문지D
    • /
    • 제12D권5호
    • /
    • pp.673-682
    • /
    • 2005
  • k-최근접 질의와 같은 거리 브라우징 질의는 지리정보시스템(GIS)과 같은 공간 데이터베이스 응용에서 아주 중요한 질의이다. 최근 GIS 응용은 웹과 같은 다중 사용자 환경으로 확장되고 있는 추세이다. 이러한 질의를 처리하기 위한 많은 기법들 중에서 Hjaltason과 Samet이 제안한 알고리즘이 가장 우수하지만, 하나의 질의 처리에 대해서만 최적화가 이루어졌다. 따라서 다중 사용자 환경에 적합하도록 이러한 기법들을 보완할 필요성이 있다. 이전에 처리된 질의 결과를 캐쉬에 저장해 두고(즉, 질의 결과 캐슁 기법) 후속 질의를 처리할 때 질의 결과를 이용하는 (즉, 질의 결과 매칭 기법) 것은 하나의 좋은 접근 방법이라 할 수 있다. 본 논문은 다중 사용자 GIS 환경에서 거리 브라우징 질의를 효율적으로 처리하기 위해서 캐쉬된 이전 질의 결과를 재사용할 수 있도록 보완된 Hjaltason & Samet의 알고리즘을 제안한다. 실험 결과를 통해 우리의 접근 방법이 효율적임을 보인다.