• 제목/요약/키워드: k-근접 이웃

검색결과 35건 처리시간 0.023초

토너먼트 기반의 빅데이터 분석 알고리즘 (An Algorithms for Tournament-based Big Data Analysis)

  • 이현진
    • 디지털콘텐츠학회 논문지
    • /
    • 제16권4호
    • /
    • pp.545-553
    • /
    • 2015
  • 모든 데이터는 그 자체로 가치를 가지고 있지만, 실세계에서 수집되는 데이터들은 무작위적이며 비구조화되어 있다. 따라서 이러한 데이터를 효율적으로 활용하기 위해서 데이터에서 유용한 정보를 추출하기 위한 데이터 변환과 분석 알고리즘들을 사용하게 된다. 이러한 목적으로 사용되는 것이 데이터 마이닝이다. 오늘날에는 데이터를 분석하기 위한 다양한 데이터 마이닝 기법뿐만 아니라, 대용량 데이터를 효율적으로 처리하기 위한 연산 요건과 빠른 분석 시간을 필요로 하고 있다. 대용량 데이터를 저장하기 위하여 하둡이 많이 사용되며, 이 하둡의 데이터를 분석하기 위하여 맵리듀스 프레임워크를 사용한다. 본 논문에서는 단일 머신에서 동작하는 알고리즘을 맵리듀스 프레임워크로 개발할 때 적용의 효율성을 높이기 위한 토너먼트 기반 적용 방안을 제안하였다. 본 방법은 다양한 알고리즘에 적용할 수 있으며, 널리 사용되는 데이터 마이닝 알고리즘인 k-means, k-근접 이웃 분류에 적용하여 그 유용성을 보였다.

개인화된 전문가 그룹을 활용한 추천 시스템 (Personalized Expert-Based Recommendation)

  • 정연오;이성우;이지형
    • 한국지능시스템학회논문지
    • /
    • 제23권1호
    • /
    • pp.7-11
    • /
    • 2013
  • 전문가의 지식을 기반으로 한 추천시스템에 대한 다양한 연구가 최근 활발히 진행되고 있다. 지금까지의 전문가 기반 추천 시스템이 공통된 전문가 그룹의 지식을 바탕으로 모두에게 아이템을 추천하였다면, 본 논문에서는 개인의 필요와 전문가에 대한 관점을 반영한 개인화된 전문가 그룹의 지식을 기반으로 한 추천 시스템을 제안한다. 개인화된 전문가 그룹을 찾는 과정이 제안하는 추천 시스템에서 가장 중요한 부분이다. 이를 위해 개인화된 전문가를 효율적으로 찾아내는 지지 벡터 머신(SVM) 기반 기법을 제안한다. 추천 시스템에서 널리 사용되는 k 근접이웃 알고리즘과의 비교를 통하여서 개인화된 전문가를 기반으로 한 협업 필터링 추천 시스템의 효용성을 입증한다.

Random Forest 분류기와 Bag-of-Feature 특징 히스토그램을 이용한 의료영상 자동 분류 및 검색 (Medical Image Classification and Retrieval Using BoF Feature Histogram with Random Forest Classifier)

  • 손정은;고병철;남재열
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제2권4호
    • /
    • pp.273-280
    • /
    • 2013
  • 본 논문에서는 의료영상의 특성을 반영하여 픽셀 그래디언트의 방향 값을 특징으로 하는 OCS-LBP (Oriented Center Symmetric Local Binary Patterns) 특징을 개발하고 BoF(Bag-of-Feature)와 Random Forest 분류기를 이용한 영상 검색 방법을 제안한다. 학습영상에서 추출된 특징 값은 code book 으로 군집화 되고, 각 영상들은 code book을 통해 의미 있는 새로운 차원인 BoF특징으로 변환된다. 이렇게 추출된 BoF특징은 Random Forest 분류기에 적용되고 학습된 분류기에 의해 유사한 특성을 갖는 N개의 클래스별로 분류되게 된다. 질의 영상이 입력되면 동일한 OCS-LBP특징이 추출되고 code book을 통해 BoF특징이 추출된다. 전통적인 내용기반 영상검색과는 다르게, 본 논문에서는 질의 영상에서 추출된 BoF특징이 학습된 Random Forest에 적용되어 가장 유사한 K-근접 이웃 (K-nearest neighbor) 클래스들을 선택하고 선택된 클래스들에 포함된 영상들에 대해서만 질의 영상과의 BoF 유사도 측정을 통해 최종 유사한 영상을 검색하게 된다. 실험결과에서 본 논문에서 제안하는 방법은 빠르고 우수한 검색 성능을 보여 주었다.

운동학적 접근 방법을 사용한 복잡한 인간 동작 질의 시스템 (A Kinematic Approach to Answering Similarity Queries on Complex Human Motion Data)

  • 한혁;김신규;정형수;염헌영
    • 인터넷정보학회논문지
    • /
    • 제10권4호
    • /
    • pp.1-11
    • /
    • 2009
  • 대규모 인간 동작 데이터베이스에서 고차원의 데이터를 처리하는 것이 큰 비용을 요구하기에, 최근 데이터베이스 및 그래픽스 학계는 인간 동작 데이터 질의 및 접근에 큰 관심을 가지게 되었다. 특히, 인간 동작 데이터를 위한 효과적인 유사도(거리) 측정 방법이나 질의 처리는 여전히 많은 연구진들이 도전하고 있는 문제이다. 이에, 본 연구진은 SMoFinder 라고 명명한 동작 질의 처리 시스템을 제안한다. SMoFinder는 새롭게 고안된 운동학적 거리 측정 그리고 적응적 프레임 세그멘테이션에 기반하는 효율적인 인덱싱을 사용하여 동작 질의를 처리한다. 이를 위해, SMoFinder에서는 인간 동작을 다연결 물리 운동으로 간주하고 새로운 가중치 Minkowski 함수를 정의했다. 또한, 효율적인 인덱싱을 위해 모든 프레임을 저장하지 않고 유사한 프레임들 중에서 대표 프레임을 뽑아서 저장하는 적응적 세그멘테이션을 고안했다. 그리고, 효율적인 검색을 위해 이들 대표 프레임들만 가지고 k-근접 이웃 질의를 수행하는 새로운 방법을 제안한다. 마지막으로, SMoFinder가 데이터베이스 용량이 크게 줄지만(1/25배), 검색 능력은 다른 시스템과 동일하거나 우월하다는 것을 실험을 통해 보여주고자 한다.

  • PDF

협업필터링의 신규고객추천 및 희박성 문제 해결을 위한 중심성분석의 활용 (Applying Centrality Analysis to Solve the Cold-Start and Sparsity Problems in Collaborative Filtering)

  • 조윤호;방정혜
    • 지능정보연구
    • /
    • 제17권3호
    • /
    • pp.99-114
    • /
    • 2011
  • 본 연구에서는 협업필터링의 두 가지 근본적인 문제인 신규고객 추천(cold-start recommendation)과 희박성(sparsity) 문제를 해결하고자 한다. 먼저, 사회 네트워크 분석에서 가장 많이 활용 되고 있는 세 가지 중심성 지표인 연결중심성(degree centrality), 근접중심성(closeness centrality), 매개중심성(betweenness centrality)을 결합한 다양한 중심성 지표들을 만든 후 이를 기반으로 신규고객의 잠재 이웃고객을 찾고 그 이웃고객들의 구매정보를 이용하여 신규고객에게 상품을 추천하는 새로운 방법을 제시한다. 다음으로 희박성 문제를 해결하기 위하여, 구매정보가 충분한 고객에게는 협업필터링을, 그렇지 않은 고객에게는 협업필터링 대신 제시한 신규고객 추천방법을 적용하는 하이브리드 추천 방법을 제안한다. 제시한 추천 방법의 효과성을 평가하기 위하여 국내 유명 백화점 중의 하나인 H백화점의 구매 트랜잭션 데이터를 사용하여 실험하였다. 실험결과로부터 근접중심성과 매개중심성을 결합한 지표를 신규고객 추천 시에 사용할 경우 추천 성능이 가장 우수한 것으로 판명되었으며, 제안한 하이브리드 추천 방법이 기존의 협업필터링의 성능을 상당히 개선함으로써 희박성 문제를 해결할 수 있는 새로운 대안임이 입증되었다.

방향성을 고려한 공간적 조건부 자기회귀 모형 (Directional conditionally autoregressive models)

  • 경민정
    • 응용통계연구
    • /
    • 제29권5호
    • /
    • pp.835-847
    • /
    • 2016
  • 공간통계 방법 중 지역에 대한 어떤 집합체 자료나 평균자료들을 분석하는데 일반적으로 공간적 자기회귀(conditionally autoregressive) 모형을 사용한다. 공간적 자기회귀 모형에 정의되는 공간적 이웃 소지역들은 중점의 거리나 근접성으로 정의된다. Kyung과 Ghosh (2010)는 방향에 따라서 이웃간 자기상관성의 크기가 다른 공간적 확장 모형을 제시하였다. 제안된 방향적 조건부 자기회귀(directional conditionally autoregressive) 모형은 고유 이방성을 모형화하여 기존의 CAR과정을 일반화한다. 제시한 방향적 조건부 자기회귀모형의 최대우도 추정량의 특성에 대해 설명하였고, 스코틀랜드 그레이터 글래스고우의 로그변환된 부동산 가격에 적용하여 조건부 자기회귀모형과 비교하였다.

방향성 공간적 조건부 자기회귀 모형의 베이즈 분석 방법 (Bayesian analysis of directional conditionally autoregressive models)

  • 경민정
    • Journal of the Korean Data and Information Science Society
    • /
    • 제27권5호
    • /
    • pp.1133-1146
    • /
    • 2016
  • 공간통계 방법 중 지역에 대한 어떤 집합체 자료나 평균자료들을 분석하는데 일반적으로 공간적 자기회귀 (conditionally autoregressive) 모형을 사용한다. 공간적 자기회귀 모형에 정의되는 공간적 이웃 소지역들은 중점의 거리나 근접성으로 정의된다. Kyung과 Ghosh (2009)는 방향에 따라서 이웃간 자기상관성의 크기가 다른 확장된 공간 모형을 제시하였다. 제안된 방향적 조건부 자기회귀 (directional conditionally autoregressive) 모형은 고유 이방성을 모형화하여 기존의 CAR과정을 일반화한다. 제시한 방향적 조건부 자기회귀모형의 모수추정으로 마르코프 체인 몬테 카를로 방법을 기반으로 한 베이즈 추정법을 제시한다. 제시한 모형을 스코틀랜드 그레이터 글래스고우의 로그변환된 부동산 가격에 적용하여 조건부 자기회귀모형과 비교하였다.

평면 색인 구조에서 효율적인 k-근접 이웃 찾기 (Efficient k-nn search on directory-based index structure)

  • 김태완;강혜영;이기준
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (A)
    • /
    • pp.779-781
    • /
    • 2003
  • 최근에 제안된 VA-File[6]은 k-NN 질의 처리에서 아주 효율적이라고 알려져 있다. 제시된 방법은 분할된 데이터의 저장 효율성을 보장하지 못하기 때문에 각 차원에 할당된 비트의 수가 증가하면(비트수=3~5) 할수륵 거의 모든 데이터에 대하여 MBH를 생성하는 단점이 있다. k-NN 질의는 거의 모든 데이터를 순차 검색을 통한 일차적 가지제거작업을 한 후. 질의를 수행하기 위한 디스크 접근을 한다. 따라서, 질의를 수행하기 위한 디스크 접근 횟수는 다른 방법들에 비하여 거의 최적에 가까운 접근 횟수를 가지나 주 기억 장치에서 최소-힘을 이용하여 수행하는 일차적 가지 제거 작업의 오버 로더는 간과되었다. 우리는 기존에 알려진 재귀적으로 공간을 두개의 부 공간으로 분할하는 방법을 사용하여 VA-File 과 같은 디렉토리 자료구조를 구축하여 k-NN 실험을 하였다. 이러한 분할된 MBH의 정방형성을 선호하는 방법은 저장 효율성을 보장한다. 실제 데이터에 대한 실험에서 우리가 실험한 간단한 방법은 디스크 접근 시간 및 CPU 시간을 합한 전체 수행시간에서 VA-File에 비하여 최대 93% 정도의 성능 향상이 있다.

  • PDF

무선 센서 네트워크를 위한 효율적인 키 분배 기법 (An Efficient Key distribution Scheme for Wireless Sensor Networks)

  • 김회복;김형진
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2008년도 춘계종합학술대회 A
    • /
    • pp.882-885
    • /
    • 2008
  • 무선 센서 네트워크는 저가의 한정된 자원들을 갖는 수많은 센서 노드들로 구성된다. 보편적으로 대부분의 센서들은 안전하지 않거나 제어할 수 없는 환경에 배치되며, 만일 넓은 목표 지역에 센서노드들을 무작위로 배치할 때에는 센서 노드들의 정확한 위치를 파악하기 매우 어렵다. 따라서 본 논문에서는 이러한 문제를 해결하기 위한 방안으로서 효율적인 키 분배 기법을 제안하고자 한다. 이에 제안된 기법을 통해 센서 노드들이 선-분배된 키들을 사용하여 안전한 링크를 확립한 후 근접한 이웃 노드들과 서로 정보를 교환할 수 있도록 하였다. 또한 제안된 기법에서는 센서노드의 위치 정보를 이용함으로써 노드간에 공통-키를 발견할 수 있는 확률을 높일 수 있게 하였다.

  • PDF

KNN 알고리즘을 활용한 고속도로 통행시간 예측 (Expressway Travel Time Prediction Using K-Nearest Neighborhood)

  • 신강원;심상우;최기주;김수희
    • 대한토목학회논문집
    • /
    • 제34권6호
    • /
    • pp.1873-1879
    • /
    • 2014
  • 실시간 자료를 반영한 통행시간 예측 기법은 다양하지만 관련 연구 검토 결과 과거이력데이터가 충분하다면 타 모형에 비해 K 최대근접이웃(K-Nearest Neighbors)의 정확도가 우수하므로 본 연구에서는 이에 대한 적용 방법 도출 및 가능성 평가를 목적으로 한다. 본 연구에서는 KNN의 입력 자료로 TCS 교통량 및 DSRC 구간통행시간의 실시간 및 과거 이력자료, 경로통행시간 이력자료를 활용하였다. 통행시간 예측치는 TCS 교통량 및 DSRC 구간통행시간의 실시간 자료와 유사한 경로통행시간을 탐색한 후 이를 가중평균하여 산출하였다. 예측 기법을 적용한 결과 DSRC 구간통행시간의 가중치가 증가할수록 정확도는 증가하였으며, 이는 실시간 교통상황 변화를 DSRC 구간통행시간이 잘 반영하기 때문이다. 그러나 TCS 교통량을 기반으로 한 경우 역시 정확도의 차이가 크지 않으며, 변화 추이도 유사하게 나타났다. 이러한 결과를 볼 때 향후 대용량의 과거이력자료가 축적될 경우 예측오차는 더욱 감소될 것으로 기대된다.