• 제목/요약/키워드: k-Nearest Neighbor Method

검색결과 313건 처리시간 0.025초

Spark 기반 빅데이터 처리를 위한 K-최근접 이웃 연결 (K Nearest Neighbor Joins for Big Data Processing based on Spark)

  • 기가기;정영지
    • 한국정보통신학회논문지
    • /
    • 제21권9호
    • /
    • pp.1731-1737
    • /
    • 2017
  • K-최근접 이웃 연결(KNN 연결) 알고리즘은 기계학습에서 매우 효과적인 방법으로, 작은 데이터군에 대해서 널리 사용되어 왔다. 데이터의 수가 증가함에 따라, 단일 컴퓨터에서는 메모리와 수행시간의 제약으로 실제적인 응용프로그램에서는 실행하기에 적합하지 못하였다. 최근에는 대규모 데이터 처리를 위해서, 많은 수의 컴퓨터로 이루어진 클러스터에서 실행될 수 있는 맵리듀스 (MapReduce)로 알려진 알고리즘이 널리 사용되고 있다. 하둡은 맵리듀스 알고리즘을 구현한 프레임워크이지만 스파크라고 하는 새로운 프레임워크에 의하여 그 성능이 월등히 개선되었다. 본 논문에서는, 스파크에 기반하여 구현된 KNN 연결 알고리즘을 제안하였으며, 이는 인메모리(In-Memory) 연산 기능의 장점으로 하둡보다 빠르고 보다 효율적일 것으로 기대한다. 실험을 통하여, 수행시간에 영향을 주는 요소들에 관하여 조사하였으며, 제안한 접근 방식의 우수성과 효율성을 확인하였다.

위치 기반 서비스에서 K-anonymity를 보장하는 가중치 근접성 그래프 기반 최근접 질의처리 알고리즘 (A Nearest Neighbor Query Processing Algorithm Supporting K-anonymity Based on Weighted Adjacency Graph in LBS)

  • 장미영;장재우
    • Spatial Information Research
    • /
    • 제20권4호
    • /
    • pp.83-92
    • /
    • 2012
  • 무선 통신 기술 및 GPS(Global Positioning System)등의 발달로 인하여 위치 기반 서비스 (Location-Based Services: LBS)가 크게 발전하는 추세이다. 그러나 위치 기반 서비스를 이용하기 위해 질의 요청자는 자신의 정확한 위치 정보를 위치 기반 서비스 제공자에게 전송해야 한다. 따라서 위치 기반 서비스를 제공하면서 질의 요청자의 위치 정보를 보호하는 것이 중요한 과제이다. 이 문제를 해결하기 위해, 기존 기법은 실제 사용자의 위치를 숨기며 네트워크 사용을 줄일 수 있는 2PASS 기법을 사용하였다. 그러나 이 기법은 실제 사용자 분포를 고려하지 않기 때문에 실제 사용자 위치 보호를 완전히 보장하지 않는다. 따라서 본 논문에서는 K-anonymity를 보장하는 가중치 근접성 그래프 기반 최근접 질의처리 알고리즘을 제안한다. 제안하는 알고리즘은 질의 영역 내 K-anonymity를 보장함으로써 사용자의 위치 정보를 보호할 뿐만 아니라 불필요한 질의 결과 탐색을 줄여 네트워크 효율을 증가시킨다. 마지막으로, 성능평가를 통해 제안하는 기법이 기존 연구에 비해 질의 처리 시간 및 네트워크 효율 측면에서 우수함을 보인다.

WLAN 실내 측위 결정을 위한 KNN/PFCM Hybrid 알고리즘 (KNN/PFCM Hybrid Algorithm for Indoor Location Determination in WLAN)

  • 이장재;정민아;이성로
    • 대한전자공학회논문지SP
    • /
    • 제47권6호
    • /
    • pp.146-153
    • /
    • 2010
  • 무선 네트워크 기반 실내 측위는 측위를 위한 특수 장비를 필요로 하지 않고, Fingerprinting 방식은 무선 네트워크 기반 측위를 위한 기술 중에서 가장 정확도가 높기 때문에 무선 네트워크 Fingerprinting 방식이 가장 적당한 실내 측위 방법이다. Fingerprinting 방식에서 KNN은 WLAN 기반 실내 측위에 가장 많이 적용되고 있지만 KNN의 성능은k개의 이웃 수와 RP의 수에 따라 민감하다. 논문에서는 KNN 성능을 향상시키기 위해 PFCM 군집화를 적용한 KNN과 PFCM을 혼합한 알고리즘을 제안하였다. 제안한 알고리즘은 신호잡음비 데이터를 KNN 방법에 적용하여k개의 RP을 선택한 후 선택된 RP의 신호잡음비를 PFCM에 적용하여k개의 RP를 군집하여 분류한다. 실험 결과에서는 위치 오차가 2m 이내에서 KNN/PFCM 알고리즘이 KNN과 KNN/FCM 알고리즘보다 성능이 우수하다.

Shape Feature Extraction technique for Content-Based Image Retrieval in Multimedia Databases

  • Kim, Byung-Gon;Han, Joung-Woon;Lee, Jaeho;Haechull Lim
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2000년도 ITC-CSCC -2
    • /
    • pp.869-872
    • /
    • 2000
  • Although many content-based image retrieval systems using shape feature have tried to cover rotation-, position- and scale-invariance between images, there have been problems to cover three kinds of variance at the same time. In this paper, we introduce new approach to extract shape feature from image using MBR(Minimum Bounding Rectangle). The proposed method scans image for extracting MBR information and, based on MBR information, compute contour information that consists of 16 points. The extracted information is converted to specific values by normalization and rotation. The proposed method can cover three kinds of invariance at the same time. We implemented our method and carried out experiments. We constructed R*_tree indexing structure, perform k-nearest neighbor search from query image, and demonstrate the capability and usefulness of our method.

  • PDF

Personalized Movie Recommendation System Combining Data Mining with the k-Clique Method

  • Vilakone, Phonexay;Xinchang, Khamphaphone;Park, Doo-Soon
    • Journal of Information Processing Systems
    • /
    • 제15권5호
    • /
    • pp.1141-1155
    • /
    • 2019
  • Today, most approaches used in the recommendation system provide correct data prediction similar to the data that users need. The method that researchers are paying attention and apply as a model in the recommendation system is the communities' detection in the big social network. The outputted result of this approach is effective in improving the exactness. Therefore, in this paper, the personalized movie recommendation system that combines data mining for the k-clique method is proposed as the best exactness data to the users. The proposed approach was compared with the existing approaches like k-clique, collaborative filtering, and collaborative filtering using k-nearest neighbor. The outputted result guarantees that the proposed method gives significant exactness data compared to the existing approach. In the experiment, the MovieLens data were used as practice and test data.

최소 비용할당 기반 온라인 지게차 운영 알고리즘 (An Online Forklift Dispatching Algorithm Based on Minimal Cost Assignment Approach)

  • 권보배;손정열;하병현
    • 한국시뮬레이션학회논문지
    • /
    • 제27권2호
    • /
    • pp.71-81
    • /
    • 2018
  • 조선소의 지게차는 작업 특성상 무거운 물건을 상/하차하거나 이송하는 작업이 빈번하다. 작업은 동적이며 시간대별로 생성 비율이 다르다. 특히 오전과 오후 업무시간 직후에 작업 발생 비율이 높은 경향을 보인다. 이러한 상/하차 작업과 이송작업의 무게는 매번 다르며, 활용되는 지게차 역시 작업 가능한 허용무게의 제약이 있다. 본 연구에서는 지게차의 원활한 운영을 위해 최소 비용할당을 사용한 최근린 배차 규칙 알고리즘을 제안한다. 제시된 알고리즘은 다양한 종류의 지게차와 다수의 작업을 동시에 고려하여 배차를 결정하며, 지게차 종류에 따른 작업 불가능을 고려하기 위해 가상 지게차와 가상 작업을 생성하는 방법을 제안한다. 그리고 차량의 상태를 고려하여 체계적으로 지게차를 선택하는 방법도 함께 제시한다. 성능지표는 평균 공차이동거리와 평균 작업대기시간으로 한다. 성능비교를 위해 조선소의 지게차 운영방식을 모델링한 우선순위 규칙을 비교 대상으로 한다. 시뮬레이션을 통해 제시한 알고리즘의 우수성을 확인한다.

곡가공 프로세스를 고려한 곡판 분류 알고리즘 (An Algorithm of Curved Hull Plates Classification for the Curved Hull Plates Forming Process)

  • 노재규;신종계
    • 대한조선학회논문집
    • /
    • 제46권6호
    • /
    • pp.675-687
    • /
    • 2009
  • In general, the forming process of the curved hull plates consists of sub tasks, such as roll bending, line heating, and triangle heating. In order to complement the automated curved hull forming system, it is necessary to develop an algorithm to classify the curved hull plates of a ship into standard shapes with respect to the techniques of forming task, such as the roll bending, the line heating, and the triangle heating. In this paper, the curved hull plates are classified by four standard shapes and the combination of them, or saddle, convex, flat, cylindrical shape, and the combination of them, that are related to the forming tasks necessary to form the shapes. In preprocessing, the Gaussian curvature and the mean curvature at the mid-point of a mesh of modeling surface by Coon's patch are calculated. Then the nearest neighbor method to classify the input plate type is applied. Tests to verify the developed algorithm with sample plates of a real ship data have been performed.

Treatment of Missing Data by Decomposition and Voting with Ordinal Data

  • Chun, Young-M.;Son, Hong-K.;Chung, Sung-S.
    • Journal of the Korean Data and Information Science Society
    • /
    • 제18권3호
    • /
    • pp.585-598
    • /
    • 2007
  • It is so difficult to get complete data when we conduct a questionaire in actuality. And we get inefficient results if we analyze statistical tests with ignoring missing values. Therefore, we use imputation methods which evaluate quality of data. This study proposes a imputation method by decomposition and voting with ordinal data. First, data are sorted by each variable. After that, imputation methods are used by each decomposition level. And the last step is selection of values with voting. The proposed method is evaluated by accuracy and RMSE. In conclusion, missing values are related to each variable, median imputation method using decomposition and voting is powerful.

  • PDF

FREQUENCY HISTOGRAM MODEL FOR LINE TRANSECT DATA WITH AND WITHOUT THE SHOULDER CONDITION

  • EIDOUS OMAR
    • Journal of the Korean Statistical Society
    • /
    • 제34권1호
    • /
    • pp.49-60
    • /
    • 2005
  • In this paper we introduce a nonparametric method for estimating the probability density function of detection distances in line transect sampling. The estimator is obtained using a frequency histogram density estimation method. The asymptotic properties of the proposed estimator are derived and compared with those of the kernel estimator under the assumption that the data collected satisfy the shoulder condition. We found that the asymptotic mean square error (AMSE) of the two estimators have about the same convergence rate. The formula for the optimal histogram bin width is derived which minimizes AMSE. Moreover, the performances of the corresponding k-nearest-neighbor estimators are studied through simulation techniques. In the absence of our knowledge whether the shoulder condition is valid or not a new semi-parametric model is suggested to fit the line transect data. The performances of the proposed two estimators are studied and compared with some existing nonparametric and semiparametric estimators using simulation techniques. The results demonstrate the superiority of the new estimators in most cases considered.

k-NN기법을 이용한 산림바이오매스 자원량 평가 - 강원대학교 학술림을 대상으로 - (Assessment of Forest Biomass using k-Neighbor Techniques - A Case Study in the Research Forest at Kangwon National University -)

  • 서환석;박동환;임종수;이정수
    • 한국산림과학회지
    • /
    • 제101권4호
    • /
    • pp.547-557
    • /
    • 2012
  • 본 연구는 강원대학교 학술림을 대상으로 현장조사자료와 Landsat TM-5 위성영상 정보를 이용하여 k-NN기법을 통해 산림바이오매스를 추정하는 것을 목적으로 하였다. 임상 층화 및 최소수평 참조거리(HRA)와 공간필터링의 조건변화에 따른 최적의 참조표본점 개수(k)를 검토하였으며, 이에 따른 산림바이오매스량 추정과 정확도를 비교 분석하였다. 침엽수는 $5{\times}5$ 필터링을 적용한 HRA 4 km와 k=8를 적용하였을 때 최소의 RMSE를 나타냈으며, 편차는 1.8 t/ha으로 과대추정되었다. 한편, 잣나무와 활엽수는 필터링을 적용하지 않은 HRA 4km의 k=8과 HRA 10 km의 k=6을 적용하였을 때 최소의 RMSE가 나타났으며, 편차는 각각 -1.6 t/ha, -5.2 t/ha로 과소추정되었다. k-NN기법에 의하여 추정된 총 바이오매스량은 799천t이며, ha당 평균 산림바이오매스량은 237 t/ha로서 표본점자료를 이용한 추정치보다 약 1 t/ha 높게 나타났다.