• 제목/요약/키워드: Map Reduce

검색결과 849건 처리시간 0.025초

나이브 베이지안 분류기와 MapReduce 를 이용한 SNS 문서 필터링 및 토픽 예측 (Documents Filtering and Topic Prediction for SNS using Naïve Bayesian Classifier and MapReduce)

  • 박호식;강남용;박슬기;문정민;오상윤
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2014년도 춘계학술발표대회
    • /
    • pp.109-111
    • /
    • 2014
  • SNS(Social Network Service)는 새로운 소통수단으로 인적 네트워크뿐만 아니라 사회, 문화 등에 많은 영향을 미치고 있다. 특히, 무선인터넷과 스마트폰의 보급으로 정보유통량이 기하급수적으로 증가하면서, 데이터를 처리 및 분석하는 것이 화두가 되고 있다. 본 논문에서는 급증하는 SNS 데이터를 처리 및 분석하여 의미 있는 데이터를 키워드 중심으로 추출하고자 하였다. 이를 위해 기존 데이터 처리방식이 아닌 빅데이터 처리에 적합한 MapReduce 환경에서 SNS 데이터를 필터링하고, 토픽을 예측하기 처리방법을 제시하였다. 또한, 웹 서비스를 기반으로 구현하여 분석된 데이터를 시각적으로 표현하고, 재생산하였으며, 실험을 통해 제안하는 처리방법의 성능을 검증하였다.

MapReduce Model에 기반한 도서 추천 시스템의 설계 및 구현 (Design and Implementation of a Book Recommendation System based on the MapReduce Model)

  • 임찬식;이원재;이하나;이세화;이상준
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2010년도 한국컴퓨터종합학술대회논문집 Vol.37 No.1(C)
    • /
    • pp.201-204
    • /
    • 2010
  • 하루에도 수많은 도서가 출판되는 현실에서 사용자가 원하는 목적에 맞는 도서를 찾아 읽기는 어려운 일이다. 본 논문에서는 방대한 분량의 도서 데이타를 바탕으로, MapReduce 모델을 활용하여 도서들 사이의 연관 관계를 추출하였다. 추출한 연관 관계 DB를 이용하여 사용자에게 서로 관련 있는 도서를 추천해줄 수 있는 시스템을 개발하고자 한다.

  • PDF

A Study on Efficient Cluster Analysis of Bio-Data Using MapReduce Framework

  • Yoo, Sowol;Lee, Kwangok;Bae, Sanghyun
    • 통합자연과학논문집
    • /
    • 제7권1호
    • /
    • pp.57-61
    • /
    • 2014
  • This study measured the stream data from the several sensors, and stores the database in MapReduce framework environment, and it aims to design system with the small performance and cluster analysis error rate through the KMSVM algorithm. Through the KM-SVM algorithm, the cluster analysis effective data was used for U-health system. In the results of experiment by using 2003 data sets obtained from 52 test subjects, the k-NN algorithm showed 79.29% cluster analysis accuracy, K-means algorithm showed 87.15 cluster analysis accuracy, and SVM algorithm showed 83.72%, KM-SVM showed 90.72%. As a result, the process speed and cluster analysis effective ratio of KM-SVM algorithm was better.

Pattern mining for large distributed dataset: A parallel approach (PMLDD)

  • Pal, Amrit;Kumar, Manish
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제12권11호
    • /
    • pp.5287-5303
    • /
    • 2018
  • Handling vast amount of data found in large transactional datasets is an obvious challenge for the conventional data mining algorithms. Addressing this challenge, our paper proposes a parallel approach for proper decomposition of mining problem into sub-problems in order to find frequent patterns from these datasets. The proposed, Pattern Mining for Large Distributed Dataset (PMLDD) approach, ensures minimum dependencies as well as minimum communications among sub-problems. It establishes a linear aggregation of the intermediate results so that it can be adapted to large-scale programming models like MapReduce. In this context, an algorithmic structure for MapReduce programming model is presented. PMLDD guarantees an efficient load balancing among the sub-problems by a specific selection criterion. Further, it optimizes the number of required iterations over the dataset for mining frequent patterns as compared to the existing approaches. Finally, we believe that our approach is scalable enough to handle larger datasets in terms of performance evaluation, and the result analysis justifies all these mentioned concerns.

Cloud Computing Platforms for Big Data Adoption and Analytics

  • Hussain, Mohammad Jabed;Alsadie, Deafallah
    • International Journal of Computer Science & Network Security
    • /
    • 제22권2호
    • /
    • pp.290-296
    • /
    • 2022
  • Big Data is a data analysis technology empowered by late advances in innovations and engineering. In any case, big data involves a colossal responsibility of equipment and handling assets, making reception expenses of big data innovation restrictive to little and medium estimated organizations. Cloud computing offers the guarantee of big data execution to little and medium measured organizations. Big Data preparing is performed through a programming worldview known as MapReduce. Normally, execution of the MapReduce worldview requires organized joined stockpiling and equal preparing. The computing needs of MapReduce writing computer programs are frequently past what little and medium measured business can submit. Cloud computing is on-request network admittance to computing assets, given by an external element. Normal arrangement models for cloud computing incorporate platform as a service (PaaS), software as a service (SaaS), framework as a service (IaaS), and equipment as a service (HaaS).

확장된 MapReduce를 이용한 병렬 진화 전략 (Parallel Evolution Strategy Using an Extended MapReduce)

  • 최현화;이미영;이규철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2009년도 추계학술발표대회
    • /
    • pp.97-98
    • /
    • 2009
  • 진화 전략은 생식, 돌연변이, 재조합과 같은 생물의 진화과정을 모델링하여 복잡한 문제를 해결하고자 하는 개체군 기반의 조합 최적화 알고리즘 중의 하나이다. 데이터 집약적이며, 소요 시간이 오래 걸리는 진화 전략은 클라우드 컴퓨팅 하의 IT 서비스로서 적합한 대표적인 예이다. 이에 본 논문에서는 최근 분산 환경 하에서 병렬 처리 응용을 쉽게 개발할 수 있도록 지원하는 프로그래밍 모델인 MapReduce 를 확장하여 진화 전략을 수행할 수 있는 방법을 제안한다.

VotingRank: A Case Study of e-Commerce Recommender Application Using MapReduce

  • Ren, Jian-Ji;Lee, Jae-Kee
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2009년도 춘계학술발표대회
    • /
    • pp.834-837
    • /
    • 2009
  • There is a growing need for ad-hoc analysis of extremely large data sets, especially at e-Commerce companies which depend on recommender application. Nowadays, as the number of e-Commerce web pages grow to a tremendous proportion; vertical recommender services can help customers to find what they need. Recommender application is one of the reasons for e-Commerce success in today's world. Compared with general e-Commerce recommender application, obviously, general e-Commerce recommender application's processing scope is greatly narrowed down. MapReduce is emerging as an important programming model for large-scale data-parallel applications such as web indexing, data mining, and scientific simulation. The objective of this paper is to explore MapReduce framework for the e-Commerce recommender application on major general and dedicated link analysis for e-Commerce recommender application, and thus the responding time has been decreased and the recommender application's accuracy has been improved.

MapReduce 작업처리시간 단축을 위한 선 정렬 기반 태스크 스케줄링 기법 (Pre-arrangement Based Task Scheduling Scheme for Reducing MapReduce Job Processing Time)

  • 박정효;김준상;김창현;이원주;전창호
    • 한국컴퓨터정보학회논문지
    • /
    • 제18권11호
    • /
    • pp.23-30
    • /
    • 2013
  • 본 논문에서는 MapReduce 작업처리시간을 줄일 수 있는 선 정렬 기반 태스크 스케줄링 기법을 제안한다. 태스크와 그 태스크가 처리할 데이터가 동일 노드에 존재하지 않으면 해당 태스크는 다른 노드로부터 데이터를 전송받아 처리한다. 이때 전송시간으로 인해 MapReduce의 작업처리시간이 증가하는 문제점이 발생한다. 이러한 문제점을 해결하기 위해 본 논문에서는 두 단계로 태스크를 스케줄링한다. 첫 번째 단계에서는 데이터 지역성이 높은 순으로 태스크를 노드 리스트에 정렬한다. 두 번째 단계에서는 데이터의 위치정보를 이용하여 태스크들이 데이터 지역성을 높일 수 있도록 교환하여 스케줄링한다. 본 논문에서는 제안한 스케줄링 기법의 성능평가를 위해 소규모 Hadoop 클러스터를 구현하여 실험하였다. 제안한 기법을 적용하였을 때 작업처리시간이 약 18% 감소하였으며 데이터가 저장된 노드에 할당되지 않은 태스크 수는 약 25% 감소하였다.

다시점 영상 합성을 위한 깊이 정보의 전처리 (Pre-processing of Depth map for Multi-view Stereo Image Synthesis)

  • 서강욱;한충신;유지상
    • 방송공학회논문지
    • /
    • 제11권1호
    • /
    • pp.91-99
    • /
    • 2006
  • 전처리는 영상의 질을 개선하거나 영상을 특정한 응용 목적에 알맞도록 변환시키는 등의 영상 처리를 의미한다. Depth 카메라로부터 획득한 화소단위의 8비트 깊이 정보 (depth map) 에는 depth 카메라의 특성상 잡음으로 생각할 수 있는 많은 성분들이 포함되어 있고, RGB 정보에서의 윤곽선에 비해 물체의 특성이나 조명 조건에 의해서 왜곡되어 나타난다. 일반적으로 잡음 제 거 필터가 사용되지만, 이는 깊이 정보 내의 잡음만을 줄이는 역할을 하기 때문에 깊이 정보의 왜곡된 윤곽선 처리는 하지 못 하고 있다. 본 논문에서는 깊이 정보의 잡음을 줄이는 동시에 RGB 정보의 윤곽선을 이용하여 깊이 정보의 왜곡된 윤곽선을 개선하는 알고리즘을 제안함으로써 다시점 입체 영상 생성 시 오차를 줄이고자 한다.

이미지 빅데이터를 고려한 하둡 플랫폼 환경에서 GPU 기반의 얼굴 검출 시스템 (A GPU-enabled Face Detection System in the Hadoop Platform Considering Big Data for Images)

  • 배유석;박종열
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제22권1호
    • /
    • pp.20-25
    • /
    • 2016
  • 디지털 빅데이터 시대가 도래함에 따라 다양한 분야에서 하둡 플랫폼이 널리 사용되고 있지만, 하둡 맵리듀스 프레임워크는 대량의 작은 파일들을 처리하는데 있어서 네임노드의 메인 메모리와 맵 태스크 수가 증가하는 문제점을 안고 있다. 또한, 맵리듀스 프레임워크에서 하드웨어 기반 데이터 병렬성을 지원하는 GPU를 활용하기 위해서는 C++ 언어 기반의 태스크를 맵리듀스 프레임워크에서 수행하기 위한 방식이 필요하다. 따라서, 본 논문에서는 이미지 빅데이터를 처리하기 위해 하둡 플랫폼 환경에서 이미지 시퀀스 파일을 생성하고 하둡 파이프를 이용하여 GPU 기반의 얼굴 검출 태스크를 맵리듀스 프레임워크에서 처리하는 얼굴 검출 시스템을 제시하고 단일 CPU 프로세스 대비 약 6.8배의 성능 향상을 보여준다.