• 제목/요약/키워드: Spark Platform

검색결과 38건 처리시간 0.021초

라즈베리 파이 클러스터와 아파치 스파크를 활용한 빅데이터 분석 플랫폼 연구 (A Study for Big Data Analytics Platform with Raspberry Pi Cluster and Apache Spark)

  • 김영선;박지영;윤보람;이정현;용환승
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2015년도 추계학술발표대회
    • /
    • pp.1272-1275
    • /
    • 2015
  • 최근 관심이 증대되고 있는 빅데이터 분석 및 처리를 위한 병렬분산처리 시스템은 대용량 서버가 필요하고 인프라 구축을 위해 고비용을 지불해야 한다. 이를 해결하기 위해 본 연구에서는 저렴한 라즈베리 파이로 클러스터를 구성하고, 하둡보다 빠른 속도의 처리를 제공하는 아파치 스파크를 분석 솔루션으로 하는 빅데이터 분석 플랫폼을 구축하였다. 구축한 플랫폼이 빅데이터 활용을 위해 적절한 성능을 보이는지 확인하기 위해 텍스트 마이닝을 수행하였고, 분석 결과 유효한 성능을 보였다. 적절한 비용으로 빅데이터 분석이 가능해지면서 중소기업과 개인, 교육 기관에서도 빅데이터 활용이 가능해지면서 활용 분야가 크게 확대될 것으로 보인다.

세부 동작 기반 사물인터넷 서비스 분류 기법 개발 (Development of IoT Service Classification Method based on Service Operation Characteristic)

  • 조정훈;이화민;이대원
    • 인터넷정보학회논문지
    • /
    • 제19권2호
    • /
    • pp.17-26
    • /
    • 2018
  • 최근 사물인터넷 서비스의 등장 및 융합으로 통합 사물인터넷 서비스 플랫폼에 관한 다양한 연구가 진행되었다. 현재 사물인터넷 서비스는 서비스 제공자의 목적에 따라 독립적인 시스템으로 구축되어 유사한 서비스를 제공하는 서비스 간의 정보 교환 및 모듈 재사용이 불가능 하였다. 이에 본 연구에서는 통합 사물인터넷 플랫폼 환경을 제공하기 위하여 다양한 서비스들의 세부 동작 기반 서비스 분류 알고리즘을 제안한다. 구현을 통하여 상용화된 100여개의 사물인터넷 서비스를 분류 및 군집화를 진행하였으며 이를 기반으로 K-means알고리즘과 비교하여 제안하는 알고리즘의 성능을 평가하였다. 또한 표본 집단의 부족으로 발생하는 단일 클러스터를 방지하기 위하여 K-means 알고리즘을 활용하여 재 군집화를 진행하였다. 향후 연구로 기존의 서비스 표본 집단을 확대하고 현재 구현한 분류 시스템을 보다 빠르고 대량의 데이터 처리를 위하여 스파크를 활용할 예정이다.

빅데이터 분산처리 시스템을 활용한 지능형 LBS서비스의 설계 (Design of the Intelligent LBS Service : Using Big Data Distributed Processing System)

  • 문창배;박현석
    • 한국콘텐츠학회논문지
    • /
    • 제19권2호
    • /
    • pp.159-169
    • /
    • 2019
  • 전세계적으로 스마트폰과 IOT장치의 발전과 함께 위치기반 서비스가 발전하고 있다. 본 연구에서는 빅데이터 정보를 활용하여 길안내 정보를 보다 효과적으로 제공할 수 있는 시스템을 제안한다. 본 연구에서 제안하는 시스템은 다양한 경로를 이용하는 사람들의 이동정보를 분석하여 가장 효율적인 경로정보를 제시하는 것을 목적으로 한다. 이를 위해 지도정보를 기반으로 한 시스템을 구성하고, 이동 정보를 실시간으로 서버에서 분석하여 그 경로를 자주 다니는 사람이 직접 안내해주는 것과 같은 효과를 낼 수 있도록 한다. 이 시스템을 통해 사용자는 보다 정확한 경로정보를 제공 받으므로 다양한 LBS서비스와 연계하여 발전할 수 있을 것이다.

IoT data analytics architecture for smart healthcare using RFID and WSN

  • Ogur, Nur Banu;Al-Hubaishi, Mohammed;Ceken, Celal
    • ETRI Journal
    • /
    • 제44권1호
    • /
    • pp.135-146
    • /
    • 2022
  • The importance of big data analytics has become apparent with the increasing volume of data on the Internet. The amount of data will increase even more with the widespread use of Internet of Things (IoT). One of the most important application areas of the IoT is healthcare. This study introduces new real-time data analytics architecture for an IoT-based smart healthcare system, which consists of a wireless sensor network and a radio-frequency identification technology in a vertical domain. The proposed platform also includes high-performance data analytics tools, such as Kafka, Spark, MongoDB, and NodeJS, in a horizontal domain. To investigate the performance of the system developed, a diagnosis of Wolff-Parkinson-White syndrome by logistic regression is discussed. The results show that the proposed IoT data analytics system can successfully process health data in real-time with an accuracy rate of 95% and it can handle large volumes of data. The developed system also communicates with a riverbed modeler using Transmission Control Protocol (TCP) to model any IoT-enabling technology. Therefore, the proposed architecture can be used as a time-saving experimental environment for any IoT-based system.

에너지신산업을 위한 에너지 빅데이터 전처리 시스템 (Energy Big Data Pre-processing System for Energy New Industries)

  • 양수영;김요한;김상현;김원중
    • 한국전자통신학회논문지
    • /
    • 제16권5호
    • /
    • pp.851-858
    • /
    • 2021
  • 재생에너지 및 분산자원의 증가로 에너지신산업에서는 전통적인 데이터뿐만 아니라 다양한 에너지 관련 데이터들이 생성되고 있다. 즉 다양한 재생에너지 설비와 발전 데이터, 계통 운영 데이터, 계량 및 요금 관련 데이터뿐만 아니라 새로운 서비스와 분석을 위해 필요한 기상 및 에너지 효율화 데이터 등이 있다. 에너지 빅데이터 처리 기술은 분산자원, 계통, AMI(: Advanced Metering Infrastructure)를 포함한 전력 생산·소비 인프라의 전반기에서 발생하는 데이터를 체계적으로 분석 ·진단할 수 있다. 이를 통해 ICT(: Information and Communications Technology)산업과 에너지 산업 간 융복합의 새로운 비즈니스 창출을 지원하는 기술이 될 수 있을 것이다. 이를 위해서 수집된 데이터의 항목별 특성 분석 및 연관관계 표본 추출과 각 특징들의 범주화 및 요소 정의 등 데이터 분석 시스템에 대한 연구가 필요하다. 또한 데이터의 손실 및 이상 상태 처리를 위한 데이터 정제 기술에 대한 연구가 이루어져야 한다. 그리고 에너지 데이터를 실시간으로 저장 및 관리할 수 있도록 Apache NIFI, Spark, HDFS(: Hadoop Distributed File System)에 대한 개발 및 구축이 필요하다. 본 연구에서는 위와 같은 다양한 전력거래를 위한 전반적인 에너지 데이터 처리 기술과 시스템를 제안하였다.

Feature Selection Using Submodular Approach for Financial Big Data

  • Attigeri, Girija;Manohara Pai, M.M.;Pai, Radhika M.
    • Journal of Information Processing Systems
    • /
    • 제15권6호
    • /
    • pp.1306-1325
    • /
    • 2019
  • As the world is moving towards digitization, data is generated from various sources at a faster rate. It is getting humungous and is termed as big data. The financial sector is one domain which needs to leverage the big data being generated to identify financial risks, fraudulent activities, and so on. The design of predictive models for such financial big data is imperative for maintaining the health of the country's economics. Financial data has many features such as transaction history, repayment data, purchase data, investment data, and so on. The main problem in predictive algorithm is finding the right subset of representative features from which the predictive model can be constructed for a particular task. This paper proposes a correlation-based method using submodular optimization for selecting the optimum number of features and thereby, reducing the dimensions of the data for faster and better prediction. The important proposition is that the optimal feature subset should contain features having high correlation with the class label, but should not correlate with each other in the subset. Experiments are conducted to understand the effect of the various subsets on different classification algorithms for loan data. The IBM Bluemix BigData platform is used for experimentation along with the Spark notebook. The results indicate that the proposed approach achieves considerable accuracy with optimal subsets in significantly less execution time. The algorithm is also compared with the existing feature selection and extraction algorithms.

Splunk 플랫폼을 활용한 유해 정보 탐지를 위한 빅데이터 분석 시스템 설계 (Design of Splunk Platform based Big Data Analysis System for Objectionable Information Detection)

  • 이협건;김영운;김기영;최종석
    • 한국정보전자통신기술학회논문지
    • /
    • 제11권1호
    • /
    • pp.76-81
    • /
    • 2018
  • 미래 경제 성장 동력으로 부상하고 있는 사물인터넷은 이미 생활과 밀접한 분야에서는 도입이 활발하게 이루어지고 있으나, 잠재된 보안위협은 여전히 잔존하고 있다. 특히 인터넷 상의 유해 정보는 스마트홈 및 스마트시티의 활성화로 인해 폭발적으로 설치된 CCTV에 할당된 IP 정보 및 심지어 접속 포트 번호들이 포털 검색 결과 및 페이스북, 트위터와 같은 소셜 미디어 등에 공개되어 간단한 툴로도 보다 쉽게 해킹이 가능하다. 사용자들이 많이 사용하는 포털 검색 데이터 및 소셜 미디어 데이터의 보안취약점 및 불법 사이트 정보들을 데이터 분석하여, 보안취약성 같은 위험 요소가 내포된 데이터 및 사회적 문제를 야기하는 불법 사이트에 대한 대응을 신속하게 수행할 수 있게 지원하는 빅데이터 분석 시스템이 필요하다. 본 논문에서는 빅데이터 분석 시스템 설계를 위해 하둡 기반 빅데이터 분석 시스템과 스파크 기반 빅데이터 분석 시스템 연구를 통해 요구사항을 도출하여 요구사항에 맞게 Splunk 플랫폼을 활용한 유해 정보 탐지를 위한 빅데이터 분석 시스템을 설계하였다.

IoT 환경에서 센서 데이터 처리율 향상을 위한 Apriori 기반 빅데이터 처리 시스템 (Apriori Based Big Data Processing System for Improve Sensor Data Throughput in IoT Environments)

  • 송진수;김수진;신용태
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제10권10호
    • /
    • pp.277-284
    • /
    • 2021
  • 최근 스마트 홈 환경은 무선 정보통신 기술과 융합을 통해서 다양한 데이터를 수집·통합·활용하는 플랫폼이 될 것으로 전망되고 있으며 실제로 스마트 홈 내부에는 다양한 센서를 탑재한 스마트 디바이스 수가 점점 증가하고 있다. 증가된 스마트 디바이스 수만큼 처리해야하는 데이터의 양도 증가하고 있으며 이를 효과적으로 처리하기 위해 빅데이터 처리 시스템이 활발하게 도입되고 있다. 그러나 기존 빅데이터 처리 시스템은 분산 노드에 할당되기 전 모든 요청이 클러스터 드라이버로 향하기 때문에 동시에 많은 요청이 발생하는 경우 분할 작업을 관리하는 클러스터 드라이버에 병목현상이 발생하고, 이는 네트워크를 공유하는 클러스터 전체의 성능감소로 이어진다. 특히 작은 데이터 처리를 지속해서 요청하는 스마트 홈 디바이스에서 지연율이 더 크게 나타난다. 이에 본 논문에서는 동시에 다수의 센서에서 요청이 발생하는 스마트 홈 환경에서 효과적인 데이터 처리를 위한 Apriori 기반 빅데이터 시스템을 설계하였다. 제안하는 시스템의 성능평가 결과에 따르면, 데이터 처리 시간은 기존 시스템에 비해 최소 19.2%에서 최대 38.6% 단축됐다. 이러한 결과가 발생한 이유는 측정되는 데이터의 형태와 관련이 있다. 스마트 홈 환경은 수집되는 데이터의 양은 방대하나 각 데이터의 용량은 작기 때문에 캐시 서버의 사용이 데이터 처리에 큰 역할을 하며, Apriori 알고리즘을 통한 연관도 분석으로 사용자의 행동 습관과 연관도가 높은 센서 데이터를 캐시에 저장하기 때문에 캐시 서버의 활용률이 매우 높다.