• Title/Summary/Keyword: Hadoop Environment

Search Result 91, Processing Time 0.03 seconds

UX Analysis for Mobile Devices Using MapReduce on Distributed Data Processing Platform (MapReduce 분산 데이터처리 플랫폼에 기반한 모바일 디바이스 UX 분석)

  • Kim, Sungsook;Kim, Seonggyu
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.2 no.9
    • /
    • pp.589-594
    • /
    • 2013
  • As the concept of web characteristics represented by openness and mind sharing grows more and more popular, device log data generated by both users and developers have become increasingly complicated. For such reasons, a log data processing mechanism that automatically produces meaningful data set from large amount of log records have become necessary for mobile device UX(User eXperience) analysis. In this paper, we define the attributes of to-be-analyzed log data that reflect the characteristics of a mobile device and collect real log data from mobile device users. Along with the MapReduce programming paradigm in Hadoop platform, we have performed a mobile device User eXperience analysis in a distributed processing environment using the collected real log data. We have then demonstrated the effectiveness of the proposed analysis mechanism by applying the various combinations of Map and Reduce steps to produce a simple data schema from the large amount of complex log records.

Design of Building Biomertic Big Data System using the Mi Band and MongoDB (Mi Band와 MongoDB를 사용한 생체정보 빅데이터 시스템의 설계)

  • Lee, Younghun;Kim, Yongil
    • Smart Media Journal
    • /
    • v.5 no.4
    • /
    • pp.124-130
    • /
    • 2016
  • Big data technologies are increasing the need for big data in many areas of the world. Recently, the health care industry has become increasingly aware of the importance of disease and health care services, as it has become increasingly immune to prevention and health care. To do this, we need a Big data system to collect and analyze the personal biometric data. In this paper, we design the biometric big data system using low cost wearable device. We collect basic biometric data, such as heart rate, step count and physical activity from Mi Band, and store the collected biometric data into MongoDB. Based on the results of this study, it is possible to build a big data system that can be used in actual medical environment by using Hadoop etc. and to use it in real medical service in connection with various wearable devices for medical information.

Comparison analysis of big data integration models (빅데이터 통합모형 비교분석)

  • Jung, Byung Ho;Lim, Dong Hoon
    • Journal of the Korean Data and Information Science Society
    • /
    • v.28 no.4
    • /
    • pp.755-768
    • /
    • 2017
  • As Big Data becomes the core of the fourth industrial revolution, big data-based processing and analysis capabilities are expected to influence the company's future competitiveness. Comparative studies of RHadoop and RHIPE that integrate R and Hadoop environment, have not been discussed by many researchers although RHadoop and RHIPE have been discussed separately. In this paper, we constructed big data platforms such as RHadoop and RHIPE applicable to large scale data and implemented the machine learning algorithms such as multiple regression and logistic regression based on MapReduce framework. We conducted a study on performance and scalability with those implementations for various sample sizes of actual data and simulated data. The experiments demonstrated that our RHadoop and RHIPE can scale well and efficiently process large data sets on commodity hardware. We showed RHIPE is faster than RHadoop in almost all the data generally.

Correspondence Strategy for Big Data's New Customer Value and Creation of Business (빅 데이터의 새로운 고객 가치와 비즈니스 창출을 위한 대응 전략)

  • Koh, Joon-Cheol;Lee, Hae-Uk;Jeong, Jee-Youn;Kim, Kyung-Sik
    • Journal of the Korea Safety Management & Science
    • /
    • v.14 no.4
    • /
    • pp.229-238
    • /
    • 2012
  • Within last 10 years, internet has become a daily activity, and humankind had to face the Data Deluge, a dramatic increase of digital data (Economist 2012). Due to exponential increase in amount of digital data, large scale data has become a big issue and hence the term 'big data' appeared. There is no official agreement in quantitative and detailed definition of the 'big data', but the meaning is expanding to its value and efficacy. Big data not only has the standardized personal information (internal) like customer information, but also has complex data of external, atypical, social, and real time data. Big data's technology has the concept that covers wide range technology, including 'data achievement, save/manage, analysis, and application'. To define the connected technology of 'big data', there are Big Table, Cassandra, Hadoop, MapReduce, Hbase, and NoSQL, and for the sub-techniques, Text Mining, Opinion Mining, Social Network Analysis, Cluster Analysis are gaining attention. The three features that 'bid data' needs to have is about creating large amounts of individual elements (high-resolution) to variety of high-frequency data. Big data has three defining features of volume, variety, and velocity, which is called the '3V'. There is increase in complexity as the 4th feature, and as all 4features are satisfied, it becomes more suitable to a 'big data'. In this study, we have looked at various reasons why companies need to impose 'big data', ways of application, and advanced cases of domestic and foreign applications. To correspond effectively to 'big data' revolution, paradigm shift in areas of data production, distribution, and consumption is needed, and insight of unfolding and preparing future business by considering the unpredictable market of technology, industry environment, and flow of social demand is desperately needed.

ECPS: Efficient Cloud Processing Scheme for Massive Contents (클라우드 환경에서 대규모 콘텐츠를 위한 효율적인 자원처리 기법)

  • Na, Moon-Sung;Kim, Seung-Hoon;Lee, Jae-Dong
    • Journal of Korea Society of Industrial Information Systems
    • /
    • v.15 no.4
    • /
    • pp.17-27
    • /
    • 2010
  • Major IT vendors expect that cloud computing technology makes it possible to reduce the contents service cycle, speed up application deployment and skip the installation process, reducing operational costs, proactive management etc. However, cloud computing environment for massive content service solutions requires high-performance data processing to reduce the time of data processing and analysis. In this study, Efficient_Cloud_Processing_Scheme(ECPS) is proposed for allocation of resources for massive content services. For high-performance services, optimized resource allocation plan is presented using MapReduce programming techniques and association rules that is used to detect hidden patterns in data mining, based on levels of Hadoop platform(Infrastructure as a service). The proposed ECPS has brought more than 20% improvement in performance and speed compared to the traditional methods.

The Construction and Utilization of Cloud Computing Environment with Openstack (Openstack을 이용한 Cloud Computing 환경 구축 및 활용)

  • Kim, YoungHoon;Ji, Hoyoung;Moon, BongKyo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2017.04a
    • /
    • pp.60-63
    • /
    • 2017
  • Cloud Computing 환경은 사용자로 하여금 네트워크를 통하여 운영플랫폼, 저장매체 등이 운영 가능한 컴퓨터 자원을 신속하게 이용할 수 있는 컴퓨팅 환경이다. 이 환경을 이용하여 사용자들에게 가상의 컴퓨팅 공간을 만들어 resource를 사용하게 만들어주는 Iaas(Infrastructure as a Service)가 급증하고 있다. OpenStack은 Cloud Computing 환경을 이용하여 사용자로 하여금 *aaS제공을 가능하게 해주는 오픈소스 소프트웨어 프로젝트이다. 이 연구는 Openstack을 활용하여 Cloud환경을 구축하고, 이를 활용 하는 방안에 대한 연구이다. GitLab를 이용한 GitLab Service Launching을 시도하고, Hadoop을 통하여 Cloud 환경을 활용한 분산처리 시스템을 구현, Cloud의 활용 방안을 탐구한다.

Real-time log analysis system for detecting network attacks in a MapReduce environment (MapReduce 환경에서 네트워크 공격 탐지를 위한 실시간 로그 분석 시스템 개발)

  • Chang, Jin-Su;Shin, Jae-Hwan;Chang, Jae-Woo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2017.11a
    • /
    • pp.37-40
    • /
    • 2017
  • 네트워크 기술의 발전으로 인터넷의 보급률이 증가함에 따라, 네트워크 사용량 또한 증가하고 있다. 그러나 네트워크 사용량이 증가함에 따라 악의적인 네트워크 접근 또한 증가하고 있다. 이러한 악의적인 접근은 네트워크에서 발생하는 보안 로그를 분석함으로써 탐지가 가능하다. 그러나 대규모의 네트워크 트래픽이 발생함에 따라, 보안 로그의 처리 및 분석에 많은 시간이 소요된다. 본 논문에서는 MapReduce 환경에서 네트워크 공격 탐지를 위한 실시간 로그 분석 시스템을 개발한다. 이를 위해, Hadoop의 MapReduce를 통해 보안 로그의 속성을 추출하고 대용량의 보안 로그를 분산 처리한다. 아울러 처리된 보안 로그를 분석함으로써 실시간으로 발생하는 네트워크 공격 패턴을 탐지하고, 이를 시각적으로 표현함으로써 사용자가 네트워크 상태를 보다 쉽게 파악할 수 있도록 한다.

A performance comparison for Apache Spark platform on environment of limited memory (제한된 메모리 환경에서의 아파치 스파크 성능 비교)

  • Song, Jun-Seok;Kim, Sang-Young;Lee, Jung-June;Youn, Hee-Yong
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2016.01a
    • /
    • pp.67-68
    • /
    • 2016
  • 최근 빅 데이터를 이용한 시스템들이 여러 분야에서 활발히 이용되기 시작하면서 대표적인 빅데이터 저장 및 처리 플랫폼인 하둡(Hadoop)의 기술적 단점을 보완할 수 있는 다양한 분산 시스템 플랫폼이 등장하고 있다. 그 중 아파치 스파크(Apache Spark)는 하둡 플랫폼의 속도저하 단점을 보완하기 위해 인 메모리 처리를 지원하여 대용량 데이터를 효율적으로 처리하는 오픈 소스 분산 데이터 처리 플랫폼이다. 하지만, 아파치 스파크의 작업은 메모리에 의존적이므로 제한된 메모리 환경에서 전체 작업 성능은 급격히 낮아진다. 본 논문에서는 메모리 용량에 따른 아파치 스파크 성능 비교를 통해 아파치 스파크 동작을 위해 필요한 적정 메모리 용량을 확인한다.

  • PDF

SQL Data Transport Technique for Efficient Hybrid Data Processing on Distributed and Parallel Environment (분산 병렬 환경에서 효율적인 이종 데이터 처리를 위한 SQL 데이터 전송 기법)

  • Yang, HyeonSik;Baek, Naeun;Sung, Mirae;Chang, Jae-woo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2015.10a
    • /
    • pp.1102-1105
    • /
    • 2015
  • 인터넷 발전이 가속화되고 SNS가 보급된 이후 과거와는 비교할 수 없을 정도로 큰 데이터 트래픽이 발생하고 있다. 기존의 DBMS는 이를 효과적으로 처리할 수 없었기 때문에 Hadoop과 같은 NoSQL이 탄생하였고, 최근 NoSQL 및 기존 SQL DBMS의 협업을 통해 유연하고 강력한 데이터 관리를 수행하는 연구가 진행되었다. 효율적인 질의 처리를 위한 대표적인 연구로 SQL 기반 분산 병렬 질의 처리 기법과 Hive등이 존재한다. 그러나 기존의 기법은 분산 병렬 환경을 고려하지 않아 SQL DBMS의 질의 결과를 효율적으로 Hive에 전송하지 못한다. 본 논문에서는 SQL DBMS에서 Hive로의 효율적인 SQL 데이터 이동을 위해 네트워크 비용을 최소화하는 기법을 제안하고, 제안하는 기법의 우수성을 제시한다.

Implement of Job Processing Using GPU for Hadoop Environment (하둡 환경에서 GPU를 사용한 Job 처리 방법)

  • Hong, Seok-min;Yoo, Yeon-jun;Lee, Hyeop Geon;Kim, Young Woon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2022.11a
    • /
    • pp.77-79
    • /
    • 2022
  • IT기술이 발전함에 따라 전 세계 데이터의 규모는 매년 증가하고 있다. 빅데이터 플랫폼을 사용하는 기업들은 더욱 빠른 빅데이터 처리를 원하고 있다. 이에 본 논문은 하둡 환경에서 GPU를 사용한 Job 처리 방법을 제안한다. 제안하는 방법은 CPU, GPU 클러스터를 따로 구성하여 세 가지 크기로 분류한 Job들을 알맞은 클러스터에 할당하여 처리한다. 향후, 제안하는 방법의 실질적인 검증을 위해 실제 구현과 성능 평가가 필요하다.