• 제목/요약/키워드: Big data processing

검색결과 1,053건 처리시간 0.03초

하둡 기반 빅 데이터 기법을 이용한 웹 서비스 데이터 처리 설계 및 구현 (Design and Implementation of an Efficient Web Services Data Processing Using Hadoop-Based Big Data Processing Technique)

  • 김현주
    • 한국산학기술학회논문지
    • /
    • 제16권1호
    • /
    • pp.726-734
    • /
    • 2015
  • 데이터를 구조화하여 사용하는 관계형 데이터베이스가 현재까지 데이터 관리에 가장 많이 사용되고 있다. 그러나 관계형 데이터베이스는 데이터가 증가되면 데이터를 저장하거나 조회할 때 읽기, 쓰기 연산 수행에 제약 조건이 발생되어 서비스가 느려지는 현상이 나타난다. 또 새로운 업무가 추가되면 데이터베이스 내 데이터는 증가되고 결국 이를 해결하기 위해 하드웨어의 병렬 구성, CPU, 메모리, 네트워크 등 추가적인 인프라 구성을 필요로 하게 된다. 본 논문에서는 관계형 데이터베이스의 데이터 증가로 느려지는 웹 정보서비스 개선을 위해 기존 관계형 데이터베이스의 데이터를 하둡 HDFS로 전송하고 이를 일원화하여 데이터를 재구성한 후 사용자에게 하둡 데이터 처리로 대량의 데이터를 빠르고 안전하게 추출하는 모델을 구현한다. 본 시스템 적용을 위해 웹 기반 민원시스템과 비정형 데이터 처리인 이미지 파일 저장에 본 제안시스템을 적용하였다. 적용결과 관계형 데이터베이스 시스템보다 제안시스템 데이터 처리가 0.4초 더 빠른 결과를 얻을 수 있었고 기존 관계형 데이터베이스와 같은 대량의 데이터를 처리를 빅 데이터 기법인 하둡 데이터 처리로도 웹 정보서비스를 지원이 가능하였다. 또한 하둡은 오픈소스로 제공되어 소프트웨어 구매 비용을 줄여주는 장점이 있으며 기존 관계형 데이터베이스의 데이터 증가로 효율적인 대용량 데이터 처리를 요구하는 조직에게 도움을 줄 수 있을 것이다.

실시간 데이터 수집/분석/처리를 위한 지능형 IoT (A Study on The Real-Time Data Collection/Analysis/Processing Intelligent IoT)

  • 김희철
    • 한국전자통신학회논문지
    • /
    • 제14권2호
    • /
    • pp.317-322
    • /
    • 2019
  • 본 연구는 데이터의 실시간 수집/분석/처리를 위한 빅데이터 기반, 데이터 자산의 창의적 분석과 유통단계를 실시간으로 측정할 수 있는 IoT 기반 지능형 처리시스템을 개발한다. 모바일 단말은 제공된 디바이스의 SDK를 이용하여 특정지역 해산물 생산유통소비에 대한 데이터 정보를 측정한다. 측정된 정보를 oneM2M 프로토콜을 이용하여 해산물 생산에 필요한 각종 정보를 제공하고 DB Server, 관리자가 UI를 이용하여 시스템을 관리할 수 있는 체계를 구현한다.

Advanced Resource Management with Access Control for Multitenant Hadoop

  • Won, Heesun;Nguyen, Minh Chau;Gil, Myeong-Seon;Moon, Yang-Sae
    • Journal of Communications and Networks
    • /
    • 제17권6호
    • /
    • pp.592-601
    • /
    • 2015
  • Multitenancy has gained growing importance with the development and evolution of cloud computing technology. In a multitenant environment, multiple tenants with different demands can share a variety of computing resources (e.g., CPU, memory, storage, network, and data) within a single system, while each tenant remains logically isolated. This useful multitenancy concept offers highly efficient, and cost-effective systems without wasting computing resources to enterprises requiring similar environments for data processing and management. In this paper, we propose a novel approach supporting multitenancy features for Apache Hadoop, a large scale distributed system commonly used for processing big data. We first analyze the Hadoop framework focusing on "yet another resource negotiator (YARN)", which is responsible for managing resources, application runtime, and access control in the latest version of Hadoop. We then define the problems for supporting multitenancy and formally derive the requirements to solve these problems. Based on these requirements, we design the details of multitenant Hadoop. We also present experimental results to validate the data access control and to evaluate the performance enhancement of multitenant Hadoop.

Research on Big Data Integration Method

  • Kim, Jee-Hyun;Cho, Young-Im
    • 한국컴퓨터정보학회논문지
    • /
    • 제22권1호
    • /
    • pp.49-56
    • /
    • 2017
  • In this paper we propose the approach for big data integration so as to analyze, visualize and predict the future of the trend of the market, and that is to get the integration data model using the R language which is the future of the statistics and the Hadoop which is a parallel processing for the data. As four approaching methods using R and Hadoop, ff package in R, R and Streaming as Hadoop utility, and Rhipe and RHadoop as R and Hadoop interface packages are used, and the strength and weakness of four methods are described and analyzed, so Rhipe and RHadoop are proposed as a complete set of data integration model. The integration of R, which is popular for processing statistical algorithm and Hadoop contains Distributed File System and resource management platform and can implement the MapReduce programming model gives us a new environment where in R code can be written and deployed in Hadoop without any data movement. This model allows us to predictive analysis with high performance and deep understand over the big data.

On Efficient Processing of Continuous Reverse Skyline Queries in Wireless Sensor Networks

  • Yin, Bo;Zhou, Siwang;Zhang, Shiwen;Gu, Ke;Yu, Fei
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제11권4호
    • /
    • pp.1931-1953
    • /
    • 2017
  • The reverse skyline query plays an important role in information searching applications. This paper deals with continuous reverse skyline queries in sensor networks, which retrieves reverse skylines as well as the set of nodes that reported them for continuous sampling epochs. Designing an energy-efficient approach to answer continuous reverse skyline queries is non-trivial because the reverse skyline query is not decomposable and a huge number of unqualified nodes need to report their sensor readings. In this paper, we develop a new algorithm that avoids transmission of updates from nodes that cannot influence the reverse skyline. We propose a data mapping scheme to estimate sensor readings and determine their dominance relationships without having to know the true values. We also theoretically analyze the properties for reverse skyline computation, and propose efficient pruning techniques while guaranteeing the correctness of the answer. An extensive experimental evaluation demonstrates the efficiency of our approach.

IoT 환경에서 센서 데이터 처리율 향상을 위한 Apriori 기반 빅데이터 처리 시스템 (Apriori Based Big Data Processing System for Improve Sensor Data Throughput in IoT Environments)

  • 송진수;김수진;신용태
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제10권10호
    • /
    • pp.277-284
    • /
    • 2021
  • 최근 스마트 홈 환경은 무선 정보통신 기술과 융합을 통해서 다양한 데이터를 수집·통합·활용하는 플랫폼이 될 것으로 전망되고 있으며 실제로 스마트 홈 내부에는 다양한 센서를 탑재한 스마트 디바이스 수가 점점 증가하고 있다. 증가된 스마트 디바이스 수만큼 처리해야하는 데이터의 양도 증가하고 있으며 이를 효과적으로 처리하기 위해 빅데이터 처리 시스템이 활발하게 도입되고 있다. 그러나 기존 빅데이터 처리 시스템은 분산 노드에 할당되기 전 모든 요청이 클러스터 드라이버로 향하기 때문에 동시에 많은 요청이 발생하는 경우 분할 작업을 관리하는 클러스터 드라이버에 병목현상이 발생하고, 이는 네트워크를 공유하는 클러스터 전체의 성능감소로 이어진다. 특히 작은 데이터 처리를 지속해서 요청하는 스마트 홈 디바이스에서 지연율이 더 크게 나타난다. 이에 본 논문에서는 동시에 다수의 센서에서 요청이 발생하는 스마트 홈 환경에서 효과적인 데이터 처리를 위한 Apriori 기반 빅데이터 시스템을 설계하였다. 제안하는 시스템의 성능평가 결과에 따르면, 데이터 처리 시간은 기존 시스템에 비해 최소 19.2%에서 최대 38.6% 단축됐다. 이러한 결과가 발생한 이유는 측정되는 데이터의 형태와 관련이 있다. 스마트 홈 환경은 수집되는 데이터의 양은 방대하나 각 데이터의 용량은 작기 때문에 캐시 서버의 사용이 데이터 처리에 큰 역할을 하며, Apriori 알고리즘을 통한 연관도 분석으로 사용자의 행동 습관과 연관도가 높은 센서 데이터를 캐시에 저장하기 때문에 캐시 서버의 활용률이 매우 높다.

하둡 플랫폼을 이용한 대량의 스몰파일 처리방법 (Processing Method of Mass Small File Using Hadoop Platform)

  • 김창복;정재필
    • 한국항행학회논문지
    • /
    • 제18권4호
    • /
    • pp.401-408
    • /
    • 2014
  • 하둡(Hadoop)은 맵리듀스(MapReduce) 분산처리 프로그래밍 모델과 HDFS(Hadoop distributed file system) 분산 파일시스템으로 구성된다. 하둡은 빅데이터 처리에 적합한 프레임워크로서, 대량의 스몰파일 처리에 문제점이 있다. 하둡에서 대량의 스몰파일 처리는 하나의 파일마다 매퍼가 생성되며, 파일의 메타정보를 저장하기 위해 많은 메모리가 필요한 문제점이 있다. 본 논문은 하둡 플랫폼에서 다양한 방법으로 대량의 스몰파일 처리방법을 비교 검토하였다. 일반 압축은 데이터의 크기와 상관없이 하나의 매퍼로 처리해야 하기 때문에, 하둡 처리 포맷으로 적절하지 않다. 시퀀스 와 하둡 아카이브 파일의 처리는 스몰파일을 압축 및 병합을 통해 네임노드의 메모리 문제가 제거되었다. 하둡 아카이브 파일은 스몰파일의 병합시간이 시퀀스 파일보다 빠른 속도를 보였다. CombineFileInputFormat 클래스를 이용한 처리는 병합과정이 필요 없으며, 빅데이터 처리방법과 유사한 속도를 보였다.

소셜미디어 수집과 분석을 위한 재난 빅 데이터 플랫폼의 설계 (Design of a Disaster Big Data Platform for Collecting and Analyzing Social Media)

  • 반퀴엣뉘엔;신응억뉘엔;양쯔엉뉘엔;김경백
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 춘계학술발표대회
    • /
    • pp.661-664
    • /
    • 2017
  • Recently, during disasters occurrence, dealing with emergencies has been handled well by the early transmission of disaster relating notifications on social media networks (e.g., Twitter or Facebook). Intuitively, with their characteristics (e.g., real-time, mobility) and big communities whose users could be regarded as volunteers, social networks are proved to be a crucial role for disasters response. However, the amount of data transmitted during disasters is an obstacle for filtering informative messages; because the messages are diversity, large and very noise. This large volume of data could be seen as Social Big Data (SBD). In this paper, we proposed a big data platform for collecting and analyzing disasters' data from SBD. Firstly, we designed a collecting module; which could rapidly extract disasters' information from the Twitter; by big data frameworks supporting streaming data on distributed system; such as Kafka and Spark. Secondly, we developed an analyzing module which learned from SBD to distinguish the useful information from the irrelevant one. Finally, we also designed a real-time visualization on the web interface for displaying the results of analysis phase. To show the viability of our platform, we conducted experiments of the collecting and analyzing phases in 10 days for both real-time and historical tweets, which were about disasters happened in South Korea. The results prove that our big data platform could be applied to disaster information based systems, by providing a huge relevant data; which can be used for inferring affected regions and victims in disaster situations, from 21.000 collected tweets.

응급상황에서 자동인증지원을 위한 빅데이터 처리 및 에지컴퓨팅 기반의 의료정보플랫폼 연구 (A Study on Medical Information Platform Based on Big Data Processing and Edge Computing for Supporting Automatic Authentication in Emergency Situations)

  • 함규성;강민구;주수종
    • 인터넷정보학회논문지
    • /
    • 제23권3호
    • /
    • pp.87-95
    • /
    • 2022
  • 최근 스마트기술의 발달로 의료정보플랫폼에서 환자의 생체데이터가 실시간으로 측정 및 데이터베이스에 축적되며, 환자의 응급상황을 판단할 수 있다. 또한, 의료진은 이동단말기를 이용하여 간단한 인증 이후 환자정보에 쉽게 접근이 가능하다. 그러나 이동단말기를 이용한 의료정보 접근에 있어 환자상황과 이동단말기를 고려한 인증에 대한 연구가 필요하다. 본 논문에서는 응급상황에서 의료진의 이동단말기를 이용한 의료정보 접근허가를 위해 빅데이터 처리 및 에지컴퓨팅 기반의 자동인증지원 의료정보플랫폼에 대해 연구하였다. 기 연구된 자동인증 시스템은 응급상황에서 사용자인증과 이동단말기인증을 동시에 수행하며, 상위 의료정보 접근권한을 인증된 의료진과 이동단말기에 부여하는 인증 시스템이다. 환자의 고혈압, 당뇨와 같은 환자상태를 고려한 응급상황을 판단하기 위해 빅데이터 처리 및 분석기법을 제안한 플랫폼에 적용하였다. 또한 환자의 빠른 응급상황 판단을 위해 에지컴퓨팅을 의료정보 서버 앞단에 두어 의료정보 서버 대신 에지컴퓨팅에서 응급상황을 판단하도록 하였다. 의료정보 서버는 입력된 환자정보와 축적된 생체데이터를 이용하여 응급상황 판단수치를 도출하고, 에지컴퓨팅에 전달하여 환자 맞춤형 응급상황을 판단하도록 하였다. 결론적으로, 제안한 의료정보플랫폼은 빅데이터 처리와 에지컴퓨팅을 통해 환자상태를 고려하고 응급상황을 빠르게 판단하였으며, 자동인증을 통해 응급상황에서의 신속한 인증과, 환자상황과 의료진의 역할에 따른 접근권한 부여를 통해 환자정보를 보호하였다.

NAS 스토리지 기반의 데이터 분산처리 시스템 알고리즘에 관한 연구 (A Study on the NAS Storage-based Data Distributed Processing System Algorithm)

  • 장재명;강희범;정낙주;정회경
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2015년도 춘계학술대회
    • /
    • pp.643-645
    • /
    • 2015
  • 스토리지의 발달로 자동차 항공분야 등 실생활 어디에서든 스토리지가 활발히 활용되고 있다. 최근 빅데이터가 대두됨에 따라 많은 데이터를 스토리지에 저장하고 데이터를 처리하는 데이터 분산처리 연구가 활발히 진행되고 있다. 하지만 많은 사람들이 데이터를 동시에 요청할 때 병목현상이나 처리 속도가 느려지는 문제가 발생한다. 본 논문에서는 많은 데이터를 저장하고 처리해야하는 빅 데이터 분야에 사용될 것을 고려하여, 데이터 요청 시 보다 효율적으로 데이터를 처리하고 많은 데이터를 효율적인 관리가 가능한 데이터 경량화 처리 시스템 알고리즘을 제안한다.

  • PDF