• Title/Summary/Keyword: Big data processing

검색결과 1,038건 처리시간 0.033초

클라우드 환경에서의 효율적인 빅 데이터 처리를 위한 로그 데이터 수집 아키텍처 (An Efficient Log Data Management Architecture for Big Data Processing in Cloud Computing Environments)

  • 김주리;반효경
    • 한국인터넷방송통신학회논문지
    • /
    • 제13권2호
    • /
    • pp.1-7
    • /
    • 2013
  • 최근 빅 데이터 관리가 정보기술 분야의 학계와 업계에서 중요한 이슈로 떠오르고 있다. 빅 데이터 중 소프트웨어 시스템에서 필연적으로 생성되는 대표적인 유형 중 하나가 로그 데이터이다. 로그 데이터는 서비스 제공자가 더 나은 서비스를 제공하고 소프트웨어의 품질을 향상시키기 위해 필요하다. 따라서 적절한 방법으로 로그 데이터를 수집하고 이를 분석할 수 있는 인프라 환경을 구축하는 것은 매우 중요하다. 본 논문은 로그 데이터에 특화된 새로운 빅 데이터 관리 기법을 제안한다. 제안하는 기법은 다수의 클라이언트 어플리케이션에서 생성되는 로그 데이터를 네트워크를 통해 전송하고 이를 실시간으로 저장한 후 분석할 수 있는 아키텍처를 제공한다. 해당 아키텍처는 서버-클라이언트 환경에서 로그의 비동기적인 처리를 지원하여 원격 로깅임에도 불구하고 데이터 처리의 병목 현상이나 클라이언트의 성능 저하를 발생시키지 않는다. 제안하는 기법을 실제 시스템에 구현하고 실측한 결과 확장성 있는 로그 데이터 관리가 이루어짐을 확인하였다. 특히, 본 논문에서는 모든 구현을 오픈소스 소프트웨어에 기반하여 수행했으며, 개발 프로토타입 또한 오픈소스 소프트웨어 형태로 공개하여 누구나 사용할 수 있도록 하였다.

분산병렬처리 환경에서 오토매핑 기법을 통한 NoSQL과 RDBMS와의 연동 (Interoperability between NoSQL and RDBMS via Auto-mapping Scheme in Distributed Parallel Processing Environment)

  • 김희성;이봉환
    • 한국정보통신학회논문지
    • /
    • 제21권11호
    • /
    • pp.2067-2075
    • /
    • 2017
  • 최근 빅데이터가 주목받게 되면서 빅데이터를 처리하기 위한 시스템들도 중요하게 여겨지고 있다. 빅데이터 처리 시스템으로 분산파일시스템인 Hadoop과 비정형 데이터 처리를 위한 NoSQL 데이터 스토어가 주목받고 있다. 하지만 아직까지 NoSQL을 사용함에 있어 어려움이나 불편함도 존재한다. 저용량 데이터인 경우 NoSQL의 MapReduce는 불필요한 작업시간을 소모하게 되며, RDBMS 보다 상대적으로 많은 데이터 탐색 시간이 소요되기도 한다. 본 논문에서는 이러한 NoSQL의 문제점을 해결하기 위해 NoSQL과 RDBMS 간의 연동 기법을 제안하였다. 개발한 오토매핑 기법은 처리할 데이터의 양에 따라 적합한 데이터베이스를 사용하게 하여 결과적으로 검색시간을 빠르게 할 수 있다. 실험 결과 제안한 데이터베이스 연동 기법은 특정 데이터 셋의 경우 검색시간을 최대 35%까지 줄일 수 있다.

통계적 텍스트 마이닝을 이용한 빅 데이터 전처리 (A Big Data Preprocessing using Statistical Text Mining)

  • 전성해
    • 한국지능시스템학회논문지
    • /
    • 제25권5호
    • /
    • pp.470-476
    • /
    • 2015
  • 빅 데이터는 여러 분야에서 다양하게 사용되고 있다. 예를 들어, 컴퓨터학과 사회학에서 빅 데이터에 대한 서로간의 접근방법에 대한 차이는 있겠지만 빅 데이터의 분석을 통한 활용 측면에서는 공통적인 부분을 갖는다. 따라서 대부분의 분야에서 빅 데이터에 대한 의미 있는 분석과 활용은 필요하게 된다. 통계학과 기계학습은 빅 데이터의 분석을 위한 다양한 방법론을 제공한다. 본 논문에서는 빅 데이터분석 과정에 대하여 알아보고 수집된 빅데이터의 원천에서부터 분석을 거쳐 최종적으로 분석결과를 활용하는 전체 과정을 위한 효율적인 빅 데이터 분석방법에 대하여 연구한다. 특히, 빅 데이터의 특성을 갖는 여러 데이터 중 하나인 특허문서 데이터에 대하여 빅데이터분석을 적용하여 효과적인 특허분석을 수행하고 이 결과를 연구개발 기획에 적용하는 방법론에 대하여 제안한다. 제안방법에 대한 실제적용을 위하여 전 세계 특허데이터베이스로부터 실제 기업의 전체 출원, 등록 특허 문서를 수집, 분석하고 연구개발 업무에 활용하는 전 과정에 대한 사례연구를 수행하였다.

하둡 분산 환경 기반의 데이터 수집 기법 연구 (A Study on the Data Collection Methods based Hadoop Distributed Environment)

  • 진고환
    • 한국융합학회논문지
    • /
    • 제7권5호
    • /
    • pp.1-6
    • /
    • 2016
  • 최근 빅데이터 활용과 분석기술의 발전을 위하여 많은 연구가 이루어지고 있고, 빅데이터를 분석하기 위하여 처리 플랫폼인 하둡을 도입하는 정부기관 및 기업이 점차 늘어가고 있는 추세이다. 이러한 빅데이터의 처리와 분석에 대한 관심이 고조되면서 그와 병행하여 데이터의 수집 기술이 주요한 이슈가 되고 있으나, 데이터 분석 기법의 연구에 비하여 수집 기술에 대한 연구는 미미한 상황이다. 이에 본 논문에서는 빅데이터 분석 플랫폼인 하둡을 클러스터로 구축하고 아파치 스쿱을 통하여 관계형 데이터베이스로부터 정형화된 데이터를 수집하고, 아파치 플룸을 통하여 센서 및 웹 애플리케이션의 데이터 파일, 로그 파일과 같은 비정형 데이터를 스트림 기반으로 수집하는 시스템을 제안한다. 이러한 융합을 통한 데이터 수집으로 빅데이터 분석의 기초적인 자료로 활용할 수 있을 것이다.

Feature Selection Using Submodular Approach for Financial Big Data

  • Attigeri, Girija;Manohara Pai, M.M.;Pai, Radhika M.
    • Journal of Information Processing Systems
    • /
    • 제15권6호
    • /
    • pp.1306-1325
    • /
    • 2019
  • As the world is moving towards digitization, data is generated from various sources at a faster rate. It is getting humungous and is termed as big data. The financial sector is one domain which needs to leverage the big data being generated to identify financial risks, fraudulent activities, and so on. The design of predictive models for such financial big data is imperative for maintaining the health of the country's economics. Financial data has many features such as transaction history, repayment data, purchase data, investment data, and so on. The main problem in predictive algorithm is finding the right subset of representative features from which the predictive model can be constructed for a particular task. This paper proposes a correlation-based method using submodular optimization for selecting the optimum number of features and thereby, reducing the dimensions of the data for faster and better prediction. The important proposition is that the optimal feature subset should contain features having high correlation with the class label, but should not correlate with each other in the subset. Experiments are conducted to understand the effect of the various subsets on different classification algorithms for loan data. The IBM Bluemix BigData platform is used for experimentation along with the Spark notebook. The results indicate that the proposed approach achieves considerable accuracy with optimal subsets in significantly less execution time. The algorithm is also compared with the existing feature selection and extraction algorithms.

Offline-to-Online Service and Big Data Analysis for End-to-end Freight Management System

  • Selvaraj, Suganya;Kim, Hanjun;Choi, Eunmi
    • Journal of Information Processing Systems
    • /
    • 제16권2호
    • /
    • pp.377-393
    • /
    • 2020
  • Freight management systems require a new business model for rapid decision making to improve their business processes by dynamically analyzing the previous experience data. Moreover, the amount of data generated by daily business activities to be analyzed for making better decisions is enormous. Online-to-offline or offline-to-online (O2O) is an electronic commerce (e-commerce) model used to combine the online and physical services. Data analysis is usually performed offline. In the present paper, to extend its benefits to online and to efficiently apply the big data analysis to the freight management system, we suggested a system architecture based on O2O services. We analyzed and extracted the useful knowledge from the real-time freight data for the period 2014-2017 aiming at further business development. The proposed system was deemed useful for truck management companies as it allowed dynamically obtaining the big data analysis results based on O2O services, which were used to optimize logistic freight, improve customer services, predict customer expectation, reduce costs and overhead by improving profit margins, and perform load balancing.

하둡 기반 빅 데이터 기법을 이용한 웹 서비스 데이터 처리 설계 및 구현 (Design and Implementation of an Efficient Web Services Data Processing Using Hadoop-Based Big Data Processing Technique)

  • 김현주
    • 한국산학기술학회논문지
    • /
    • 제16권1호
    • /
    • pp.726-734
    • /
    • 2015
  • 데이터를 구조화하여 사용하는 관계형 데이터베이스가 현재까지 데이터 관리에 가장 많이 사용되고 있다. 그러나 관계형 데이터베이스는 데이터가 증가되면 데이터를 저장하거나 조회할 때 읽기, 쓰기 연산 수행에 제약 조건이 발생되어 서비스가 느려지는 현상이 나타난다. 또 새로운 업무가 추가되면 데이터베이스 내 데이터는 증가되고 결국 이를 해결하기 위해 하드웨어의 병렬 구성, CPU, 메모리, 네트워크 등 추가적인 인프라 구성을 필요로 하게 된다. 본 논문에서는 관계형 데이터베이스의 데이터 증가로 느려지는 웹 정보서비스 개선을 위해 기존 관계형 데이터베이스의 데이터를 하둡 HDFS로 전송하고 이를 일원화하여 데이터를 재구성한 후 사용자에게 하둡 데이터 처리로 대량의 데이터를 빠르고 안전하게 추출하는 모델을 구현한다. 본 시스템 적용을 위해 웹 기반 민원시스템과 비정형 데이터 처리인 이미지 파일 저장에 본 제안시스템을 적용하였다. 적용결과 관계형 데이터베이스 시스템보다 제안시스템 데이터 처리가 0.4초 더 빠른 결과를 얻을 수 있었고 기존 관계형 데이터베이스와 같은 대량의 데이터를 처리를 빅 데이터 기법인 하둡 데이터 처리로도 웹 정보서비스를 지원이 가능하였다. 또한 하둡은 오픈소스로 제공되어 소프트웨어 구매 비용을 줄여주는 장점이 있으며 기존 관계형 데이터베이스의 데이터 증가로 효율적인 대용량 데이터 처리를 요구하는 조직에게 도움을 줄 수 있을 것이다.

실시간 데이터 수집/분석/처리를 위한 지능형 IoT (A Study on The Real-Time Data Collection/Analysis/Processing Intelligent IoT)

  • 김희철
    • 한국전자통신학회논문지
    • /
    • 제14권2호
    • /
    • pp.317-322
    • /
    • 2019
  • 본 연구는 데이터의 실시간 수집/분석/처리를 위한 빅데이터 기반, 데이터 자산의 창의적 분석과 유통단계를 실시간으로 측정할 수 있는 IoT 기반 지능형 처리시스템을 개발한다. 모바일 단말은 제공된 디바이스의 SDK를 이용하여 특정지역 해산물 생산유통소비에 대한 데이터 정보를 측정한다. 측정된 정보를 oneM2M 프로토콜을 이용하여 해산물 생산에 필요한 각종 정보를 제공하고 DB Server, 관리자가 UI를 이용하여 시스템을 관리할 수 있는 체계를 구현한다.

Advanced Resource Management with Access Control for Multitenant Hadoop

  • Won, Heesun;Nguyen, Minh Chau;Gil, Myeong-Seon;Moon, Yang-Sae
    • Journal of Communications and Networks
    • /
    • 제17권6호
    • /
    • pp.592-601
    • /
    • 2015
  • Multitenancy has gained growing importance with the development and evolution of cloud computing technology. In a multitenant environment, multiple tenants with different demands can share a variety of computing resources (e.g., CPU, memory, storage, network, and data) within a single system, while each tenant remains logically isolated. This useful multitenancy concept offers highly efficient, and cost-effective systems without wasting computing resources to enterprises requiring similar environments for data processing and management. In this paper, we propose a novel approach supporting multitenancy features for Apache Hadoop, a large scale distributed system commonly used for processing big data. We first analyze the Hadoop framework focusing on "yet another resource negotiator (YARN)", which is responsible for managing resources, application runtime, and access control in the latest version of Hadoop. We then define the problems for supporting multitenancy and formally derive the requirements to solve these problems. Based on these requirements, we design the details of multitenant Hadoop. We also present experimental results to validate the data access control and to evaluate the performance enhancement of multitenant Hadoop.

Research on Big Data Integration Method

  • Kim, Jee-Hyun;Cho, Young-Im
    • 한국컴퓨터정보학회논문지
    • /
    • 제22권1호
    • /
    • pp.49-56
    • /
    • 2017
  • In this paper we propose the approach for big data integration so as to analyze, visualize and predict the future of the trend of the market, and that is to get the integration data model using the R language which is the future of the statistics and the Hadoop which is a parallel processing for the data. As four approaching methods using R and Hadoop, ff package in R, R and Streaming as Hadoop utility, and Rhipe and RHadoop as R and Hadoop interface packages are used, and the strength and weakness of four methods are described and analyzed, so Rhipe and RHadoop are proposed as a complete set of data integration model. The integration of R, which is popular for processing statistical algorithm and Hadoop contains Distributed File System and resource management platform and can implement the MapReduce programming model gives us a new environment where in R code can be written and deployed in Hadoop without any data movement. This model allows us to predictive analysis with high performance and deep understand over the big data.