• 제목/요약/키워드: Hadoop Storage

검색결과 56건 처리시간 0.028초

CERES: 백본망 로그 기반 대화형 웹 분석 시스템 (CERES: A Log-based, Interactive Web Analytics System for Backbone Networks)

  • 서일현;정연돈
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제21권10호
    • /
    • pp.651-657
    • /
    • 2015
  • 웹 응용 프로그램의 급격한 증가와 함께 웹 트래픽이 증가하고 있다. 웹에 대한 요청과 그 응답에 대한 기록인 웹 로그 또한 폭발적으로 증가하고 있다. 웹 로그로부터 가치 있는 정보를 취득하기 위해서는 매우 큰 용량의 데이터를 효과적이고 다양한 방법으로 다룰 수 있는 시스템이 필요하다. 본 논문에서는 백본망 로그 기반 대화형 웹 분석 시스템인 CERES를 소개한다. 기존의 웹 분석 시스템들과 달리, CERES는 하나의 웹 서버에 대한 분석이 아닌 백본망에서 생성되는 모든 웹 로그의 분석을 목적으로 한다. CERES는 하둡 분산 파일 시스템 (HDFS)을 저장소로 하는 서버 클러스터에 배포되며, 대용량의 로그에 기반한 분석을 분산 처리를 통해 지원한다. CERES는 백본망에서 생성된 웹 로그 데이터를 관계형 데이터로 변환하고, 사용자는 변환된 관계형 데이터에 대해 SQL을 이용하여 질의를 요청할 수 있다. 내부적으로 CERES는 웹 로그의 통계적 분석에 대한 질의를 효과적으로 처리하기 위해 데이터 큐브를 활용한다. 또한, CERES는 다양한 통계적 분석을 지원하기 위해 대화형 SQL 질의 인터페이스를 포함한 세 가지 형태의 웹 인터페이스를 제공하며 사용자는 이를 통해 쉽게 질의를 요청할 수 있고 그 결과를 시각적으로 확인할 수 있다.

Design of Distributed Cloud System for Managing large-scale Genomic Data

  • Seine Jang;Seok-Jae Moon
    • International Journal of Internet, Broadcasting and Communication
    • /
    • 제16권2호
    • /
    • pp.119-126
    • /
    • 2024
  • The volume of genomic data is constantly increasing in various modern industries and research fields. This growth presents new challenges and opportunities in terms of the quantity and diversity of genetic data. In this paper, we propose a distributed cloud system for integrating and managing large-scale gene databases. By introducing a distributed data storage and processing system based on the Hadoop Distributed File System (HDFS), various formats and sizes of genomic data can be efficiently integrated. Furthermore, by leveraging Spark on YARN, efficient management of distributed cloud computing tasks and optimal resource allocation are achieved. This establishes a foundation for the rapid processing and analysis of large-scale genomic data. Additionally, by utilizing BigQuery ML, machine learning models are developed to support genetic search and prediction, enabling researchers to more effectively utilize data. It is expected that this will contribute to driving innovative advancements in genetic research and applications.

Analyzing Box-Office Hit Factors Using Big Data: Focusing on Korean Films for the Last 5 Years

  • Hwang, Youngmee;Kim, Kwangsun;Kwon, Ohyoung;Moon, Ilyoung;Shin, Gangho;Ham, Jongho;Park, Jintae
    • Journal of information and communication convergence engineering
    • /
    • 제15권4호
    • /
    • pp.217-226
    • /
    • 2017
  • Korea has the tenth largest film industry in the world; however, detailed analyses using the factors contributing to successful film commercialization have not been approached. Using big data, this paper analyzed both internal and external factors (including genre, release date, rating, and number of screenings) that contributed to the commercial success of Korea's top 10 ranking films in 2011-2015. The authors developed a WebCrawler to collect text data about each movie, implemented a Hadoop system for data storage, and classified the data using Map Reduce method. The results showed that the characteristic of "release date," followed closely by "rating" and "genre" were the most influential factors of success in the Korean film industry. The analysis in this study is considered groundwork for the development of software that can predict box-office performance.

Adaptable I/O System based I/O Reduction for Improving the Performance of HDFS

  • Park, Jung Kyu;Kim, Jaeho;Koo, Sungmin;Baek, Seungjae
    • JSTS:Journal of Semiconductor Technology and Science
    • /
    • 제16권6호
    • /
    • pp.880-888
    • /
    • 2016
  • In this paper, we propose a new HDFS-AIO framework to enhance HDFS with Adaptive I/O System (ADIOS), which supports many different I/O methods and enables applications to select optimal I/O routines for a particular platform without source-code modification and re-compilation. First, we customize ADIOS into a chunk-based storage system so its API semantics can fit the requirement of HDFS easily; then, we utilize Java Native Interface (JNI) to bridge HDFS and the tailored ADIOS. We use different I/O patterns to compare HDFS-AIO and the original HDFS, and the experimental results show the design feasibility and benefits. We also examine the performance of HDFS-AIO using various I/O techniques. There have been many studies that use ADIOS, however our research is expected to help in expanding the function of HDFS.

SSD 캐시를 적용한 HDFS의 I/O 비용 기반 데이터 선택 기법 (Mechanism to Select the Data Source of HDFS with SSD Cache Based on Storage I / O Cost)

  • 김민정;신민철;박상현
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2015년도 춘계학술발표대회
    • /
    • pp.676-679
    • /
    • 2015
  • 빅데이터 분석을 위한 Hadoop 환경에서 고성능 저장장치인 SSD에 대한 중요성이 증가하면서 일반적으로 사용되는 저장장치인 HDD와 혼합하여 사용하는 연구들이 주목 받고 있다. 특히 SSD를 HDD의 캐시로 사용했을 때 저장장치에 대한 I/O 성능을 향상할 수 있다는 연구 결과들이 있다. 본 연구는 이를 바탕으로 SSD를 HDD의 캐시로 사용한다. HDFS는 저장장치에 접근하여 I/O를 수행하는데 기존에는 로컬 서버에서 캐시 미스가 발생한 경우 로컬 HDD로 접근한다. 이러한 방식은 접근하는 데이터에 따라 SSD의 높은 Bandwidth를 활용하지 못하게 되는 경우를 발생시키고 그 결과 특정 서버의 I/O 지연으로 전체 분산 처리의 성능을 저하시킬 수 있다. 이를 해결하기 위해 본 연구는 HDFS 레벨에서 로컬 서버의 HDD와 데이터 복제본들이 저장된 원격 서버의 SSD에서 I/O를 수행하는 경우에 대해 수식을 통해 비용을 비교한다. 그 결과 항상 기대 성능이 높은 저장 장치를 선택하여 데이터를 읽어오게 함으로써 기존 방식보다 성능이 개선될 수 있음을 입증한다.

Big IoT Healthcare Data Analytics Framework Based on Fog and Cloud Computing

  • Alshammari, Hamoud;El-Ghany, Sameh Abd;Shehab, Abdulaziz
    • Journal of Information Processing Systems
    • /
    • 제16권6호
    • /
    • pp.1238-1249
    • /
    • 2020
  • Throughout the world, aging populations and doctor shortages have helped drive the increasing demand for smart healthcare systems. Recently, these systems have benefited from the evolution of the Internet of Things (IoT), big data, and machine learning. However, these advances result in the generation of large amounts of data, making healthcare data analysis a major issue. These data have a number of complex properties such as high-dimensionality, irregularity, and sparsity, which makes efficient processing difficult to implement. These challenges are met by big data analytics. In this paper, we propose an innovative analytic framework for big healthcare data that are collected either from IoT wearable devices or from archived patient medical images. The proposed method would efficiently address the data heterogeneity problem using middleware between heterogeneous data sources and MapReduce Hadoop clusters. Furthermore, the proposed framework enables the use of both fog computing and cloud platforms to handle the problems faced through online and offline data processing, data storage, and data classification. Additionally, it guarantees robust and secure knowledge of patient medical data.

SSQUSAR : Apache Spark SQL을 이용한 대용량 정성 공간 추론기 (SSQUSAR : A Large-Scale Qualitative Spatial Reasoner Using Apache Spark SQL)

  • 김종훈;김인철
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제6권2호
    • /
    • pp.103-116
    • /
    • 2017
  • 본 논문에서는 Apache Spark SQL을 이용하여 임의의 두 공간 객체들 간의 위상 관계와 방향 관계를 나타내는 새로운 정성 공간 지식을 효율적으로 추론해내는 대용량 정성 공간 추론기의 설계와 구현에 대해 소개한다. Apache Spark SQL은 Hadoop 클러스터 컴퓨터 시스템에서 다양한 데이터들 간의 매우 효율적인 조인 연산과 질의 처리 기능을 제공하는 분산 병렬 프로그래밍 환경이다. 본 공간 추론기에서는 정성 공간 추론의 전체 과정을 지식 인코딩, 역 관계 추론, 동일 관계 추론, 이행 관계 추론, 관계 정제, 지식 디코딩 등 크게 총 6개의 작업들로 나누고, 논리적 인과관계와 계산 효율성을 고려하여 작업들 간의 처리 순서를 결정하였다. 지식 인코딩 작업에서는 추론의 전처리 과정으로서 XML/RDF 형태의 입력 지식을 보다 간략한 내부 형태로 변환함으로써, 추론 대상인 지식 베이스의 크기를 축소시켰다. 일반적으로 이행 관계 추론 작업과 관계 정제 작업의 반복은 정성 공간 추론에 필요한 가장 많은 계산 시간과 기억 공간을 소모한다. 이 작업들을 효율화하기 위해 본 공간 추론기에서는 공간 추론에 필요한 최소한의 이접 관계들을 찾아내고, 이들을 기반으로 이행 관계 추론을 위한 조합표를 큰 폭으로 축소하고 관계 정제 작업도 최적화하였다. 대규모 벤치마킹 공간 지식 베이스를 이용한 실험을 통해, 본 논문에서 제안하는 대용량 정성 공간 추론기의 높은 추론 성능과 확장성을 확인하였다.

분산 클러스터 메모리 기반 대용량 OWL Horst Lite 온톨로지 추론 기법 (A Scalable OWL Horst Lite Ontology Reasoning Approach based on Distributed Cluster Memories)

  • 김제민;박영택
    • 정보과학회 논문지
    • /
    • 제42권3호
    • /
    • pp.307-319
    • /
    • 2015
  • 현재 대용량 온톨로지를 추론하기 위해 하둡 기반의 분산 클러스터 환경을 구축한 후, 맵-리듀스 알고리즘을 기반으로 추론을 수행하는 방식이 활발히 연구되고 있다. 그러나 본 논문에서는 분산 클러스터의 메모리 환경에서 대용량 OWL Horst Lite 온톨로지 추론을 위한 기법을 제안한다. 대용량 온톨로지 추론에 사용되는 규칙 기반 추론 방식은 데이터가 더 이상 추론 되지 않을 때까지 트리플 형식으로 표현된 온톨로지에 추론 규칙을 반복적으로 수행한다. 따라서 컴퓨터 디스크에 적재된 대용량의 온톨로지를 대상으로 추론을 수행하면 추론 시스템의 성능이 상당히 저하된다. 이러한 단점을 극복하기 위해서 본 논문에서는 메모리 기반의 분산 클러스터 프레임워크인 Spark를 기반으로 온톨로지를 메모리에 적재한 후, 추론을 수행하는 기법을 제안한다. Spark에 적합한 OWL Horst Lite 온톨로지 추론 시스템을 구현하기 위해서 대용량 온톨로지를 적절한 크기의 블록으로 분할한 후, 각각의 블록을 분산 클러스터를 구성하는 각 노드의 메모리에 분산 적재하여 작업을 수행하는 방법론을 제안하였다. 제안하는 기법의 효율성을 검증하기 위해, 온톨로지 추론과 검색 속도를 평가하는 공식 데이터인 LUBM을 대상으로 실험하였다. 대표적인 맵-리듀스 기반 온톨로지 추론 엔진인 WebPIE와 비교 실험한 결과, LUBM8000(11억개 트리플, 155GB)에 대해서 WebPIE의 추론 처리량이 19k/초보다 3.2배 개선된 62k/초의 성능 향상이 있었다.

Spark 기반 공간 분석에서 공간 분할의 성능 비교 (Performance Comparison of Spatial Split Algorithms for Spatial Data Analysis on Spark)

  • 양평우;유기현;남광우
    • 대한공간정보학회지
    • /
    • 제25권1호
    • /
    • pp.29-36
    • /
    • 2017
  • 본 논문은 인 메모리 시스템인 Spark에 기반 한 공간 빅 데이터 분석 프로토타입을 구현하고, 이를 기반으로 공간 분할 알고리즘에 따른 성능을 비교하였다. 클러스터 컴퓨팅 환경에서 빅 데이터의 컴퓨팅 부하를 균형 분산하기 위해, 빅 데이터는 일정 크기의 순차적 블록 단위로 분할된다. 기존의 연구에서 하둡 기반의 공간 빅 데이터 시스템의 경우 일반 순차 분할 방법보다 공간에 따른 분할 방법이 효과적임이 제시되었다. 하둡 기반의 공간 빅 데이터 시스템들은 원 데이터를 그대로 공간 분할된 블록에 저장한다. 하지만 제안된 Spark 기반의 공간 분석 시스템에서는 검색 효율성을 위해 공간 데이터가 메모리 데이터 구조로 변환되어 공간 블록에 저장되는 차이점이 있다. 그러므로 이 논문은 인 메모리 공간 빅 데이터 프로토타입과 공간 분할 블록 저장 기법을 제시하였다, 또한, 기존의 공간 분할 알고리즘들을 제안된 프로토타입에서 성능 비교를 하여 인 메모리 환경인 Spark 기반 빅 데이터 시스템에서 적합한 공간 분할 전략을 제시하였다. 실험에서는 공간 분할 알고리즘에 대한 질의 수행 시간에 대하여 비교를 하였고, BSP 알고리즘이 가장 좋은 성능을 보여주는 것을 확인할 수 있었다.

대용량 스트리밍 센서데이터 환경에서 RDFS 규칙기반 병렬추론 기법 (RDFS Rule based Parallel Reasoning Scheme for Large-Scale Streaming Sensor Data)

  • 권순현;박영택
    • 정보과학회 논문지
    • /
    • 제41권9호
    • /
    • pp.686-698
    • /
    • 2014
  • 최근 스마트폰의 폭발적인 보급, IoT와 클라우드 컴퓨팅 기술의 고도화, 그리고 IoT 디바이스의 보편화로 대용량 스트리밍 센싱데이터가 출현하였다. 또한 이를 기반으로 데이터의 공유와 매쉬업 통해 새로운 데이터의 가치를 창출하기 위한 요구사항의 증대로 대용량 스트리밍 센싱데이터 환경에서 시맨틱웹 기술과의 접목에 관한 연구가 활발히 진행되고 있다. 하지만 데이터의 대용량성 스트리밍성으로 인해 새로운 지식을 도출하기 위한 지식 추론분야에서 많은 이슈들에 직면하고 있다. 이러한 배경하에, 본 논문에서는 IoT 환경에서 발생하는 대용량 스트리밍 센싱데이터를 시맨틱웹 기술로 처리하여 서비스하기 위해 RDFS 규칙기반 병렬추론 기법을 제시한다. 제안된 기법에서는 기존의 규칙추론 알고리즘인 Rete 알고리즘을 하둡프레임워크 맵리듀스를 통해 병렬로 수행하고, 공용 스토리지로서 하둡 데이터베이스인 HBase를 사용하여 데이터를 공유한다. 이를 위한 시스템을 구현하고, 대용량 스트리밍 센싱데이터인 기상청 AWS 관측데이터를 이용하여 제시된 기법에 대한 성능평가를 진행하고, 이를 입증한다.