• Title/Summary/Keyword: HADOOP

Search Result 398, Processing Time 0.04 seconds

A Design of the Small File Grouping System Based on Naive Bayesian Classifier Model (나이브 베이지안 분류기 모델 기반의 소용량 파일 그룹화 시스템 설계)

  • Kim, Min-Jae;Kim, Kyung-Tae;Youn, Hee-Young
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2014.07a
    • /
    • pp.221-222
    • /
    • 2014
  • 빠른 웹의 성장으로 대용량 데이터를 효과적으로 처리할 수 있는 플랫폼 기술에 대한 관심이 높아지고 있다. 특히, HDFS는 이상적인 분산 파일 시스템으로 각광받고 있으며 대용량 파일의 처리를 목적으로 개발되었다. 하지만, 실제 파일들의 집합에서 소용량 파일이 차지하는 비중은 높은 편이다. 많은 수의 소용량 파일은 HDFS 성능 감소에 치명적인 원인이 된다. 많은 수의 소용량 파일들이 HDFS에 저장된다면 NameNode의 메모리 소비량이 증가하게 되며 많은 수의 소용량 파일은 많은 수의 DataNode와 NameNode를 요구하므로 상대적으로 처리시간이 많이 소모된다. 따라서 본 논문에서는 HDFS에서 소용량 파일의 저장과 액세스 효율성을 향상시키기 위하여 나이브 베이지안 분류기 알고리즘을 적용한 파일 그룹화 시스템을 설계하였다.

  • PDF

A performance comparison for Apache Spark platform on environment of limited memory (제한된 메모리 환경에서의 아파치 스파크 성능 비교)

  • Song, Jun-Seok;Kim, Sang-Young;Lee, Jung-June;Youn, Hee-Yong
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2016.01a
    • /
    • pp.67-68
    • /
    • 2016
  • 최근 빅 데이터를 이용한 시스템들이 여러 분야에서 활발히 이용되기 시작하면서 대표적인 빅데이터 저장 및 처리 플랫폼인 하둡(Hadoop)의 기술적 단점을 보완할 수 있는 다양한 분산 시스템 플랫폼이 등장하고 있다. 그 중 아파치 스파크(Apache Spark)는 하둡 플랫폼의 속도저하 단점을 보완하기 위해 인 메모리 처리를 지원하여 대용량 데이터를 효율적으로 처리하는 오픈 소스 분산 데이터 처리 플랫폼이다. 하지만, 아파치 스파크의 작업은 메모리에 의존적이므로 제한된 메모리 환경에서 전체 작업 성능은 급격히 낮아진다. 본 논문에서는 메모리 용량에 따른 아파치 스파크 성능 비교를 통해 아파치 스파크 동작을 위해 필요한 적정 메모리 용량을 확인한다.

  • PDF

A Study on the effect of the number of Key to MapRedue performance (Key개수가 MapReduce 성능에 미치는 영향에 관한 연구)

  • Jeong, Seok-Jun;Kim, Jin-Hong;Shin, Dong-Ryeol
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2016.01a
    • /
    • pp.207-209
    • /
    • 2016
  • 정보통신기술의 급속한 발전으로 인해 인터넷은 사회 전 분야를 변화시키고 있고 이를 통해 데이터의 양이 증가하면서 의료, 교육, 경영 등 사회 전 분야에서 빅데이터에 관심이 증가하고 있다. 이에 따라 다양한 빅데이터 오픈소스가 생기고 데이터의 크기에 따라 성능을 비교하는 실험이 진행되었다. 본 논문에서는 데이터의 크기가 아니라 데이터를 분류하는 key의 개수에 따라 성능을 비교하고자 한다.

  • PDF

빅데이터 기반 대용량 시맨틱 웹 검색 기술 동향

  • Yun, Seok-Chan;Nam, Gung-Hyeon;Yang, Seong-Gwon;Kim, Hong-Gi
    • Information and Communications Magazine
    • /
    • v.29 no.11
    • /
    • pp.24-29
    • /
    • 2012
  • 시맨틱 웹 기술은 웹의 초창기부터 다양한 연구와 표준이 개발되었지만 이를 활용한 데이터 서비스 분야는 그 역사에 비해 성공 사례가 부족한 것이 현실이다. 최근 웹 2.0을 시초로 링크드 데이터의 성장, 정부의 개방형 데이터 서비스, 소셜 웹 서비스의 등장으로 인해 웹의 구조적 데이터는 폭발적으로 성장해 왔으며, 대용량 시맨틱 웹 기반 서비스에 대한 요구와 연구가 진행되고 있다. 본 고에서는 킬러 애플리케이션으로서 기존 시맨틱 웹 기반 검색 기술의 문제점들을 알아보고 이를 해결하기 위해 최근 화두로 떠오르는 빅데이터(Big Data) 기술 요소인 하둡(Hadoop) 및 NoSQL을 활용하여 대용량 시맨틱 웹 데이터를 활용한 Daum의 영화/음악/인물 기반 의미 검색 및 의학 LOD를 기반한 검색 서비스 개발 사례를 제시한다. 이를 토대로 이종 모델 데이터간 연결 및 실시간 데이터 리비전 관리 등 한계점들을 살펴보고 향후 대용량 공공 데이터 활용을 위한 방향을 모색해 본다.

A Study on Time-series Data Management Scheme for Dynamic Hadoop Application Monitoring Service (동적인 하둡 응용 모니터링 서비스를 위한 시계열 데이터 관리 방안에 관한 연구)

  • Kwak, Jae-Hyuck;Choi, Jieun;Kim, Sangwan;Byun, Eun-kyu
    • Annual Conference of KIPS
    • /
    • 2018.10a
    • /
    • pp.60-62
    • /
    • 2018
  • 본 논문에서는 리눅스에서 제공하는 성능 분석 도구들을 활용하여 사용자가 원하는 모니터링 매트릭을 동적으로 등록하고 모니터링 할 수 있는 확장 가능한 하둡 응용 모니터링 서비스의 시계열 데이터 관리 방안을 다룬다. 본 논문에서는 이를 위해서 시계열 데이터를 위한 관계형 데이터베이스인 TimeScaleDB를 사용하였으며 동적으로 변경가능한 모니터링 메트릭 데이터가 하이퍼테이블의 관리를 통해서 구조화된 밀집 데이터 형태로 효율적으로 관리될 수 있음을 제시하였다.

SQL Data Transport Technique for Efficient Hybrid Data Processing on Distributed and Parallel Environment (분산 병렬 환경에서 효율적인 이종 데이터 처리를 위한 SQL 데이터 전송 기법)

  • Yang, HyeonSik;Baek, Naeun;Sung, Mirae;Chang, Jae-woo
    • Annual Conference of KIPS
    • /
    • 2015.10a
    • /
    • pp.1102-1105
    • /
    • 2015
  • 인터넷 발전이 가속화되고 SNS가 보급된 이후 과거와는 비교할 수 없을 정도로 큰 데이터 트래픽이 발생하고 있다. 기존의 DBMS는 이를 효과적으로 처리할 수 없었기 때문에 Hadoop과 같은 NoSQL이 탄생하였고, 최근 NoSQL 및 기존 SQL DBMS의 협업을 통해 유연하고 강력한 데이터 관리를 수행하는 연구가 진행되었다. 효율적인 질의 처리를 위한 대표적인 연구로 SQL 기반 분산 병렬 질의 처리 기법과 Hive등이 존재한다. 그러나 기존의 기법은 분산 병렬 환경을 고려하지 않아 SQL DBMS의 질의 결과를 효율적으로 Hive에 전송하지 못한다. 본 논문에서는 SQL DBMS에서 Hive로의 효율적인 SQL 데이터 이동을 위해 네트워크 비용을 최소화하는 기법을 제안하고, 제안하는 기법의 우수성을 제시한다.

Implementation and comparison with Structured data collection modules (정형 빅데이터 수집 모듈 구현 및 비교)

  • Jang, Dong-Hwon;Lee, Min-Woo;Kim, Woosaeng
    • Annual Conference of KIPS
    • /
    • 2014.04a
    • /
    • pp.635-638
    • /
    • 2014
  • 빅데이터 시대의 대두에 따라 기존의 관계형 데이터베이스로는 처리하기 어려운 형태의 데이터가 발생하였다. 이런 성질의 데이터를 저장, 활용하기 위한 방법으로 Apache 하둡이 널리 사용되고 있다. 기존의 RDBMS 상의 데이터를 하둡 데이터 분석의 원천 데이터로 활용하려고 하는 경우, 혹은 데이터 크기와 복잡도의 증가로 저장방식을 바꿔야 하는 경우 데이터를 HDFS(Hadoop Distributed File System) 으로 전송해야 한다. 본 논문에서는 정형 데이터 수집 모듈인 Sqoop과 Nosqoop4u의 개발을 통하여 데이터 전송 성능을 비교하였다.

A Study on the Application of Macro Model in the Housing Market with Integrated Information Platform (주택시장의 통합정보 플랫폼과 연계한 거시 모형 적용성 방안 연구)

  • Jung, Hoi-Min;Lee, Sang-Hun;Moon, Sung-Min
    • Annual Conference of KIPS
    • /
    • 2019.10a
    • /
    • pp.17-18
    • /
    • 2019
  • 오픈플랫폼 기반 주택시장 분석 플랫폼은 Linux(CentOS) 서버를 운영체제로 주택 분야 빅데이터 수집/가공/분석/예측을 위하여 Hadoop 기반으로 구축한 플랫폼이다. 오픈소스 플랫폼을 기반으로 다양한 대규모 데이터를 분석하고, 미시/거시 모델을 적용하여 그 예측력을 검증하고자 한다. 본 연구에서는 기존 방식으로 분석하던 Windows 기반의 E-Views 거시 분석 모형을 오픈소스 분석 플랫폼을 구축하고 이와 연계하여 결과를 도출하는 방안을 제시하고자 한다.

Design of a Large-Scale Qualitative Spatial Reasoner Based on Hadoop Clusters (하둡 클러스터 기반의 대용량 정성 공간 추론기의 설계)

  • Kim, Jonghwan;Kim, Jonghoon;Kim, Incheol
    • Annual Conference of KIPS
    • /
    • 2015.10a
    • /
    • pp.1316-1319
    • /
    • 2015
  • 본 논문에서는 대규모 분산 병렬 컴퓨팅 환경인 하둡 클러스터 시스템을 이용하여, 공간 객체들 간의 위상 관계를 효율적으로 추론하는 대용량 정성 공간 추론기를 제안한다. 본 논문에서 제안하는 공간 추론기는 추론 작업의 순차성과 반복성을 고려하여, 작업들 간의 디스크 입출력을 최소화할 수 있는 인-메모리 기반의 아파치 스파크 프레임워크를 이용하여 개발하였다. 따라서 본 추론기에서는 추론의 대상이 되는 대용량 공간 지식들을 아파치 스파크의 분산 데이터 집합 형태인 PairRDD와 RDD로 변환하고, 이들에 대한 데이터 오퍼레이션들로 추론 작업들을 구현하였다. 또한, 본 추론기에서는 추론 시간의 많은 부분을 차지하는 이행 관계 추론에 필요한 조합표를 효과적으로 축소함으로써, 공간 추론 작업의 성능을 크게 향상시켰다. 대용량의 공간 지식 베이스를 이용한 성능 분석 실험을 통해, 본 논문에서 제안한 정성 공간 추론기의 높은 성능을 확인할 수 있었다.

Distributed Stream Processing System with apache Hadoop for PTAM on Xeon Phi Cluster (PTAM을 위한 제온파이 기반 하둡 분산 스트림 프로세싱 시스템)

  • Seo, Jae Min;Cho, Kyu Nam;Kim, Do Hyung;Jeong, Chang-Sung
    • Annual Conference of KIPS
    • /
    • 2015.10a
    • /
    • pp.184-186
    • /
    • 2015
  • 본 논문에서는 PTAM을 위한 새로운 분산 스트림 프로세싱 시스템을 제안한다. PTAM은 하나의 시스템에서 동작하도록 설계되었다. 이는 PTAM이 가지고 있는 한계점을 말해주는 부분인데, PTAM은 Bundle Adjustment의 계산 부하가 커지는 경우에 map을 구축하는데 있어 많은 시간과 리소스가 필요하다. 이에 하둡을 통해 계산 부하를 분산하고, PE(Processing Element)를 Xeon phi 시스템을 통해 동작되는 시스템을 제안한다.