• 제목/요약/키워드: Cluster computing environment

검색결과 109건 처리시간 0.03초

Abyss Storage Cluster 기반 DataLake Framework의 Connected Data Architecture 개념 설계 및 검증 (Design and Verification of Connected Data Architecture Concept employing DataLake Framework over Abyss Storage Cluster)

  • 차병래;차윤석;박선;신병춘;김종원
    • 스마트미디어저널
    • /
    • 제7권3호
    • /
    • pp.57-63
    • /
    • 2018
  • 조직과 기업의 비즈니스 시스템의 규모가 커지면서 다양한 대량의 데이터들이 생성되는 비즈니스 환경의 변화와 데이터를 보다 스마트하게 처리하여 효율성을 높일 수 있는 방법으로 DataLake와 같이 단일 도메인 모델이 필요한 상황이다. 특히, 자원의 유한성과 공유 경제에 의한 물리적인 분할된 멀티 사이트의 데이터를 논리적인 단일 도메인 모델을 만드는 것은 컴퓨팅 자원의 효율적 운영 측면에서 매우 중요하다. 기존의 Data Lake 프레임워크의 장점을 기반으로 다양한 응용 영역의 멀티 사이트들을 통합 및 데이터 라이프 사이클을 관리하기 위한 Abyss Storage 기반 DataLake 프레임워크의 Connected Data Architecture 개념 (connected data architecture-concept)과 기능들을 정의하고, Connected Data Architecture 개념을 위한 인터페이스 설계 및 인터페이스(Interface) #2와 #3의 유효성 검증을 수행한다.

센서 네트워크를 위한 그리드 기반의 에너지 효율절인 라우팅 프로토콜 (Grid-based Energy Efficient Routing Protocol for Sensor Networks)

  • 정성영;이동욱;김재훈
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제14권2호
    • /
    • pp.216-220
    • /
    • 2008
  • 센서 노드와 싱크 노드로 구성된 센서 네트워크는 모든 센서 노드들이 한정된 에너지를 가지고 운용되기 때문에 네트워크를 오랫동안 유지하여 가용성을 높이기 위한 연구가 다양하게 진행되어 왔다. 대부분의 기존 연구들은 싱크 노드의 이동을 고려하지 않았기 때문에 사람이나 자동차 등에 의해 싱크가 이동성을 가지는 환경에는 부적합하다. 본 논문에서는 그리드 기반의 센서 네트워크에서 이동 싱크와 소스 노드간의 경로 설정에서 요구되는 통신부하(제어 패킷의 수 및 전송 범위)를 줄여 센서 네트워크의 에너지 소모를 줄이고, 경로 설정의 신뢰성을 확보하기 위한 방안을 제안한다. 제안 기법은 다수의 싱크 노드가 존재하는 환경은 물론 큰 규모의 센서 네트워크에서도 성능의 저하가 없어 확장성이 뛰어나며, 기존의 그리드와 클러스터 기반의 프로토콜과 비교하여 약 70% 수준으로 에너지 소모를 줄일 수 있어 센서 네트워크의 생명주기를 늘리고 가용성을 높일 수 있다.

빅데이터 처리 및 분석을 위한 Rhipe 플랫폼 (Rhipe Platform for Big Data Processing and Analysis)

  • 정병호;신지은;임동훈
    • 응용통계연구
    • /
    • 제27권7호
    • /
    • pp.1171-1185
    • /
    • 2014
  • R과 Hadoop의 통합환경인 Rhipe 개발로 인해 분산처리 환경 하에서 대용량 데이터 분석이 가능해졌다. 본 논문에서는 Rhipe을 이용하여 실제 데이터와 모의실험 데이터에서 다양한 데이터 크기에 따라 다중 회귀분석을 구현하였다. Hadoop의 가상분산 모드(pseudo-dstributed mode)와 완전분산 모드(fully-distributed mode) 구축 시스템 비교에서 완전분산 모드 시스템이 가상분산 모드 시스템보다 처리 속도가 빠르고 데이터 노드의 수가 많을수록 계산 시간이 점점 줄어드는 것을 알 수 있었다. 또한, 제안된 Rhipe 플랫폼의 성능을 평가하기 위해 기본 R 패키지인 stats와 bigmemory 상에서 유용한 biglm 패키지와 처리 속도를 비교하였다. 실험결과 Rhipe은 데이터의 크기가 클수록 map task 개수가 증가되고 동시에 병렬 처리로 인해 다른 패키지들보다 빠른 처리속도를 보였다.

HPC 환경을 위한 워크플로우 기반의 바이오 데이터 분석 시스템 (Workflow-based Bio Data Analysis System for HPC)

  • 안신영;김병섭;최현화;전승협;배승조;최완
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제2권2호
    • /
    • pp.97-106
    • /
    • 2013
  • 인간 게놈 프로젝트의 완성 이후 유전체 분석 비용은 매우 빠르게 감소하고 있다. 이에 따라 인간 유전체 분석 요구가 급증할 것으로 예상된다. 인간 유전체 분석과 같은 대규모 바이오 데이터 분석을 고속으로 수행하기 위해서는 비IT 전문가들이 다양한 특성의 바이오 응용들을 고성능컴퓨팅 시스템을 통해 효과적으로 실행할 수 있어야 한다. 이를 위해서는 여러 응용들이 조합되어 순서를 갖고 실행되어야 하는 바이오 응용들을 워크플로우 형태로 쉽게 정의할 수 있어야 하며, 이 워크플로우를 HPC 클러스터 시스템에서 최적 자원을 할당 받아 분산 병렬 수행시켜야 한다. 이를 통해 바이오 데이터 분석 성능과 응답시간의 개선을 기대할 수 있다. 본 논문에서는 HPC 환경에 익숙하지 않은 비IT 바이오 연구자들이 쉽게 바이오 데이터 분석을 할 수 있도록 바이오 워크플로우를 쉽게 정의하고 실행할 수 있는 바이오 특화된 워크플로우 기반 대규모 데이터 분석 시스템을 제안한다.

대용량 추론을 위한 분산환경에서의 가정기반진리관리시스템 (Distributed Assumption-Based Truth Maintenance System for Scalable Reasoning)

  • 바트셀렘;박영택
    • 정보과학회 논문지
    • /
    • 제43권10호
    • /
    • pp.1115-1123
    • /
    • 2016
  • 가정기반진리관리 시스템(ATMS)은 추론 시스템의 추론 과정을 저장하고 비단조추론을 지원할 수 있는 도구이다. 또한 의존기반 backtracking을 지원하므로 매우 넓은 공간 탐색 문제를 해결 할 수 있는 강력한 도구이다. 모든 추론 과정을 기록하고, 특정한 컨텍스트에서 지능형시스템의 Belief를 매우 빠르게 확인하고 비단조 추론 문제에 대한 해결책을 효율적으로 제공할 수 있게 한다. 그러나 최근 데이터의 양이 방대해지면서 기존의 단일 머신을 사용하는 경우 문제 해결 프로그램의 대용량의 추론과정을 저장하는 것이 불가능하게 되었다. 대용량 데이터에 대한 문제 해결 과정을 기록하는 것은 많은 연산과 메모리 오버헤드를 야기한다. 이러한 단점을 극복하기 위해 본 논문에서는 Apache Spark 환경에서 functional 및 객체지향 방식 기반의 점진적 컨텍스트 추론을 유지할 수 있는 방법을 제안한다. 이는 가정(Assumption)과 유도과정을 분산 환경에 저장하며, 실체화된 대용량 데이터셋의 변화를 효율적으로 수정가능하게 한다. 또한 ATMS의 Label, Environment를 분산 처리하여 대규모의 추론 과정을 효과적으로 관리할 수 있는 방안을 제시하고 있다. 제안하는 시스템의 성능을 측정하기 위해 5개의 노드로 구성된 클러스터에서 LUBM 데이터셋에 대한 OWL/RDFS 추론을 수행하고, 데이터의 추가, 설명, 제거에 대한 실험을 수행하였다. LUBM2000에 대하여 추론을 수행한 결과 80GB데이터가 추론되었고, ATMS에 적용하여 추가, 설명, 제거에 대하여 수초 내에 처리하는 성능을 보였다.

클러스터 컴퓨팅 환경에서 병렬루프 처리를 위한 재구성 가능한 부하 및 성능 균형 방법 (A Reconfigurable Load and Performance Balancing Scheme for Parallel Loops in a Clustered Computing Environment)

  • 김태형
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제10권1호
    • /
    • pp.49-56
    • /
    • 2004
  • 부하 불균형은 병렬처리에 있어서 좋은 성능을 얻기 위한 주요한 방해 요소 중의 하나이다. 전역(全域) 부하균형 기법은 하나의 응용에서 발생된 병렬 태스크를 취급하는데 적절하지 않다. 동적 루프 스케줄링 기법은 공유 메모리 멀티프로세서 병렬구조에서 병렬 루프의 부하균형에 효과적인 것으로 알려져있다. 하지만 이 기법의 중앙집중적 특성은 워크스테이션 클러스터 환경에서 프로세서 수가 상대적으로 많지 않은 경우에도 병목현상을 일으킬 수 있는 요인이 된다. 워크스테이션 클러스터 환경에서의 통신 오버헤드는 공유 메모리 멀티프로세서 병렬 구조와 비교할 때 수십배의 차이가 생기기 때문이다. 더구나 병렬 루프에서 발생하는 단위 태스크가 불규칙적인 작업량을 갖는 경우에는 기본 루프 스케줄링 기법의 단점을 보완한 개선된 방법들을 적용할 수가 없다. 본 논문에서는 이러한 불규칙적인 작업량을 갖는 병렬루프를 서로 다른 성능을 갖는 워크스테이션들의 네트워크 환경에서 효율적으로 부하를 분배하기 위한 재구성 가능한 분산 부하 균형 기법을 제시한다. 이러한 재구성 가능한 기법은 전통적인 부하균형 방법과 함께 성능균형을 가능하게 함으로써 전체수행시간을 최소화할 수 있음을 보였다.

A Hadoop-based Multimedia Transcoding System for Processing Social Media in the PaaS Platform of SMCCSE

  • Kim, Myoungjin;Han, Seungho;Cui, Yun;Lee, Hanku;Jeong, Changsung
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제6권11호
    • /
    • pp.2827-2848
    • /
    • 2012
  • Previously, we described a social media cloud computing service environment (SMCCSE). This SMCCSE supports the development of social networking services (SNSs) that include audio, image, and video formats. A social media cloud computing PaaS platform, a core component in a SMCCSE, processes large amounts of social media in a parallel and distributed manner for supporting a reliable SNS. Here, we propose a Hadoop-based multimedia system for image and video transcoding processing, necessary functions of our PaaS platform. Our system consists of two modules, including an image transcoding module and a video transcoding module. We also design and implement the system by using a MapReduce framework running on a Hadoop Distributed File System (HDFS) and the media processing libraries Xuggler and JAI. In this way, our system exponentially reduces the encoding time for transcoding large amounts of image and video files into specific formats depending on user-requested options (such as resolution, bit rate, and frame rate). In order to evaluate system performance, we measure the total image and video transcoding time for image and video data sets, respectively, under various experimental conditions. In addition, we compare the video transcoding performance of our cloud-based approach with that of the traditional frame-level parallel processing-based approach. Based on experiments performed on a 28-node cluster, the proposed Hadoop-based multimedia transcoding system delivers excellent speed and quality.

클라우드 서비스를 위한 고가용성 대용량 데이터 처리 아키텍쳐 (Implementation of Data processing of the High Availability for Software Architecture of the Cloud Computing)

  • 이병엽;박준호;유재수
    • 한국콘텐츠학회논문지
    • /
    • 제13권2호
    • /
    • pp.32-43
    • /
    • 2013
  • 최근 많은 기관들로부터 클라우드 서비스가 향후 대세적인 IT서비스로의 확고한 기술로서 예견하고 있고, 실질적으로 IT를 리딩하는 많은 벤더 기업들을 주축으로 실질적인 클라우드 서비스를 제공 하고 있다. 따라서 클라우드 사용자는 서비스의 물리적인 위치나, 시스템 환경과 같은 부분들을 관여하지 않고, 스토리지 서비스, 데이터의 사용, 소프트웨어의 사용들을 제공하는 획기적인 서비스로 거듭나고 있다. 한편, 클라우드 컴퓨팅 기술들은 인프라스트럭처에서 요구되는 서비스의 수준, 다양한 시스템에서 요구되는 하드웨어적인 문제들을 벗어서 자유스럽게 원하는 만큼의 IT 리소스를 쉽게 사용할 수 있는 장점을 가지고 있지만, 고가용성 측면에서 반드시 기술적인 해결 방안을 모색하여야 한다. 따라서 본 논문 에서는 고가용성 측면에서의 클라우드 컴퓨팅을 위해 분산 파일 시스템이 갖추어야 할 사항들과 클라우드 컴퓨팅에서 활용 가능한 오픈소스 기반의 하둡 분산 파일 시스템, 메모리 데이터베이스 기술, 고가용성 데이터베이스 시스템을 소개하고 현재 클라우드 컴퓨팅 시장에서 활용되고 있는 분산 파일 시스템을 통한 분산처리 기술을 참고하여 고가용성 대용량 분산 데이터 처리 아키텍처를 클라우드 서비스 측면에서 구현하였다.

Spark 기반 공간 분석에서 공간 분할의 성능 비교 (Performance Comparison of Spatial Split Algorithms for Spatial Data Analysis on Spark)

  • 양평우;유기현;남광우
    • 대한공간정보학회지
    • /
    • 제25권1호
    • /
    • pp.29-36
    • /
    • 2017
  • 본 논문은 인 메모리 시스템인 Spark에 기반 한 공간 빅 데이터 분석 프로토타입을 구현하고, 이를 기반으로 공간 분할 알고리즘에 따른 성능을 비교하였다. 클러스터 컴퓨팅 환경에서 빅 데이터의 컴퓨팅 부하를 균형 분산하기 위해, 빅 데이터는 일정 크기의 순차적 블록 단위로 분할된다. 기존의 연구에서 하둡 기반의 공간 빅 데이터 시스템의 경우 일반 순차 분할 방법보다 공간에 따른 분할 방법이 효과적임이 제시되었다. 하둡 기반의 공간 빅 데이터 시스템들은 원 데이터를 그대로 공간 분할된 블록에 저장한다. 하지만 제안된 Spark 기반의 공간 분석 시스템에서는 검색 효율성을 위해 공간 데이터가 메모리 데이터 구조로 변환되어 공간 블록에 저장되는 차이점이 있다. 그러므로 이 논문은 인 메모리 공간 빅 데이터 프로토타입과 공간 분할 블록 저장 기법을 제시하였다, 또한, 기존의 공간 분할 알고리즘들을 제안된 프로토타입에서 성능 비교를 하여 인 메모리 환경인 Spark 기반 빅 데이터 시스템에서 적합한 공간 분할 전략을 제시하였다. 실험에서는 공간 분할 알고리즘에 대한 질의 수행 시간에 대하여 비교를 하였고, BSP 알고리즘이 가장 좋은 성능을 보여주는 것을 확인할 수 있었다.

대용량 유전체 분석을 위한 고성능 컴퓨팅 시스템 MAHA (Design of MAHA Supercomputing System for Human Genome Analysis)

  • 김영우;김홍연;배승조;김학영;우영춘;박수준;최완
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제2권2호
    • /
    • pp.81-90
    • /
    • 2013
  • 지난 10여년 동안 컴퓨팅 분야는 다양한 연구와 변화를 통하여 눈부신 발전을 이루어오고 있다. 반도체 기술의 발전은 프로세서 및 시스템 아키텍처, 프로그래밍 환경 등에 새로운 패러다임의 변화를 야기하고 있다. 특히 고성능컴퓨팅(HPC)분야는 첨단 기술이 집적된 분야로써, 한 국가의 경쟁력으로 간주되고 있다. 2000년대 후반부터 선진 국가들은 Exascale의 슈퍼컴퓨팅 기술의 개발에 박차를 가하고 있으나, 한국의 경우 ICT 분야에 집중하여 관련 핵심기술의 확보가 시급한 상황이다. 본 논문에서는 슈퍼컴퓨팅 기술을 확보하고 대규모 유전체 분석 및 단백질 구조 분석을 위한 고성능 컴퓨팅 시스템인 MAHA 슈퍼컴퓨팅 시스템의 아키텍쳐를 제시하고 설계 및 구현에 관하여 서술한다. MAHA 슈퍼컴퓨팅 시스템은 컴퓨팅 하드웨어, 파일 시스템, 시스템 소프트웨어 및 바이오 응용으로 구성되며, 성능/$, 성능/면적 및 성능/전력을 향상시키기 위한 이종 매니코어 연산장치에 기반 한 고성능 컴퓨팅 구조를 설계하였다. 대규모 데이터에 대한 빠른 처리를 위하여 SSD 및 MAID시스템에 기반 한 고성능 저전력 파일시스템과 사용자 편의성 및 이종 매니코어 자원의 효과적인 활용을 통한 바이오 응용 성능 향상을 위한 시스템 소프트웨어를 설계하였다. 2011년 12월 MAHA 슈퍼컴퓨팅 시스템은 32개의 컴퓨팅 노드에 기반 하여 이론 성능 50 테라 플롭스, 실측 성능 30.3 테라 플롭스(시스템 효율 56.2%)로 설계, 구축 되었으며, 2013년 100 테라 플롭스 규모로 확장될 예정이다.