• 제목/요약/키워드: 분산병렬처리

검색결과 411건 처리시간 0.033초

Allocation Module 병렬화를 통한 Mesos 스케줄러의 확장성 및 성능 향상 기법 (Parallelization of Allocation Module for Scalability and Performance Improvement on Mesos Scheduler)

  • 한호돌;오상윤
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2015년도 춘계학술발표대회
    • /
    • pp.139-142
    • /
    • 2015
  • 데이터 센터에서는 물리적인 규모 증가와는 달리 별도의 처리 없이는 분산처리 프레임워크가 동일한 클러스터 내에서 복수로 동작할 수 없어 전체 환경을 정적으로 분할하여 이들을 배치하는 것이 일반적이다. 그러나 최근 연구에서는 복수의 프레임워크를 한 클러스터 내에서 동작시킴으로써 클러스터의 활용률을 높이는 방향으로 이루어지고 있다. Mesos는 복수의 분산처리 프레임워크를 한 클러스터에서 동작시키기 위한 시스템 중 하나로 각 프레임워크 스케줄러의 스케줄링을 지원하는 단일 Allocation Module을 가진다. Allocation Module은 모든 Slave와 프레임워크 스케줄러들의 요청을 처리하는데, 시스템 규모가 커질수록 Allocation Module으로 집중되는 부하가 증가하여 이에 따른 할당 속도 저하로 정상적인 동작이 불가능해진다. 이 문제를 해결하기 위해 본 논문에서는 Mesos 시스템의 Allocation Module 병렬화를 제안한다. 제안 방식을 통해 Allocation Module의 부하를 분산함과 동시에 Head-of-line Blocking으로 인한 스케줄링 지연 문제를 해결할 수 있을 것이다.

전문용어 인식 시스템을 위한 분산 병렬 처리 플랫폼 최적화 및 성능평가 (Optimization and Performance Analysis of Distributed Parallel Processing Platform for Terminology Recognition System)

  • 최윤수;이원구;이민호;최동훈;윤화묵;송사광;정한민
    • 한국콘텐츠학회논문지
    • /
    • 제12권10호
    • /
    • pp.1-10
    • /
    • 2012
  • 과학기술 문헌의 전문용어 인식 분야는 지금까지 다양한 통계적 방법론을 사용하여 용어 인식 정확률을 향상시키기 위하여 연구되어 왔다. 하지만 기존의 연구는 단일-코어 또는 단일 머신 상에서 수행되었기 때문에, 폭발적으로 증가하는 문헌들에 대한 실시간 분석 요구를 처리할 수 없는 상황에 직면하고 있다. 본 논문에서는 전문용어를 인식하는 과정에서 병목현상이 발생하는 작업을 '후보용어 추출 과정'의 언어처리부분과 '용어 가중치 할당 과정'에서 통계정보를 취합하는 부분으로 분류하고, 각 작업을 분산병렬 처리 기반의 맵리듀스 작업을 이용하여 해결하는 전문용어 인식 방법을 구현하고 실험하였다. 실험은 확장성과 분산 병렬 처리 환경 최적화 두 가지로 수행하였고, 첫 번째 실험에서 12개의 노드를 사용하여 분산 병렬 처리하였을 때 단일 머신을 사용한 경우보다 11.27배의 처리속도 향상을 보였다. 두 번째 실험에서 1)기본 환경, 2)복수 리듀서, 3)컴바이너, 4) 2)와 3)의 조합에 대하여 수행하였고, 3)컴바이너 사용이 가장 우수한 성능을 보여 주었다. 본 논문에서 구현된 전문용어 인식 시스템은 대용량 과학기술 문헌에 대한 지식 추출 작업속도 개선에 기여하였다.

분산 컴퓨팅 환경에서 효율적인 유사 조인 질의 처리를 위한 행렬 기반 필터링 및 부하 분산 알고리즘 (Matrix-based Filtering and Load-balancing Algorithm for Efficient Similarity Join Query Processing in Distributed Computing Environment)

  • 양현식;장미영;장재우
    • 한국콘텐츠학회논문지
    • /
    • 제16권7호
    • /
    • pp.667-680
    • /
    • 2016
  • 하둡 맵리듀스와 같은 분산 컴퓨팅 플랫폼이 개발됨에 따라, 기존 단일 컴퓨터 상에서 수행되는 질의 처리 기법을 분산 컴퓨팅 환경에서 효율적으로 수행하는 것이 필요하다. 특히, 주어진 두 데이터 집합에서 유사도가 높은 모든 데이터 쌍을 탐색하는 유사 조인 질의를 분산 컴퓨팅 환경에서 수행하려는 연구가 있어 왔다. 그러나 분산 병렬 환경에서의 기존 유사 조인 질의처리 기법은 데이터 전송 비용만을 고려하기 때문에 클러스터 간에 비균등 연산 부하 분산의 문제점이 존재한다. 본 논문에서는 분산 컴퓨팅 환경에서 효율적인 유사 조인 처리를 위한 행렬 기반 부하 분산 알고리즘을 제안한다. 제안하는 알고리즘은 클러스터의 균등 부하 분산을 위해 행렬을 이용하여 예상되는 연산 부하를 측정하고 이에 따라 파티션을 생성한다. 아울러, 클러스터에서 질의 처리에 사용되지 않는 데이터를 필터링함으로서 연산 부하를 감소시킨다. 마지막으로 성능 평가를 통해 제안하는 알고리즘이 기존 기법에 비해 질의 처리 성능 측면에서 우수함을 보인다.

PDP 시스템의 실시간 모니터링 및 시각화 (Realtime Monitoring and Visualization for PDP System)

  • 김수자;송은하;박복자;정영식
    • 한국멀티미디어학회논문지
    • /
    • 제7권5호
    • /
    • pp.755-765
    • /
    • 2004
  • 최근에 많은 유휴 상태의 호스트 자원들을 이용한 인터넷 기반 분산/병렬 컴퓨팅은 대용량 작업처리와 여러 중요 논제들에 대해 그 유용성이 증명되고 있다. 대용량 작업이 수행되는 동안, 작업에 참여하는 호스트의 성능과 상태 변화에 대처하기 위한 실시간 모니터링 기능이 요구된다. 본 연구에서는 글로벌 컴퓨팅 (global computing) 인트라스트럭처(infrastructure)로 구축된 인터넷 기반 분산/병렬 처리 프레임워크인 PDP(Parallel Distributed Processing)상의 실시간 모니터링 및 시각화에 대한 내용을 소개한다.

  • PDF

하둡과 의미특징을 이용한 문서요약 (Document Summarization using Semantic Feature and Hadoop)

  • 김철원
    • 한국정보통신학회논문지
    • /
    • 제18권9호
    • /
    • pp.2155-2160
    • /
    • 2014
  • 본 논문은 하둡 기반의 분산병렬처리에 의한 문서의 의미특징을 추출하고, 추출된 의미특징을 이용하여 문서를 요약하는 새로운 방법을 제안한다. 제안된 방법은 문서요약에 비음수 분해된 문서의 의미특징을 이용함으로써 문서의 내부 구조를 잘 표현 할 수 있다. 또한 하둡을 이용하여 빅데이터의 문서를 요약할 수 있다. 실험결과 제안방법이 단일 컴퓨터 환경에서 처리할 수 없는 대용량의 문서를 요약할 수 있음을 보인다.

이동 에이전트를 이용한 병렬 인공신경망 시뮬레이터 (The Parallel ANN(Artificial Neural Network) Simulator using Mobile Agent)

  • 조용만;강태원
    • 정보처리학회논문지B
    • /
    • 제13B권6호
    • /
    • pp.615-624
    • /
    • 2006
  • 이 논문은 이동 에이전트 시스템에 기반을 둔 가상의 병렬분산 컴퓨팅 환경에서 병렬로 수행되는 다층 인공신경망 시뮬레이터를 구현하는 것을 목적으로 한다. 다층 신경망은 학습세션, 학습데이터, 계층, 노드, 가중치 수준에서 병렬화가 이루어진다. 이 논문에서는 네트워크의 통신량이 상대적으로 적은 학습세션 및 학습데이터 수준의 병렬화가 가능한 신경망 시뮬레이터를 개발하고 평가하였다. 평가결과, 학습세션 병렬화와 학습데이터 병렬화 성능분석에서 약 3.3배의 학습 수행 성능 향상을 확인할 수 있었다. 가상의 병렬 컴퓨터에서 신경망을 병렬로 구현하여 기존의 전용병렬컴퓨터에서 수행한 신경망의 병렬처리와 비슷한 성능을 발휘한다는 점에서 이 논문의 의의가 크다고 할 수 있다. 따라서 가상의 병렬 컴퓨터를 이용하여 신경망을 개발하는데 있어서, 비교적 시간이 많이 소요되는 학습시간을 줄임으로서 신경망 개발에 상당한 도움을 줄 수 있다고 본다.

암호화 성능 향상을 위한 다중장비 기반 분산 병렬 처리 방법 (A Method of Distributed Parallel Processing based on Multi-Server for Improving Encryption Performance)

  • 김현욱;박성은;어성율
    • 한국정보통신학회논문지
    • /
    • 제19권3호
    • /
    • pp.529-536
    • /
    • 2015
  • 최근 개인정보보호법의 시행으로 개인 정보를 암호화하여 저장하는 메커니즘이 보안 시스템에 적용되고 있다. 개인 정보에 대한 암 복호화 메커니즘을 적용할 경우 초기에 기 저장되어 있는 대용량의 개인 정보를 암호화해야 한다. 이때 서버의 자원 부족이 발생할 수 있다. 또한 많은 시간이 소요된다. 본 논문에서는 위와 같은 문제점을 해결하고자 저 사양 다중 장비를 사용하여 대량의 개인 정보를 분산 병렬처리로 암호화하는 방법을 제안하고 테스트 환경을 구축하여 성능을 측정하였다. 그리고 고 사양 장비의 성능과 비교하였다. 측정 결과 장비를 3대로 확장하여 분산 병렬처리를 수행하는 경우 약 128% 이상, 5대로 확장하였을 경우 158% 이상 성능이 향상되는 것을 확인할 수 있었다.

다차원 데이터 처리를 위한 맵리듀스 기반의 그리드 파일 생성기법에 관한 연구 (A Study on The Grid File Construction Method based on MapReduce for Multidimensional Data Processing)

  • 정주혁;이상호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2014년도 춘계학술발표대회
    • /
    • pp.77-80
    • /
    • 2014
  • 최근 컴퓨터와 인터넷 이용의 확산, 스마트폰을 포함한 스마트 기기의 보급과 소셜 네트워크 이용의 확대, 위치 기반의 다양한 서비스 확대 등으로 처리해야 할 데이터 크기가 증가하는 추세이다. 이에 따라 대용량 데이터에 대한 처리가 큰 이슈로 떠오르고 있다. 그로 인해 대용량 데이터 처리를 위한 큰 규모의 분산 컴퓨팅 환경을 지원하는 프레임워크인 하둡이 개발되었으며 많은 기업에서 이를 활용하고 있는 추세이다. 하지만 대용량 데이터 중 영상, 의료, 센서 데이터 등 다차원 데이터 처리에 관한 연구는 미비한 상태이다. 기존의 다차원 데이터 처리를 위해 다양한 다차원 인덱스가 제안되었지만, 대용량 다차원 데이터 처리는 단일머신에서는 비효율적인 단점이 있다. 본 논문에서는 다차원 인덱스 기법인 그리드 파일을 하둡의 분산 병렬 처리 모델인 맵리듀스를 기반으로 생성하는 기법을 제안한다. 또한 앞서 생성된 그리드 파일을 가지고 맵리듀스를 이용한 질의처리 방법을 제안 한다. 이로 인해 단일머신에서의 그리드 파일 생성을 병렬처리 함으로써 생성 시간을 단축시키고 질의 처리 또한 맵리듀스를 이용하여 병렬 처리 함으로써 질의 시간 단축을 예상한다.

이동 에이전트 기반의 노드의 부하를 고려한 효율적인 스케줄링 방법 (An Efficient Scheduling Method based on Mobile Agent in consideration of Node’s Load)

  • 김용호;김영균;오길호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (3)
    • /
    • pp.580-582
    • /
    • 2002
  • 이동 에이전트는 네트워크 내에서 스스로 이동하면서 사용자 또는 다론 개체 대신 행동할 수 있는 컴퓨터 프로그램을 말하며 이동 에이전트가 적용될 수 있는 분야로는 전자상거래, 정보 검색, 병렬/분산 처리, 네트워크 관리 등이 있다. 본 논문에서는 유휴 컴퓨팅자원뿐만 아니라 개별 사용자에 의해 사용중인 컴퓨팅 자원을 포함하는 분산/병렬 처리 환경에서의 스케줄링 방법에 대해 연구하였다. 컴퓨팅 자원이 사용 중일지라도 부하가 적을 경우 적절한 방법으로 분산처리 환경에 포함시킨다면 전체 컴퓨팅 자원들의 사용율은 증대할 것이다. 본 논문에서는 세 가지 스케줄링 방법을 적용하여 작업 노드들을 그룹으로 구성하고, 이동 에이전트를 통해 작업 그룹에 속한 노드들에게 분해할 수 없는 다수의 작업을 할당하여 처리토록 한다.

  • PDF

데이터 스트림 연속 처리 태스크의 병렬 처리 방법 (The Parallel Processing Method of the Continuous Data Stream Processing Tasks)

  • 양경아;이대우;김기헌
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2015년도 추계학술발표대회
    • /
    • pp.214-215
    • /
    • 2015
  • 데이터 스트림 환경에서 연속 질의를 처리하기 위한 데이터 스트림 처리 시스템이 개발되었다. 데이터 스트림 처리 시스템에서 질의를 처리하는 태스크에 과도한 데이터가 발생할 경우 일반적으로 데이터 스트림을 선별적으로 버리는 load shedding 방법을 이용하지만 이러한 방법은 처리 결과의 정확도가 저하될 수 있다. 따라서, 본 논문은 이를 해결하는 방법으로 분산 데이터 스트림 처리 시스템에서 데이터 스트림 분할을 통한 데이터 스트림 연속 처리 태스크의 병렬 처리 방법을 제시한다. 이를 위해 분산 데이터 스트림을 처리하기 위한 기준을 제시 및 데이터 분할 방법에 대해서 언급한다.