• Title/Summary/Keyword: 분산병렬처리

Search Result 411, Processing Time 0.037 seconds

Parallelization of Allocation Module for Scalability and Performance Improvement on Mesos Scheduler (Allocation Module 병렬화를 통한 Mesos 스케줄러의 확장성 및 성능 향상 기법)

  • Han, Ho-Dol;Oh, Sangyoon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2015.04a
    • /
    • pp.139-142
    • /
    • 2015
  • 데이터 센터에서는 물리적인 규모 증가와는 달리 별도의 처리 없이는 분산처리 프레임워크가 동일한 클러스터 내에서 복수로 동작할 수 없어 전체 환경을 정적으로 분할하여 이들을 배치하는 것이 일반적이다. 그러나 최근 연구에서는 복수의 프레임워크를 한 클러스터 내에서 동작시킴으로써 클러스터의 활용률을 높이는 방향으로 이루어지고 있다. Mesos는 복수의 분산처리 프레임워크를 한 클러스터에서 동작시키기 위한 시스템 중 하나로 각 프레임워크 스케줄러의 스케줄링을 지원하는 단일 Allocation Module을 가진다. Allocation Module은 모든 Slave와 프레임워크 스케줄러들의 요청을 처리하는데, 시스템 규모가 커질수록 Allocation Module으로 집중되는 부하가 증가하여 이에 따른 할당 속도 저하로 정상적인 동작이 불가능해진다. 이 문제를 해결하기 위해 본 논문에서는 Mesos 시스템의 Allocation Module 병렬화를 제안한다. 제안 방식을 통해 Allocation Module의 부하를 분산함과 동시에 Head-of-line Blocking으로 인한 스케줄링 지연 문제를 해결할 수 있을 것이다.

Optimization and Performance Analysis of Distributed Parallel Processing Platform for Terminology Recognition System (전문용어 인식 시스템을 위한 분산 병렬 처리 플랫폼 최적화 및 성능평가)

  • Choi, Yun-Soo;Lee, Won-Goo;Lee, Min-Ho;Choi, Dong-Hoon;Yoon, Hwa-Mook;Song, Sa-kwang;Jung, Han-Min
    • The Journal of the Korea Contents Association
    • /
    • v.12 no.10
    • /
    • pp.1-10
    • /
    • 2012
  • Many statistical methods have been adapted for terminology recognition to improve its accuracy. However, since previous studies have been carried out in a single core or a single machine, they have difficulties in real-time analysing explosively increasing documents. In this study, the task where bottlenecks occur in the process of terminology recognition is classified into linguistic processing in the process of 'candidate terminology extraction' and collection of statistical information in the process of 'terminology weight assignment'. A terminology recognition system is implemented and experimented to address each task by means of the distributed parallel processing-based MapReduce. The experiments were performed in two ways; the first experiment result revealed that distributed parallel processing by means of 12 nodes improves processing speed by 11.27 times as compared to the case of using a single machine and the second experiment was carried out on 1) default environment, 2) multiple reducers, 3) combiner, and 4) the combination of 2)and 3), and the use of 3) showed the best performance. Our terminology recognition system contributes to speed up knowledge extraction of large scale science and technology documents.

Matrix-based Filtering and Load-balancing Algorithm for Efficient Similarity Join Query Processing in Distributed Computing Environment (분산 컴퓨팅 환경에서 효율적인 유사 조인 질의 처리를 위한 행렬 기반 필터링 및 부하 분산 알고리즘)

  • Yang, Hyeon-Sik;Jang, Miyoung;Chang, Jae-Woo
    • The Journal of the Korea Contents Association
    • /
    • v.16 no.7
    • /
    • pp.667-680
    • /
    • 2016
  • As distributed computing platforms like Hadoop MapReduce have been developed, it is necessary to perform the conventional query processing techniques, which have been executed in a single computing machine, in distributed computing environments efficiently. Especially, studies on similarity join query processing in distributed computing environments have been done where similarity join means retrieving all data pairs with high similarity between given two data sets. But the existing similarity join query processing schemes for distributed computing environments have a problem of skewed computing load balance between clusters because they consider only the data transmission cost. In this paper, we propose Matrix-based Load-balancing Algorithm for efficient similarity join query processing in distributed computing environment. In order to uniform load balancing of clusters, the proposed algorithm estimates expected computing cost by using matrix and generates partitions based on the estimated cost. In addition, it can reduce computing loads by filtering out data which are not used in query processing in clusters. Finally, it is shown from our performance evaluation that the proposed algorithm is better on query processing performance than the existing one.

Realtime Monitoring and Visualization for PDP System (PDP 시스템의 실시간 모니터링 및 시각화)

  • 김수자;송은하;박복자;정영식
    • Journal of Korea Multimedia Society
    • /
    • v.7 no.5
    • /
    • pp.755-765
    • /
    • 2004
  • Recently, the Internet-based distributed/parallel computing using many of idle hosts has been demonstrated its usefulness for processings of a large-scale task and involving several important issues. While executing a large-scale task, the realtime monitoring is required for adaptive strategy of the performance and state change of host. This paper provides the realtime monitoring and visualization on global computing infrastructure called PDP(Parallel Distributed Processing) which is a parallel computing framework implemented with Jana for parallel computing on the Internet.

  • PDF

Document Summarization using Semantic Feature and Hadoop (하둡과 의미특징을 이용한 문서요약)

  • Kim, Chul-Won
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.18 no.9
    • /
    • pp.2155-2160
    • /
    • 2014
  • In this paper, we proposes a new document summarization method using the extracted semantic feature which the semantic feature is extracted by distributed parallel processing based Hadoop. The proposed method can well represent the inherent structure of documents using the semantic feature by the non-negative matrix factorization (NMF). In addition, it can summarize the big data document using Hadoop. The experimental results demonstrate that the proposed method can summarize the big data document which a single computer can not summarize those.

The Parallel ANN(Artificial Neural Network) Simulator using Mobile Agent (이동 에이전트를 이용한 병렬 인공신경망 시뮬레이터)

  • Cho, Yong-Man;Kang, Tae-Won
    • The KIPS Transactions:PartB
    • /
    • v.13B no.6 s.109
    • /
    • pp.615-624
    • /
    • 2006
  • The objective of this paper is to implement parallel multi-layer ANN(Artificial Neural Network) simulator based on the mobile agent system which is executed in parallel in the virtual parallel distributed computing environment. The Multi-Layer Neural Network is classified by training session, training data layer, node, md weight in the parallelization-level. In this study, We have developed and evaluated the simulator with which it is feasible to parallel the ANN in the training session and training data parallelization because these have relatively few network traffic. In this results, we have verified that the performance of parallelization is high about 3.3 times in the training session and training data. The great significance of this paper is that the performance of ANN's execution on virtual parallel computer is similar to that of ANN's execution on existing super-computer. Therefore, we think that the virtual parallel computer can be considerably helpful in developing the neural network because it decreases the training time which needs extra-time.

A Method of Distributed Parallel Processing based on Multi-Server for Improving Encryption Performance (암호화 성능 향상을 위한 다중장비 기반 분산 병렬 처리 방법)

  • Kim, Hyun-Wook;Park, Sung-Eun;Euh, Sung-Yul
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.19 no.3
    • /
    • pp.529-536
    • /
    • 2015
  • As personal information protection act was recently enforced, a mechanism which saves encrypted personal information has been used to Information Security systems. To use the mechanism, a millions of personal information which are already saved on the system first have to be encrypted. At the moment, it may cause a resource scarcity on server, and also take a lot of time. Thus, this paper suggests a way to encrypt millions of personal information by using multi-server with low specifications and measures its performance on test environment. And, I was compared with the performance of high- specification server. As a compared result, the mechanism with three devices by parallel and distributed processing improved its performance by 128%, and the mechanism with five devices by the same processing improved its performance by 158%.

A Study on The Grid File Construction Method based on MapReduce for Multidimensional Data Processing (다차원 데이터 처리를 위한 맵리듀스 기반의 그리드 파일 생성기법에 관한 연구)

  • Jung, Joo-Hyuk;Lee, Sang-Ho
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2014.04a
    • /
    • pp.77-80
    • /
    • 2014
  • 최근 컴퓨터와 인터넷 이용의 확산, 스마트폰을 포함한 스마트 기기의 보급과 소셜 네트워크 이용의 확대, 위치 기반의 다양한 서비스 확대 등으로 처리해야 할 데이터 크기가 증가하는 추세이다. 이에 따라 대용량 데이터에 대한 처리가 큰 이슈로 떠오르고 있다. 그로 인해 대용량 데이터 처리를 위한 큰 규모의 분산 컴퓨팅 환경을 지원하는 프레임워크인 하둡이 개발되었으며 많은 기업에서 이를 활용하고 있는 추세이다. 하지만 대용량 데이터 중 영상, 의료, 센서 데이터 등 다차원 데이터 처리에 관한 연구는 미비한 상태이다. 기존의 다차원 데이터 처리를 위해 다양한 다차원 인덱스가 제안되었지만, 대용량 다차원 데이터 처리는 단일머신에서는 비효율적인 단점이 있다. 본 논문에서는 다차원 인덱스 기법인 그리드 파일을 하둡의 분산 병렬 처리 모델인 맵리듀스를 기반으로 생성하는 기법을 제안한다. 또한 앞서 생성된 그리드 파일을 가지고 맵리듀스를 이용한 질의처리 방법을 제안 한다. 이로 인해 단일머신에서의 그리드 파일 생성을 병렬처리 함으로써 생성 시간을 단축시키고 질의 처리 또한 맵리듀스를 이용하여 병렬 처리 함으로써 질의 시간 단축을 예상한다.

An Efficient Scheduling Method based on Mobile Agent in consideration of Node’s Load (이동 에이전트 기반의 노드의 부하를 고려한 효율적인 스케줄링 방법)

  • 김용호;김영균;오길호
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10e
    • /
    • pp.580-582
    • /
    • 2002
  • 이동 에이전트는 네트워크 내에서 스스로 이동하면서 사용자 또는 다론 개체 대신 행동할 수 있는 컴퓨터 프로그램을 말하며 이동 에이전트가 적용될 수 있는 분야로는 전자상거래, 정보 검색, 병렬/분산 처리, 네트워크 관리 등이 있다. 본 논문에서는 유휴 컴퓨팅자원뿐만 아니라 개별 사용자에 의해 사용중인 컴퓨팅 자원을 포함하는 분산/병렬 처리 환경에서의 스케줄링 방법에 대해 연구하였다. 컴퓨팅 자원이 사용 중일지라도 부하가 적을 경우 적절한 방법으로 분산처리 환경에 포함시킨다면 전체 컴퓨팅 자원들의 사용율은 증대할 것이다. 본 논문에서는 세 가지 스케줄링 방법을 적용하여 작업 노드들을 그룹으로 구성하고, 이동 에이전트를 통해 작업 그룹에 속한 노드들에게 분해할 수 없는 다수의 작업을 할당하여 처리토록 한다.

  • PDF

The Parallel Processing Method of the Continuous Data Stream Processing Tasks (데이터 스트림 연속 처리 태스크의 병렬 처리 방법)

  • Yang, Kyungah;Lee, Daewoo;Kim, Kiheon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2015.10a
    • /
    • pp.214-215
    • /
    • 2015
  • 데이터 스트림 환경에서 연속 질의를 처리하기 위한 데이터 스트림 처리 시스템이 개발되었다. 데이터 스트림 처리 시스템에서 질의를 처리하는 태스크에 과도한 데이터가 발생할 경우 일반적으로 데이터 스트림을 선별적으로 버리는 load shedding 방법을 이용하지만 이러한 방법은 처리 결과의 정확도가 저하될 수 있다. 따라서, 본 논문은 이를 해결하는 방법으로 분산 데이터 스트림 처리 시스템에서 데이터 스트림 분할을 통한 데이터 스트림 연속 처리 태스크의 병렬 처리 방법을 제시한다. 이를 위해 분산 데이터 스트림을 처리하기 위한 기준을 제시 및 데이터 분할 방법에 대해서 언급한다.