• Title/Summary/Keyword: 데이터 복제

Search Result 295, Processing Time 0.055 seconds

A Dynamic Data Replica Deletion Strategy on HDFS using HMM (HMM을 이용한 HDFS 기반 동적 데이터 복제본 삭제 전략)

  • Seo, Young-Ho;Youn, Hee-Yong
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2014.07a
    • /
    • pp.241-244
    • /
    • 2014
  • 본 논문에서는 HDFS(Hadoop Distributed File System)에서 문제되고 있는 복제정책의 개선을 위해 HMM(Hidden Markov Model)을 이용한 동적 데이터 복제본 삭제 전략을 제안한다. HDFS는 대용량 데이터를 효과적으로 처리할 수 있는 분산 파일 시스템으로 높은 Fault-Tolerance를 제공하며, 데이터의 접근에 높은 처리량을 제공하여 대용량 데이터 집합을 갖는 응용 프로그램에 최적화 되어있는 장점을 가지고 있다. 하지만 HDFS 에서의 복제 메커니즘은 시스템의 안정성과 성능을 향상시키지만, 추가 블록 복제본이 많은 디스크 공간을 차지하여 유지보수 비용 또한 증가하게 된다. 본 논문에서는 HMM과 최상의 상태 순서를 찾는 알고리즘인 Viterbi Algorithm을 이용하여 불필요한 데이터 복제본을 탐색하고, 탐색된 복제본의 삭제를 통하여 HDFS의 디스크 공간과 유지보수 비용을 절약 할 수 있는 전략을 제안한다.

  • PDF

Data Replication Technique for Improving Data Locality of MapReduce (맵리듀스의 데이터 로컬리티 향상을 위한 데이터 복제기법)

  • Lee, Jung-Ha;Yu, Heon-Chang;Lee, Eun-Young
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2012.06a
    • /
    • pp.218-220
    • /
    • 2012
  • 인터넷 활용과 웹 어플리케이션의 개발이 증가함에 따라 처리해야하는 데이터의 양도 또한 증가하고 있다. 대량의 데이터를 효과적으로 처리하기 위한 방법 중 하나로 병렬처리 프로그래밍 모델인 맵리듀스가 있다. 하둡은 맵리듀스의 오픈소스 구현으로 대량의 데이터를 병렬로 처리하는 무료 자바 소프트웨어 프레임워크이다. 분산 파일 시스템을 사용하는 하둡에서는 처리하는 데이터가 다른 노드에 위치하는 데이터 로컬리티 문제가 전체 작업 수행시간의 증가를 야기하는 문제가 있다. 본 논문에서는 하둡에서의 데이터 로컬리티 문제를 해결하기 위한 데이터 복제기법을 제안한다. 제안하는 데이터 복제기법에서는 1) 라그랑지 보간법을 사용하여 과거 접근수를 이용한 미래 접근수를 예측하고, 2) 예측된 값을 Threshold값으로 설정하고, 3) 데이터 로컬리티 문제가 발생하였을 때, 복제사본을 생성할 것인지 캐시를 생성할 것인지를 결정하여 복제 사본의 수를 최적화 한다. 실험을 통해 단순히 복제사본 수를 증가시킴으로써 데이터 로컬리티를 향상을 이루어도 작업 완료시간이 감소하는 것이 아니라는 결과를 볼 수 있었고, 오버 런치로 인한 작업 완료시간 증가를 줄이기 위해 데이터 복제사본 수 최적화의 필요성을 확인할 수 있었다.

A Peer-to-Peer based Replication Strategy for Data Grid (데이터 그리드를 위한 Peer-to-Peer기반 복제 정책)

  • 오상원;이원주;전창호
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.10a
    • /
    • pp.49-51
    • /
    • 2004
  • 데이터 그리드를 위한 기존의 복제 정책은 계층적 구조를 기반으로 하고 있기 때문에 상위계승에서 하위계층으로만 데이터를 복제할 수 있어 비효율적이다. 따라서 본 논문에서는 기존 데이터 그리드의 계층적 구조에 P2P(Peer-to-Peer)시스템을 적용하여 효율적으로 복제본을 유지할 수 있는 새로운 복제 정책을 제안한다. 이 정책의 특징은 클라이언트 노드의 저장 공간 일정 부분을 임계 구역(critical section)으로 지정하여 데이터 조작을 방지함으로써 클라이언트 노드도 데이터 복제본을 저장할 수 있는 기능을 가지도록 한 것이다. 따라서 계층적 구조에서 상위 계층뿐만 아니라 동일 계층 또는 클라이언트 노드들 간의 데이터 전송이 가능하기 때문에 데이터 그리드의 성능을 향상시킬 수 있다.

  • PDF

An Efficient Peer-to-Peer Based Replication Strategy for Data Grid (데이터 그리드를 위한 효율적인 Peer-to-Peer 기반 복제 정책)

  • Oh, Sang-Won;Lee, Won-Joo;Jeon, Chang-Ho
    • Journal of the Institute of Electronics Engineers of Korea CI
    • /
    • v.45 no.2
    • /
    • pp.10-17
    • /
    • 2008
  • In this paper, we propose an efficient data replication strategy based on Peer-to-Peer which improves the performance of Data Grid system. The key idea of this replication strategy is to add the Peer-to-Peer concept for reducing data transmission restriction caused by hierarchical topology. And, it makes the nodes can store data replica to set a critical section at the storage of client level nodes. Therefore, it is possible to transmit the data replica between client level nodes and from client level nodes to upper data replication server. It is more effective to transmit data replica between client level nodes than transmitting data replica 1mm data server or data replication server with respect to minimize the transmission time. This results in improving the performance of Data Grid system. Through simulation, we show that the proposed data replication strategy based on Peer-to-Peer improves the performance of entire Data Grid environment compared to previous strategies.

A Dynamic Data Grid Replication Strategy Based on Internet Architecture (인터넷 구조 기반의 동적 데이터 그리드 복제 정책)

  • Kim, Jun-Sang;Lee, Won-Joo;Jeon, Chang-Ho
    • Journal of the Institute of Electronics Engineers of Korea CI
    • /
    • v.45 no.3
    • /
    • pp.1-6
    • /
    • 2008
  • Data grid shares distributed large data via wide-band network. Such grid environment consumes much time for large data transmission. Because it is implemented on internet as physical network. Many replication strategies were proposed for solving this problem, but they are not optimal in real Data grid environments. Because they were proposed that based on logical topology without consideration of real internet architecture. Grid data access time is largely influenced by internet architecture as physical network of Data grid. In this paper, we propose a new data replication strategy RSIA(Replication Strategy based on Internet Architecture) based on internet architecture. The RSIA places replicas considering structural hierarchy in each element of internet, and avoid the performance bottlenecks to reduce system performance degradation when a data transfer. Through simulation, we show that the proposed RSIA data replication strategy improves the performance of Data Grid environment compared with previous strategies.

The partial content replication method for streaming data (스트리밍 데이터를 위한 부분 컨텐츠 복제 방법)

  • Bak, Yu-Hyeon;Woo, Sang-Min;Kim, Hag-Young;Kim, Kyong-Sok
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • v.9 no.1
    • /
    • pp.200-205
    • /
    • 2005
  • 전통적인 컴퓨터 시스템은 클라이언트-서버 구조로 클라이언트가 데이터를 요청하면 데이터를 관리하는 서버가 이를 제공한다. 이러한 구조에서 데이터를 요청하는 사용자 수 증가하면 단일 서버(single server)만으로는 모든 사용자의 요청을 처리할 수 없기 때문에 다중 서버로 서비스를 제공하는 방법들이 제안되었다. 다중 서버를 가지는 시스템은 모든 데이터에 대해서 균등한 사용자 요청이 들어오면 최적의 성능을 내지만, VoD(Video On Demand) 서비스와 같이 인기 많은 데이터(hot data)에 대한 요구와 인기 없는 데이터(cold data)에 대한 요구가 현저하게 차이가 나면 인기 많은 데이터를 가지고 있는 서버는 사용자요청을 제대로 처리하지 못하는 반면에 인기 없는 데이터만을 가지는 서버는 시스템 자원을 낭비하는 단점을 가진다. 이 논문은 NS 카드를 장착한 시스템에서 인기 많은 비디오데이터를 QoS와 저장공간의 효율을 위해 부분 컨텐츠 복제 기법을 제안한다. 이 방법은 기존의 전체 컨텐츠를 복제하여 서비스하는 방법과는 달리 컨텐츠의 부분을 복제하고 서비스 시점에서 나머지 부분을 복제함으로써 사용자의 서비스 지연시간이 늘어나지 않으면서 저장공간의 효율성을 높일 수 있다.

  • PDF

Data Access Frequency based Data Replication Method using Erasure Codes in Cloud Storage System (클라우드 스토리지 시스템에서 데이터 접근빈도와 Erasure Codes를 이용한 데이터 복제 기법)

  • Kim, Ju-Kyeong;Kim, Deok-Hwan
    • Journal of the Institute of Electronics and Information Engineers
    • /
    • v.51 no.2
    • /
    • pp.85-91
    • /
    • 2014
  • Cloud storage system uses a distributed file system for storing and managing data. Traditional distributed file system makes a triplication of data in order to restore data loss in disk failure. However, enforcing data replication method increases storage utilization and causes extra I/O operations during replication process. In this paper, we propose a data replication method using erasure codes in cloud storage system to improve storage space efficiency and I/O performance. In particular, according to data access frequency, the proposed method can reduce the number of data replications but using erasure codes can keep the same data recovery performance. Experimental results show that proposed method improves performance in storage efficiency 40%, read throughput 11%, write throughput 10% better than HDFS does.

Data Replicas Relocation Strategy in Mobile Computing System Environment (이동 컴퓨팅 시스템 환경에서 데이터 복제 재배치 기법)

  • Choe, Gang-Hui;Jo, Tae-Nam
    • The Transactions of the Korea Information Processing Society
    • /
    • v.6 no.10
    • /
    • pp.2587-2596
    • /
    • 1999
  • Recently, by the extension of skills like LAN, the wireless telecommunication network and the satelite services make it possible for the mobile computer users to access a database. A method to use the replicated database on a server to get new data without missing any information has been being studied. So far we have used the Static Replica Allocation(SRA) for the replication which is the method of the replication on the server. This method is to replicate the data on the replica server after a moving host is transferred to a cell. Since the network of the SRA is very good, and if there are few moving users, no trouble will happen. But if there is no moving users in a cell, the data will not be shared. Therefore, this paper is about the study of the method of relocation after replicating the data to the cells for the users(User Select Replica Allocation : USRA). We also analyze the access rate and the possibility which are closely related to the moving frequency of the mobile hosts and the numbers of the cells. As a result, We show that the 120% lower access cost and the 40%∼50% gains are achieved from the low mobility

  • PDF

A Hybrid Replication Protocol for Efficient and Secure Distributed System (효율적이고 안정한 분산시스템을 위한 하이브리드 복제 프로토콜)

  • Choi, Sung-Chune;Youn, Hee-Yong;Lee, Bo-Kyoung;Choi, Joong-Sup;Lee, Hyung-Su
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2002.11a
    • /
    • pp.197-200
    • /
    • 2002
  • 최근 분산 컴퓨팅 환경에서 데이터와 서비스의 복제는 통신 비용의 감소, 데이터 가용성 증가, 그리고 단일 서버의 병목현상을 피하기 위해 필수적이다. 기존의 대표적인 복제 프로토콜로 네트워크를 논리적으로 구성하는 Tree quorum 프로토콜과 Grid 프로토콜이 있다. Tree quorum 프로토콜은 최선의 경우 가장 우수한 읽기 성능을 보이는 반면 트리의 높이가 증가할수록 노드의 수가 기하급수적으로 증가한다는 단점을 가지고 있다. Grid 프로토콜은 읽기 동작에 있어 높은 가용성을 가지는 반면 고장이 없는 환경에서도 같은 읽기 및 쓰기 성능을 보이는 단점을 가지고 있다. 따라서 본 논문에서는 기존의 복제 프로토콜이 가지는 문제점을 해결하고, 복제 노드의 추가와 삭제가 보다 용이한 하이브리드 복제 프로토콜을 제안한다. 제안된 복제 프로토콜은 같은 수의 노드를 갖는 tree quorum 프로토콜에 비해 적은 읽기 비용을 가지며, 효율적인 노드의 구성을 통해 기존 복제 프로토콜보다 높은 데이터의 가용성을 가진다.

  • PDF

A Dynamic Data Replication Algorithm Using Hidden Markov Model for HDFS (HMM을 이용한 HDFS 동적 데이터 복제 알고리즘)

  • Park, Na-Young;Youn, Hee-Yong
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2014.07a
    • /
    • pp.327-328
    • /
    • 2014
  • 클라우드 컴퓨팅 환경에서는 시스템의 성능 및 비용적인 측면에서 정보 공유의 용이성, 장소의 제약성 최소화, 저장 공간의 효율적 사용을 위해 분산 파일시스템을 이용하고 있다. 하지만 현재 HDFS의 복제 정책은 모든 데이터에 3개의 복제복을 유지하도록 하고 있다. 하지만 이러한 정책은 데이터의 중요도, 이용빈도수를 반영하지 못한 정책으로 상이한 서비스 품질 및 신뢰성 수준을 반영하지 못한다. 본 논문에서는 Hidden Markov Model을 이용하여 데이터의 이용 빈도수에 따라 복사본의 개수를 조절하는 알고리즘을 제안한다.

  • PDF