• 제목/요약/키워드: 데이터 복제

검색결과 295건 처리시간 0.024초

HMM을 이용한 HDFS 기반 동적 데이터 복제본 삭제 전략 (A Dynamic Data Replica Deletion Strategy on HDFS using HMM)

  • 서영호;윤희용
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2014년도 제50차 하계학술대회논문집 22권2호
    • /
    • pp.241-244
    • /
    • 2014
  • 본 논문에서는 HDFS(Hadoop Distributed File System)에서 문제되고 있는 복제정책의 개선을 위해 HMM(Hidden Markov Model)을 이용한 동적 데이터 복제본 삭제 전략을 제안한다. HDFS는 대용량 데이터를 효과적으로 처리할 수 있는 분산 파일 시스템으로 높은 Fault-Tolerance를 제공하며, 데이터의 접근에 높은 처리량을 제공하여 대용량 데이터 집합을 갖는 응용 프로그램에 최적화 되어있는 장점을 가지고 있다. 하지만 HDFS 에서의 복제 메커니즘은 시스템의 안정성과 성능을 향상시키지만, 추가 블록 복제본이 많은 디스크 공간을 차지하여 유지보수 비용 또한 증가하게 된다. 본 논문에서는 HMM과 최상의 상태 순서를 찾는 알고리즘인 Viterbi Algorithm을 이용하여 불필요한 데이터 복제본을 탐색하고, 탐색된 복제본의 삭제를 통하여 HDFS의 디스크 공간과 유지보수 비용을 절약 할 수 있는 전략을 제안한다.

  • PDF

맵리듀스의 데이터 로컬리티 향상을 위한 데이터 복제기법 (Data Replication Technique for Improving Data Locality of MapReduce)

  • 이정하;유헌창;이은영
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(A)
    • /
    • pp.218-220
    • /
    • 2012
  • 인터넷 활용과 웹 어플리케이션의 개발이 증가함에 따라 처리해야하는 데이터의 양도 또한 증가하고 있다. 대량의 데이터를 효과적으로 처리하기 위한 방법 중 하나로 병렬처리 프로그래밍 모델인 맵리듀스가 있다. 하둡은 맵리듀스의 오픈소스 구현으로 대량의 데이터를 병렬로 처리하는 무료 자바 소프트웨어 프레임워크이다. 분산 파일 시스템을 사용하는 하둡에서는 처리하는 데이터가 다른 노드에 위치하는 데이터 로컬리티 문제가 전체 작업 수행시간의 증가를 야기하는 문제가 있다. 본 논문에서는 하둡에서의 데이터 로컬리티 문제를 해결하기 위한 데이터 복제기법을 제안한다. 제안하는 데이터 복제기법에서는 1) 라그랑지 보간법을 사용하여 과거 접근수를 이용한 미래 접근수를 예측하고, 2) 예측된 값을 Threshold값으로 설정하고, 3) 데이터 로컬리티 문제가 발생하였을 때, 복제사본을 생성할 것인지 캐시를 생성할 것인지를 결정하여 복제 사본의 수를 최적화 한다. 실험을 통해 단순히 복제사본 수를 증가시킴으로써 데이터 로컬리티를 향상을 이루어도 작업 완료시간이 감소하는 것이 아니라는 결과를 볼 수 있었고, 오버 런치로 인한 작업 완료시간 증가를 줄이기 위해 데이터 복제사본 수 최적화의 필요성을 확인할 수 있었다.

데이터 그리드를 위한 Peer-to-Peer기반 복제 정책 (A Peer-to-Peer based Replication Strategy for Data Grid)

  • 오상원;이원주;전창호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 가을 학술발표논문집 Vol.31 No.2 (1)
    • /
    • pp.49-51
    • /
    • 2004
  • 데이터 그리드를 위한 기존의 복제 정책은 계층적 구조를 기반으로 하고 있기 때문에 상위계승에서 하위계층으로만 데이터를 복제할 수 있어 비효율적이다. 따라서 본 논문에서는 기존 데이터 그리드의 계층적 구조에 P2P(Peer-to-Peer)시스템을 적용하여 효율적으로 복제본을 유지할 수 있는 새로운 복제 정책을 제안한다. 이 정책의 특징은 클라이언트 노드의 저장 공간 일정 부분을 임계 구역(critical section)으로 지정하여 데이터 조작을 방지함으로써 클라이언트 노드도 데이터 복제본을 저장할 수 있는 기능을 가지도록 한 것이다. 따라서 계층적 구조에서 상위 계층뿐만 아니라 동일 계층 또는 클라이언트 노드들 간의 데이터 전송이 가능하기 때문에 데이터 그리드의 성능을 향상시킬 수 있다.

  • PDF

데이터 그리드를 위한 효율적인 Peer-to-Peer 기반 복제 정책 (An Efficient Peer-to-Peer Based Replication Strategy for Data Grid)

  • 오상원;이원주;전창호
    • 전자공학회논문지CI
    • /
    • 제45권2호
    • /
    • pp.10-17
    • /
    • 2008
  • 본 논문에서는 데이터 그리드 시스템의 성능을 향상시킬 수 있는 Peer-to-Peer 기반의 효율적인 복제 정책을 제안한다. 이 정책은 기존의 데이터 복제정책에 Peer-to-Peer 개념을 추가하여 계층구조로 인한 데이터 전송 제한을 줄인다. 그리고 클라이언트 계층 노드의 저장장치 일정 부분을 임계구역(critical section)으로 설정하여 데이터 복사본을 저장할 수 있도록 함으로써 클라이언트 계층 노드간의 데이터 복사본 전송과 클라이언트 계층 노드에서 상위 계층의 데이터 복제 서버로 데이터 복사본 전송이 가능하도록 한다. 클라이언트 계층 노드간의 데이터 복사본 전송은 데이터 서버 또는 데이터 복제 서버에서 데이터 복사본을 전송하는 것에 비해 전송시간을 최소화 할 수 있기 때문에 데이터 그리드 시스템의 성능을 높일 수 있다. 본 논문에서 는 시뮬레이션을 통하여 제안하는 Peer-to-Peer 기반 데이터 복제 정책이 기존의 복제 정책에 비해 그리드 시스템의 성능을 향상시킨다는 것을 보인다.

인터넷 구조 기반의 동적 데이터 그리드 복제 정책 (A Dynamic Data Grid Replication Strategy Based on Internet Architecture)

  • 김준상;이원주;전창호
    • 전자공학회논문지CI
    • /
    • 제45권3호
    • /
    • pp.1-6
    • /
    • 2008
  • 데이터 그리드는 지리적으로 분산된 대용량의 데이터 자원을 광대역 통신망을 통해 공유한다. 이러한 그리드 환경은 물리적 네트워크인 인터넷 상에서 구현되기 때문에 대용량의 데이터를 전송하는데 많은 시간이 소요된다. 이러한 문제를 극복하기 위해서 여러 가지 복제 정책들이 제안되었는데, 기존의 데이터 그리드 복제 정책은 실제 인터넷의 구조를 고려하지 않고 논리적인 토폴로지를 바탕으로 제안되었기 때문에 실제 구축된 데이터 그리드에서 최적의 성능을 기대할 수 없다. 그리드에서 데이터 접근시간은 물리적 네트워크인 인터넷의 구조에 의해 가장 큰 영향을 받기 때문이다. 본 논문에서는 인터넷 구조 기반의 새로운 데이터 그리드 복제 정책으로 RSIA(Replication Strategy based on Internet Architecture) 복제 정책을 제안한다. 이 정책은 인터넷의 각 요소들 사이에 존재하는 구조적인 계층성을 고려하여 데이터 복사본을 배치하고, 데이터 전송 시 대역폭의 병목 구간을 피함으로써 시스템의 성능 저하를 줄인다. 본 논문에서는 시뮬레이션을 통하여 제안하는 RSIA가 기존의 복제 정책에 비해 데이터 그리드의 성능 향상 면에서 우수함을 보인다.

스트리밍 데이터를 위한 부분 컨텐츠 복제 방법 (The partial content replication method for streaming data)

  • 박유현;우상민;김학영;김경석
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2005년도 춘계종합학술대회
    • /
    • pp.200-205
    • /
    • 2005
  • 전통적인 컴퓨터 시스템은 클라이언트-서버 구조로 클라이언트가 데이터를 요청하면 데이터를 관리하는 서버가 이를 제공한다. 이러한 구조에서 데이터를 요청하는 사용자 수 증가하면 단일 서버(single server)만으로는 모든 사용자의 요청을 처리할 수 없기 때문에 다중 서버로 서비스를 제공하는 방법들이 제안되었다. 다중 서버를 가지는 시스템은 모든 데이터에 대해서 균등한 사용자 요청이 들어오면 최적의 성능을 내지만, VoD(Video On Demand) 서비스와 같이 인기 많은 데이터(hot data)에 대한 요구와 인기 없는 데이터(cold data)에 대한 요구가 현저하게 차이가 나면 인기 많은 데이터를 가지고 있는 서버는 사용자요청을 제대로 처리하지 못하는 반면에 인기 없는 데이터만을 가지는 서버는 시스템 자원을 낭비하는 단점을 가진다. 이 논문은 NS 카드를 장착한 시스템에서 인기 많은 비디오데이터를 QoS와 저장공간의 효율을 위해 부분 컨텐츠 복제 기법을 제안한다. 이 방법은 기존의 전체 컨텐츠를 복제하여 서비스하는 방법과는 달리 컨텐츠의 부분을 복제하고 서비스 시점에서 나머지 부분을 복제함으로써 사용자의 서비스 지연시간이 늘어나지 않으면서 저장공간의 효율성을 높일 수 있다.

  • PDF

클라우드 스토리지 시스템에서 데이터 접근빈도와 Erasure Codes를 이용한 데이터 복제 기법 (Data Access Frequency based Data Replication Method using Erasure Codes in Cloud Storage System)

  • 김주경;김덕환
    • 전자공학회논문지
    • /
    • 제51권2호
    • /
    • pp.85-91
    • /
    • 2014
  • 클라우드 스토리지 시스템은 데이터의 저장과 관리를 위해서 분산 파일시스템을 사용한다. 기존 분산 파일시스템은 데이터 디스크의 손실 발생시 이를 복구하기 위해서 3개의 복제본을 만든다. 그러나 데이터 복제 기법은 저장공간을 원본 파일의 복제 횟수만큼 필요로하고 복제과정에서 입출력 발생이 증가하는 문제가 있다. 본 논문에서는 SSD 기반 클라우드 스토리지 시스템에서 저장공간 효율성 향상과 입출력 성능 향상을 위하여 Erasure Codes를 이용한 데이터 복제 기법을 제안한다. 특히, 데이터 접근 빈도에 따라 복제 횟수를 줄이더라도 Erasure Codes를 사용하여 데이터 복구 성능을 동일하게 유지하였다. 실험 결과 제안한 기법이 HDFS 보다 저장공간 효율성은 최대 약40% 향상되었으며, 읽기성능은 약11%, 쓰기성능은 약10% 향상됨을 확인하였다.

이동 컴퓨팅 시스템 환경에서 데이터 복제 재배치 기법 (Data Replicas Relocation Strategy in Mobile Computing System Environment)

  • 최강희;조태남
    • 한국정보처리학회논문지
    • /
    • 제6권10호
    • /
    • pp.2587-2596
    • /
    • 1999
  • 최근에 이동 컴퓨터의 성능향상과 LAN이나 무선 통신 네트워크, 위성서비스와 같은 확장된 기술을 이용하여 사용자는 이동 중에도 데이터베이스에 접근가능하게 되었다. 또한 이동 사용자가 이동중에도 정보를 손실없이 빠르게 얻기 위해, 서버에 정보를 복제하여 사용하는 방법이 연구되고 있다. 지금까지는 이동 호스트가 복제 서버에 데이터를 족제하는 방법인 정적 복제 기법(Static Replica Allocation : SRA)기법을 사용하고 있다. 이 기법은 이동 호스트가 셀에 이동하고나서, 복제서버에 데이터를 복제하는 방법이다. 이것은 네트워크가 양호하고, 이동 사용자의 수가 적은 경우라면, 데이터를 사용하는데는 문제가 없지만, 셀에서 이동 사용자가 존재하고 있지 않다면, 그 데이터는 공유되지 못하는 데이터가 된다. 그래서, 본 논문에서는 이동 사용자가 많은 셀에 데이터를 복제하여 재배치 하는 기법인 선택복제기법(User Select Replica Allocation : USRA)을 제안하였다. 그리고 정적 복제기법을 사용하였을 때와 본 논문에서 제안된 기법을 비교하여, 데이터 접근 비율을 이동성과 셀의 수에 따른 성능을 분석하였다. 그래서 그 결과, 이동 호스트들의 이동성이 낮을 때에는 접근 비용에서, 제시된 기법이 정적 복제 기법보다 120% 낮게 나타났다. 그리고 이동률에 따른 접근비용이 40%~50% 감소되었음을 알 수 있다. 마지막으로 셀의 수에 따라서, 선택복제기법의 확장성은 10%정도 떨어짐을 알 수 있다.

  • PDF

효율적이고 안정한 분산시스템을 위한 하이브리드 복제 프로토콜 (A Hybrid Replication Protocol for Efficient and Secure Distributed System)

  • 최성춘;윤희용;이보경;최중섭;이형수
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 추계학술발표논문집 (상)
    • /
    • pp.197-200
    • /
    • 2002
  • 최근 분산 컴퓨팅 환경에서 데이터와 서비스의 복제는 통신 비용의 감소, 데이터 가용성 증가, 그리고 단일 서버의 병목현상을 피하기 위해 필수적이다. 기존의 대표적인 복제 프로토콜로 네트워크를 논리적으로 구성하는 Tree quorum 프로토콜과 Grid 프로토콜이 있다. Tree quorum 프로토콜은 최선의 경우 가장 우수한 읽기 성능을 보이는 반면 트리의 높이가 증가할수록 노드의 수가 기하급수적으로 증가한다는 단점을 가지고 있다. Grid 프로토콜은 읽기 동작에 있어 높은 가용성을 가지는 반면 고장이 없는 환경에서도 같은 읽기 및 쓰기 성능을 보이는 단점을 가지고 있다. 따라서 본 논문에서는 기존의 복제 프로토콜이 가지는 문제점을 해결하고, 복제 노드의 추가와 삭제가 보다 용이한 하이브리드 복제 프로토콜을 제안한다. 제안된 복제 프로토콜은 같은 수의 노드를 갖는 tree quorum 프로토콜에 비해 적은 읽기 비용을 가지며, 효율적인 노드의 구성을 통해 기존 복제 프로토콜보다 높은 데이터의 가용성을 가진다.

  • PDF

HMM을 이용한 HDFS 동적 데이터 복제 알고리즘 (A Dynamic Data Replication Algorithm Using Hidden Markov Model for HDFS)

  • 박나영;윤희용
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2014년도 제50차 하계학술대회논문집 22권2호
    • /
    • pp.327-328
    • /
    • 2014
  • 클라우드 컴퓨팅 환경에서는 시스템의 성능 및 비용적인 측면에서 정보 공유의 용이성, 장소의 제약성 최소화, 저장 공간의 효율적 사용을 위해 분산 파일시스템을 이용하고 있다. 하지만 현재 HDFS의 복제 정책은 모든 데이터에 3개의 복제복을 유지하도록 하고 있다. 하지만 이러한 정책은 데이터의 중요도, 이용빈도수를 반영하지 못한 정책으로 상이한 서비스 품질 및 신뢰성 수준을 반영하지 못한다. 본 논문에서는 Hidden Markov Model을 이용하여 데이터의 이용 빈도수에 따라 복사본의 개수를 조절하는 알고리즘을 제안한다.

  • PDF