• 제목/요약/키워드: data de-duplication

검색결과 18건 처리시간 0.02초

SSD 기반 스토리지 시스템에서 중복률과 입출력 성능 향상을 위한 데이터 중복제거 및 재활용 기법 (Data De-duplication and Recycling Technique in SSD-based Storage System for Increasing De-duplication Rate and I/O Performance)

  • 김주경;이승규;김덕환
    • 전자공학회논문지
    • /
    • 제49권12호
    • /
    • pp.149-155
    • /
    • 2012
  • SSD(Solid State Disk)는 다수의 NAND 플래시 메모리로 구성되었으며 내부에 고성능 컨트롤러와 캐시 버퍼를 포함한 스토리지 장치이다. NAND 플래시 메모리는 제자리 덮어쓰기가 안되기 때문에 파일시스템에서 유효페이지가 갱신 및 삭제시 무효페이지로 전환되어 완전히 삭제하기 위해서는 가비지 컬렉션 과정을 거쳐야한다. 하지만 가비지 컬렉션은 지연시간이 긴 Erase 연산을 포함하기 때문에 SSD의 I/O 성능을 감소시키고 마모도를 증가시키는 문제가 된다. 본 논문에서는 입력데이터에 대하여 유효데이터와 무효데이터에서 중복검사를 실행하는 기법을 제안한다. 먼저 유효데이터에 대한 중복제거 과정을 거치고 그 다음에 무효데이터 재활용 과정을 거침으로써 중복률을 향상시켰다. 이를 통하여 SSD의 쓰기 횟수와 가비지 컬렉션 횟수를 감소시켜 마모도와 I/O 성능이 개선되었다. 실험결과 제안한 기법은 유효데이터 중복제거와 무효데이터 재활용을 둘다 하지 않는 일반적인 경우에 비해서 가비지 컬렉션 횟수가 최대 20% 감소하고 I/O 지연시간이 9% 감소하였다.

대용량 데이터 서비스를 위한 SANique Smart Vault 백업 시스템의 설계 및 구현 (Design and Implementation of SANique Smart Vault Backup System for Massive Data Services)

  • 이규웅
    • 컴퓨터교육학회논문지
    • /
    • 제17권2호
    • /
    • pp.97-106
    • /
    • 2014
  • 다양한 데이터 집중적인 응용 서비스의 증가로 인해 사용자 데이터가 급증하고 있으며 방대한 양의 데이터 저장 및 백업에 대한 관심이 높아지고 있다. 특히 기존 일반적 증분백업 기술들이 SAN 기반의 대용량 데이터 서비스 환경에 적합하지 않아 백업 시스템의 성능저하 문제가 심각하다. SANique Smart Vault 시스템은 이러한 요구사항을 만족하는 데이터 중복제거 기반의 고성능 백업 솔루션이다. 본 논문에서는 SANique Smart Vault 시스템의 개략적 시스템 구조에 대하여 설명하고 특히 백업대상 목록의 탐색과정을 개선한 저널링 기반의 델타 증분백업 기술 및 레코드 레벨의 데이터 중복제거 기능의 구현기술에 대하여 설명한다. 또한 제안된 무기한 증분백업 기능과 데이터 중복 제거 기능은 타 상용 시스템들과의 성능비교를 통해 백업 오버헤드 측면의 성능 우수성을 보인다.

  • PDF

대용량 데이터의 중복제거(De-Duplication) 성능 실험 (De-Duplication Performance Test for Massive Data)

  • 이철민;김재훈;김영규
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 추계학술발표대회
    • /
    • pp.271-273
    • /
    • 2012
  • 중복 제거(De-duplication) 여러 데이터를 저장한 스토리지에서 같은 내용을 담고 있는 파일자체나 블록단위의 chunk 등을 찾아 중복된 내용을 제거하여 중복된 부분은 하나의 데이터 단위를 유지함으로써 스토리지 공간을 절약할 수 있다. 본 논문에서는 실험적인 데이터가 아닌 실제 업무 환경에서 적용될만한 대용량의 데이터 백업을 가정한 상황에 대해 중복 제거 기법을 테스트해봄으로써 중복제거율과 성능을 측정하였으며 이를 시각적으로 표현하는 방법을 제안함으로써 평가자 및 사용자가 알아보기 쉽게 하였다.

Protection of a Multicast Connection Request in an Elastic Optical Network Using Shared Protection

  • BODJRE, Aka Hugues Felix;ADEPO, Joel;COULIBALY, Adama;BABRI, Michel
    • International Journal of Computer Science & Network Security
    • /
    • 제21권1호
    • /
    • pp.119-124
    • /
    • 2021
  • Elastic Optical Networks (EONs) allow to solve the high demand for bandwidth due to the increase in the number of internet users and the explosion of multicast applications. To support multicast applications, network operator computes a tree-shaped path, which is a set of optical channels. Generally, the demand for bandwidth on an optical channel is enormous so that, if there is a single fiber failure, it could cause a serious interruption in data transmission and a huge loss of data. To avoid serious interruption in data transmission, the tree-shaped path of a multicast connection may be protected. Several works have been proposed methods to do this. But these works may cause the duplication of some resources after recovery due to a link failure. Therefore, this duplication can lead to inefficient use of network resources. Our work consists to propose a method of protection that eliminates the link that causes duplication so that, the final backup path structure after link failure is a tree. Evaluations and analyses have shown that our method uses less backup resources than methods for protection of a multicast connection.

중복 데이터 관리 기법을 통한 저장 시스템 성능 개선 (Storage System Performance Enhancement Using Duplicated Data Management Scheme)

  • 정호민;고영웅
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제37권1호
    • /
    • pp.8-18
    • /
    • 2010
  • 기존의 전통적인 저장 서버는 중복 데이터 블록에 의해서 저장 공간과 네트워크 대역폭의 낭비가 발생되고 있다. 이와 같은 문제를 해결하기 위하여, 다양한 중복 제거 메커니즘이 제시되었으나, 대부분 Contents-Defined Chunking (CDC) 기법을 사용하는 백업 서버에 한정되었다. 왜냐하면 CDC 기법은 앵커를 사용하여 중복 블록을 쉽게 추적할 수 있기 때문에 파일의 업데이트를 관찰하기 유리한 백업 시스템에서 널리 사용되고 있는 것이다. 본 논문에서는 저장 시스템 성능을 개선하기 위하여, 새로운 중복 제거 메커니즘을 제시하고 있다. 범용적인 중복제거 서버를 구축하기 위한 효율적인 알고리즘에 초점을 맞추고 있으며, 이를 통하여 백업 서버, P2P 서버, FTP 서버와 같은 다양한 시스템에 활용이 가능하게 하는 것을 목표로 한다. 실험 결과 제안한 알고리즘이 중복 영역의 블록을 찾아내는 시간을 최소화하고 효율적으로 저장 시스템을 관리하는 것을 보였다.

다단계 중복 제거 기법을 이용한 클러스터 기반 파일 백업 서버 (A Clustering File Backup Server Using Multi-level De-duplication)

  • 고영웅;정호민;김진
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제14권7호
    • /
    • pp.657-668
    • /
    • 2008
  • 기존의 상용 저장 시스템은 데이타를 저장할 때 몇 가지 문제점을 가지고 있다. 먼저, 데이타를 저장함에 있어서 실용적인 중복제거 기법이 널리 활용되고 있지 못하기 때문에 저장 장치 낭비를 초래하고 있다. 또한 대규모 데이타 입출력을 처리하기 위해서 고사양의 시스템을 요구한다는 부분도 문제점으로 지적할 수 있다. 이와 같은 문제를 해결하기 위해서 본 논문에서는 블록 수준에서의 중복을 제거하기 위한 방안으로 파일 지문을 이용한 클러스터링 기반 저장 시스템을 제안하고 있다. 본 연구는 기존의 저장 시스템과 몇 가지 부분에서 차이를 보인다. 먼저, 파일 블록의 지문을 이용한 다단계 중복 제거 기법을 통하여 불필요한 데이타에 대한 저장 용량을 효과적으로 줄일 수 있었다. 또한 입출력 시스템 부분에서는 클러스터링 기법을 적용함으로써 데이타 전송 및 입출력 시간을 효과적으로 감소시켰다. 본 논문에서는 제안된 방법을 검증하기 위해서 몇 가지 실험을 수행하였으며, 실험 결과 저장 공간과 입출력 성능이 크게 개선되었음을 보였다.

SSD 스토리지 시스템에서 PRAM 캐시를 이용한 데이터 중복제거 기법 (Data Deduplication Method using PRAM Cache in SSD Storage System)

  • 이승규;김주경;김덕환
    • 전자공학회논문지
    • /
    • 제50권4호
    • /
    • pp.117-123
    • /
    • 2013
  • 최근 클라우드 스토리지 환경에서 전통적인 스토리지장치인 하드디스크를 대체하여 SSD(Solid-State Drive)의 사용량이 증가하고 있다. SSD는 기계적인 동작이 없어 빠른 입출력 성능을 가지는 반면 덮어쓰기가 불가능한 특성을 가지고 있어 공간 효율성을 위한 관리가 중요하다. 이와 같은 마모도 특성을 갖는 SSD의 공간 효율성을 효과적으로 관리하기 위해 데이터 중복제거 기법을 이용한다. 하지만 데이터 중복제거 기법은 데이터 청킹, 해싱, 해시값 검색과정 연산을 포함하기 때문에 오버헤드가 발생하는 문제점이 있다. 본 논문에서는 SSD 스토리지 시스템에서 PRAM 캐시를 이용한 데이터 중복제거 기법을 제안한다. 제안한 방법은 DRAM의 1차 해시테이블에 PRAM에 캐싱된 데이터를 위한 해시값들을 저장하고, LRU(Least Recently Used)기법을 이용하여 관리한다. PRAM의 2차 해시테이블에는 SSD 스토리지에 저장된 데이터에 대한 해시값들을 저장하고, DRAM의 1차 해시테이블에 대한 백업을 PRAM에 유지함으로써 전원 손실등에 대비하여 신뢰성을 향상시킬 수 있다. 실험결과, 제안하는 기법은 기존의 DRAM에 모든 해시값들을 저장하여 관리하는 기법보다 SSD의 쓰기 횟수 및 연산시간을 워크로드별 평균 44.2%, 38.8%의 감소 효과를 보였다.

실시간 심전도 모니터링을 위한 HL7 메시지 간소화 전략 (A Lightweight HL7 Message Strategy for Real-Time ECG Monitoring)

  • 이구연;강경태;이재면;박주영
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제21권3호
    • /
    • pp.183-191
    • /
    • 2015
  • 최근 IT 기술이 발전함에 따라 실시간 심전도 모니터링이 가능해 졌으며, 이는 의료정보교환을 위한 HL7 표준의 전도 유망한 응용 중 하나로 인식되고 있다. 하지만 HL7 메시지 내 데이터 중복으로 인한 메시지의 크기 및 생성시간의 증가로 인해 HL7 표준을 실시간 심전도 모니터링에 바로 적용하기에는 무리가 있다. 이에 본 논문에서는 실시간 심전도 모니터링에 적합한 HL7 메시지의 간소화 전략을 제안한다. 다양한 형식의 심전도 데이터를 Feature Scaling을 거쳐 정형화된 포맷으로 조정하고 HL7 규약에 순응하는 메시지를 생성한다. 또한 HL7 ORU 메시지 내의 중복되는 OBX 필드를 제거하기 위해 De-Duplication 알고리즘을 수행한다. 이를 통해 기존의 HL7 표준 적용 대비 메시지의 생성시간은 최대 51%, 크기는 최대 1/8로 줄일 수 있음을 실험적으로 확인하였다.

학술지의 피인용횟수 순위를 적용한 tapered h-지수의 변형지표 "Kor-hT"에 관한 연구 (A Study on the "Kor-T", a Modified Tapered h-index, by Applying the Ranking According to the Number of Citations of Journals in Evaluating Korean Journals)

  • 고영만;조수련;박지영
    • 정보관리학회지
    • /
    • 제30권4호
    • /
    • pp.111-131
    • /
    • 2013
  • 본 연구에서는 '학술지의 피인용횟수 순위'를 적용한 tapered h-지수의 변형지표 Kor-$h_T$를 고안하여 제안하였다. Kor-$h_T$의 의미를 평가하기 위하여 Kor-$h_T$ 지수 값의 중복률 및 지수 값과 평가요소 사이의 연관성 변화를 다른 학술지 평가지표인 h-지수, tapered h-지수 및 IF와 비교 분석하였다. 지수 값의 중복률 분석은 지표의 변별력을 살펴보기 위한 것이며, 지수 값과 평가요소와의 상관관계 분석은 지표의 평가요소인 피인용횟수 및 논문 수가 지수 값에 각각 어떻게 반영되는지를 알아보기 위한 것이다. 분석을 위해 2008년부터 2010년까지의 한국학술지인용색인(KCI) 3개년 데이터를 사용하였다. 분석 결과 본 연구에서 제안한 Kor-$h_T$가 비교 대상 지표에 비해 지수 값의 중복률이 가장 낮아 높은 변별력을 보였으며, 지수 값과 평가요소와의 상관관계에 있어서도 피인용횟수와 논문 수 모두에서 상관관계가 가장 높은 것으로 나타났다.

SSD 기반의 RAID 시스템에서 패리티 디스크의 중복 제거 (De-duplication of Parity Disk in SSD-Based RAID System)

  • 양유석;이승규;김덕환
    • 전자공학회논문지
    • /
    • 제50권1호
    • /
    • pp.105-113
    • /
    • 2013
  • 데이터 입출력의 지연 및 병목현상을 해결하기 위해, 여러 개의 디스크를 병렬 구조로 연결한 RAID 시스템이 널리 사용되고 있다. 현재 HDD에 비해 입출력 성능이 좋은 SSD 기반의 RAID 시스템이 활성화 되고 있으나, SSD를 사용하여 RAID 시스템을 구현 할 경우 SSD의 쓰기 횟수 제한 문제와 빈번한 쓰기 연산으로 인한 전력소모의 문제가 발생한다. 본 논문에서는 갱신 비용이 많이 드는 SSD 기반의 RAID 시스템에서 parity 디스크의 중복된 데이터를 제거하는 방법을 제안한다. 제안한 방법은 parity 데이터의 chunk 보다 작은 크기로 분할 하고, 중복된 데이터를 제거 하여 쓰기 연산을 줄이고 마모도 및 전력 소모를 낮춘다. 실험결과 EVENODD 코드를 사용한 RAID-6 시스템의 경우 제안한 방법이 전체 디스크의 약 16%, parity 디스크에서 31% 마모도의 감소를 보였으며, 30% 전력 감소를 보여 중복제거기법을 사용하지 않았을 때 보다 성능이 증가 한 것을 알 수 있다. RAID-5 시스템에서는 전체 디스크의 약 12%, parity 디스크의 32%의 마모도 감소를 보였고, 전력소모의 경우 36%의 전력 소모 감소를 보인다.