• Title/Summary/Keyword: 데이터 중복제거

Search Result 257, Processing Time 0.023 seconds

Parallel Rabin Fingerprinting on GPGPU for Efficient Data Deduplication (효율적인 데이터 중복제거를 위한 GPGPU 병렬 라빈 핑거프린팅)

  • Ma, Jeonghyeon;Park, Sejin;Park, Chanik
    • Journal of KIISE
    • /
    • v.41 no.9
    • /
    • pp.611-616
    • /
    • 2014
  • Rabin fingerprinting used for chunking requires the largest amount computation time in data deduplication, In this paper, therefore, we proposed parallel Rabin fingerprinting on GPGPU for efficient data deduplication. In addition, for efficient parallelism in Rabin fingerprinting, four issues are considered. Firstly, when dividing input data stream into data sections, we consider the data located near the boundaries between data sections to calculate Rabin fingerprint continuously. Secondly, we consider exploiting the characteristics of Rabin fingerprinting for efficient operation. Thirdly, we consider the chunk boundaries which can be changed compared to sequential Rabin fingerprinting when adapting parallel Rabin fingerprinting. Finally, we consider optimizing GPGPU memory access. Parallel Rabin fingerprinting on GPGPU shows 16 times and 5.3 times better performance compared to sequential Rabin fingerprinting on CPU and compared to parallel Rabin fingerprinting on CPU, respectively. These throughput improvement of Rabin fingerprinting can lead to total performance improvement of data deduplication.

A Method of Summary based Indexing in De-duplication File System (중복제거 파일시스템에서 서머리 기반 인덱싱 기법)

  • Lee, Joongsoo;Ahn, Chang-Won
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2012.11a
    • /
    • pp.312-313
    • /
    • 2012
  • 중복제거 파일 시스템은 가상머신 이미지와 같이 서로 중복되는 데이터가 많은 파일에서 용량을 줄이기 위하여 많이 사용된다. 중복제거를 위하여 많은 경우 서머리 벡터와 인덱스를 함께 사용하고 있는데, 이는 메모리를 많이 소모하고 인덱스 구조에 따라 여러 번의 하드 디스크 접근을 해야 하는 한계가 있었다. 본 논문에서는 서머리 벡터를 인덱스 내에서 활용하고 하드디스크를 접근하는 횟수를 감소할 수 있는 인덱싱 기법을 제안한다.

Design and Implementation of Multiple Filter Distributed Deduplication System Applying Cuckoo Filter Similarity (쿠쿠 필터 유사도를 적용한 다중 필터 분산 중복 제거 시스템 설계 및 구현)

  • Kim, Yeong-A;Kim, Gea-Hee;Kim, Hyun-Ju;Kim, Chang-Geun
    • Journal of Convergence for Information Technology
    • /
    • v.10 no.10
    • /
    • pp.1-8
    • /
    • 2020
  • The need for storage, management, and retrieval techniques for alternative data has emerged as technologies based on data generated from business activities conducted by enterprises have emerged as the key to business success in recent years. Existing big data platform systems must load a large amount of data generated in real time without delay to process unstructured data, which is an alternative data, and efficiently manage storage space by utilizing a deduplication system of different storages when redundant data occurs. In this paper, we propose a multi-layer distributed data deduplication process system using the similarity of the Cuckoo hashing filter technique considering the characteristics of big data. Similarity between virtual machines is applied as Cuckoo hash, individual storage nodes can improve performance with deduplication efficiency, and multi-layer Cuckoo filter is applied to reduce processing time. Experimental results show that the proposed method shortens the processing time by 8.9% and increases the deduplication rate by 10.3%.

Data De-duplication and Recycling Technique in SSD-based Storage System for Increasing De-duplication Rate and I/O Performance (SSD 기반 스토리지 시스템에서 중복률과 입출력 성능 향상을 위한 데이터 중복제거 및 재활용 기법)

  • Kim, Ju-Kyeong;Lee, Seung-Kyu;Kim, Deok-Hwan
    • Journal of the Institute of Electronics and Information Engineers
    • /
    • v.49 no.12
    • /
    • pp.149-155
    • /
    • 2012
  • SSD is a storage device of having high-performance controller and cache buffer and consists of many NAND flash memories. Because NAND flash memory does not support in-place update, valid pages are invalidated when update and erase operations are issued in file system and then invalid pages are completely deleted via garbage collection. However, garbage collection performs many erase operations of long latency and then it reduces I/O performance and increases wear leveling in SSD. In this paper, we propose a new method of de-duplicating valid data and recycling invalid data. The method de-duplicates valid data and then recycles invalid data so that it improves de-duplication ratio. Due to reducing number of writes and garbage collection, the method could increase I/O performance and decrease wear leveling in SSD. Experimental result shows that it can reduce maximum 20% number of garbage collections and 9% I/O latency than those of general case.

Deduplication Technique for Smartphone Application Update Scenario (스마트폰의 어플리케이션 업데이트 패턴을 고려한 데이터 중복제거 기법 연구)

  • Park, Dae-Jun;Choi, Dong-Soo;Shin, Dong-Kun
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2012.06a
    • /
    • pp.364-366
    • /
    • 2012
  • 스마트폰의 어플리케이션은 어플리케이션 생태계의 발전에 따라 그 수가 많아지고, 업데이트 또한 잦아졌다. 어플리케이션의 업데이트는 낸드 플래시 메모리에 이전 버전을 삭제하고, 새로운 버전의 어플리케이션에 대한 쓰기 명령을 내린다. 따라서 사용자는 낸드 플래시 메모리에서의 상대적으로 느린 쓰기 명령에 의해 스마트폰의 성능의 저하를 느끼고 낸드 플래시 메모리는 반복되는 지우기/쓰기 동작에 의해 수명이 단축된다. 본 논문에서는 업데이트 되는 스마트폰 어플리케이션 데이터가 이전 버전과 큰 차이가 없다는 것에 착안하여 데이터 중복제거를 통해 업데이트 성능을 향상시키고 낸드 플래시 메모리의 수명을 향상시키는 기법을 제안하고 있으며, 실험을 통해서 어플리케이션들에 대한 중복 제거율을 관찰하였다.

Indexing method with deduplication for efficient RDF data retrieving (효율적인 RDF 데이터 검색을 위한 중복 제거 색인 방법)

  • Jang, Hyeonggyu;Bang, Sungho;Oh, Sangyoon
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2020.01a
    • /
    • pp.61-62
    • /
    • 2020
  • RDF의 활용이 증가하면서 RDF데이터를 저장하는 방법 또한 많은 연구가 이루어졌다. 그래프 형태인 RDF 데이터를 테이블로 바꿀 때, 동일한 데이터가 중복 저장되어 검색 시 불필요한 연산을 하는 문제점이 발생한다. 본 논문에서는 중복저장 및 불필요한 검색을 줄이기 위해 색인을 주어(S), 목적어(O) 색인과 이들의 중복 값을 별도의 색인을 만들고, 검색 시 중복 값을 확인하여 필요한 색인만 검색하는 기법을 제안한다. 실험에서 본 기법을 사용하여 불필요한 검색을 줄여서 전체적인 검색 시간이 줄어드는 것을 확인하였다.

  • PDF

Analysis of Data Processing Efficiency using Duplicated Data Removal in AMI (AMI의 중복데이터 제거를 통한 데이터처리효율성 분석)

  • Oh, Do Hwan;Park, Jae Hyung
    • Smart Media Journal
    • /
    • v.10 no.2
    • /
    • pp.9-15
    • /
    • 2021
  • Due to widespread construction of AMI(Advanced Metering Infrastructure), various service tends to increase, which are not only remote metering service collection measuring data but also demand management and energy saving using measuring data. In order to support a stable management of such services, it is necessary for measuring data to be processed efficiently. In this paper, we analyze a performance of measured data processing efficiency using duplicated data removal according to AMI construction purpose on real environments.

Secure and Efficient Client-side Deduplication for Cloud Storage (안전하고 효율적인 클라이언트 사이드 중복 제거 기술)

  • Park, Kyungsu;Eom, Ji Eun;Park, Jeongsu;Lee, Dong Hoon
    • Journal of the Korea Institute of Information Security & Cryptology
    • /
    • v.25 no.1
    • /
    • pp.83-94
    • /
    • 2015
  • Deduplication, which is a technique of eliminating redundant data by storing only a single copy of each data, provides clients and a cloud server with efficiency for managing stored data. Since the data is saved in untrusted public cloud server, however, both invasion of data privacy and data loss can be occurred. Over recent years, although many studies have been proposed secure deduplication schemes, there still remains both the security problems causing serious damages and inefficiency. In this paper, we propose secure and efficient client-side deduplication with Key-server based on Bellare et. al's scheme and challenge-response method. Furthermore, we point out potential risks of client-side deduplication and show that our scheme is secure against various attacks and provides high efficiency for uploading big size of data.

Data Backup System Exploiting De-duplication TAR Scheme (중복제거 TAR 기법을 적용한 백업 시스템)

  • Kang, Sung-Woon;Jung, Ho-Min;Lee, Jeong-Gun;Ko, Young-Woong
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2011.06a
    • /
    • pp.539-542
    • /
    • 2011
  • TAR와 같은 아카이브 포맷에는 파일 중복을 제거하는 기능이 포함되어 있지 않아서 리눅스 배포 미러와 같이 버전단위로 저장되는 시스템에서 디스크 공간의 낭비가 발생하였다. 본 연구에서는 파일 중복 제거 기능을 추가한 TAR형태의 압축 포맷인 DTAR와 이를 제어하는 DTM 유틸리티를 제안하였다. 주요 아이디어는 클라이언트에서 DTAR 생성 시, 헤더에 SHA1 해시 정보를 추가하여 DTM 유틸리티를 통해 SHA1 해시를 노드로 하는 R-B Tree를 생성하고 이를 서버에 저장된 해시 정보와 비교하여 DTAR내에서 중복이 없는 파일을 선택적으로 파일을 압축하고 서버로 백업하고 관리하는 것이다. 실험 결과 DTM을 통한 백업은 중복 데이터가 누적될수록 DTAR가 tar.gz보다 공간적인 측면이나 백업을 위한 데이터 패킷 전송 시간에서 크게 향상된 성능을 보였다.

Design Deduplication User File System for Flash-SSD (Flash-SSD 데이터 중복 제거를 위한 사용자 파일 시스템 설계)

  • Myeong, Jae-hui;Kwon, Oh-young
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2017.10a
    • /
    • pp.322-325
    • /
    • 2017
  • Due to the rapid increase in data, various studies are being conducted to efficiently manage the data. In 2025, the total amount of data will increase to more than 163 ZB, and more than a quarter of the data will be a real-time data. As mass storage devices is changed from HDD to SSD, SSD needs own way to manage their data effectively. In this paper, we study the SSD system structure and deduplication management methods of data management related to Flash-SSD. We also propose an application level user file system using deduplication. It is anticipated that it saves storage capacity and minimize reducing performance by unnecessary traffic.

  • PDF