• Title/Summary/Keyword: 데이터 중복제거

Search Result 257, Processing Time 0.031 seconds

De-Duplication Performance Test for Massive Data (대용량 데이터의 중복제거(De-Duplication) 성능 실험)

  • Lee, Choelmin;Kim, Jai-Hoon;Kim, Young Gyu
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2012.11a
    • /
    • pp.271-273
    • /
    • 2012
  • 중복 제거(De-duplication) 여러 데이터를 저장한 스토리지에서 같은 내용을 담고 있는 파일자체나 블록단위의 chunk 등을 찾아 중복된 내용을 제거하여 중복된 부분은 하나의 데이터 단위를 유지함으로써 스토리지 공간을 절약할 수 있다. 본 논문에서는 실험적인 데이터가 아닌 실제 업무 환경에서 적용될만한 대용량의 데이터 백업을 가정한 상황에 대해 중복 제거 기법을 테스트해봄으로써 중복제거율과 성능을 측정하였으며 이를 시각적으로 표현하는 방법을 제안함으로써 평가자 및 사용자가 알아보기 쉽게 하였다.

Survey on the Key Generation of the Convergent Encryption for Deduplication in Cloud Computing (클라우드 컴퓨팅에서 중복제거를 위한 수렴 암호화 키 생성에 관한 연구)

  • Seong, Ki-Woong;Lee, Byung-Do;Park, Hyo-min;Shin, Sang UK
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2015.10a
    • /
    • pp.730-732
    • /
    • 2015
  • 데이터 중복 제거 기술은 클라우드 스토리지에 저장되어 있는 중복된 데이터들 중에 하나의 데이터만 저장하는 기술로, 클라우드 스토리지 서비스에서 저장효율을 높이기 위한 핵심적인 기술 중 하나이다. 하지만 아웃소싱된 데이터가 암호화가 되지 않으면 기밀성을 유지하지 못해 프라이버시에 큰 영향을 끼치게 된다. 데이터를 암호화하여 아웃소싱하는 경우에는 암호문의 특성으로 인해 중복 제거 기술이 적용하기 힘든 단점을 가지고 있으며 이를 위해 수렴 암호화를 사용한다. 본 논문에서는 수렴 암호화로 암호화된 데이터에 대해 중복제거 기술을 적용하는 여러 제안모델을 분석하고, 개선방안을 제시한다.

Study on CCTV Data De-duplication in Cloud Storage Environments (클라우드 스토리지 환경에서의 CCTV 데이터 중복제거 수행 기술 연구)

  • Kim, Won-Bin;Lee, Im-Yeong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2018.05a
    • /
    • pp.172-173
    • /
    • 2018
  • CCTV 기술은 실시간으로 영상을 수집하여 저장소에 보관하는 기술을 의미한다. 이러한 환경에서 데이터 저장소의 가용성은 매우 중요하다. 데이터가 축적될수록 스토리지 공간의 확장은 매우 중요해지며, 이를 위해 최근에는 클라우드 스토리지를 이용하여 저장 공간을 비교적 수월하게 확장하고 이용할 수 있는 환경이 제시되고 있다. 하지만 이러한 환경에서도 데이터의 지속된 저장은 저장 공간의 추가 이용을 위한 비용의 증가로 직결되기 때문에 데이터를 효율적으로 저장하기 위한 방안의 논의되었다. 데이터 중복제거 기술은 이러한 기술 중 하나로 데이터의 중복된 저장을 방지하여 스토리지 공간을 보다 효율적으로 이용할 수 있도록 하는 기술이다. 하지만 CCTV 환경에 클라우드 스토리지와 데이터 중복제거 기술을 적용하면서 추가적인 보안 이슈가 발생하였다. 따라서 본 연구에서는 이러한 문제를 해결하기 위한 연구를 수행하며, 이를 통해 보다 효율적인 데이터 저장을 수행하는 동시에 안전하게 데이터를 보관하는 방법을 제안한다.

Efficient Deduplication Scheme on Fixed-length Chunking System Using File Similarity Information (파일유사도 정보를 이용한 고정 분할 기반 중복 제거 기법)

  • Moon, Young Chan;Jung, Ho Min;Ko, Young Woong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2012.04a
    • /
    • pp.202-205
    • /
    • 2012
  • 기존의 고정 길이 분할 (FLC: Fixed Length Chunking) 중복 제거 기법은 파일이 조금이라도 수정이 되면 수정된 블록에 대한 해시 정보가 달라져 중복 데이터 임에도 불구하고 중복 블록으로 검색이 되지 않는 문제점이 있다. 본 연구에서는 FLC 기반의 중복 제거 기법에 데이터 위치(offset) 정보를 활용하여 중복 블록을 효율적으로 찾아냄으로써 기존의 FLC 기반의 중복 제거 기법보다 더 좋은 성능을 발휘하는 유사도 정보를 활용하는 중복 제거 기법(FS_FLC: File Similarity based Fixed Length Chunking)을 설계하고 구현했다. 실험 결과 제안한 알고리즘은 낮은 오버헤드로 가변 분할 기법(VLC: Variable Length Chunking)만큼의 높은 중복 데이터 탐색 성능을 보여주었다.

Side-Channel Attack against Secure Data Deduplication over Encrypted Data in Cloud Storage (암호화된 클라우드 데이터의 중복제거 기법에 대한 부채널 공격)

  • Shin, Hyungjune;Koo, Dongyoung;Hur, Junbeom
    • Journal of the Korea Institute of Information Security & Cryptology
    • /
    • v.27 no.4
    • /
    • pp.971-980
    • /
    • 2017
  • Data deduplication can be utilized to reduce storage space in cloud storage services by storing only a single copy of data rather than all duplicated copies. Users who are concerned the confidentiality of their outsourced data can use secure encryption algorithms, but it makes data deduplication ineffective. In order to reconcile data deduplication with encryption, Liu et al. proposed a new server-side cross-user deduplication scheme by exploiting password authenticated key exchange (PAKE) protocol in 2015. In this paper, we demonstrate that this scheme has side channel which causes insecurity against the confirmation-of-file (CoF), or duplicate identification attack.

Performance Analysis of Open Source Based Distributed Deduplication File System (오픈 소스 기반 데이터 분산 중복제거 파일 시스템의 성능 분석)

  • Jung, Sung-Ouk;Choi, Hoon
    • KIISE Transactions on Computing Practices
    • /
    • v.20 no.12
    • /
    • pp.623-631
    • /
    • 2014
  • Comparison of two representative deduplication file systems, LessFS and SDFS, shows that Lessfs is better in execution time and CPU utilization while SDFS is better in storage usage (around 1/8 less than general file systems). In this paper, a new system is proposed where the advantages of SDFS and Lessfs are combined. The new system uses multiple DFEs and one DSE to maintain the integrity and consistency of the data. An evaluation study to compare between Single DFE and Dual DFE indicates that the Dual DFE was better than the Single DFE. The Dual DFE reduced the CPU usage and provided fast deduplication time. This reveals that proposed system can be used to solve the problem of an increase in large data storage and power consumption.

Recycling Invalid Data Method for Improving I/O Performance in SSD Storage System (SSD 기반 스토리지 시스템에서 입출력 성능 향상을 위한 무효데이터 재활용 기법)

  • Kim, Ju-Kyeong;Lee, Seung-Kyu;Mehdi, Pirahandeh;Kim, Deok-Hwan
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2012.06a
    • /
    • pp.230-232
    • /
    • 2012
  • SSD(Solid State Disk)는 다수의 플래시 메모리로 구성되며 기존의 하드디스크(HDD) 보다 데이터 전송 속도가 빠르고 강한 내구성, 저소음, 저전력의 장점을 가지고 있다. 하지만 제자리 덮어쓰기가 안되므로 SSD 공간에서 무효데이터가 차지하는 비중이 높아지며, 한 셀당 쓰기 및 삭제 횟수가 제한되어 있다는 단점이 있다. 본 논문에서는 무효데이터와 입력데이터의 중복성 검사를 통하여 무효데이터를 재활용하는 중복제거 기법을 제안한다. 무효데이터의 재활용과 중복제거를 통하여 SSD의 마모도 감소와 가비지컬렉션의 빈도를 낮춰서 I/O 속도의 향상을 기대할 수 있다. 실험을 통하여 무효데이터를 재활용 하는 경우와 유효데이터를 활용한 중복제거 방법의 성능을 비교하였다.

Block Separation Technique for Offline Deduplication on Solid State Drives (SSD에서 오프라인 중복 데이터 제거를 위한 플래시 메모리 블록 구분 기법)

  • Kang, Yun-Ji;An, Jeong-Choel;Shin, Dong-Kun
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2012.06a
    • /
    • pp.379-381
    • /
    • 2012
  • 중복 제거(deduplication)기법은 저장장치의 공간을 효율적으로 사용할 수 있도록 해 주기 때문에 기존의 스토리지 시스템에서 많이 사용된 기법이다. 최근에는 플래시 메모리 기반의 SSD를 위한 중복 제거 기법도 많이 제안되었지만, 플래시 메모리의 특성을 고려하지 못하고 있다. 본 논문에서는 오프라인 중복 제거 기법을 대상으로 SSD의 특성을 고려하여 가비지 컬렉션의 비용을 절감할 수 있도록 중복 가능성이 있는 데이터와 중복 가능성이 없는 데이터를 온라인에 구분하여 플래시 메모리의 다른 영역에 기록하여 오프라인 중복 제거 후에 가비지 컬렉션 성능을 향상시키는 기법을 제안하였다. 실험결과, 제시된 기법은 가비지 컬렉션 비용인 페이지 이동 횟수를 약 80%이상 감소시켰다.

Efficient Privacy-Preserving Duplicate Elimination in Edge Computing Environment Based on Trusted Execution Environment (신뢰실행환경기반 엣지컴퓨팅 환경에서의 암호문에 대한 효율적 프라이버시 보존 데이터 중복제거)

  • Koo, Dongyoung
    • KIPS Transactions on Computer and Communication Systems
    • /
    • v.11 no.9
    • /
    • pp.305-316
    • /
    • 2022
  • With the flood of digital data owing to the Internet of Things and big data, cloud service providers that process and store vast amount of data from multiple users can apply duplicate data elimination technique for efficient data management. The user experience can be improved as the notion of edge computing paradigm is introduced as an extension of the cloud computing to improve problems such as network congestion to a central cloud server and reduced computational efficiency. However, the addition of a new edge device that is not entirely reliable in the edge computing may cause increase in the computational complexity for additional cryptographic operations to preserve data privacy in duplicate identification and elimination process. In this paper, we propose an efficiency-improved duplicate data elimination protocol while preserving data privacy with an optimized user-edge-cloud communication framework by utilizing a trusted execution environment. Direct sharing of secret information between the user and the central cloud server can minimize the computational complexity in edge devices and enables the use of efficient encryption algorithms at the side of cloud service providers. Users also improve the user experience by offloading data to edge devices, enabling duplicate elimination and independent activity. Through experiments, efficiency of the proposed scheme has been analyzed such as up to 78x improvements in computation during data outsourcing process compared to the previous study which does not exploit trusted execution environment in edge computing architecture.

Design and Implementation of Inline Data Deduplication in Cluster File System (클러스터 파일 시스템에서 인라인 데이터 중복제거 설계 및 구현)

  • Kim, Youngchul;Kim, Cheiyol;Lee, Sangmin;Kim, Youngkyun
    • KIISE Transactions on Computing Practices
    • /
    • v.22 no.8
    • /
    • pp.369-374
    • /
    • 2016
  • The growing demand of virtual computing and storage resources in the cloud computing environment has led to deduplication of storage system for effective reduction and utilization of storage space. In particular, large reduction in the storage space is made possible by preventing data with identical content as the virtual desktop images from being stored on the virtual desktop infrastructure. However, in order to provide reliable support of virtual desktop services, the storage system must address a variety of workloads by virtual desktop, such as performance overhead due to deduplication, periodic data I/O storms and frequent random I/O operations. In this paper, we designed and implemented a clustered file system to support virtual desktop and storage services in cloud computing environment. The proposed clustered file system provides low storage consumption by means of inline deduplication on virtual desktop images. In addition, it reduces performance overhead by deduplication process in the data server and not the virtual host on which virtual desktops are running.