• 제목/요약/키워드: 데이터 중복제거/압축

검색결과 49건 처리시간 0.025초

중복제거 TAR 기법을 적용한 백업 시스템 (Data Backup System Exploiting De-duplication TAR Scheme)

  • 강성운;정호민;이정근;고영웅
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2011년도 한국컴퓨터종합학술대회논문집 Vol.38 No.1(A)
    • /
    • pp.539-542
    • /
    • 2011
  • TAR와 같은 아카이브 포맷에는 파일 중복을 제거하는 기능이 포함되어 있지 않아서 리눅스 배포 미러와 같이 버전단위로 저장되는 시스템에서 디스크 공간의 낭비가 발생하였다. 본 연구에서는 파일 중복 제거 기능을 추가한 TAR형태의 압축 포맷인 DTAR와 이를 제어하는 DTM 유틸리티를 제안하였다. 주요 아이디어는 클라이언트에서 DTAR 생성 시, 헤더에 SHA1 해시 정보를 추가하여 DTM 유틸리티를 통해 SHA1 해시를 노드로 하는 R-B Tree를 생성하고 이를 서버에 저장된 해시 정보와 비교하여 DTAR내에서 중복이 없는 파일을 선택적으로 파일을 압축하고 서버로 백업하고 관리하는 것이다. 실험 결과 DTM을 통한 백업은 중복 데이터가 누적될수록 DTAR가 tar.gz보다 공간적인 측면이나 백업을 위한 데이터 패킷 전송 시간에서 크게 향상된 성능을 보였다.

MADE (Minhash-Assisted Delta Compression Engine) : 델타 압축 기반의 낸드 플래시 저장장치 내구성 향상 기법 (Improving the Lifetime of NAND Flash-based Storages by Min-hash Assisted Delta Compression Engine)

  • 권혁준;김도현;박지성;김지홍
    • 정보과학회 논문지
    • /
    • 제42권9호
    • /
    • pp.1078-1089
    • /
    • 2015
  • 본 연구에서는 쓰기 데이터양 감소를 통해 낸드 플래시 기반 저장장치의 수명향상을 도모할 수 있는 MADE(Min-hash Assisted Delta-compression Engine) 모듈을 제안한다. MADE 모듈은 델타압축기법(delta compression)을 통해 중복되는 데이터 패턴을 최소화하여 실제 낸드 플래시에 인가되는 쓰기 명령 횟수를 획기적으로 줄일 수 있을 뿐만 아니라, 중복제거기법(deduplication) 및 무손실압축기법(lossless compression)의 통합적용과 유사한 효과를 볼 수 있도록 설계되었다. 또한 델타압축기법 과정 중 필요한 참조 페이지 탐색 및 압축 기법을 최적화하여, 저장되는 데이터양을 최대한 줄이는 동시에 부가적인 오버헤드를 최소화 하였다. 시뮬레이션 결과, MADE가 적용된 플래시 변환계층(Flash Transition Layer, FTL)은 실제 낸드 플래시 칩에 저장되는 데이터를 최소 50% 줄일 수 있었으며, 순차적인 중복제거기법과 무손실압축 기법을 단순 통합하여 적용한 경우에 비해 추가적으로 12%의 쓰기 데이터양을 감소시킬 수 있었다.

웨이블릿 영역에서 분류 예측과 KLT를 이용한 다분광 화상 데이터 압축 (Multispectral Image Data Compression Using Classified Prediction and KLT in Wavelet Transform Domain)

  • 김태수;김승진;이석환;권기구;김영춘;이건일
    • 한국통신학회논문지
    • /
    • 제29권4C호
    • /
    • pp.533-540
    • /
    • 2004
  • 본 논문에서는 웨이블릿(wavelet) 영역에서 분류 예측, KLT (Karhunen-Loeve transform), 및 3-D SPIHT(three-dimensional set partitioning in hierarchical trees) 알고리즘(algorithm)을 이용하여 인공위성 화상 데이터에 존재하는 대역내 중복성 (intraband redundancy)과 대역간 중복성 (interband redundancy)을 효과적으로 제거하는 새로운 압축 방법을 제안하였다. 대역간 중복성을 제거하기 위해 웨이블린 영역에서의 분류 정보를 이용하여 영역별 대역간 예측을 행한다. 영역별 대역간 예측에 의해 복원되는 화상들은 예측 오차로 인해 원 화상 (original image)과 차 화상 (residual image)을 가진다. 이 차 화상들 간에 존재하는 대역간 중복성을 제거하기 위하여 KLT를 행한다. 웨이블릿 변환 (wavelet transform)과 KLT를 행하여 대역내 및 대역간 크기 순서로 재정렬된 변환 계수들을 3-D SPIHT 알고리즘을 이용하여 부호화 한다. 제안한 방법의 성능 평가를 위해서 다분광 화상 데이터에 대하여 압축 실험을 행하여 제안한 방법이 기존의 방법들 보다 동일한 여러 비트율 (bit rate)에서 평균 PSNR (peak signal-to-noise ratio)이 0.12∼3.83㏈ 향상됨을 확인하였다.

WANProxy의 성능 분석 및 개선 (Performance Analysis and Improvement of WANProxy)

  • 김하늘;지승규;정규식
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제9권3호
    • /
    • pp.45-58
    • /
    • 2020
  • 클라우드 서비스와 모바일 기기의 대중화로 네트워크 트래픽이 계속 증가하고 있는 현재 추세에 LAN 대역폭에 비해 WAN 대역폭이 아주 낮다. WAN 환경에서는 전송 프로토콜, 패킷 손실, 네트워크 대역폭 한계 때문에 생기는 성능 문제를 극복하는 WAN 최적화기가 필요하다. 본 논문에서는 오픈소스 WAN 최적화기인 WANProxy의 데이터 중복제거 알고리즘을 분석하고 성능을 네트워크 대기시간 및 WAN 대역폭 관점에서 평가한다. 또한, WANProxy에 추가로 zstd를 적용하는 2단계 압축을 적용할 경우의 성능을 평가한다. 또한, WANProxy의 데이터 중복 제거 방법을 개선한 새로운 방법을 제안하고 성능 개선 효과를 평가한다. 데이터 세그먼트 크기를 2048바이트로 하고 Silesia의 12개 데이터 파일을 이용한 성능 실험을 수행한다. 실험 결과에 의하면, WANProxy에 의한 평균 압축률이 150.6이고 네트워크 대기시간 평균 감소율은 10 Mbps WAN 환경에서는 95.2%, 100 Mbps WAN 환경에서는 60.7%가 된다. WANProxy에 추가로 zstd를 적용하는 방법은 WANProxy를 적용하는 경우와 비교할 때 압축률이 평균 33% 증가하지만 네트워크 대기시간이 10 Mbps WAN 환경에서는 평균 2.1%, 100 Mbps WAN 환경에서는 평균 5.2% 각각 증가한다. 본 논문에서 제안한 개선 방법을 WANProxy에 적용한 경우는 기존의 WANProxy와 비교할 때 압축률이 평균 34.8% 증가하고 네트워크 대기시간이 10 Mbps WAN 환경에서는 평균 13.8%, 100 Mbps WAN 환경에서는 평균 12.9% 각각 감소한다. 성능 분석 결과에 의하면, WAN 대역폭이 10 Mbps 이하인 환경에서 WANProxy를 적용할 경우 네트워크 대기시간과 WAN 대역폭 관점에서 성능 개선 효과가 아주 우수하고 WAN 대역폭이 100 Mbps 환경에서도 우수하다.

윈도우 서버 2012에서 데이터 중복 제거 기능이 적용된 파일의 복원 방법에 관한 연구 (A Study of Method to Restore Deduplicated Files in Windows Server 2012)

  • 손관철;한재혁;이상진
    • 정보보호학회논문지
    • /
    • 제27권6호
    • /
    • pp.1373-1383
    • /
    • 2017
  • 중복 제거는 데이터를 효과적으로 관리하여 저장 공간의 효율성을 높이기 위한 기능이다. 중복 제거 기능이 시스템에 적용되면 저장되어 있는 파일을 청크 단위로 분할하고 중복되는 부분은 하나의 청크로만 저장함으로써 저장 공간을 효율적으로 사용할 수 있게 한다. 하지만 중복 제거된 데이터에 대해 상용 디지털 포렌식 도구에서 파일시스템 해석을 지원하지 않으며, 도구로 추출된 원본 파일을 실행하거나 열람할 수 없는 상황이다. 따라서 본 논문에서는 중복 제거 기능을 적용할 수 있는 윈도우 서버 2012 시스템을 대상으로 청크 단위의 데이터를 생성하는 과정과 그 결과로 생성되는 파일의 구조를 분석하고, 기존 연구에서 다뤄지지 않은 청크가 압축되는 경우에 대해서도 분석결과를 도출하였다. 이러한 결과를 바탕으로 디지털 포렌식 조사에서 적용할 수 있는 수집 절차와 원본 파일로 재조합하기 위한 방법을 제시한다.

프랙탈 화상압축을 이용한 기밀 데이터 합성법 (Embedding method a Secret Data into Fractal Image Compression)

  • 이혜주;박지환
    • 한국정보보호학회:학술대회논문집
    • /
    • 한국정보보호학회 1995년도 종합학술발표회논문집
    • /
    • pp.244-253
    • /
    • 1995
  • 화상 내의 중복도를 의미하는 자기 상사성(self-similarity)을 제거하여 화상압출을 수행하는 프랙탈 화상압축 방식에 대한 연구가 최근에 활발히 진행되고 있다. 프랙탈 화상압축은 비가역 부호화 방식으로 화상을 일정블럭으로 분할하여 상사영역을 탐색하고 그 상사영역에 대한 파라메터를 압축을 위한 정보로 저장한다 전송하고자 하는 데이터가 화상과 기밀 데이터의 2가지가 혼재할 경우 일반적으로 각 데이터를 개별적으로 압축하고 전송가게 된다. 또한, 화상의 특징을 이용하여 기밀 데이터를 화상 내에 몰래 집어넣은 후, 그 화상을 압축하여 전송하는 방식이 있다. 본 논문에서는 이러한 방식과는 달리 기밀 데이터를 프랙탈 화상압축을 수행함과 동시에 예측부호화를 이용하여 제 3자가 인식할 수 없는 잡음의 형태로 합성하는 방법에 대하여 고찰하고 시뮬레이션 결과를 나타낸다.

  • PDF

Three-step 알고리즘을 이용한 H.263 기반의 움직임 측정 (H.263 Motion Estimation using the three-step algorithm)

  • 윤성규;유환종;임명수;임영환
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (2)
    • /
    • pp.389-391
    • /
    • 1999
  • 영상 압축 기법에는 여러 가지 알고리즘을 적용되고 있다. 이런 알고리즘들에는 주파수 영역 중복을 제거하기 위한 DCT, 시간 중복성 제거를 위한 움직임 측정, 압축기법에 의해서 만들어진 정보를 부호화하는 VLC들이 있다. 이런 부호화 알고리즘들은 부호화기를 구현하는데 많은 시간을 요구하며 특히 움직임 추정은 부호화기의 절반에 가까운 시간을 소비한다. 움직임 측정 기술의 복잡도는 search algorithm, cost function, search range parameter의 요인으로 나타낼 수 있다. 본 논문에서는 기존의 Full Search 알고리즘 대신에 three-step 알고리즘을 사용하여 움직임 측정 시간을 줄였다. Full Search 알고리즘은 search area에서 모든 지역에 대해 cost function을 사용하여 이전 블록과 얼마나 유사한지를 조사한다. 따라서 이전 블록과 가장 유사한 부분을 찾는 좋은 방법이지만 그만큼 시간이 많이 사용한다. Three-step 알고리즘은 search area의 일정 지역에 대해 cost function를 사용하여 이전 블록과의 유사성을 찾는 fast 알고리즘이다. Three-step 알고리즘을 사용한 경우 기존의 full search 알고리즘을 사용할 때 보다 60% 정도의 시간이 단축되었다. 그리고 생성되는 압축 데이터의 크기는 full search 알고리즘을 사용할 때 보다 많이 차지한다. 생성되는 H.263파일의 화질에서는 Three-step 알고리즘을 사용한 경우일지라도 full search 알고리즘을 사용한 경우와 거의 비슷한 화질을 보여준다.

  • PDF

종단간 인공신경망 기반 이미지 압축 기술의 피쳐 공간 상관관계 분석 (Correlation Analysis of Feature Space Data in End-to-end Image Compression Network)

  • 이주영;정세윤;최진수
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2020년도 추계학술대회
    • /
    • pp.151-154
    • /
    • 2020
  • 뉴럴넷 기술이 발전과 힘께 다양한 분야에서 획기적인 성능 향상이 이루어지고 있다. 이미지 압축 분야에서도 기존의 전통적인 툴 제인 구조의 압축 방식에서 벗어나 종단간(end-to-end) 뉴렬넷 기반의 이미지 압축 기술에 대한 연구가 활발히 이루어지고 있다. 특히 최근 네트워크를 통해 변환된 피쳐 데이터의 엔트로피를 최소화하는 방식에 대한 연구가 활발히 이루어지고 있으며, 이에 기반한 최근의 연구는 VVC 화면 내 코딩 기술보다 우수한 코딩 효율성을 제공하고 있다. 그러나 변환된 피쳐 데이터에 대한 특성 분석은 부족한 실정이며, 이에 본 논문에서는 엔트로피 최소화 기반 종단간 이미지 압축 네트워크의 피쳐 공간 데이터에 대한 공간적 (spatial) 상관관계와 채널간(inter-channel) 상관관계(correlation)를 분석하고, 나아가 최근 제안된 종단간 이미지 압축 네트워크의 문맥 기반 예측 기능을 통해 잔존하는 데이터 중복성이 효과적으로 제거됨을 보인다.

  • PDF

클러스터 구조의 센서 네트워크에서 효율적인 데이터 모음 기법 (An Efficient Data Aggregation Method in Clustered Sensor Network)

  • 지재경;하란
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 가을 학술발표논문집 Vol.32 No.2 (1)
    • /
    • pp.220-222
    • /
    • 2005
  • 배터리를 사용하여 정보의 처리와 센싱 작업을 수행하는 무선 센서 네트워크를 오래 동안 가동시키기 위해서 한정된 자원을 효율적으로 사용할 수 있는 여러 기술들이 제안되고 있다. 이런 기법들 중 클러스터를 구성하거나, 데이터 모음 기법을 수행하여 중복된 데이터를 하나의 패킷으로 압축하여 전송 횟수를 줄이면 에너지 절감 효과를 볼 수 있다. 본 논문에서는 클러스터 구조를 이루고 있는 센서 네트워크에서 두개 이상의 클러스터가 중복된 지역을 센싱 할 경우 발생하는 중복 데이터 제거 기법을 제안한다. 제안하는 기법은 Meta-data를 사용한 사전 교섭으로 동일한 정보가 각각 다른 클러스터에 전송되는 것을 방지하여 에너지 절감 효과를 볼 수 있다. 또한, 클러스터 내에서 발생하는 다른 정보들을 시간 지연 기법을 사용하여 하나의 패킷으로 데이터 모음을 수행하는 기법도 제안한다. 성능 평가를 통해 제안하는 알고리즘은 기존의 기법에 비하여 지연 시간과 에너지 소모 면에서 모두 효율적인 것을 확인할 수 있다.

  • PDF

시간-주파수 구조에 근거한 지각적 오디오 부호화기 (A Perceptual Audio Coder Based on Temporal-Spectral Structure)

  • 김기수;서호선;이준용;윤대희
    • 방송공학회논문지
    • /
    • 제1권1호
    • /
    • pp.67-73
    • /
    • 1996
  • 일반적으로 고음질 오디오 부호화 방법은 전통적인 데이터 압축 기법과 인간의청각 모델을 결합한 구조를 갖고 있다. 고음질 오디오 부호화에 사용되는 주요한 청각 특성은 주파수 영역에서의 마스킹 현상이므로 서브밴드 부호화나 변환 부호화와 같은 주파수 영역 방법들이 널리 사용된다[1][2]. 그러나 지금까지의 고음질 오디오 부호화에서 시간 영역 마스킹과 시간 영역 중복성을 제거하는 방법은 적용되지 않았다. 본 논문에서 제안한 오디오 데이터 압축 방법은 시간 및 주파수 영역에서 통계적, 지각적 중복성을 제거한다. 주파수 영역으로 변환된 오디오 신호는 6프레임으로 구성된 패킷으로 나뉘어진다. 한 패킷은 1536 샘플 ($256{\times}6$)로 되어 있으며 패킷 내에서의 중복성은 시간 및 주파수 영역에서 존재한다. 각 패킷에서 두 중복성이 동시에 제거되어진다. 심리음향 모델에 있어서도 세밀한 주파수 마스킹과 함께 시간 영역 마스킹을 고려하여 보다 정확한 결과를 얻을 수 있도록 향상되었다. 양자화를 위해서 각 패킷은 비선형적인 임계 대역과 시간적인 청각 특성을 반영할 수 있도록 설계된 부블럭으로 분할되었다. 따라서 낮은 비트율에서 고음질의 복원음을 얻을 수 있었다.

  • PDF