• 제목/요약/키워드: Chunk Algorithm

검색결과 9건 처리시간 0.023초

Dynamic Prime Chunking Algorithm for Data Deduplication in Cloud Storage

  • Ellappan, Manogar;Abirami, S
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제15권4호
    • /
    • pp.1342-1359
    • /
    • 2021
  • The data deduplication technique identifies the duplicates and minimizes the redundant storage data in the backup server. The chunk level deduplication plays a significant role in detecting the appropriate chunk boundaries, which solves the challenges such as minimum throughput and maximum chunk size variance in the data stream. To provide the solution, we propose a new chunking algorithm called Dynamic Prime Chunking (DPC). The main goal of DPC is to dynamically change the window size within the prime value based on the minimum and maximum chunk size. According to the result, DPC provides high throughput and avoid significant chunk variance in the deduplication system. The implementation and experimental evaluation have been performed on the multimedia and operating system datasets. DPC has been compared with existing algorithms such as Rabin, TTTD, MAXP, and AE. Chunk Count, Chunking time, throughput, processing time, Bytes Saved per Second (BSPS) and Deduplication Elimination Ratio (DER) are the performance metrics analyzed in our work. Based on the analysis of the results, it is found that throughput and BSPS have improved. Firstly, DPC quantitatively improves throughput performance by more than 21% than AE. Secondly, BSPS increases a maximum of 11% than the existing AE algorithm. Due to the above reason, our algorithm minimizes the total processing time and achieves higher deduplication efficiency compared with the existing Content Defined Chunking (CDC) algorithms.

Research on Keyword-Overlap Similarity Algorithm Optimization in Short English Text Based on Lexical Chunk Theory

  • Na Li;Cheng Li;Honglie Zhang
    • Journal of Information Processing Systems
    • /
    • 제19권5호
    • /
    • pp.631-640
    • /
    • 2023
  • Short-text similarity calculation is one of the hot issues in natural language processing research. The conventional keyword-overlap similarity algorithms merely consider the lexical item information and neglect the effect of the word order. And some of its optimized algorithms combine the word order, but the weights are hard to be determined. In the paper, viewing the keyword-overlap similarity algorithm, the short English text similarity algorithm based on lexical chunk theory (LC-SETSA) is proposed, which introduces the lexical chunk theory existing in cognitive psychology category into the short English text similarity calculation for the first time. The lexical chunks are applied to segment short English texts, and the segmentation results demonstrate the semantic connotation and the fixed word order of the lexical chunks, and then the overlap similarity of the lexical chunks is calculated accordingly. Finally, the comparative experiments are carried out, and the experimental results prove that the proposed algorithm of the paper is feasible, stable, and effective to a large extent.

다중프로세서 시스템 환경에서 병렬 루프 스케쥴링 알고리즘 (A Parallel Loop Scheduling Algorithm on Multiprocessor System Environments)

  • 이영규;박두순
    • 한국멀티미디어학회논문지
    • /
    • 제3권3호
    • /
    • pp.309-319
    • /
    • 2000
  • 병렬 스케줄링의 목적은 다중프로세서 시스템 환경에서 병렬성을 가진 응용프로그램에 대해 최소의 동기화 오버헤드와 부하균등(load balance)을 달성하도록 스케줄링을 수행하는데 있다. 프로세서들이 병렬 반복(iteration)을 실행하기 위해서는 메모리로부터 반복들에 대한 chunk를 계산하고 할당받게 된다. 이때, 전역 메모리의 상호 배타적인 빈번한 접근으로 많은 스케쥴링 오버헤드 및 병목현상이 발생된다. 또한, 프로세서에게 할당된 chunk내 병렬 반복들의 분포가 서로 상이한 경우,각 chunk의 실행시간이 서로 달라 부하불균등의 원인이 되어 결과적으로 전체 스케쥴링 성능에 나쁜 영향을 준다. 따라서, 최소의 스케줄링 오버 헤드와 부하균등을 달성하기 위해 본 논문에 서는 기존의 방법들에서 문제점들을 도출하고, 자료의 국부성과 프로세서 동족성(affinity)을 고려한 병렬 루프 스케줄링 알고리즘을 제안한다.

  • PDF

적응 청크 알고리즘 기반 멀티미디어 스트리밍 알고리즘 (Flexible Multimedia Streaming Based on the Adaptive Chunk Algorithm)

  • 김동환;김정근;장태규
    • 대한전기학회논문지:시스템및제어부문D
    • /
    • 제54권5호
    • /
    • pp.324-326
    • /
    • 2005
  • An adaptive Chunk algorithm is newly devised and a collaborative streaming is designed for high quality multimedia streaming service under time varying traffic conditions. An LMS based prediction filter is used to compensate the effect of time varying background traffic of the WAN. The underflow is generated for the $20\~28\%$ of the data stored in the central server by applying the FARIMA(Fractional Autoregressive Integrated Moving Average) traffic modeling method. The proposed algorithm is tested with the MPEG-2 video files and compensates $71\~85\%$ of central stream underflow.

공유메모리 시스템에서 개선된 병렬 루프 스케쥴링 알고리즘 (Improved Parallel Loop Scheduling Algorithm on Shared Memory Systems)

  • 이영규;박두순
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2000년도 춘계학술발표논문집
    • /
    • pp.453-457
    • /
    • 2000
  • 병렬 시스템 환경에서 최적의 스케쥴링을 수행하기 위해서는 병렬성을 가진 iteration 들에 대해 최소의 동기화 오버헤드와 load balance 가 달성하도록 스케쥴링을 수행해야한다. 다중 프로세서들은 실행을 위하여 메모리로부터 iteration 들에 대한 chunk를 계산한 후 할당받게 된다. 이때, 각 프로세서들의 상호 배타적인 메모리 접근으로 많은 오버헤드 및 병목현상이 발생된다. 또한, 프로세서에게 할당된 chunk 내 iteration 들의 실행시간 분포가 서로 상이한 경우에는 load imbalance 의 원인이 되어 결과적으로 전체 스케쥴링에 나쁜 영향을 준다. 따라서, 최적의 스케쥴링을 수행하기 위해서 본 논문에서는 기존의 스케쥴링 방법들에서 문제점들을 도출하고 자료의 국부성과 프로세서 동족성을 고려한 개선된 병렬 루프 알고리즘을 제안하고, 성능평가를 통해 개선된 알고리즘이라는 것을 보였다.

  • PDF

SCTP에서 대체 경로의 RTT 정확도 향상 (Accuracy Improvement of RTT Measurement on the Alternate Path in SCTP)

  • 김예나;박우람;김종혁;박태근
    • 한국통신학회논문지
    • /
    • 제34권5B호
    • /
    • pp.509-516
    • /
    • 2009
  • SCTP(Stream Control Transmission Protocol)는 새로운 전송계층 프로토콜로 다양한 기능들을 제공한다. 그 중에서 멀티호밍(multihoming)은 두 단말 사이의 어소시에이션(SCTP에서의 연결)이 여러 개의 경로를 사용할 수 있게 해 주는데, 여러 경로 중, 주 경로(Primary Path)는 처음 전송되는 데이터를 송수신하기 위하여 사용되고 대체경로(Alternate Path)는 재전송되는 데이터를 송수신하기 위하여 사용된다. 그러나 SCTP의 현재 재전송 정책은 대체 경로로 데이터를 재전송함으로써 데이터 도착 성공률을 높여주는 반면 사실상 많은 상황에서 성능 저하의 주요인이 됨이 확인되고 있다. 이는 칸 알고리즘에 의한 것으로 대체 경로로 재전송된 데이터를 대체 경로의 RTT(Round-Trip Time)를 업데이트 하는데 사용할 수 없도록 하고 있기 때문이다. 본 논문에서는 이러한 성능 저하를 피하기 위해 새로운 기법을 제안한다. 제안하는 기법은 DATA chunk와 SACK chunk에서 사용되지 않는 2비트를 사용하여 첫 번째 전송과 재전송을 명확하게 구별한 뒤 RTT를 업데이트함으로써 RTO(Retransmission Time-Out) 값을 보다 정확하게 유지 할 수 있도록 하였다.

HRSF: Single Disk Failure Recovery for Liberation Code Based Storage Systems

  • Li, Jun;Hou, Mengshu
    • Journal of Information Processing Systems
    • /
    • 제15권1호
    • /
    • pp.55-66
    • /
    • 2019
  • Storage system often applies erasure codes to protect against disk failure and ensure system reliability and availability. Liberation code that is a type of coding scheme has been widely used in many storage systems because its encoding and modifying operations are efficient. However, it cannot effectively achieve fast recovery from single disk failure in storage systems, and has great influence on recovery performance as well as response time of client requests. To solve this problem, in this paper, we present HRSF, a Hybrid Recovery method for solving Single disk Failure. We present the optimal algorithm to accelerate failure recovery process. Theoretical analysis proves that our scheme consumes approximately 25% less amount of data read than the conventional method. In the evaluation, we perform extensive experiments by setting different number of disks and chunk sizes. The results show that HRSF outperforms conventional method in terms of the amount of data read and failure recovery time.

자질집합선택 기반의 기계학습을 통한 한국어 기본구 인식의 성능향상 (Improving the Performance of Korean Text Chunking by Machine learning Approaches based on Feature Set Selection)

  • 황영숙;정후중;박소영;곽용재;임해창
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제29권9호
    • /
    • pp.654-668
    • /
    • 2002
  • In this paper, we present an empirical study for improving the Korean text chunking based on machine learning and feature set selection approaches. We focus on two issues: the problem of selecting feature set for Korean chunking, and the problem of alleviating the data sparseness. To select a proper feature set, we use a heuristic method of searching through the space of feature sets using the estimated performance from a machine learning algorithm as a measure of "incremental usefulness" of a particular feature set. Besides, for smoothing the data sparseness, we suggest a method of using a general part-of-speech tag set and selective lexical information under the consideration of Korean language characteristics. Experimental results showed that chunk tags and lexical information within a given context window are important features and spacing unit information is less important than others, which are independent on the machine teaming techniques. Furthermore, using the selective lexical information gives not only a smoothing effect but also the reduction of the feature space than using all of lexical information. Korean text chunking based on the memory-based learning and the decision tree learning with the selected feature space showed the performance of precision/recall of 90.99%/92.52%, and 93.39%/93.41% respectively.

다운로드와 수행의 병행을 허용하는 모바일 코드 인증 기법 (Mobile Code Authentication Schemes that Permit Overlapping of Execution and Downloading)

  • 박용수;조유근
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제32권3호
    • /
    • pp.115-124
    • /
    • 2005
  • 모바일 장치에서 코드를 다운로드 받아 수행할 때, 코드 인증이 매우 중요하다. 한편, 모바일 코드의 수행 시간 지연을 줄이기 위해 통상 전체 코드가 다운로드 되기 전에 수신된 일부 코드로 수행이 시작된다. 그러나. 저자들이 조사한 바로는 이 경우 코드 인증을 할 수 있는 방법이 아직 발표된 바가 없다. 본 논문에서는 전송될 코드 청크의 순서가 미리 결정되어 있는 경우와 프로그램 실행 도중 동적으로 결정되는 2 가지 경우에 대하여, 일부 코드로 수행을 시작하면서도 인증이 가능한 2 가지 방법을 제시한다. 이 방법은 각각 해쉬 체인 기법과 인증 트리 기법을 기반으로 한다. 특히, 후자의 기법에서 각 모바일 코드 청크를 인증시 이전 수신한 인증 정보를 활용함으로써 통신 오버헤드와 검증 지연 시간을 줄였다. 코드 청크의 개수가 n 일 때, 두 기법의 통신 오버헤드의 크기는 O(n)이며, 검증 지연 시간은 각각 O(1), O(log n)이다.