• Title/Summary/Keyword: 데이터 부분 중복

Search Result 79, Processing Time 0.035 seconds

The Replication Control using the Replica Tree in the Partially Replicated Databases (부분 중복 데이터베이스에서 사본 트리를 이용한 중복 제어)

  • Bae, Mi-Sook;Hwang, Bu-Hyun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2003.11c
    • /
    • pp.1453-1456
    • /
    • 2003
  • 데이터의 중복은 데이터의 가용성과 시스템의 성능을 향상시키기 위해 사용한다. 대규모 부분 중복 데이터베이스에서 효율적인 중복 관리를 위해서는 정확한 수행을 보장하기 위한 정확성 검증방법과 효율적인 갱신 전파 방법이 필요하다. 이 논문에서는 부분 중복 환경에서 각 주사본 사이트의 중복 데이터에 대한 트리 구조를 기반으로 한 갱신 전파 방법을 제시하며, 갱신 지연 전파로 인해 갱신 전파도중에 발생할 수 있는 전파 트랜잭션과 주 트랜잭션의 충돌로 인한 비직렬성 문제를 타임스탬프와 상태 데이터베이스를 이용하여 해결한다. 이것은 판독 가용성을 증가시키면서 비직렬성으로 인한 재수행을 회피하게 되어 트랜잭션의 완료율을 증가시킨다.

  • PDF

The Consistency Management Using Trees of Replicated Data Items in Partially Replicated Database (부분 중복 데이터베이스에서 중복 데이터의 트리를 이용한 일관성 유지)

  • Bae, Mi-Sook;Hwang, Bu-Hyun
    • The KIPS Transactions:PartD
    • /
    • v.10D no.4
    • /
    • pp.647-654
    • /
    • 2003
  • The replication of data is used to increase its availability and to improve the performance of a system. The distributed database system has to maintain both the database consistency and the replica consistency. This paper proposes an algorithm which resolves the conflict of the operations by using the mechanism based on the structure that the replicas of each data item are hierarchically organized. Each update is propagated along the tree based on the fact that the root of each data item is the primary replica in partially replicated databases. The use of a hierarchy of data may eliminate useless propagation since the propagation can be done only to sites having the replicas. In consequence, the propagation delay of updates may be reduced. By using the timestamp and a compensating transaction, our algorithm resolves the non-serializability problem caused by the conflict of operations that can happen on the way of the update propagation due to the lazy propagation. This resolution also guarantees the data consistency.

De-Duplication Performance Test for Massive Data (대용량 데이터의 중복제거(De-Duplication) 성능 실험)

  • Lee, Choelmin;Kim, Jai-Hoon;Kim, Young Gyu
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2012.11a
    • /
    • pp.271-273
    • /
    • 2012
  • 중복 제거(De-duplication) 여러 데이터를 저장한 스토리지에서 같은 내용을 담고 있는 파일자체나 블록단위의 chunk 등을 찾아 중복된 내용을 제거하여 중복된 부분은 하나의 데이터 단위를 유지함으로써 스토리지 공간을 절약할 수 있다. 본 논문에서는 실험적인 데이터가 아닌 실제 업무 환경에서 적용될만한 대용량의 데이터 백업을 가정한 상황에 대해 중복 제거 기법을 테스트해봄으로써 중복제거율과 성능을 측정하였으며 이를 시각적으로 표현하는 방법을 제안함으로써 평가자 및 사용자가 알아보기 쉽게 하였다.

Improving Data Availability by Data Partitioning and Partial Overlapping on Multiple Cloud Storages (다수 클라우드 스토리지로의 데이터 분할 및 부분 중복을 통한 데이터 가용성 향상)

  • Park, Jun-Cheol
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.36 no.12B
    • /
    • pp.1498-1508
    • /
    • 2011
  • A cloud service customer has no other way but to wait for his lost data to be recovered by the cloud service provider when the data was lost or not accessible for a while due to the provider's system failure, cracking attempt, malfunction, or outage. We consider a solution to address this problem that can be implemented in the cloud client's domain, rather than in the cloud service provider's domain. We propose a high level architecture and scheme for successfully retrieving data units even when several cloud storages are not accessible at the same time. The scheme is based on a clever way of partitioning and partial overlapping of data for being stored on multiple cloud storages. In addition to providing a high level of data availability, the scheme makes it possible to re-encrypt data units with new keys in a user transparent way, and can produce the complete log of every user's data units accessed, for assessing data disclosure, if needed.

Efficient Storage Management Scheme for Graph Historical Retrieval (그래프 이력 데이터 접근을 위한 효과적인 저장 관리 기법)

  • Kim, Gihoon;Kim, Ina;Choi, Dojin;Kim, Minsoo;Bok, Kyoungsoo;Yoo, Jaesoo
    • The Journal of the Korea Contents Association
    • /
    • v.18 no.2
    • /
    • pp.438-449
    • /
    • 2018
  • Recently, various graph data have been utilized in various fields such as social networks and citation networks. As the graph changes dynamically over time, it is necessary to manage the graph historical data for tracking changes and retrieving point-in-time graphs. Most historical data changes partially according to time, so unchanged data is stored redundantly when data is stored in units of time. In this paper, we propose a graph history storage management method to minimize the redundant storage of time graphs. The proposed method continuously detects the change of the graph and stores the overlapping subgraph in intersection snapshot. Intersection snapshots are connected by a number of delta snapshots to maintain change data over time. It improves space efficiency by collectively managing overlapping data stored in intersection snapshots. We also linked intersection snapshots and delta snapshots to retrieval the graph at that point in time. Various performance evaluations are performed to show the superiority of the proposed scheme.

Optimization Using Partial Redundancy Elimination in SSA Form (SSA Form에서 부분 중복 제거를 이용한 최적화)

  • Kim, Ki-Tae;Yoo, Weon-Hee
    • The KIPS Transactions:PartD
    • /
    • v.14D no.2
    • /
    • pp.217-224
    • /
    • 2007
  • In order to determine the value and type statically. CTOC uses the SSA Form which separates the variable according to assignment. The SSA Form is widely being used as the intermediate expression of the compiler for data flow analysis as well as code optimization. However, the conventional SSA Form is more associated with variables rather than expressions. Accordingly, the redundant expressions are eliminated to optimize expressions of the SSA From. This paper defines the partial redundant expression to obtain a more optimized code and also implements the technique for eliminating such expressions.

File Synchronization System Using Multi-Level Metadata Management (다단계 메타데이터 관리를 사용한 파일 동기화 시스템)

  • Kong, Jin-San;Park, Jae-Min;Ko, Young-Woong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2013.05a
    • /
    • pp.79-82
    • /
    • 2013
  • 현재 널리 사용되는 클라우드 스토리지 서비스들의 파일 동기화 기능에 있어 적게 변경된 파일 또는 이름만 변경된 파일에 있어 동기화 시 전체를 전송하는 문제가 있다. 또한 사용자들 간 동일한 파일이 존재함에도 불구하고 전체를 전송하는 문제가 있다. 이러한 문제를 해결하기 위해 본 연구에서는 이중 레벨 메타데이터를 사용한 중복 제거 동기화 시스템을 구현하였다. 주요 아이디어는 VLC(Variable-length Chunking)를 사용하여 중복되지 않은 데이터만 전송하며 서버는 글로벌 메타데이터를 유지하여 사용자 간 중복된 데이터를 검출하는 것이다. 실험 결과로 부분 추가/삭제된 파일 전송 시 제안한 시스템이 네트워크 대역폭과 시간을 감소시키는 것을 보였다.

Efficient Processing of Next Generation Sequencing Reads Using Hitting Set Problem (Hitting Set 문제를 이용한 Next Generation Sequencing Read의 효율적인 처리)

  • Park, Tae-Won;Kim, So-Ra;Choi, Seok-Moon;Cho, Hwan-Gue;Lee, Do-Hoon
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2011.06b
    • /
    • pp.466-469
    • /
    • 2011
  • 최근에 등장한 Next Generation Sequencing(NGS)은 전통적인 방법에 비해 빠르고 저비용으로 대용량의 시퀀스 데이터를 이용한 차세대 시퀀싱 기술을 말한다. 이렇게 얻은 NGS 데이터를 분석하는 단계 중에서 alignment 단계는 시퀀서에서 얻은 대량의 read를 참조 염기서열에 맵핑하는 단계로 NGS 데이터 분석의 가장 기본이면서 핵심인 단계이다. alignment 도구는 긴 참조 염기서열을 색인화해서 짧은 read를 빠르게 맵핑하는 용도로 사용된다. 현재 많이 사용되고 있는 일반적인 alignment 도구들은 입력데이터에 대한 별도의 전처리 과정이 없으며 나열된 read를 순차적으로 맵핑하는 단순한 구조를 가지고 있다. 본 논문은 NGS 데이터의 특징 중에 특히 read간의 중복성이 존재하고 이를 이용한 read의 효율적 공통부분 서열을 찾는다. 중복이 가능한 read의 공통부분서열과 read의 관계를 그래프 이론의 Hitting Set 문제로 모델링하고 여러 read가 포함하는 공통 부분서열을 사용해서 alignment 단계의 효율을 높일 수 방법을 제안한다.

분산 환경을 위한 중복데이타 서버(replication server) 구조에 관한 연구

  • 이종호;이우기;박주석;강석호
    • Proceedings of the Korea Database Society Conference
    • /
    • 1994.09a
    • /
    • pp.71-103
    • /
    • 1994
  • 중복데이타 서버(replication server) 는 자주 사용되는 데이타의 부분 또는 전부를 뷰 형태로 여러 지역에 중복하여 저장함으로써 최종 사용자가 원하는 데이터에 빨리 접근할 수 있도록 해준다. 또한 기본 테이블의 변화된 내용을 주기적으로 뷰에 반영함으로써 데이타 동시성의 문제를 완화하며 통신량을 감소시킬 수 있다. 본 연구에서는 기본 테이블에 일어난 변화를 저장뷰(materialized view)에 반영시켜주기 위해 테이블 전체를 읽는 방식을 피하고 일정기간 동안 테이블에 일어난 변화가 기록된 로그(log)를 이용하는 디프런셜 갱신(differential update) 방법을 사용한다. 이 방법은 테이블의 잠금(locking) 을 피함으로 시스템의 성능을 향상시 킬 수 있다. 또한 갱신에 관련된 통신량을 최소화하기 위한 기법들을 제안한다. 위의 방법을 이용하여 분산 상황에서 조인 저장뷰(join materialized view)의 갱신을 효과적으로 지원해 주는 중복데이타 서버(replication server)의 구조에 관해 연구한다.

  • PDF

A Study of Method to Restore Deduplicated Files in Windows Server 2012 (윈도우 서버 2012에서 데이터 중복 제거 기능이 적용된 파일의 복원 방법에 관한 연구)

  • Son, Gwancheol;Han, Jaehyeok;Lee, Sangjin
    • Journal of the Korea Institute of Information Security & Cryptology
    • /
    • v.27 no.6
    • /
    • pp.1373-1383
    • /
    • 2017
  • Deduplication is a function to effectively manage data and improve the efficiency of storage space. When the deduplication is applied to the system, it makes it possible to efficiently use the storage space by dividing the stored file into chunks and storing only unique chunk. However, the commercial digital forensic tool do not support the file system analysis, and the original file extracted by the tool can not be executed or opened. Therefore, in this paper, we analyze the process of generating chunks of data for a Windows Server 2012 system that can apply deduplication, and the structure of the resulting file(Chunk Storage). We also analyzed the case where chunks that are not covered in the previous study are compressed. Based on these results, we propose the method to collect deduplicated data and reconstruct the original file for digital forensic investigation.