• 제목/요약/키워드: Small File

검색결과 235건 처리시간 0.02초

하둡 플랫폼을 이용한 대량의 스몰파일 처리방법 (Processing Method of Mass Small File Using Hadoop Platform)

  • 김창복;정재필
    • 한국항행학회논문지
    • /
    • 제18권4호
    • /
    • pp.401-408
    • /
    • 2014
  • 하둡(Hadoop)은 맵리듀스(MapReduce) 분산처리 프로그래밍 모델과 HDFS(Hadoop distributed file system) 분산 파일시스템으로 구성된다. 하둡은 빅데이터 처리에 적합한 프레임워크로서, 대량의 스몰파일 처리에 문제점이 있다. 하둡에서 대량의 스몰파일 처리는 하나의 파일마다 매퍼가 생성되며, 파일의 메타정보를 저장하기 위해 많은 메모리가 필요한 문제점이 있다. 본 논문은 하둡 플랫폼에서 다양한 방법으로 대량의 스몰파일 처리방법을 비교 검토하였다. 일반 압축은 데이터의 크기와 상관없이 하나의 매퍼로 처리해야 하기 때문에, 하둡 처리 포맷으로 적절하지 않다. 시퀀스 와 하둡 아카이브 파일의 처리는 스몰파일을 압축 및 병합을 통해 네임노드의 메모리 문제가 제거되었다. 하둡 아카이브 파일은 스몰파일의 병합시간이 시퀀스 파일보다 빠른 속도를 보였다. CombineFileInputFormat 클래스를 이용한 처리는 병합과정이 필요 없으며, 빅데이터 처리방법과 유사한 속도를 보였다.

Hadoop Distribute file system에서 Small file을 효과적으로 처리하기 위한 파일 병합 기법 연구 (A File Merging Scheme for Efficient Handling of Small Files in Hadoop Distributed File System)

  • 박종창;윤희용
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 추계학술발표대회
    • /
    • pp.15-17
    • /
    • 2013
  • HDFS(Hadoop Distribute File System)는 대용량 파일 처리를 목적으로 설계 되었으며 현재 이상적인 분산 파일 시스템으로 각광 받고 있다. 이러한 HDFS는 기존 분산파일 시스템과 많은 유사성을 가지고 있으나, Fault Tolerance를 제공하고, 데이터 엑세스 패턴을 스트리밍 방식으로 지원하여 대용량 파일을 효율적으로 저장할 수 있다는 차별성을 가지고 있다. 하지만 실제 HDFS 데이터 집합에는 Small file이 차지하는 비중이 상당히 높으며, 이러한 다수의 Small file 은 데이터 처리에 있어 높은 비용을 초래할 뿐 아니라 Master Node 의 파일 처리 및 메모리 성능에 악영향을 미친다. 따라서 본 논문에서는 HDFS에서 Small file 이 미치는 영향을 분석하고 이러한 문제점을 해결 할 수 있는 로컬 인덱스 파일기반의 파일 병합 기법을 제안한다.

디렉토리 지역성을 활용한 작은 파일들의 모아 쓰기 기법 (Co-Writing Multiple Files Based on Directory Locality for High Performance of Small File Writes)

  • 이경재;안우현;오재원
    • 정보처리학회논문지A
    • /
    • 제15A권5호
    • /
    • pp.275-286
    • /
    • 2008
  • Fast File System(FFS)은 디스크의 고성능 대역폭을 활용하여 대용량 파일의 여러 블록들을 한 번에 저장함으로써 파일 쓰기 성능을 향상시키고 있다. 하지만, FFS는 파일 단위로 데이터를 저장하기 때문에 작은 파일 쓰기 성능은 디스크 대역폭보다 디스크 회전 및 탐색 시간에 크게 영향을 받는다. 본 논문은 FFS에서 작은 파일 쓰기의 성능 향상을 위해 여러 개의 작은 파일들을 한꺼번에 모아서 저장하는 모아 쓰기(Co-Writing) 기법을 제안하며, 이 기법을 FFS에 적용한 CW-FFS를 구현하였다. CW-FFS의 모아 쓰기 기법은 대역폭을 활용하여 디렉토리 지역성을 가지는 작은 파일들을 모아서 연속적인 디스크 위치에 한 번의 디스크 쓰기로 저장한다. 모아 쓰기 기법은 각 파일 단위로 발생하는 디스크 회전 및 탐색 동작들을 한 번으로 감소시키기 때문에 파일 쓰기가 많은 응용 프로그램에서 작은 파일 쓰기 성능을 개선시킨다. 또한 모아 쓰기 기법이 동일 디렉토리에 포함되는 파일들 간의 디스크 공간 지역성의 저하를 야기하지 않도록 효율적인 파일 할당 방식도 함께 제안한다. CW-FFS는 성능 검증을 위해 OpenBSD 운영체제 커널에서 구현되었으며, postmark 벤치마크를 통한 성능 측정 결과는 기존 FFS 파일 시스템보다 작은 파일 쓰기 성능이 속도 측면에서 $5{\sim}35%$까지 개선되었음을 보여준다.

A Chinese Restaurant Game for Distributed Cooperative Caching in Small Cell Networks

  • Chen, Junliang;Wang, Gang;Wang, Fuxiang
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제13권1호
    • /
    • pp.222-236
    • /
    • 2019
  • Wireless content caching in small cell networks has recently been considered as a promising way to alleviate the congestion of the backhaul in emerging heterogenous cellular network. However, how to select files which are cached in SBSs and how to make SBSs work together is an important issue for cooperative cache research for the propose of reducing file download time. In this paper, a Cooperative-Greedy strategy (CGS) among cache-enabled small base stations (SBSs) in small cell network is proposed, in order to minimize the download time of files. This problem is formulated as a Chinese restaurant game.Using this game model, we can configure file caching schemes based on file popularity and the spectrum resources allocated to several adjacent SBSs. Both the existence and uniquencess of a Nash equilibrium are proved. In the theoretical analysis section, SBSs cooperate with each other in order to cache popular files as many as possible near UEs. Simulation results show that the CGS scheme outperforms other schemes in terms of the file-download time.

STL File 슬라이싱 높이 조정에 따른 주사경로 생성시간 저감에 관한 연구 - 소형 보석류에 적용 (The Study on Reduction of Scanning Path Build Time According to Control of STL file Slicing Height - Application of Small Jewellery)

  • 김태호;김민주;이승수;전언찬
    • 한국정밀공학회지
    • /
    • 제22권12호
    • /
    • pp.205-210
    • /
    • 2005
  • This paper addresses the correlation between the change of file size and the scanning path build time by the slicing height of STL file. Though the study about STL file has been achieved quite actively scanning path build time using STL file is not investigated so much to be satisfied. The file size depends on the number of polygon created by the slicing height specified. And this number of polygons increases in a regular rate. The correlation between the number of polygons and the scanning path build time is examined and verified.

그물망 위상의 P2P 네트워크를 활용한 파일 분리 분산 방안 (The File Splitting Distribution Scheme Using the P2P Networks with The Mesh topology)

  • 이명훈;박정수;김진홍;조인준
    • 한국정보통신학회논문지
    • /
    • 제9권8호
    • /
    • pp.1669-1675
    • /
    • 2005
  • 최근 들어 무선 단말장치의 소형화 및 파일크기의 대형화 추세로 소형 무선 단말에서 대형 파일처리의 문제점이 대두되고 있다. 또한 파일서버나 웹 서버에 수많은 파일의 집중화로 인한 과부하가 문제점으로 쟁점화 되고 있다. 그리고 데이터 처리가 단일 파일단위를 기반으로 함에 따라 보안상 여러 취약점을 지닌다. 본 논문에서는 이러한 문제점 해결을 위한 새로운 방안으로 그물망 위상의 P2P를 활용한 파일 분리 분산 방안을 제안하였다. 파일을 그물망 구조의 P2P를 활용하여 분리 분산시킴으로써 소형 단말에 적합한 파일을 생성할 수 있고, 파일이 특정 서버에 집중화되지 않음에 따라 과부하를 예방하고, 한 파일이 여러 피어에 분산됨에 따라 보안상 취약점을 완화할 수 있다.

소형셀 네트워크 전송용량 향상을 위한 분산 파일저장 및 커버리지 확장 기법 (Distributed File Placement and Coverage Expansion Techniques for Network Throughput Enhancement in Small-cell Network)

  • 홍준표
    • 한국정보통신학회논문지
    • /
    • 제22권1호
    • /
    • pp.183-189
    • /
    • 2018
  • 본 논문은 제한된 백홀 용량으로 발생하는 소형셀 네트워크에서의 트래픽 병목현상을 완화하기 위한 분산 파일저장 기술과 커버리지 확장 기술을 제안하였다. 제안 기법은 한정된 메모리 용량으로 백홀 망의 부하를 최소화하기 위해 파일의 인기도와 기지국의 메모리 용량에 따라 기지국의 커버리지와 파일 저장방법을 결정한다. 즉, 메모리 공간이 작거나 이용자들로부터 요청되는 파일이 다양할 경우 개별 기지국에 저장된 파일로 이용자를 서비스할 수 있는 확률이 낮아지므로 커버리지를 확장하고 기지국 사이 저장 파일의 중복을 줄여 커버리지 중첩지역에 있는 이용자가 다수의 기지국에 저장된 다양한 파일로 서비스 받을 수 있게 한다. 시뮬레이션을 통한 기존 배타적인 커버리지를 갖는 소형셀 네트워크에서의 파일저장 기법과의 전송용량 비교를 통해 제안 기법이 메모리 공간이 작거나 이용자들로 부터 요청되는 파일이 다양한 상황에서 높은 성능 이득을 가짐을 보였다.

MapReduce에서 Reuse JVM을 이용한 대규모 스몰파일 처리성능 향상 방법에 관한 연구 (A Study on the Improving Performance of Massively Small File Using the Reuse JVM in MapReduce)

  • 최철웅;김정인;김판구
    • 한국멀티미디어학회논문지
    • /
    • 제18권9호
    • /
    • pp.1098-1104
    • /
    • 2015
  • With the widespread use of smartphones and IoT (Internet of Things), data are being generated on a large scale, and there is increased for the analysis of such data. Hence, distributed processing systems have gained much attention. Hadoop, which is a distributed processing system, saves the metadata of stored files in name nodes; in this case, the main problems are as follows: the memory becomes insufficient; load occurs because of massive small files; scheduling and file processing time increases because of the increased number of small files. In this paper, we propose a solution to address the increase in processing time because of massive small files, and thus improve the processing performance, using the Reuse JVM method provided by Hadoop. Through environment setting, the Reuse JVM method modifies the JVM produced conventionally for every task, so that multiple tasks are reused sequentially in one JVM. As a final outcome, the Reuse JVM method showed the best processing performance when used together with CombineFileInputFormat.

A File System for Large-scale NAND Flash Memory Based Storage System

  • Son, Sunghoon
    • 한국컴퓨터정보학회논문지
    • /
    • 제22권9호
    • /
    • pp.1-8
    • /
    • 2017
  • In this paper, we propose a file system for flash memory which remedies shortcomings of existing flash memory file systems. Besides supporting large block size, the proposed file system reduces time in initializing file system significantly by adopting logical address comprised of erase block number and bitmap for pages in the block to find a page. The file system is suitable for embedded systems with limited main memory since it has small in-memory data structures. It also provides efficient management of obsolete blocks and free blocks, which contribute to the reduction of file update time. Finally the proposed file system can easily configure the maximum file size and file system size limits, which results in portability to emerging larger flash memories. By conducting performance evaluation studies, we show that the proposed file system can contribute to the performance improvement of embedded systems.

DJFS: Providing Highly Reliable and High-Performance File System with Small-Sized NVRAM

  • Kim, Junghoon;Lee, Minho;Song, Yongju;Eom, Young Ik
    • ETRI Journal
    • /
    • 제39권6호
    • /
    • pp.820-831
    • /
    • 2017
  • File systems and applications try to implement their own update protocols to guarantee data consistency, which is one of the most crucial aspects of computing systems. However, we found that the storage devices are substantially under-utilized when preserving data consistency because they generate massive storage write traffic with many disk cache flush operations and force-unit-access (FUA) commands. In this paper, we present DJFS (Delta-Journaling File System) that provides both a high level of performance and data consistency for different applications. We made three technical contributions to achieve our goal. First, to remove all storage accesses with disk cache flush operations and FUA commands, DJFS uses small-sized NVRAM for a file system journal. Second, to reduce the access latency and space requirements of NVRAM, DJFS attempts to journal compress the differences in the modified blocks. Finally, to relieve explicit checkpointing overhead, DJFS aggressively reflects the checkpoint transactions to file system area in the unit of the specified region. Our evaluation on TPC-C SQLite benchmark shows that, using our novel optimization schemes, DJFS outperforms Ext4 by up to 64.2 times with only 128 MB of NVRAM.