대규모 동적 해싱 디렉토리의 구현 및 평가

An Implementation and Evaluation of Large-Scale Dynamic Hashing Directories

  • 김신우 (동국대학교 컴퓨터멀티미디어공학과) ;
  • 이용규 (동국대학교 컴퓨터멀티미디어공학과)
  • 발행 : 2005.07.01

초록

최근 대용량 데이터의 저장과 검색을 위해서 리눅스 클러스터 파일시스템의 디렉토리는 점차 대규모로 되고 있다. 그들 중 대표적인 GFS의 디렉토리는 동적 해싱의 하나인 빠른 검객을 지원하는 확장 해싱을 이용하고 있다. GFS의 디렉토리의 주된 특징은 모든 리프 노드들이 트리의 동일한 레벨에 놓이는 플랫 구조를 가지고 있다. 그러나 리프 노드에서 오버플로우가 발생하게 되면 레벨이 하나 증가하면서 갑자기 데이터 블록의 임의의 평균 접근 시간이 길어지는 단점이 있다. 또 다른 동적 해싱으로는 선형해싱을 들 수 있고, 이는 확장 해싱보다 파일 접근에 좋은 성능을 보여준다. 본 논문에서는 플랫 구조보다 더 좋은 접근 성능을 가지는 세미 플랫 구조를 이용하여, 대규모 리눅스 클러스터 파일 시스템을 위한 확장 해싱 디렉토리와 선형 해싱 디렉토리를 설계 및 구현하고 그들의 성능을 비교한다. 성능 평가 결과, 파일의 삽입 면에서는 선형 해싱 기반의 디렉토리가 좋은 성능을 보였으나, 공간 활용 면에서는 확장 해싱 기반의 디렉토리가 좋은 성능을 보였다.

Recently, large-scale directories have been developed for LINUX cluster file systems to store and retrieve huge amount of data. One of them, GFS directory, has attracted much attention because it is based on extendible hashing, one of dynamic hashing techniques, to support fast access to files. One distinctive feature of the GFS directory is the flat structure where all the leaf nodes are located at the same level of the tree. Hut one disadvantage of the mode structure is that the height of the mode tree has to be increased to make the tree flat after a byte is inserted to a full tree which cannot accommodate it. Thus, one byte addition makes the height of the whole mode tree grow, and each data block of the new tree needs one more link access than the old one. Another dynamic hashing technique which can be used for directories is linear hashing and a couple of researches have shown that it can get better performance at file access times than extendible hashing. [n this research, we have designed and implemented an extendible hashing directory and a linear hashing directory for large-scale LINUX cluster file systems and have compared performance between them. We have used the semi-flat structure which is known to have better access performance than the flat structure. According to the results of the performance evaluation, the linear hashing directory has shown slightly better performance at file inserts and accesses in most cases, whereas the extendible hashing directory is somewhat better at space utilization.

키워드