• 제목/요약/키워드: 대용량 파일시스템

검색결과 232건 처리시간 0.029초

대용량 데이터 색인에 적합한 역파일의 구현 (Implementation of the Inverted File for Indexing Large-volume Data)

  • 임성채
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2008년도 추계학술발표대회
    • /
    • pp.909-912
    • /
    • 2008
  • 대용량 문서에 대한 키워드 검색을 위해 역파일(inverted-file) 색인 기법이 널리 쓰이고 있다. 역파일 색인 기법을 구현함에 있어 고려되어야 할 점은 키워드 검색 처리 시에 디스크 사용을 최소로 할 수 있는 방법이다. 크기가 작은 역파일이라면 디스크 I/O 사용도 작고 필요시 역파일을 메모리에 적재하여 둠으로써 디스크 사용을 크게 줄일 수 있다. 하지만, 웹 검색이나 규모가 큰 도서관 시스템에서와 같이 색인 데이터 크기가 매우 큰 경우 역파일을 읽는 디스크 비용이 급격히 증가할 수 있다. 본 논문에서는 매우 큰 크기의 역파일을 사용하는 검색 환경에서 디스크 사용을 최소로 할 수 있는 역파일 구조를 제안한다. 제안된 구조는 질의 처리 과정을 고려해 계층 구조로 설계되며 실제 상용 시스템에 적용되어 안정성 및 성능을 입증했다.

역파일에 기반한 웹 검색 엔진의 랭킹 시스템 구현 (Implementation of a Ranking System for the Web Search Engine based on Inverted Files)

  • 임성채;안준선
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2007년도 가을 학술발표논문집 Vol.34 No.2 (C)
    • /
    • pp.35-40
    • /
    • 2007
  • 역파일을 사용한 색인 기법은 정보 검색 분야에서 널리 사용되었으며, 최근 대용량 검색 시스템으로 사용되고 있는 웹 검색 엔진에서도 적응되고 있다. 본 논문에서는 웹 검색 엔진의 특성에 완친 구현된 역파일 기법 기반의 웹 문서 색인 파일의 구조와 디스크에 저장된 대용량의 역파일 색인을 기반으로 웹 페이지의 검색 적합도를 계산하는 랭킹 시스템을 설명한다. 이를 통하여 상용 웹 검색 엔진의 랭킹 시스템과 디스크 자원 사용의 최소화 기법을 제시한다.

  • PDF

대규모 파일 시스템을 위한 동적 해싱 디렉토리 (Dynamic Hashing Directories for Large File Srstems)

  • 김신우;이용규
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2004년도 춘계학술발표대회논문집
    • /
    • pp.616-619
    • /
    • 2004
  • 최근 대용량 데이터의 저장과 검색을 요구하는 파일시스템이 필요하게 됨에 따라, 별도의 서버를 두지 않고 분산된 클라이언트가 메타데이터를 직접 관리하면서 모든 저장 장치들에 접근할 수 있는 SAN 기반 리눅스 클러스터 파일시스템의 연구가 활발하게 진행 중에 있다. 이러한 대규모 파일 시스템을 위해서는 동적 해싱을 이용한 디렉토리 관리가 요구되므로, 본 논문에서는 그 중 확장 해싱 디렉토리 구조와 선형 해싱 디렉토리 구조를 설계 및 구현하고, 구현된 시스템을 이용하여 성능평가를 통해 두 디렉토리 구조의 성능을 분석한다. 비교 분석 결과, 파일의 삽입 성능에서는 선형 해싱 기반의 디렉토리가 우수하였으나, 공간 활용면에서는 확장 해싱 기반의 디렉토리가 우수한 성능을 보였다.

  • PDF

비정형 대용량 데이터 입력 및 출력 시스템 설계 및 구현 (Design and Implementation of Input and Output System for Unstructured Big Data)

  • 김창수;심규철;강병준;김경환;정회경
    • 한국정보통신학회논문지
    • /
    • 제18권2호
    • /
    • pp.387-393
    • /
    • 2014
  • 컴퓨터의 보급에 따라 비정형 대용량 데이터가 범람하고 이를 효율적으로 처리하기 노력이 요구되고 있다. 이에 본 논문에서는 오피스(office) 파일(아래한글, MS-Office 등)에 입력된 데이터를 바로 XML로 변환하고, 사용자가 XML 매핑 파일을 만들어서 워드프로세서에 입력 된 데이터를 바로 추출하여 데이터베이스에 저장하는 시스템을 제안하였다. 또한, 본 시스템은 워드프로세스에 양식을 미리 작성하여 필요한 데이터를 데이터베이스에서 조회하여 워드프로세서 문서를 응용프로그램에서 오피스 파일을 생성 할 수 있다. 이는 대용량의 비정형 데이터를 활용가능하게 할 것이다.

공개소스프로젝트를 이용한 사이버물리시스템 데이터분석아키텍처 (CPS Data Analysis Architecture using Open Source Projects)

  • 임유진;최은미
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 추계학술발표대회
    • /
    • pp.172-175
    • /
    • 2013
  • 사이버물리시스템(CPS)은 실시간 제약으로 타이밍에 민감한 특징이 있으며, 산업 영역에 적용시 시스템 동작과 안전필수 로그의 특정한 패턴을 나타내는 대용량의 실시간 데이터를 생성시킨다. 본 논문은 공개소스프로젝트인 하둡에코시스템을 이용한 CPS 데이터분석 아키텍처를 소개한다. CPS 처리의 특징 때문에 그 대용량의 데이터 처리는 하나의 머신에서 분석될 수 없으므로, 하둡에코시스템을 통하여 실시간 기반으로 생성되는 데이터를 저장하고 처리하는 시스템 아키텍처를 제안한다. 하둡분산파일시스템(HDFS)은 거대한 CPS 데이터의 저장을 위한 기본 파일시스템이고, 하이브는 데이터웨어하우징 처리를 위한 CPS 데이터분석에 사용된다. 플룸은 서버들로부터 데이터를 수집하고 HDFS에서 그 데이터를 처리하기 위해 사용되며, Rhive는 데이터 마이닝과 분석을 적용하기 위해 사용된다. 이러한 아키텍처를 개관하고, 또한 효과적인 데이터 분석을 위해 사용한 시스템 설계 전략을 소개한다.

디스크 입출력의 병렬성을 이용한 대용량 입출력 QoS 제어 기법 (A Massive I/O QoS Control Method using Parallelism fo Disk I/O)

  • 장시웅;정기동
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제26권1호
    • /
    • pp.98-106
    • /
    • 1999
  • 본 논문에서는 대용량 입출력을 수행하는 태스크의 QoS를 제어하기 위한 방법으로사용자가 시스템에 입출력 요구시 요구 대역폭을 제시하고, 파일시스템에서 디스크개소와 입출력 이벤트를 고려하여 입출력의 병렬성을 제어함으로써 QoS를 제어하는 방법을 제안하였다. 그리고, 시스템에서 각 태스크가 주어진 병렬성을 가지고 입출력을 진행하고 있을 때, 요구 대역폭을 가지고 입출력을 요구하는 태스크의 대역폭을 만족시키기 위한 병렬성을 계산하는 분석 모델을 유도하였다. 그리고, 디스크 입출력의 병렬성을 이용하여 대용량 입출력의 QoS를 효율적으로 제어할 수 있음을 분석 모델의 결과를 통해 검증하였다.

SAN 환경 대용량 파일 시스템을 위한 디렉토리 구조 비교 (Comparison of Directory Structures for SAN Based Very Large File Systems)

  • 김신우;이용규
    • 한국전자거래학회지
    • /
    • 제9권1호
    • /
    • pp.83-104
    • /
    • 2004
  • 최근 전자상거래시스템을 비롯하여 대용량 데이터의 저장과 검색을 요구하는 정보시스템들이 광범위하게 활용되고 있다. 이에 맞추어 클라이언트가 메타데이터를 직접 관리하며 데이터에 접근할 수 있는 SAN 환경의 리눅스클러스터 파일시스템이 연구되고 있으며, 파일의 빠른 검색을 위해 확장 해시 기반의 세미플랫 디렉토리 구조가 제안되었다[1]. 본 연구에서는 리눅스 환경에서 확장 해시 기반의 세미플랫 디렉토리를 설계 및 구현하였으며, 구현된 시스템의 실용성을 평가하기 위하여 B+ 트리 기반의 디렉토리 구조를 함께 구현하여 성능을 비교하였다. 디렉토리의 성능을 비교 분석한 결과, 파일의 삽입, 삭제, 검색 성능에서는 확장 해싱 기반의 디렉토리가 우수하였으나, 전체 파일의 목록을 정렬하는 데는 B+ 트리 기반의 디렉토리가 더 우수한 성능을 보였다.

  • PDF

대용량 파일 시스템을 위한 디렉토리 구조 비교 (Comparison of Directory Structures for Large File Systems)

  • 김신우;이현석;이용규
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2003년도 춘계학술발표논문집 (상)
    • /
    • pp.455-458
    • /
    • 2003
  • 최근 데이터가 대용량화됨에 따라 이를 저장할 파일시스템이 필요하게 되었다. 이에 별도의 서버를 두 지 않고 분산된 클라이언트가 메타데이터를 직접 관리하면서 모든 저장 장치들에 접근할 수 있는 SAN 기반 리녹스 클러스터 파일시스템의 연구가 활발히 진행 중에 있다. 그러나, 이와 같은 대규모의 파일 시스템에서 일반 UNIX 시스템과 같은 디렉토리 구조를 갖게 되면, 파일 탐색 시 순차검색으로 인하여 많은 시간이 걸리게 된다. 그리므로, 이러한 문제를 해결하고자, 본 논문에서는 SAN 기반 리녹스 클라스터 파일 시스템을 위한 확장 해싱 디렉토리와 B+ 트리 디렉토리 구조를 설계 및 구현하고, 실행 환경에 따라 적합한 구조를 선택할 수 있도록 하기 위하여 성능평가를 통해 두 디렉토리 구조를 비교 분석한다.

  • PDF

MAHA-FS : 고성능 메타데이터 처리 및 랜덤 입출력을 위한 분산 파일 시스템 (MAHA-FS : A Distributed File System for High Performance Metadata Processing and Random IO)

  • 김영창;김동오;김홍연;김영균;최완
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제2권2호
    • /
    • pp.91-96
    • /
    • 2013
  • 바이오 응용과 같은 대용량 데이터 처리와 고성능 계산을 동시에 지원하는 발판으로 슈퍼컴퓨팅 시스템의 활용 분야가 변화하고 있다. 이러한 응용에서는 발생하는 대용량의 데이터를 고속으로 처리하고 효율적으로 저장 관리하기 위한 고성능의 분산 파일 시스템이 요구된다. 본 논문에서는 대용량의 데이터 처리와 고성능 계산을 동시에 지원하는 슈퍼컴퓨팅 시스템을 위해 우수한 메타데이터 연산 성능 및 입출력 성능을 제공하는 MAHA-FS를 소개한다. 아울러 성능 분석을 통해 MAHA-FS가 메타데이터 연산 처리 성능 및 random 입출력 성능이 우수함을 보인다.

NAND 플래시 파일시스템의 I/O 스케줄러 성능분석 (A Performance Analysis of I/O Scheduler for NAND Flash File System)

  • 이영석;이창희;정경호;김용환;안광선
    • 한국산업정보학회논문지
    • /
    • 제18권2호
    • /
    • pp.27-34
    • /
    • 2013
  • 대용량의 NAND 플래시 메모리가 출시됨으로써, 다양한 용도로 사용이 가능해 졌다. 특히 모바일기기의 멀티미디어 기능 확장으로 인해 대용량 NAND 플래시 메모리의 수요가 증가하고 있다. YAFFS2, NILFS2, JFFS2 파일시스템은 NAND 플래시 메모리 전용 파일시스템이다. 본 논문에서는 각 3개의 파일시스템에 4개의 I/O scheduler : CFQ(Complete Fair Queuing) I/O scheduler, NOOP(No Operation) I/O scheduler, Anticipatory I/O scheduler, Deadline I/O scheduler에 대한 순차적인 읽기, 쓰기 성능을 분석하였다. JFFS2 파일시스템 상에서의 Anticipatory I/O scheduler가 다른 I/O scheduler보다 쓰기 8%, 읽기 1.5% 이상 시간이 단축되었다. YAFFS2 파일시스템상에서는 4개의 I/O scheduler 시간이 일정하다. NILFS2 파일시스템에서는 Deadline I/O scheduler가 다른 I/O scheduler보다 쓰기 2%, NOOP I/O scheduler가 읽기 6%정도 시간이 단축 된다.