• 제목/요약/키워드: XML compression

검색결과 18건 처리시간 0.025초

추론한 데이타 타입을 이용한 질의 가능 XML 압축 (A Queriable XML Compression using Inferred Data Types)

  • 박명제;민준기;정진완
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제32권4호
    • /
    • pp.441-451
    • /
    • 2005
  • HTML은 데이타베이스와 같은 특수한 형태의 저장소 대신, 전형적인 파일 시스템에 저장되는 경우가 대부분이다. 이와 마찬가지로, 최근 인터넷 상에서의 데이타 교환 및 표현의 표준으로 부각되는 XML 역시 파일 시스템을 통하여 저장되는 경우가 현저하다. 하지만, XML 문서가 지니는 비정규적인 구조와 장황성 때문에, 디스크 공간이나 네트워크 상의 대역폭의 사용이 정규적인 구조를 지니는 데이터에 비해 크다. 이러한 XML 문서의 비효율성을 해결하고자, XML 문서의 압축에 관한 연구가 진행되었다. 최근에 연구된 XML 압축 기법들을 살펴보면, 압축된 XML 문서에 대한 질의를 전혀 지원하지 않거나, 질의를 지원하더라도 XML 문서 내의 데이타 값들의 특성을 고려하지 않고 단순히 기존의 압축 방법들을 적용하기 때문에 영역 질의를 지원하기 위해서는 압축의 일부를 복원해야 한다. 그 결과, 압축된 XML 문서에 대한 질의 성능이 저하되었다. 따라서, 본 연구에서는 압축된 XML 문서에 직접적이고 효율적인 질의를 지원하는 XML 압축 기법을 제안하고자 한다. XML 문서의 각 태그를 사전 압축 방법을 사용하여 압축하고자 하며, 태그 별로 데이타들의 타입을 추론하여 추론된 타입에 적절한 압축 방법을 사용하여 데이타 값들을 압축하고자 한다. 또한, 제안하는 압축 기법의 구현 및 성능 평가를 통하여, 구현한 XML 압축기가 실생활에 사용되는 XML 문서들을 효율적으로 압축하며 압축된 XML 문서에 대해 향상된 질의 성능을 제공하는 것을 보인다.

압축된 문서에 대한 질의 처리를 지원하는 XML 압축 알고리즘의 설계 및 구현 (Design and Implementation of a XML Compression Algorithm Supporting Query Processing for Compressed Documents)

  • 이석재;강영준;유재수;조기형
    • 한국콘텐츠학회논문지
    • /
    • 제4권1호
    • /
    • pp.90-99
    • /
    • 2004
  • 인터넷의 급속한 확산에 따라 사회 전반의 디지털화와 지식정보화가 급속도로 진행되고 있다. 많은 사용자들은 웹 상에서 다양한 작업을 하고 서비스를 이용하고 있다. 이러한 작업들의 대부분은 XML을 이용한다. XML은 개발자가 필요시 문서의 논리 구조를 정의할 수 있으며, 내용과 스타일이 분리되어있어 문서의 재사용성이 뛰어나다. 하지만 XML은 문서의 내용을 단순히 텍스트 형태로 다루고 문서의 구조를 표현하기 위해 많은 태그들이 추가되기 때문에 문서의 크기가 커질 수 밖에 없다. 팜탑, PDA등 용량이 제한된 기기에서 XML 문서를 보다 잘 활용하기 위해서는 XML문서를 효율적으로 압축해서 사용할 필요가 있다. 이러한 이유로 최근 XML 문서를 효과적으로 압축하고 다루기 위한 XML 압축 기법에 대한 연구가 일부 이루어지고 있지만, 기존 연구들의 대부분은 압축된 XML문서에 대한 질의 처리를 고려하지 않았다. 본 연구에서는 기존의 방법들보다 XML 문서를 효과적으로 압축을 하여 저장 공간의 활용도를 놓이고, 압축된 XML 문서에 대해 질의처리를 가능하게 하여 보다 빠른 질의 처리를 할 수 있는 XML 압축 알고리즘을 설계 및 구현한다.

  • PDF

압축된 문서에 대해 질의 처리를 지원하는 XML 압축 알고리즘 (The XML Compression Algorithm Supporting Query Processing For Compressed Documents)

  • 강영준;이석재;유재수
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2003년도 추계종합학술대회 논문집
    • /
    • pp.195-203
    • /
    • 2003
  • 인터넷의 급속한 확산에 따라 사회 전반의 디지털화와 지식정보화가 급속도로 진행되고 있다. 특히 많은 사용자들은 웹상에서 다양한 작업을 하고 서비스를 이용하고 있다. 이러한 작업들의 대부분은 XML을 이용한다. XML은 개발자가 필요시 문서의 논리구조를 정의할 수 있으며, 내용과 스타일이 분리가 되어 있어서 문서의 재사용성이 뛰어나다. 하지만 XML은 기본적으로 문서의 내용을 단순히 텍스트형태로 다루고 문서의 구조를 표현하기 위해 많은 태그들이 추가되기 때문에 문서의 크기가 커질 수 밖에 없다. 팜탑. PDA등의 제한된 용량을 보다 잘 활용하기 위해서는 문서를 효율적으로 압축해서 사용할 필요가 있다. 이를 해결하기 위해 최근 XML문서를 효과적으로 압축하고 다루기 위한 XML 압축 기법에 대한 연구가 일부 이루어지고 있지만, 기존 연구들의 대부분은 압축된 XML문서에 대한 질의 처리를 고려하지 않았다. 이에 본 연구에서는 기존의 방법들보다 효과적으로 압축을 하여 저장 공간의 효율성을 높이고, 압축된 XML 문서에 대해 질의처리를 가능하게 하여 보다 보다 빠른 질의 처리를 할 수 있는 XML 압축 알고리즘을 설계 및 구현하고자한다.

  • PDF

타입 정보 추출을 통한 질의 가능 XML 압축 (A Queriable XML Compression Through An Extraction of Type Information)

  • 박명제;민준기;정진완
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (A)
    • /
    • pp.554-556
    • /
    • 2003
  • 인터넷에서 널리 사용되는 HTML은 현재 데이터베이스 시스템과 같은 저장소 대신, 전형적인 파일 시스템에 저장되는 경우가 대부분이다. 마찬가지로 최근에 인터넷 상에서의 데이터 교환 및 표현의 표준으로 부각되는 XML 역시 파일 시스템에 저장되는 경우가 많다. 하지만, XML 문서의 비정규적인 구조와 장황성 때문에. 디스크 공간이나 네트워크 대역폭이 정규적인 구조의 데이터에 비해 비효율적이다. 따라서. 이를 해결하고자. XML 문서의 압축에 관한 연구가 진행되었다. 하지만. 최근에 연구된 XML 압축 기법들은 압축한 XML 문서에 대한 질의를 지원하지 않거나, 질의를 지원하더라도 XML 문서의 데이터 값들의 특성을 고려하지 않고 단순히 기존의 압축 방법을 통해 XML 문서를 압축한다. 그러므로 본 연구에서는 압축한 XML 문서에 대한 질의를 효율적으로 지원하는 XML 압축 기법을 제안한다. 본 연구에서는 태그를 Dictionary 압축으로 압축하며 태그 별로 데이터 값들의 타입을 추출하여 추출한 타입에 적절한 압축 방법으로 데이터 값을 압축한다. 또한, 제안하는 압축 기법의 구현 및 성능 평가를 통하여. 구현한 시스템이 실생활에 사용되는 XML 문서들을 효율적으로 압축하며 향상된 질의 성능을 제공하는 것을 보인다.

  • PDF

MPEG-7 BiM 부호화기 및 복호화기의 구현 (Implementation of Encoder and Decoder for MPEG-7 BiM)

  • 염지현;김민제;이한규;김혁만
    • 방송공학회논문지
    • /
    • 제12권2호
    • /
    • pp.159-176
    • /
    • 2007
  • 본 논문은 MPEG-7에서 표준화한 BiM 부호화 방식을 이용하여, 특정 스키마 문서에 따라 작성된 XML 인스턴스 문서를 이진형태로 부호화하고 또한 역으로 복호화 하는 소프트웨어 시스템의 구현에 관한 것이다. 본 논문에서는 BiM 부호화기 및 복호화기의 소프트웨어 구조를 클래스 계층구조로 설계하고, 설계한 BiM 부호화기 및 복호화기를 구현한다. 구현된 BiM 부호화기는 평균 90%에 해당하는 부호화 효율을 보였다. BiM 부호화기는 MPEG-7 스키마 문서뿐만 아니라 XML Schema로 정의된 스키마 문서에 따르는 어떤 인스턴스 문서도 부호화할 수 있는 범용 소프트웨어로써, 디지털 방송을 포함한 XML 인스턴스 문서의 부호화가 필요한 많은 응용 분야에서 사용 될 수 있다.

스키마를 이용한 XML 문서의 압축과 복원 (Compression/Decompression of XML Instance Documents Conforming to a Schema)

  • 염지현;김혁만
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 가을 학술발표논문집 Vol.33 No.2 (D)
    • /
    • pp.157-160
    • /
    • 2006
  • 본 논문은 MPEG-7 BiM 규격에 따라 XML 스키마 정의를 기반으로 바이너리 형태로 압축하고 복원하는 시스템의 구현에 관한 것이다. MPEG-7 BiM 압축기 및 복원기의 세부 모듈과 기능을 서술하고, 설계 및 구현방법을 제안한다. 구현된 MPEG-7 BiM 압축기 및 복원기는 대역폭의 제약이 심한 방송 분야에서 메타데이터 전송을 위한 핵심 모듈로 사용 될 수 있다.

  • PDF

Keyword Analysis Based Document Compression System

  • Cao, Kerang;Lee, Jongwon;Jung, Hoekyung
    • Journal of information and communication convergence engineering
    • /
    • 제16권1호
    • /
    • pp.48-51
    • /
    • 2018
  • The traditional documents analysis was centered on words based system was implemented using a morpheme analyzer. These traditional systems can classify used words in the document but, cannot help to user's document understanding or analysis. In this problem solved, System needs extract for most valuable paragraphs what can help to user understanding documents. In this paper, we propose system extracts paragraphs of normalized XML document. User insert to system what filename when wants for analyze XML document. Then, system is search for keyword of the document. And system shows results searched keyword. When user choice and inserts keyword for user wants then, extracting for paragraph including keyword. After extracting paragraph, system operating maintenance paragraph sequence and check duplication. If exist duplication then, system deletes paragraph of duplication. And system informs result to user what counting each keyword frequency and weight to user, sorted paragraphs.

다중 감각 미디어 응용 포맷의 구성 방법 연구 (A Study on Multiple Sensorial Media Application Format)

  • 오정엽;김상균
    • 방송공학회논문지
    • /
    • 제21권3호
    • /
    • pp.330-340
    • /
    • 2016
  • 본 논문은 MPEG-A(ISO/IEC 23000) 표준으로 새로이 제정된 다중 감각 미디어 응용 포맷의 구조와 구현에 대해 설명한다. 다중 감각 미디어 응용 포맷은 비디오/오디오 데이터와 더불어 감각 효과 메타데이터의 효과적인 저장, 재생, 관리를 용이하게 한다. 포맷을 구성하기 위해, MPEG-4 파트 12(ISO/IEC 14496-12)의 ISO 기본미디어 파일 포맷과 MPEG-V 파트 3(ISO/IEC 23005-3)의 표준 메타데이터를 사용하였다. 본 논문에서는 MPEG-V 파트 3의 감각효과 메타데이터(SEM)의 샘플화를 위해 SEM XML 문서의 분할과, 분할된 샘플을 이진화하는 방법에 대해 비교 분석한다. 이진화 방법에 대한 비교 분석 결과 MPEG-V 이진표현 방법과 Binary MPEG format for XML(BiM)이 gzip방법에 비해 압축율과 처리시간 등에서 우수한 성능을 보였다.

연결 리스트를 이용한 3차원 비트맵 인덱싱의 공간 축약 (A Space Compression of Three-Dimensional Bitmap Indexing using Linked List)

  • 이재민;황병연
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2003년도 춘계학술발표논문집 (하)
    • /
    • pp.1519-1522
    • /
    • 2003
  • 기존의 웹 문서나 컨텐츠들의 표현적 한계를 극복하기 위한 방안으로 메타 데이터에 관한 다양한 연구가 수행되어졌고 그 결과의 산물중에 가장 대표적인 것으로 XML을 들 수 있다. XML은 문서의 내용뿐 아니라 구조까지도 기술할 수 있는 장점을 통해 향후 정보 교환에 핵심적인 역할을 할 것으로 기대되어지고 있으며 이에 따라 XML 문서를 효율적으로 저장하고 검색하기 위한 다양한 연구가 진행되고 있다. BitCube는 Bit-wise 연산이 가능한 3차원 비트맵 인덱싱을 사용하여 XML 문서들의 구조적 유사성에 따라 클러스터링하고 사용자의 질의에 대한 처리를 수행하는 인덱싱 기법으로 그것의 빠른 성능을 입증하였다. 그러나 BitCube의 클러스터링은 XML 문서의 경로에 중점을 둔 것이므로 클러스터와 경로가 담고 있는 실제 단어들간에는 연관성이 없으므로 3차원 비트맵 인덱스는 하나의 평면을 제외한 모든 평면이 굉장히 높은 공간 사용량을 갖는 회소행렬이 된다. 본 논문에서는 늘어나는 방대한 문서의 양으로 인한 시스템의 성능 저하를 막고 안정적인 성능을 유지할 수 있도록 기존 연산의 성능을 저하시키지 않으면서 공간을 최소화 할 수 있는 연결 리스트틀 설계하고 3차원 비트맵 인덱스를 연결 리스트로 재구성하는 방법을 제시한다.

  • PDF

TVA 메타데이터 전송과정에서 단편화에 의한 성능 감소를 회피하기 위한 효율적인 캡슐화 방식 (An Efficient Scheme of Encapsulation Method to Avoid Fragmentation Degradation During TVA Metadata Delivery)

  • 오봉진;박종열;김상형;유관종
    • 한국통신학회논문지
    • /
    • 제37권7C호
    • /
    • pp.627-636
    • /
    • 2012
  • 최근에 XML은 가독성과 확장성이란 장점 때문에 IPTV나 디지털방송 서비스 분야에서 서비스나 콘텐츠 정보 표현 및 검색을 위한 기술로 많이 사용되고 있다. 특히 TV-Anytime에서 정의한 스키마나 전송 프로토콜을 기본 규격으로 채택하고 필요한 기능을 수용하기 위하여 규격을 확장하는 경향을 보이고 있다. 그러한 장점에도 불구하고 XML은 텍스트 기반으로 정보를 표현함으로써 정보의 양이 커진다는 문제가 존재하고 이를 위하여 다양한 인코딩 방식이 제공되고 있다. 그러나 전송과정에서 문서를 독립된 조각으로 단편화하여 블록단위로 캡슐화 하는 과정을 거치면서 인코딩 효율이 급격하게 떨어지게 되는 문제가 발생한다. 본 논문에서는 XML 문서를 캡슐화하는 과정에서 단편화를 통해 감소되는 인코딩 효율을 보완할 수 있는 블록 단위의 문자열 테이블 방식을 제안하고 실험을 통한 성능 분석을 제공하였다.