• 제목/요약/키워드: Hangul Compression

검색결과 11건 처리시간 0.023초

한글의 형태적 특성을 이용한 한글 문서 압축 기법에 관한 연구 (A Study on Hangul Text Compressing Using the Structural Feature of Hangul)

  • 이기석;김유성
    • 한국정보처리학회논문지
    • /
    • 제3권5호
    • /
    • pp.1294-1306
    • /
    • 1996
  • 본 논문에서는 한글 문서에 대해 높은 압축률을 얻기 위해 한글의 형태적 특징인 조사와 어말어미의 출현 빈도를 이용한 효율적인 한글 문서 압축 기법들을 제안하였으며 제안된 기법들의 성능 분석을 위하여 기존의 압축 기법들과 압축률을 비교 분석하였다. 한글 문서에서 조사와 어말어미가 반복적으로 출현한다는 형태적인 특성으로부터 높은 압축률을 얻기 위해 출현 빈도가 상대적으로 높은 64개의 조사 및 어말어미를 선정 하여 고정 사전을 구성하고, 이를 이용하여 한글 문서를 압축하도록 기존의 LZ77기법과 LZW기법을 수정하여 각각 HLZ77기법과 HLZW기법을 제안하였다. 또한, 본 연구에서는 수정 제안된 HLZ77기법과 HLZW기법의 성능을 분석하기 위하여 4가지 기법을 실 제 재현하여 여러 형태의 한글 문서를 대상으로 압축률을 비교하였다. 성능 결과로 부터 일반적인 한글 문서에 대해 한글의 형태적인 특성을 이용하는 HLZ77기법과 HLZW 기법이 각각 LZ77기법과 LZW기법 보다 우수한 압축률을 나타냄을 알 수 있었다.

  • PDF

패턴매칭에 의한 이진 한글문서의 유.무손실 압축에 관한 연구 (The Study on Lossy and Lossless Compression of Binary Hangul Textual Images by Pattern Matching)

  • 김영태;고형화
    • 한국통신학회논문지
    • /
    • 제22권4호
    • /
    • pp.726-736
    • /
    • 1997
  • The textual image compression by pattern matching is a coding scheme that exploits the correlations between patterns. When we compress the Hangul (Korean character) text by patern matching, the collerations between patterns may decrease due to randoem contacts between phonemes. Therefore in this paper we separate connected phonemes to exploit effectively the corrlation between patterns by inducting the amtch. In the process of sequation, we decide whether the patterns have vowel component or not, and then vowels connected with consonant ae separated. When we compare the proposed algorithm with the existing algorith, the compression ratio is increased by 1.3%-3.0% than PMS[5] in lossy mode, by 3.4%-9.1% in lossless mode than that of SPM[7] which is submitted to standard committe for second generation binary compression algorithm.

  • PDF

PHDCM : 병렬 컴퓨터에서 한글 텍스트의 효율적인 축약 (PHDCM : Efficient Compression of Hangul Text in Parallel)

  • 민용식
    • The Journal of the Acoustical Society of Korea
    • /
    • 제14권2E호
    • /
    • pp.50-56
    • /
    • 1995
  • 본 논문은 3가지 상태의 전이 그래프를 이용해서, 병렬 컴퓨터인 MasPar에 적합한 한글에 대한 효율적인 부호화를 제시하고자 한다. 본 논문에서 제시한 PHDCM(Parallel Hangul Dynamic Coding Method)의 방법을 이용한 경우에 한글 한음절당 약 3.5비트이상의 축약이 가능함을 보였다. 그리고 기존의 방법과 비교해 볼때 1비트이상의 축약이 가능함도 보였다. 또한 약 천만자의 한글을 이용해서, 병렬 컴퓨터인 MasPar에 프로세서 64개를 이용하여 실제 실행을시켰을때의 가속도 (Speedup)은 49.314임을 보였다.

  • PDF

디지털 방송용 한글 허프만 부호 설계 및 PSIP 구조 (Huffman Code Design and PSIP Structure of Hangul Data for Digital Broadcasting)

  • 황재정;진경식;한학수;최준영;이진환
    • 방송공학회논문지
    • /
    • 제6권1호
    • /
    • pp.98-107
    • /
    • 2001
  • 본 논문은 한글 텍스트 데이터에 대한 부호화 효율을 극대화시키는 관점에서 예외 부호화를 통해 최적의 허프만 부호를 얻는 다. 한글 코드는 표준 완성형과 유니 코드를 대상으로 하였으며 같은 허프만 부호를 부여하였다. 현재 우리나라의 디지털 TV는 한글 문자를 압축하지 않고 전송하는 형태이며. 본격적인 데이터 방송이 시작되면 한글 데이터가 차지하는 전송량으로 인한 심자 한 문제가 야기된다. 본 논문에서는 데이터 방송에서 문제가 되는 전송량을 줄이기 위해 한글 진용 퇴적의 허프만 부호를 생성한 다. 미국의 ATSC 표준을 바탕으로 한 디지털 TV 국내 표준에 적용하기 위해 프로그램 및 시스템 프로토콜(PSIP) 구조를 제안한 다. 결과로서. 발생확률 0.0043 이하의 확률을 갖는 문자를 예외 부호화하여 최대 47%의 압축율을 얻는 기법을 제안하였다.

  • PDF

트루타입 폰트에 내장된 한글 비트맵 데이타의 압축 (Hangul Bitmap Data Compression Embedded in TrueType Font)

  • 한주현;정근호;최재영
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제33권6호
    • /
    • pp.580-587
    • /
    • 2006
  • 최근에 PDA, IMT-2000, e-Book 등이 보편화되면서 이러한 기기들을 사용하는 사용자의 수가 크게 증가하고 있다. 그러나 아직도 사용 가능한 메모리의 크기는 데스크톱 컴퓨터에 비해 상당히 적은 편이다. 이런 제품들에서, 트루타입 폰트는 품질 좋은 글꼴을 요구하는 사용자들이 증가함에 따라 수요가 증가하고 있으며, Windows CE를 탐재한 제품들에서는 기본적으로 사용되고 있다. 하지만 트루타입 폰트의 크기는 PDA와 e-Book과 같은 적은 메모리를 가진 제품들의 상당히 많은 공간을 차지하게 된다. 그러므로 트루타입 폰트외 크기를 줄이려는 노력이 요구된다. 본 논문은 트루타입 폰트에 내장된 비트맵 데이타(EBDT) 중에 한글 부분만을 줄이기 위해 2 단계의 압축과정을 거친다. 1 단계에서는 비트맵을 초성, 중성, 종성의 형태로 분리하여 합성 비트맵으로 구성하고, 2 단계에서는 분리된 각각의 비트맵들의 중복을 조사하여 제거하게 된다. 본 논문은 한글 완성형과 조합형 트루타입에 내장된 비트맵을 압축하였으며, 완성형 폰트의 경우 35%, 조합형 폰트의 경우 7%의 압축률을 보인다. 또한 완성형 트루타입의 경우 전체 트루타입 폰트의 9.26%의 압축률을 보인다.

JBIG2 부호화에서의 한글의 효율적 처리에 관한 연구 (A Study on Effective Processing of Hangul for JBIG2 Coding)

  • 강병택;김현민;고형화
    • 한국통신학회논문지
    • /
    • 제25권6B호
    • /
    • pp.1050-1059
    • /
    • 2000
  • In this paper, we propose a method to improve JBIG2 compression ratio which can be applied to Hangul text. Hangul character is composed of a few symbols which is called JASO, which needs inevitable increase of position information to be transmitted. To reduce this disadvantage, we have proposed an algorithm that generate aggregated symbol in combination of JASO symbols. Proposed algorithm shows better performance in Huffman coding than in arithmetic coding. In lossless coding, proposed algorithm showed 4.5∼16.7(%) improvement for Huffman coding and 2.9∼10.4(%) improvement for arithmetic coding. In lossy coding, proposed algorithm showed 3.7∼17.0(%) improvement for Huffman coding and 2.1∼10.5(%) improvement for arithmetic coding.

  • PDF

한글 데이터 압축코드를 위한 엔트로피 감소 (Entropy Reduction for the Code of Hangul Data Compression)

  • 이재영;성굉모;이종각
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1989년도 한글날기념 학술대회 발표논문집
    • /
    • pp.54-57
    • /
    • 1989
  • 본 논문에서는 정보원의 집합이 여러개의 부집합으로 나누어지며 정보 발생 방법은 이들 부집합을 순서적으로 선택한 후 그 부집합에서 확률에 따라 원소를 발생시키는 성질을 갖는 정보원을 인코딩할 때 데이타를 압축시킬 수 있는 엔트로피 감소 모델을 제시하였다. 방법은 정보를 전송하는 과정에서 정보원이 갖고있는 성질에 관한 정보를 제외시킴으로서 평균 정보량 즉 엔트로피를 줄이는 것이다. 이와 같은 원리로 인코딩을 하면 데이타를 압축시킬수 있다.

  • PDF

허프만부호화 방식에 의한 한글데이터의 압축에 관한 비교 연구 (A Study on the Compression Methods of Hangul Data File by the Huffman Encoding)

  • 남상기;정진욱
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1989년도 한글날기념 학술대회 발표논문집
    • /
    • pp.168-173
    • /
    • 1989
  • 데이터의 압축은 화일의 저장공간과 전송시간을 줄이는 중요한 이점을 제공한다. 국내에는 많은 경우 데이터 화일에 2 바이트로 구성된 표준한글부호를 포함하고 있다. 본 논문에서는 2 바이트로 부호화 된 한글을 포함한 데이터 화일을 허프만 부호화 방식에 의해 압축 할때 한글을 한 바이트 단위로 인식하여 압축하는 경우와 두 바이트 단위로 인식하여 압축하는 경우의 여러가지 압축 특성을 비교하였다. 아울러 사전에 조사된 한글의 찾기 순서에 따라 고정된 압축 부호를 사용하는 경우와 앞에서 제시된 방법들을 비교하였다. 비교 결과 두 바이트 단위로 인식하여 압축하는 방법이 더 좋은 압축율을 보이었다.

  • PDF

전처리에 의한 비트 맵 한글 폰트의 압축 방법 (Preprocessing Method for the Compression of Bitmapped Hangul Fonts)

  • 우정원;김홍배;조경연;이정현
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1994년도 제6회 한글 및 한국어정보처리 학술대회
    • /
    • pp.231-234
    • /
    • 1994
  • 개인용 컴퓨터의 확산과 함께 사용자 인터페이스도 많은 발전을 하여 비데오 디스플레이의 경우 다양한 서체의 글자에 대한 지원이 필요하게 되었다. 한편 비데오 디스플레이의 경우 사용자의 입력에 대하여 빠른 응답으로써 표현되어야 하므로 복잡한 계산 과정을 갖지 않는 폰트를 이용하여야 한다. 여러 가지 종류의 폰트중에서 이에 적합한 폰트는 비트 맵 폰트이나, 비트 맵 폰트는 그 특성상 모든 종류의 서체에 대하여 각각의 데이타를 따로 가지고 있어야 하므로 저장 매체의 용량이 많이 필요하다. 그러므로 이에 대하여 비트 맵 폰트를 압축하여 저장한 다음 사용시에 하드웨어에 의하여 빠르게 복원함으로써 사용자의 입력에 대하여 빠른 응답으로 대처하는 방법에 대한 연구가 이루어지고 있다. 본 논문에서는 간단한 하드웨어를 이용하여 압축 이전에 폰트를 전처리함으로써 기존의 압축을 개선하기 위한 전처리 방법을 제안한다.

  • PDF

AN EFFICIENT CODING METHODS FOR THE TWO COMPOSITION TYPES OF THE KOREAN ALPHABET ON A MASPAR MACHINE

  • Min, Yong-Sik
    • Journal of applied mathematics & informatics
    • /
    • 제5권1호
    • /
    • pp.191-200
    • /
    • 1998
  • There are two types of composition systems for the Korean alphabet: a combined system and a composite system. This paper decribes an efficient coding method for both of these two types. Using this coding method with the combined system yields about 10.5% code-length savings per a Korean character while it yields about 45% savings with the composite system. In other words the coding method produces a better result(i.e. 34.5% better) with the composite system than with the combined system. The simulation has been performed on a MasPar machine having 64 processors. The results show that the combined system achieved a 45.851-fold speedup while the composite system achieved a 47.274-fold speedup.