• Title/Summary/Keyword: 한글 압축

Search Result 35, Processing Time 0.036 seconds

A Study on the Compression Methods of Hangul Data File by the Huffman Encoding (허프만부호화 방식에 의한 한글데이터의 압축에 관한 비교 연구)

  • Nam, Sang-Kee;Chung, Jin-Wook
    • Annual Conference on Human and Language Technology
    • /
    • 1989.10a
    • /
    • pp.168-173
    • /
    • 1989
  • 데이터의 압축은 화일의 저장공간과 전송시간을 줄이는 중요한 이점을 제공한다. 국내에는 많은 경우 데이터 화일에 2 바이트로 구성된 표준한글부호를 포함하고 있다. 본 논문에서는 2 바이트로 부호화 된 한글을 포함한 데이터 화일을 허프만 부호화 방식에 의해 압축 할때 한글을 한 바이트 단위로 인식하여 압축하는 경우와 두 바이트 단위로 인식하여 압축하는 경우의 여러가지 압축 특성을 비교하였다. 아울러 사전에 조사된 한글의 찾기 순서에 따라 고정된 압축 부호를 사용하는 경우와 앞에서 제시된 방법들을 비교하였다. 비교 결과 두 바이트 단위로 인식하여 압축하는 방법이 더 좋은 압축율을 보이었다.

  • PDF

A Study on Hangul Text Compressing Using the Structural Feature of Hangul (한글의 형태적 특성을 이용한 한글 문서 압축 기법에 관한 연구)

  • Lee, Gi-Seog;Kim, Yoo-Sung
    • The Transactions of the Korea Information Processing Society
    • /
    • v.3 no.5
    • /
    • pp.1294-1306
    • /
    • 1996
  • To achieve high compression ratio for Hangul texts, in this paper two text compression algorithms which use the structural feature of Hangul, the frequency of postpositional words, are proposed. The performances of these proposed algorithms are also compared with previous text compression algorithms. The proposed compression algorithms named HLZ77 and HLZW come out from the modification of previous algorithms LZ77 and :ZW, respectively. The major distinction of the proposed ones is that the proposed algorithms use the fixed dictionary of selected postpositional words that appear most frequently in Hangul texts. The performances of HLZ77 and HLZW also are compared with those of LZ77 and LZW, respectively, with respect to the compression ratio. According to the result of performance study, the proposed algorithms are better than the previous algorithms for descriptive Hangul text snce the structural feature of Hangul is helpful to achievement of high compression ratio.

  • PDF

Entropy Coding of Hangul Data for Digital Broadcasting (디지털 방송용 한글 데이터의 엔트로피 부호화)

  • 진경식;김충일;황재정
    • Proceedings of the IEEK Conference
    • /
    • 2000.11c
    • /
    • pp.73-76
    • /
    • 2000
  • 본 논문은 표준완성형코드를 표준으로 허프만 부호를 생성하기 위해 부호화 효율이 가장 높은 곳에서 예외 부호화를 통해 최적의 허프만 부호를 얻는다. 현재 우리나라의 DTV는 한글문자를 압축하지 않고 전송하는 형태이며, 본격적인 데이터 방송이 시작되면 한글 데이터가 차지하는 전송량으로 인한 심각한 문제가 야기된다. 본 논문에서는 데이터 방송에서 문제가 되는 전송량을 줄이기 위해 한글 전용 최적의 허프만 부호를 생성하여 일련의 해결책을 찾고자 하며 영문 위주인 데이터 압축기술을 한글에 맞게 적용하여 DTV 방송용 한글 전용 압축부호를 만드는데 있다.

  • PDF

An Energy-Efficient Compression Algorithm of Korean Language for Low-Power Communications (저전력 통신을 위한 에너지 효율적인 한글 압축 알고리즘)

  • Yim, Keun-Soo;Lee, Se-Hwan;Koh, Kern
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04a
    • /
    • pp.127-129
    • /
    • 2004
  • 모바일 컴퓨팅 장비에서 전송 데이터를 압축해 송수신하는 데이터의 양을 줄임으로써 궁극적으로는 통신에 사용되는 전력 소모를 줄일 수 있다. 본 논문에서는 이 기법을 활용하여 한글 데이터를 에너지 효율적으로 전송하는 기법을 제안한다. 제안하는 알고리즘은 한글의 표기 단위인 2 바이트 단위로 데이터를 압축하며 한글의 표기상의 특성을 활용하는 장점이 있다. 실험 결과 제안하는 알고리즘은 다양한 한글 데이터에 대해서 평균적으로 압축 효율을 약 5% 가량 증가시킨다. 이와 함께 제안하는 알고리즘은 실행 시에 사용하는 에너지가 비교적 적어 기존 알고리즘에 비해 한글을 보다 에너지 효율적인 방식으로 압축해 전송함으로써 모바일 장비의 소모 전력 측면의 효율을 증가시킬 수 있다.

  • PDF

Implementation of Hangul MG System for Fast Hangul Information Retrieval (고속 한글 정보 검색을 위한 한글 MG 시스템 구현)

  • 박미란;나연묵
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1998.10b
    • /
    • pp.330-332
    • /
    • 1998
  • 정보의 양의 기하급수적인 증가에 따라 저장 용량과 검색 공간의 크기로 인한 문제를 효율적인 압축기법을 사용함으로써 해결하려는 노력이 계속되고 있다. 국내의 경우 한글 처리가 가능한 정보 검색 엔진에 대한 요구가 크게 증가하고 있다. 본 논문에서는 정보 검색 엔진에 고압축 기법을 적용한 MG(Managing Gigabytes) 1.2 시스템과 한글 형태소 분석기 HAM 4.0을 사용하여 고속 한글 정보 검색이 가능한 한글 MG 시스템을 구현하였다. 또한 인터프리터 방식의 질의 처리기를 수정하여 웹에서 한글 문서를 검색하는 한글 MG 테스트베드를 구축하였다.

Automatic generation of Hangul Johap typeface using small character set (제한된 글자 디자인에 의한 한글 조합형 글꼴의 자동생성)

  • Kang, Sang-Soo;Cho, Hwan-Gue
    • Annual Conference on Human and Language Technology
    • /
    • 1994.11a
    • /
    • pp.217-222
    • /
    • 1994
  • 한글 글꼴을 새롭게 만들려면 지금까지는 기본 글자인 자소를 디자인하든지 아니면 완성된 글자 전체를 디자인해야 했다. 조합형의 글자디자인의 경우, 전체 글자가 아니라 부분적인 한글 전자사전은 많은 양의 데이타를 저장할 수 있어야 하며, 빠른 검색 속도를 제공해야 한다. 기존의 트라이는 공통접두사만을 압축하기 때문에 사전의 크기가 방대하다는 단점이 있다. 본 논문에서는 DAWG(Directed Acyclic Word Graph)를 이용하여 공통접미사까지 압축하였고, 검색과 기억장소의 효율을 위하여, 링크드리스트 구조의 DAWG를 유형별 배열 구조로 바꾸었다. 전국의 각 학교 이름들을 대상으로 실험한 결과, 본 논문에서 제안한 DAWG를 이용한 배열 구조의 사전은 트라이와 비교하여 볼 때, 검색 연산의 성능은 동일하게 유지하면서 기억 장소의 효율과 압축율에서 효과적이었다. 또한, 트라이보다 주기억장치와 보조기억장치와의 블록 입출력횟수를 줄임으로써 전체 검색 시간을 낮출 수 있었다.소를 디자인하기 때문에 전체 글자의 모양이 좋지 않다는 단점이 있었고 완성형의 경우 완성된 글자 전체를 모두 디자인해야하는 단점이 있었다. 본 논문에서는 한글 글꼴 개발의 한 방법으로 제한된 글자의 디자인에 의한 전체 글꼴 생성에 관한 한 방법을 제시한다. 이 방법은 표준으로 설정된 몇 글자를 디자인하면 그 글자를 분석하여 자소들을 위한 글꼴 화일이 만들어지고 자소 글꼴 화일로부터 다른 모든 글자를 만들어 낸다.

  • PDF

Implementation and Exprimentation for Hangul Word Dictionary via DAWG (DAWG에 의한 한글단어사전의 구성 및 실험)

  • Shin, Seong-Hyo;Kim, Sang-Woon
    • Annual Conference on Human and Language Technology
    • /
    • 1994.11a
    • /
    • pp.207-210
    • /
    • 1994
  • 한글 전자사전은 많은 양의 데이타를 저장할 수 있어야 하며, 빠른 검색 속도를 제공해야 한다. 기존의 트라이는 공통접두사만을 압축하기 때문에 사전의 크기가 방대하다는 단점이 있다. 본 논문에서는 DAWG(Directed Acyclic Word Graph)를 이용하여 공통접미사까지 압축하였고, 검색과 기억장소의 효율을 위하여, 링크드리스트 구조의 DAWG를 유형별 배열 구조로 바꾸었다. 전국의 각 학교 이름들을 대상으로 실험한 결과, 본 논문에서 제안한 DAWG를 이용한 배열 구조의 사전은 트라이와 비교하여 볼 때, 검색 연산의 성능은 동일하게 유지하면서 기억 장소의 효율과 압축율에서 효과적이었다. 또한, 트라이보다 주기억장치와 보조기억장치와의 블록 입출력횟수를 줄임으로써 전체 검색 시간을 낮출 수 있었다.

  • PDF

Development on Improved of LZW Compression Algorithm by Mixed Text File for Embedded System (임베디드시스템을 위한 혼용텍스트 파일의 개선된 LZW 압축 알고리즘 구현)

  • Cho, Mi-Nam;Ji, Yoo-Kang
    • The Journal of the Korea Contents Association
    • /
    • v.10 no.12
    • /
    • pp.70-76
    • /
    • 2010
  • This paper Extended ELZW(EBCDIC Lempel Ziv Welch) algorithm uses 2 byte prefix field for pointer of a table and 1 byte suffix field for repeat counter. where, a prefix field uses a pointer(index) of compression table and a suffix field uses a counter of overlapping or recursion text data in compression table. To increase compression ratio, after construction of compression table, table data are properly packed as different bit string in accordance with a alphabet, Hangeul, and pointer respectively. Therefore, proposed ELZW algorithm is superior to 1byte LZW algorithm as 5.22 percent and superior to 2byte LZW algorithm as 8.96 percent.

Second Order Hangul Huffman Code Design and Optimization based on Character Correlation (문자 간 상관관계를 고려한 2 차 한글 허프만 부호 설계 및 최적화 기법)

  • Cho, Yong-Rae;Yoon, Ja-Cheon;Park, Jin-Hyung;Kang, Sin-Il;Sull, Sang-Hoon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2005.05a
    • /
    • pp.1445-1448
    • /
    • 2005
  • 국내 디지털 방송 방식이 결정되고 본격적인 디지털 방송 서비스가 시행되면서, 전자프로그램가이드 (EPG: electronic program guide), 주식 및 일기예보등의 문자 방송이 활성화 되고 있다. 특히, 지상파 디지털 방송, 위성 방송, 및 최근 대두되고 있는 DMB (Digital Media Broadcasting) 지상파/위성 방송 등에서 기존의 단순 방송 서비스외에 양방향을 위한 새로운 서비스 개발을 확대하면서 문자방송의 역할은 점점 넓어지고 있다. 본 논문은 한글 데이터의 압축 방법에 관한 것으로, 디지털 방송의 문자 방송 서비스에서 사용되는 문자들을 효율적으로 압축하는 방법을 제안한다. 특히, 현재 서비스 되고 있는 방송의 문자 정보를 분석하고 한글의 특성과 글자간의 상관관계를 고려한 2 차 한글 허프만 부호 설계 기법을 제안한다. 본 논문에서 제안한 방법은 디지털 방송에서 점점 늘어나는 문자 방송의 문자를 효율적으로 압축함으로써 제한된 대역폭을 최대한 활용할 수 있는 방법을 제공한다.

  • PDF

Huffman Code Design and PSIP Structure of Hangul Data for Digital Broadcasting (디지털 방송용 한글 허프만 부호 설계 및 PSIP 구조)

  • 황재정;진경식;한학수;최준영;이진환
    • Journal of Broadcast Engineering
    • /
    • v.6 no.1
    • /
    • pp.98-107
    • /
    • 2001
  • In this paper we derive an optimal Huffman code set with escape coding that miximizes coding efficiency for the Hangul text data. The Hangul code can be represented in the standard Wansung or Unicode format, and we can generate a set of Huffamn codes for both. The current Korean DT standard has not defined a Hangul compression algorithm which may be confronted with a serious data rate for the digital data broadcasting system Generation of the optimal Huffman code set is to solve the data transmission problem. A relevant PSIP structure for the DTB standard is also proposed As a result characters which have the probability of less than 0.0043 are escape coded, showing the optimum compression efficiency of 46%.

  • PDF