• 제목/요약/키워드: 한글 압축

검색결과 35건 처리시간 0.027초

허프만부호화 방식에 의한 한글데이터의 압축에 관한 비교 연구 (A Study on the Compression Methods of Hangul Data File by the Huffman Encoding)

  • 남상기;정진욱
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1989년도 한글날기념 학술대회 발표논문집
    • /
    • pp.168-173
    • /
    • 1989
  • 데이터의 압축은 화일의 저장공간과 전송시간을 줄이는 중요한 이점을 제공한다. 국내에는 많은 경우 데이터 화일에 2 바이트로 구성된 표준한글부호를 포함하고 있다. 본 논문에서는 2 바이트로 부호화 된 한글을 포함한 데이터 화일을 허프만 부호화 방식에 의해 압축 할때 한글을 한 바이트 단위로 인식하여 압축하는 경우와 두 바이트 단위로 인식하여 압축하는 경우의 여러가지 압축 특성을 비교하였다. 아울러 사전에 조사된 한글의 찾기 순서에 따라 고정된 압축 부호를 사용하는 경우와 앞에서 제시된 방법들을 비교하였다. 비교 결과 두 바이트 단위로 인식하여 압축하는 방법이 더 좋은 압축율을 보이었다.

  • PDF

한글의 형태적 특성을 이용한 한글 문서 압축 기법에 관한 연구 (A Study on Hangul Text Compressing Using the Structural Feature of Hangul)

  • 이기석;김유성
    • 한국정보처리학회논문지
    • /
    • 제3권5호
    • /
    • pp.1294-1306
    • /
    • 1996
  • 본 논문에서는 한글 문서에 대해 높은 압축률을 얻기 위해 한글의 형태적 특징인 조사와 어말어미의 출현 빈도를 이용한 효율적인 한글 문서 압축 기법들을 제안하였으며 제안된 기법들의 성능 분석을 위하여 기존의 압축 기법들과 압축률을 비교 분석하였다. 한글 문서에서 조사와 어말어미가 반복적으로 출현한다는 형태적인 특성으로부터 높은 압축률을 얻기 위해 출현 빈도가 상대적으로 높은 64개의 조사 및 어말어미를 선정 하여 고정 사전을 구성하고, 이를 이용하여 한글 문서를 압축하도록 기존의 LZ77기법과 LZW기법을 수정하여 각각 HLZ77기법과 HLZW기법을 제안하였다. 또한, 본 연구에서는 수정 제안된 HLZ77기법과 HLZW기법의 성능을 분석하기 위하여 4가지 기법을 실 제 재현하여 여러 형태의 한글 문서를 대상으로 압축률을 비교하였다. 성능 결과로 부터 일반적인 한글 문서에 대해 한글의 형태적인 특성을 이용하는 HLZ77기법과 HLZW 기법이 각각 LZ77기법과 LZW기법 보다 우수한 압축률을 나타냄을 알 수 있었다.

  • PDF

디지털 방송용 한글 데이터의 엔트로피 부호화 (Entropy Coding of Hangul Data for Digital Broadcasting)

  • 진경식;김충일;황재정
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2000년도 추계종합학술대회 논문집(3)
    • /
    • pp.73-76
    • /
    • 2000
  • 본 논문은 표준완성형코드를 표준으로 허프만 부호를 생성하기 위해 부호화 효율이 가장 높은 곳에서 예외 부호화를 통해 최적의 허프만 부호를 얻는다. 현재 우리나라의 DTV는 한글문자를 압축하지 않고 전송하는 형태이며, 본격적인 데이터 방송이 시작되면 한글 데이터가 차지하는 전송량으로 인한 심각한 문제가 야기된다. 본 논문에서는 데이터 방송에서 문제가 되는 전송량을 줄이기 위해 한글 전용 최적의 허프만 부호를 생성하여 일련의 해결책을 찾고자 하며 영문 위주인 데이터 압축기술을 한글에 맞게 적용하여 DTV 방송용 한글 전용 압축부호를 만드는데 있다.

  • PDF

저전력 통신을 위한 에너지 효율적인 한글 압축 알고리즘 (An Energy-Efficient Compression Algorithm of Korean Language for Low-Power Communications)

  • 임근수;이세환;고건
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (A)
    • /
    • pp.127-129
    • /
    • 2004
  • 모바일 컴퓨팅 장비에서 전송 데이터를 압축해 송수신하는 데이터의 양을 줄임으로써 궁극적으로는 통신에 사용되는 전력 소모를 줄일 수 있다. 본 논문에서는 이 기법을 활용하여 한글 데이터를 에너지 효율적으로 전송하는 기법을 제안한다. 제안하는 알고리즘은 한글의 표기 단위인 2 바이트 단위로 데이터를 압축하며 한글의 표기상의 특성을 활용하는 장점이 있다. 실험 결과 제안하는 알고리즘은 다양한 한글 데이터에 대해서 평균적으로 압축 효율을 약 5% 가량 증가시킨다. 이와 함께 제안하는 알고리즘은 실행 시에 사용하는 에너지가 비교적 적어 기존 알고리즘에 비해 한글을 보다 에너지 효율적인 방식으로 압축해 전송함으로써 모바일 장비의 소모 전력 측면의 효율을 증가시킬 수 있다.

  • PDF

고속 한글 정보 검색을 위한 한글 MG 시스템 구현 (Implementation of Hangul MG System for Fast Hangul Information Retrieval)

  • 박미란;나연묵
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1998년도 가을 학술발표논문집 Vol.25 No.2 (1)
    • /
    • pp.330-332
    • /
    • 1998
  • 정보의 양의 기하급수적인 증가에 따라 저장 용량과 검색 공간의 크기로 인한 문제를 효율적인 압축기법을 사용함으로써 해결하려는 노력이 계속되고 있다. 국내의 경우 한글 처리가 가능한 정보 검색 엔진에 대한 요구가 크게 증가하고 있다. 본 논문에서는 정보 검색 엔진에 고압축 기법을 적용한 MG(Managing Gigabytes) 1.2 시스템과 한글 형태소 분석기 HAM 4.0을 사용하여 고속 한글 정보 검색이 가능한 한글 MG 시스템을 구현하였다. 또한 인터프리터 방식의 질의 처리기를 수정하여 웹에서 한글 문서를 검색하는 한글 MG 테스트베드를 구축하였다.

제한된 글자 디자인에 의한 한글 조합형 글꼴의 자동생성 (Automatic generation of Hangul Johap typeface using small character set)

  • 강상수;조환규
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1994년도 제6회 한글 및 한국어정보처리 학술대회
    • /
    • pp.217-222
    • /
    • 1994
  • 한글 글꼴을 새롭게 만들려면 지금까지는 기본 글자인 자소를 디자인하든지 아니면 완성된 글자 전체를 디자인해야 했다. 조합형의 글자디자인의 경우, 전체 글자가 아니라 부분적인 한글 전자사전은 많은 양의 데이타를 저장할 수 있어야 하며, 빠른 검색 속도를 제공해야 한다. 기존의 트라이는 공통접두사만을 압축하기 때문에 사전의 크기가 방대하다는 단점이 있다. 본 논문에서는 DAWG(Directed Acyclic Word Graph)를 이용하여 공통접미사까지 압축하였고, 검색과 기억장소의 효율을 위하여, 링크드리스트 구조의 DAWG를 유형별 배열 구조로 바꾸었다. 전국의 각 학교 이름들을 대상으로 실험한 결과, 본 논문에서 제안한 DAWG를 이용한 배열 구조의 사전은 트라이와 비교하여 볼 때, 검색 연산의 성능은 동일하게 유지하면서 기억 장소의 효율과 압축율에서 효과적이었다. 또한, 트라이보다 주기억장치와 보조기억장치와의 블록 입출력횟수를 줄임으로써 전체 검색 시간을 낮출 수 있었다.소를 디자인하기 때문에 전체 글자의 모양이 좋지 않다는 단점이 있었고 완성형의 경우 완성된 글자 전체를 모두 디자인해야하는 단점이 있었다. 본 논문에서는 한글 글꼴 개발의 한 방법으로 제한된 글자의 디자인에 의한 전체 글꼴 생성에 관한 한 방법을 제시한다. 이 방법은 표준으로 설정된 몇 글자를 디자인하면 그 글자를 분석하여 자소들을 위한 글꼴 화일이 만들어지고 자소 글꼴 화일로부터 다른 모든 글자를 만들어 낸다.

  • PDF

DAWG에 의한 한글단어사전의 구성 및 실험 (Implementation and Exprimentation for Hangul Word Dictionary via DAWG)

  • 신성효;김상운
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1994년도 제6회 한글 및 한국어정보처리 학술대회
    • /
    • pp.207-210
    • /
    • 1994
  • 한글 전자사전은 많은 양의 데이타를 저장할 수 있어야 하며, 빠른 검색 속도를 제공해야 한다. 기존의 트라이는 공통접두사만을 압축하기 때문에 사전의 크기가 방대하다는 단점이 있다. 본 논문에서는 DAWG(Directed Acyclic Word Graph)를 이용하여 공통접미사까지 압축하였고, 검색과 기억장소의 효율을 위하여, 링크드리스트 구조의 DAWG를 유형별 배열 구조로 바꾸었다. 전국의 각 학교 이름들을 대상으로 실험한 결과, 본 논문에서 제안한 DAWG를 이용한 배열 구조의 사전은 트라이와 비교하여 볼 때, 검색 연산의 성능은 동일하게 유지하면서 기억 장소의 효율과 압축율에서 효과적이었다. 또한, 트라이보다 주기억장치와 보조기억장치와의 블록 입출력횟수를 줄임으로써 전체 검색 시간을 낮출 수 있었다.

  • PDF

임베디드시스템을 위한 혼용텍스트 파일의 개선된 LZW 압축 알고리즘 구현 (Development on Improved of LZW Compression Algorithm by Mixed Text File for Embedded System)

  • 조미남;지유강
    • 한국콘텐츠학회논문지
    • /
    • 제10권12호
    • /
    • pp.70-76
    • /
    • 2010
  • 최근의 스마트폰, 임베디드시스템 등의 정보통신 단말기는 데이터의 송 수신 및 분산처리 등의 업무를 수행하기 위하여 데이터의 크기를 축소시키는 압축률 향상이 매우 크게 대두되어졌다. 일반적으로 텍스트의 압축에는 LZW(Lempel Ziv Welch)알고리즘을 활용하고 있다. 그러나 LZW알고리즘은 1Byte 조합형 텍스트(알파벳 등)의 압축에는 효율적이나 2Byte 완성형 텍스트(한글 등)에 압축률이 현저하게 저하되는 단점을 가지고 있다. 이를 극복하기 위하여 본 논문에서는 2Byte 전위 필드(prefix)와 반복 계수를 위한 1Byte 후위 필드(suffix)를 사용하는 확장된 ELZW(EBCDIC Lempel Ziv Welch)알고리즘을 제안한다. 제안 알고리즘은 압축률 증가를 위해 압축사전을 구성하여, 알파벳, 한글, 포인터에 따라 각각 서로 다른 비트 스트링으로 적절하게 패킹된다. 제안하는 알고리즘의 성능분석을 위하여 각 140,355byte의 영문, 한글, 한영혼용 텍스트를 비교 실험하였고, 실험결과 제안한 ELZW알고리즘의 압축률은 기존의 1Byte 방식의 LZW 알고리즘보다 5.22% 더 우수하고, 2Byte LZW 알고리즘 보다 8.96% 더 우수함을 보였다.

문자 간 상관관계를 고려한 2 차 한글 허프만 부호 설계 및 최적화 기법 (Second Order Hangul Huffman Code Design and Optimization based on Character Correlation)

  • 조용래;윤자천;박진형;강신일;설상훈
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2005년도 춘계학술발표대회
    • /
    • pp.1445-1448
    • /
    • 2005
  • 국내 디지털 방송 방식이 결정되고 본격적인 디지털 방송 서비스가 시행되면서, 전자프로그램가이드 (EPG: electronic program guide), 주식 및 일기예보등의 문자 방송이 활성화 되고 있다. 특히, 지상파 디지털 방송, 위성 방송, 및 최근 대두되고 있는 DMB (Digital Media Broadcasting) 지상파/위성 방송 등에서 기존의 단순 방송 서비스외에 양방향을 위한 새로운 서비스 개발을 확대하면서 문자방송의 역할은 점점 넓어지고 있다. 본 논문은 한글 데이터의 압축 방법에 관한 것으로, 디지털 방송의 문자 방송 서비스에서 사용되는 문자들을 효율적으로 압축하는 방법을 제안한다. 특히, 현재 서비스 되고 있는 방송의 문자 정보를 분석하고 한글의 특성과 글자간의 상관관계를 고려한 2 차 한글 허프만 부호 설계 기법을 제안한다. 본 논문에서 제안한 방법은 디지털 방송에서 점점 늘어나는 문자 방송의 문자를 효율적으로 압축함으로써 제한된 대역폭을 최대한 활용할 수 있는 방법을 제공한다.

  • PDF

디지털 방송용 한글 허프만 부호 설계 및 PSIP 구조 (Huffman Code Design and PSIP Structure of Hangul Data for Digital Broadcasting)

  • 황재정;진경식;한학수;최준영;이진환
    • 방송공학회논문지
    • /
    • 제6권1호
    • /
    • pp.98-107
    • /
    • 2001
  • 본 논문은 한글 텍스트 데이터에 대한 부호화 효율을 극대화시키는 관점에서 예외 부호화를 통해 최적의 허프만 부호를 얻는 다. 한글 코드는 표준 완성형과 유니 코드를 대상으로 하였으며 같은 허프만 부호를 부여하였다. 현재 우리나라의 디지털 TV는 한글 문자를 압축하지 않고 전송하는 형태이며. 본격적인 데이터 방송이 시작되면 한글 데이터가 차지하는 전송량으로 인한 심자 한 문제가 야기된다. 본 논문에서는 데이터 방송에서 문제가 되는 전송량을 줄이기 위해 한글 진용 퇴적의 허프만 부호를 생성한 다. 미국의 ATSC 표준을 바탕으로 한 디지털 TV 국내 표준에 적용하기 위해 프로그램 및 시스템 프로토콜(PSIP) 구조를 제안한 다. 결과로서. 발생확률 0.0043 이하의 확률을 갖는 문자를 예외 부호화하여 최대 47%의 압축율을 얻는 기법을 제안하였다.

  • PDF