• 제목/요약/키워드: 한글 문자 부호화

검색결과 12건 처리시간 0.025초

한글의 정보처리 및 통신용 부호 최적화를 위한 한국어 분석 (Analysis of Korean Language to Optimize the Hangul Character Coding for Information Processing and Communication)

  • 홍완표
    • 한국전자통신학회논문지
    • /
    • 제10권3호
    • /
    • pp.375-380
    • /
    • 2015
  • 본 논문은 정보처리 및 전송용으로 사용되는 한글의 부호화를 최적화할 수 있도록 하기 위하여 한국어를 연구하였다. 본 논문은 한국어 구성하고 있는 한글의 구성현황과 그 한글들에 대한 각각의 사용빈도를 분석하였다. 본 논문은 본 연구결과 분석된 한글의 구성현황을 한국 KS 문자 표준과 국제 문자표준인 유니코드로 부호화되어 있는 한글 문자와 비교하였다. 연구를 위해 사용된 한국어는 국립국어원의 "현대국어사용빈도조사결과"를 대상으로 하였다. 이 보고서에 수록된 한국어는 총 58.437개이다. 분석결과 한국어 총58,437국어를 구성하고 있는 한글은 총1,540개였다. 이 총1,540개 한국어 중에서 사용빈도가 가장 높은 글자는 "다"로서 전체 사용빈도의 15%였다. 사용빈도가 가장 낮은 글자는 "휫"으로서 전체사용빈도의 0.00003%였다. 한국어를 구성하고 있는 한글 글자수는 유니코드 한글문자 부호를 구성하고 있는 한글 수 보다 약 7.2배, KS X 1001 한글문자 부호를 구성하고 있는 한글 수보다 약 1.5배 적은 것으로 나타났다.

디지털 방송용 한글 데이터의 엔트로피 부호화 (Entropy Coding of Hangul Data for Digital Broadcasting)

  • 진경식;김충일;황재정
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2000년도 추계종합학술대회 논문집(3)
    • /
    • pp.73-76
    • /
    • 2000
  • 본 논문은 표준완성형코드를 표준으로 허프만 부호를 생성하기 위해 부호화 효율이 가장 높은 곳에서 예외 부호화를 통해 최적의 허프만 부호를 얻는다. 현재 우리나라의 DTV는 한글문자를 압축하지 않고 전송하는 형태이며, 본격적인 데이터 방송이 시작되면 한글 데이터가 차지하는 전송량으로 인한 심각한 문제가 야기된다. 본 논문에서는 데이터 방송에서 문제가 되는 전송량을 줄이기 위해 한글 전용 최적의 허프만 부호를 생성하여 일련의 해결책을 찾고자 하며 영문 위주인 데이터 압축기술을 한글에 맞게 적용하여 DTV 방송용 한글 전용 압축부호를 만드는데 있다.

  • PDF

디지털 방송용 한글 허프만 부호 설계 및 PSIP 구조 (Huffman Code Design and PSIP Structure of Hangul Data for Digital Broadcasting)

  • 황재정;진경식;한학수;최준영;이진환
    • 방송공학회논문지
    • /
    • 제6권1호
    • /
    • pp.98-107
    • /
    • 2001
  • 본 논문은 한글 텍스트 데이터에 대한 부호화 효율을 극대화시키는 관점에서 예외 부호화를 통해 최적의 허프만 부호를 얻는 다. 한글 코드는 표준 완성형과 유니 코드를 대상으로 하였으며 같은 허프만 부호를 부여하였다. 현재 우리나라의 디지털 TV는 한글 문자를 압축하지 않고 전송하는 형태이며. 본격적인 데이터 방송이 시작되면 한글 데이터가 차지하는 전송량으로 인한 심자 한 문제가 야기된다. 본 논문에서는 데이터 방송에서 문제가 되는 전송량을 줄이기 위해 한글 진용 퇴적의 허프만 부호를 생성한 다. 미국의 ATSC 표준을 바탕으로 한 디지털 TV 국내 표준에 적용하기 위해 프로그램 및 시스템 프로토콜(PSIP) 구조를 제안한 다. 결과로서. 발생확률 0.0043 이하의 확률을 갖는 문자를 예외 부호화하여 최대 47%의 압축율을 얻는 기법을 제안하였다.

  • PDF

Unicode의 UTF-8 부호화 방식의 HDB-3 스크램블링 방식과의 적합성 (Compatibility of UTF-8 Encoding System to HDB-3 Scrambling Method)

  • 홍완표
    • 한국전자통신학회논문지
    • /
    • 제8권2호
    • /
    • pp.227-240
    • /
    • 2013
  • 본 논문에서는 국내 표준규격인 HDB-3 스크램블링 방식을 기준으로 유니코드(Unicode)의 한글낱자 및 호환용 한글낱자 부호와 이 부호가 UTF-8 부호체계로 변환되었을 때 원천부호화 규칙에 얼마나 부합되는지 여부를 분석하였다. 연구결과 유니코드 한글낱자 및 호환용 한글 낱자 부호체계와 UTF-8부호체계내에 문자의 원천 부호화 규칙에 위배되는 부호가 상당히 존재하는 것으로 나타났다. 특히 UTF-8로 변환함에 따라 그 위배율이 증가하는 것으로 분석되었다.

ISO 14651에 의한 한글 ordering의 문제점과 그 해결 방안 (Some Problems on the Ordering of Hangout by ISO 14651 and a Proposal for their Resolutions)

  • 김종휘;김경석
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (2)
    • /
    • pp.187-189
    • /
    • 2001
  • 문자열 간추리기(string ordering)에 관한 국제 표준인 ISO 14651의 내용 중 공통틀표(CTT)의 한글 관련 규정은, 첫 가끝 조합형과 완성형 어느 쪽으로도 부호화가 가능한 한글 문서의 특성을 무시하여 이들을 분리하여 기술함으로써 두 부호값 체계에 대한 상호 연관성과 통일성을 잃고 있다. 또한 ordering에 필수적인 UCS 완성형 글자마디의 무게값(weight)을 할당하지 않음으로써 형식적 완결성과 내용적 명료성을 잃고 있다. 이에 따라 본 논문은 CTT의 규정을 한글 문서의 부호화 방법에 따라 유형별로 검토하여 그 문제점을 지적하고, 이와 관련하여 어떤 한글 문서이든 이를 일관성 있게 ordering할 수 있도록 하는 \"CTT 한글 부분의 개정 방안\"을 제안함으로써 한글 ordering과 관련된 현 CTT 상의 여러 문제점들을 해결하고자 하였다.해결하고자 하였다.

  • PDF

훈민정음 표현을 위한 최적 폰트 설계 (An Optimized Font Design for Hunminjeongeum Representation)

  • 김경욱;변정용
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2008년도 제20회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.53-57
    • /
    • 2008
  • 1987년 정보교환용 부호가 완성음절형 부호계로 개정되면서 한글 음절 표현은 극히 제한되어 컴퓨터상에서 한글의 표현은 제약을 받게 되었다. 1446년 훈민정음이 공포된 후로 목판, 활자시대를 지나서 타자기를 만나면서 한자와 다른 길을 걸어왔다. 특히 컴퓨터시대가 되면서 한글은 타자 이상의 적합성을 가지고 있지만 훈민정음 창제원리에 대한 이해부족으로 음절문자로 분류하여 완성음절형 부호를 지원하게 됨에 따라서 많은 문제를 야기하고 있다. 국제표준인 유니코드에는 세가지 종류의 부호가 반영되어 있는데 음절문자 중심의 부호화이므로 훈민정음의 특성을 해치는 일이며 또한 한글의 과학성을 부정하는 일이기도 하다. 본 논문은 훈민정음 창제원리에 입각하지 않음으로 생긴 문제에 대한 근본적인 해결책으로 훈민정음을 표현하는 최적 폰트 설계 방안을 검토하고 현행의 한글부코드표준의 개선 방향을 제시하고자 한다.

  • PDF

유니코드 기반 UTF-8 한글글자마디 부호의 회선부호기내 스크램블링 발생에 관한 연구 (Study on Scrambling Occurrence in Line Coder for UTF-8 Hangul Syllable Code based on Unicode)

  • 홍완표
    • 한국전자통신학회논문지
    • /
    • 제10권7호
    • /
    • pp.831-836
    • /
    • 2015
  • 본 논문은 국제적 문자부호체계인 유니코드 체계를 기반으로 한 한글글자마디의 UTF-8부호가 회선부호기상에서 어느 정도 스크램블링이 발생하는 지를 연구하였다. 회선부호기의 ${\ldots}$ 경우를 대상으로 하였다. 이것은 ITU-T의 규격중 AMI 회선부호기에 적용되는 HDB-3 스크램블링과 관련된다. 본 논문은 스크램블링이 발생하는 문자의 코드를 분석하기 위해 문자의 원천부호화 규칙을 적용하였다. 연구결과 유니코드를 기반으로 하는 UTF-8한글글자마디부호 중에서 약 39%의 스크램블링이 발생하는 것으로 분석되었다.

정보교환용 조선글 부호 KPS 9566-97의 분석 (An Analysis of KPS 9566-97 Korean Character Code for Information Interchange)

  • 변정용
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2001년도 제13회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.199-204
    • /
    • 2001
  • 분단으로 빚어진 남북한 사회의 이질화는 한글과 조선글이라는 쌍둥이의 탄생으로 연결되고, 이들 둘은 자모순이 다르고 음절 부호화 방식을 채택하였기 때문에 정보교환을 함에 있어서 돌아오지 못할 다리를 건너고 말았다. 이제 남북경협의 본격화가 예상되고 그에 따른 정보교환의 급증이 예상되는 시점에서 최근 개정된 조선글 두바이트 부호 국규 9566-97의 분석을 통하여 양 문자를 통합할 수 있는 기틀을 마련하고자 한다 여기서 문제 해결의 핵심은 자모순이 서로 다름으로 인하여 빚어지는 것으로 이들 남북의 자모순 및 정보교환용 문자부호 표준화를 위하여 몇 가지 모색을 하고 방법을 논한다. 또한 남한안 일변도인 국제 문자부호 표준에 대하여 북한의 수정요구가 진행되고 있고 그 내용과 조선글 두바이트 부호안을 종합하여 표준을 마련하기 위한 기본 방향을 설정하고 허배선생의 연구를 통하여 새로운 자모순 모색의 가능성을 논한다.

  • PDF

영상과 문자정보의 통합 부호화에 관한 연구 (A Study on the Integrated Coding of Image and Document Data)

  • 이헌주;박구만;박규태
    • 대한전자공학회논문지
    • /
    • 제26권7호
    • /
    • pp.42-49
    • /
    • 1989
  • 본 연구에서는 영상에 한글 및 영문숫자로 구성된 문서정보를 심을 수 있는 새로운 통합 부호화 방법을 제안하였다. 계조도를 갖는 영상에 대해 임의의 단계로 재양자화한 화소들을 대응하는 마이크로 패턴을 할당하여 영상을 재구성한 후 이진 출력장치에 표시할 수 있다. 그리고 , 각 마이크로 패턴에 문자정보를 할당하여 심을 수 있다. 이러한 개념을 기초로, 고속 부호화 및 복호화 알고리듬을 구현하여 실험을 수행하였다. 실험결과, $64{\times}64$ 화소의 영상을 마이크로 패턴으로 이진화한 영상에 화소 당 평균 약 8.5비트의 문자정보, 즉 한글 2000자 또는 영문자 4000자 이상을 심을 수 있었다. 이를 이용하여 영상과 문서의 통합 개인 신상기록 시스템을 구현하였다.

  • PDF

AMI/HDB-3 회선부호화 및 HDLC FLAG를 고려한 KS X 1001 정보교환용 한글낱자 부호체계 개선연구 (A Study on the Hangul Character Code System for KS X 1001 Information Interchange considering AMI/HDB-3 Line Encoding and HDLC Flag)

  • 우제택;홍완표
    • 한국전자통신학회논문지
    • /
    • 제10권1호
    • /
    • pp.65-72
    • /
    • 2015
  • 스크램블링 기술을 적용한 AMI/HDB-3 방식은 장거리 데이터전송 회선부호화에 주로 사용된다. 본 논문은 정보통신용 부호 표준(KS X 1001 ; 2014 확인)에 규정되어 있는 한글낱자, 한글고어낱자용 부호집합에 대하여 데이터 링크 계층에서 HDLC Flag의 비트 또는 문자 스터핑과 물리계층의 AMI/HDB-3 스크램블링 측면에서 데이터 전송효율을 높이는 새로운 한글낱자용 부호집합 체계를 제시하였다. 기존 부호집합 체계와 비교를 위해 ($4{\times}4$) 비트 원천부호화 규칙과 한글낱자 사용빈도 통계를 적용한 결과, 약 22.01%의 데이터 처리효율이 향상되는 것으로 나타났다.