Hangul Encoding Standard based on Unicode

유니코드의 한글 인코딩 표준안

  • 안대혁 (한국마이크로소프트 소프트웨어연구소, 명지대학교 컴퓨터공학과) ;
  • 박영배 (명지대학교 컴퓨터공학과)
  • Published : 2007.12.15

Abstract

In Unicode, two types of Hangul encoding schemes are currently in use, namely, the "precomposed modern Hangul syllables" model and the "conjoining Hangul characters" model. The current Unicode Hangul conjoining rules allow a precomposed Hangul syllable to be a member of a syllable which includes conjoining Hangul characters; this has resulted in a number of different Hangul encoding implementations. This unfortunate problem stems from an incomplete understanding of the Hangul writing system when the normalization and encoding schemes were originally designed. In particular, the extended use of old Hangul was not taken into consideration. As a result, there are different ways to represent Hangul syllables, and this cause problem in the processing of Hangul text, for instance in searching, comparison and sorting functions. In this paper, we discuss the problems with the normalization of current Hangul encodings, and suggest a single efficient rule to correctly process the Hangul encoding in Unicode.

현재 유니코드에서 한글 텍스트의 인코딩 기법은 '완성형 현대한글 음절'과 주로 옛한글을 표현하는데 사용되는 '자모 조합형 한글'로 나뉘고 있다. 그러나 정규화 변환과 유니코드의 한글자모 조합 규정에서 자모와 완성형 현대한글 음절을 다시 조합하여 한글음절로 사용할 수 있게 허용했기 때문에, 구현하는 사람마다 각기 서로 다르게 한글 인코딩을 하고 있다. 이는 인코딩과 정규화 형식을 처음 작성할 당시 옛한글의 확장 사용을 고려하지 않았거나, 한글에 대한 올바른 이해가 부족한 상태에서 작성된 데 따른 결과라 하겠다. 결과적으로 한 개의 한글음절에 대한 여러 가지 표현 방법이 존재함으로써 한글 문자열의 검색, 비교, 정렬에 문제점이 발생한다. 따라서 본 연구에서는 현재 사용되고 있는 한글 인코딩 방법을 중심으로 정규화에 의한 부작용 등의 문제점을 분석하고, 이들을 올바르게 처리하기 위한 효율적인 단일 한글 인코딩 표준 방안을 제안한다.

Keywords

References

  1. 산업표준심의회, '국제 문자 부호 계 KS X 1005', 한국표준협회, 2002
  2. The Unicode Consortium, 'The Unicode Standard 5.0,' Addison-Wesley, 2006
  3. Mark Davis, Matrin Durst, 'Unicode Normalization Forms 5.0.0 - UAX #15,' The Unicode Consortium, 2006
  4. Matrin Durst, François Yergeau, Richard Ishida, Misha Wolf, Tex Texin, 'Character Model for the World Wide Web 1.0: Normalization,' The World Wide Web Consortium (W3C), 2005
  5. Tim Bray, Jean Paoli, C. M. Sperberg-McQueen, Eve Maler, François Yergeau, 'Extensible Markup Language (XML) 1.0,' The World Wide Web Consortium (W3C), 2006, Appendix B. Definitions for Character Normalization
  6. Patrick Faltstrom and Paul Hoffman, Adam M. Costello, 'Internationalizing Domain Names in Applications (IDNA) - RFC 3490,' The Internet Engineering Task Force (IETF), 2003, Section 10. Security Considerations
  7. 안대혁, 박영배, '유니코드 환경에서의 올바른 한글 정규화를 위한 수정 방안', 정보과학회 논문지 제34권 2호, 2007, pp. 169-177
  8. 안상규, 김성재, 신병훈, '마이크로소프트 워드2002에서의 옛한글 구현', 한국마이크로소프트, 2001
  9. Microsoft, 'Creating and Supporting OpenType fonts for Old Hangul,' Microsoft Corp, 2000
  10. 산업표준심의회, '정보 교환용 부호계(한글 및 한자) KS X 1001', 한국표준협회, 2004
  11. (주)한글과컴퓨터, '한글코드와 자판에 대한 기초 연구', 문화부, 1992, pp. 15-72
  12. 이승호, 이수연, 정호원, 강태진, 김경석, 변정용, 이동철, 이준희, 안대혁, 조증성, '단일문자 표준 연구', 한국전산원, 1993
  13. 기술표준원, '국제문자부호계 KS규격의 국제규격부합화 연구', 한국표준협회, 2000
  14. 홍윤표, '한글코드에 관한 연구', 국립국어연구원, 1995
  15. 정우봉, '문자코드 표준화 연구', 국립국어원, 2004, pp. 11-19
  16. Unicode, 'Unicode Standard Annex #28 - Unicode 3.2,' The Unicode Consortium, 2002, Section 3.11 Conjoining Jamo Behavior (revision)
  17. Mark Davis, 'Draft Unicode Technical Report #15, Revision 11,' The Unicode Consortium, 1999, Section 'Hangul Composition'
  18. 안대혁, 김경석, 'A Proposal to add new Hangul Jamo extended characters to BMP of UCS,' ISO/IEC SC2/WG2 N3168, 2006
  19. Mike Ksar, 'Resolutions of WG 2 meeting 50,' ISO/IEC SC2/WG2 N3254, 2007, Resolution M50.34 (Hangul Jamo additions)
  20. ISO/IEC SC2, 'ISO/IEC 10646: 2003/PDAM 5 Ballot,' ISO/IEC SC 2 N 3940, 2007