• 제목/요약/키워드: Unicode

검색결과 68건 처리시간 0.025초

21세기 세종계획 원시 말뭉치의 유니코드와 코드 변환 (Unicode and Code Conversion for Sejong 21 Raw Corpus)

  • 강승식
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2009년도 제21회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.262-265
    • /
    • 2009
  • 21세기 세종계획은 국어정보화를 위한 범국가적 사업으로서 국어 기초 자원을 구축하는데 매우 큰 기여를 하였으며, 그 주요 결과물로 배포된 세종 말뭉치는 많은 연구자들에게 꼭 필요한 가치있는 결과물이다. 이처럼 소중한 국어 자원을 실제 연구자들이 활용하고자 할 때 불편함을 느끼는 경우가 있는데 그 이유는 균형 말뭉치의 구축이라는 말뭉치의 특성 및 원문 자료의 내용을 최대한 보존하기 위한 노력의 일환으로 사용자 정의 영역에 정의된 문자들이 다수 포함되어 있기 때문이다. 본 논문에서는 자연언어 처리, 정보검색 분야 연구자들이 세종계획 최종 결과물 중에서 원시 말뭉치를 활용하는데 있어서 말뭉치에 사용된 문자코드의 유형을 중심으로 코드 변환 문제점과 그 해결 방안을 모색하고자 한다.

  • PDF

한국과 중국의 MeSH 호환성 연구 (A study of MeSH Compatibility between Korea and Chinese)

  • 권영규;이병욱
    • 대한한의정보학회지
    • /
    • 제11권2호
    • /
    • pp.65-82
    • /
    • 2005
  • The findings from this study are summarized as follows: 1. Hangul 2004 has 16,023 Chinese Character codes. Among them, 15,231 Chinese Character codes are searched by DB, the others are unsearchable codes. 2. Among 15,231 Chinese Character codes of Hangul 2004, 2,471 Chinese Character codes are converted into 2,232 Simplified Chinese Character codes by Traditional and Simplified Chinese Character Converting program in Hangul 2004. 3. The 5th edition TCM-MeSH has 6,385 thesauruses and 2,142 kinds of Chinese Characters. 4. If we use Simplified Chinese Character of Hangul 2004 to search for TCM-MeSH, we will find 94.3% of TCM-MeSH. But If we use Traditional Chinese Character of Hangul 2004 to search for TCM-MeSH, we will find only 34.2% of TCM-MeSH.

  • PDF

효율적인 HL7 메시지 파싱 알고리즘 (An Efficient Algorithm for HL7 Message Parsing)

  • 트란퉁;김형회;조훈;김화선
    • 대한전기학회논문지:시스템및제어부문D
    • /
    • 제55권6호
    • /
    • pp.274-278
    • /
    • 2006
  • An upgraded algorithm that in proves the performance of existing interfacing software for parsing HL7 messages is introduced. It incorporates stack operations on objects to guarantee segment order while parsing messages. This object-oriented design greatly facilitates the complicated process of validating, parsing, and creating HL7 messages in the clinical setting. The new interface engine can manage all HL7 messages corresponding to admission and registration, discharge and transfer, laboratory results, clinical images, and clinical reports. The international version of this engine, currently under development, will be tested in Asian countries using standard character code such as Unicode (ISO 10646).

자소 자동생성 알고리듬 기반의 한글 글꼴 에디터 (Hangul Font Editor based on Automatic Glyph Generator)

  • 김현영;심승민;임순범;박기덕;최경선
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2015년도 춘계학술발표대회
    • /
    • pp.1013-1014
    • /
    • 2015
  • 본 논문에서는 한글 글꼴의 기본 구성요소인 자소를 자동 생성하는 기법을 기반하여 한글의 전체 글꼴을 효율적으로 제작할 수 있는 글꼴 에디터를 개발한다. 본 글꼴 에디터에서는 몇 개의 기본 자소만을 설계하고 나면 KSX1001 표준한글 2350자 및 Unicode 표준한글 11172자 문자들을 자동생성할 수 있다. 이를 이용하여 한글 서체의 디자인 작업 시간을 크게 줄일 수 있었다.

훈민정음 확장 가능성에 대한일반문자학적 검토 (The Globalization of the Korean Script from Scriptological View.)

  • 연규동
    • 한국어학
    • /
    • 제80권
    • /
    • pp.125-150
    • /
    • 2018
  • This paper discusses several prerequisites for recording other languages by using Hunminjeongum (Hangeul). The scientific, systematic, and practical features of Hunminjeongum is undoubtedly obvious. Such a view of Hunminjeongeum is based on its iconicity, featural property and non-linearity. However, the existing conviction that Hunminjeongeum can transcribe all human sounds or that Hunminjeongeum is the only script which is easy for anyone to learn requires a more rigorous consideration. Given the fact that all scripts can be evaluated as equal, without one being more superior than the other, all scripts are optimized for recording the language in its own given linguistic context. Further, the function of a script is not just limited in a simple representation of a language. Adding new letters into the system of Hunminjeongeum or maintaining its current mode of notation can be problematic. First, it is important to solve computer-related issues: the registration of Hunminjeongum into the computer system as well as its output, problems regarding unicode, the new developments required for input devices, keyboards, fonts, and computer programs.

훈민정음 해례 기반 KS X 1026-1:2007의 평가 (An Evaluation of KS X 1026-1:2007 Based on Huminjeongeum Principle)

  • 권기홍;변정용
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 추계학술발표대회
    • /
    • pp.1716-1717
    • /
    • 2013
  • 1987년 완성음절형 한글 부호계(KS C 5601-1987)가 처음 제정된 이래 1992년 ISO 10646-BMP 또는 Unicode에 정보교환용 한글부호계를 반영하기 시작하여 2005년에 KS X 1005로 국제문자부호계를 제정하고 2007년 최종적으로 KS X 1026-1 제정을 통하여 정보교환용 한글 처리지침을 마련하는 것으로 옛한글처리를 완성하였다고 한다. 본 논문에서 훈민정음창제원리에 입각하여 옛한글처리 완성도에 대하여 정보교환용 한글처리의 한계와 문제점을 평가함으로써 한글처리의 효율성을 기하고자 한다.

한국한자자형(韓國漢字字形)과 대만국자표준자체(臺灣國字標準字體) 비교 연구 - 교육용(敎育用) 기초한자(基礎漢字) 중학교용(中學校用) 900자(字)를 중심(中心)으로

  • 강혜근
    • 중국학논총
    • /
    • 제71호
    • /
    • pp.1-22
    • /
    • 2021
  • 雖然韓國和臺灣使用的漢字都屬于繁體字, 但是有些字的字形並不太一樣。筆者對韓國漢字 (韓國敎育用基礎漢字中初中學用900個字) 和臺灣國字標準字體的字形進行了比較, 比較的第一個結果是字形相同的有628個, 佔69.8% ; 字形類似的有241個, 佔26.8% ; 字形不同的有31個, 佔3.4%。比較的第二個結果是韓國和臺灣使用的漢字中有19個"統一碼不同的漢字", 其中字形不同的有"脚腳, 强強, 擧舉, 鷄雞, 敎教, 旣既, 郞郎, 氷冰, 衆眾, 卽即, 窓窗, 靑青, 淸清"等13組 ; 字形類似的有"眞真, 産產, 尙尚, 顔顏, 飮飲"等5組。除此之外, 還有字形完全一模一樣的, 比如"晩"字。這些字應當特别注意一下。從臺灣教育部《國字標準字體教師手冊》第四項 "標準字體的研訂原則與實例"中的5個"硏訂基本原則", 40個"研訂通則"和120個"硏訂分則"可以知道, 臺灣確定的每个字形都是有憑有據的。同時也可以知道臺灣教育部確定字體的一個主要方向是"合乎字理", 它所依據的是《說文解字》的小篆字形的結構, 而韓國漢字的字形一般是沿用《康熙字典》的单字条目上的字形。

북한 한글 순서를 지원하는 EUC-KR 기반의 로캘과 응용 프로그램 개발 (Development of EUC-KR based Locale and Application Program Supporting North Korean Collating Sequence)

  • 정일동;이중화;김용호;김경석
    • 정보처리학회논문지B
    • /
    • 제11B권7호
    • /
    • pp.875-884
    • /
    • 2004
  • UCS(=ISO/BC 10646, =Unicode)는 국제화에 따라 앞으로 점점 더 많이 쓰게 될 것이고, 일단 정착되고 나면 한참 동안 쓸 것으로 예상하고 있다. 하지만, UCS로는 남한과 북한의 같은 글자를 쓰면서도 다른 사전 순서로 쓰는 상황을 해결할 수 없다. 국제 표준 ISO/IEC 14651:2000(International String Ordering)은 여러 나라 글자계(script)가 섞여 있을 때, 모든 글자의 차례를 정하고 간추리는 틀에 관한 표준이다. ISO/IEC 14651을 이용하면 간추리는 차례가 공통 틀 표(Common Template Table)에 들어 있기 때문에 글자의 간추리는 차례를 쉽게 바꿀 수 있으며, 남한과 북한의 가나다 차례를 통일하지 않고 글자 순서가 다른 문제를 해결할 수 있다. ISO/IEC 14651 관련 함수는 리눅스와 솔라리스, FreeBSD와 같은 유닉스 기반 운영체제의 최신 라이브러리에 포함되어 있다. 본 논문에서는 북쪽의 한글 가나다 차례를 남쪽에서 활용할 수 있도록 하기 위해서 북쪽의 한글 가나다 차례를 포함하는 북쪽 로캘을 리눅스 시스템에서 만들고, 입력된 문자열(=글자떼)을 남쪽 혹은 북쪽의 한글 가나다 차례에 따라 간추리기 할 수 있는 프로그램을 개발하였다.

대용량 온라인 한자 인식을 위한 클러스터링 거리계산 척도 (Distance Measures in HMM Clustering for Large-scale On-line Chinese Character Recognition)

  • 김광섭;하진영
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제36권9호
    • /
    • pp.683-690
    • /
    • 2009
  • 은닉 마코프 모델(Hidden Markov Model: HMM)에 기반을 둔 온라인 한자 인식에서 클래스의 수가 대용량일 경우에는 인식에 걸리는 시간 증가가 좋은 인식 시스템을 구현하는데 있어서의 걸림돌이 된다. 본 논문에서는 이러한 인식 속도 문제를 해결하고자 HMM을 클러스터링하여 인식 속도를 개선하는 방법과 이에 적합한 효율적인 HMM 간의 거리계산법을 제안한다. 유니코드 한 중 일 통합한자로 정의된 총 20,902개의 한자에 대한 온라인 한자 인식 시스템을 구축하는 실험에서 약 2배 정도로 인식속도가 향상됨을 확인할 수 있었고 클러스터링을 하지 않았을 때보다 0.9%의 인식률만 하락한 95.37%의 10순위 인식률을 달성했다.

디지털 방송용 한글 허프만 부호 설계 및 PSIP 구조 (Huffman Code Design and PSIP Structure of Hangul Data for Digital Broadcasting)

  • 황재정;진경식;한학수;최준영;이진환
    • 방송공학회논문지
    • /
    • 제6권1호
    • /
    • pp.98-107
    • /
    • 2001
  • 본 논문은 한글 텍스트 데이터에 대한 부호화 효율을 극대화시키는 관점에서 예외 부호화를 통해 최적의 허프만 부호를 얻는 다. 한글 코드는 표준 완성형과 유니 코드를 대상으로 하였으며 같은 허프만 부호를 부여하였다. 현재 우리나라의 디지털 TV는 한글 문자를 압축하지 않고 전송하는 형태이며. 본격적인 데이터 방송이 시작되면 한글 데이터가 차지하는 전송량으로 인한 심자 한 문제가 야기된다. 본 논문에서는 데이터 방송에서 문제가 되는 전송량을 줄이기 위해 한글 진용 퇴적의 허프만 부호를 생성한 다. 미국의 ATSC 표준을 바탕으로 한 디지털 TV 국내 표준에 적용하기 위해 프로그램 및 시스템 프로토콜(PSIP) 구조를 제안한 다. 결과로서. 발생확률 0.0043 이하의 확률을 갖는 문자를 예외 부호화하여 최대 47%의 압축율을 얻는 기법을 제안하였다.

  • PDF