• Title/Summary/Keyword: UNICODE

Search Result 68, Processing Time 0.023 seconds

A Study on the Automatic Lexical Acquisition for Multi-lingustic Speech Recognition (다국어 음성 인식을 위한 자동 어휘모델의 생성에 대한 연구)

  • 지원우;윤춘덕;김우성;김석동
    • The Journal of the Acoustical Society of Korea
    • /
    • v.22 no.6
    • /
    • pp.434-442
    • /
    • 2003
  • Software internationalization, the process of making software easier to localize for specific languages, has deep implications when applied to speech technology, where the goal of the task lies in the very essence of the particular language. A greatdeal of work and fine-tuning has gone into language processing software based on ASCII or a single language, say English, thus making a port to different languages difficult. The inherent identity of a language manifests itself in its lexicon, where its character set, phoneme set, pronunciation rules are revealed. We propose a decomposition of the lexicon building process, into four discrete and sequential steps. For preprocessing to build a lexical model, we translate from specific language code to unicode. (step 1) Transliterating code points from Unicode. (step 2) Phonetically standardizing rules. (step 3) Implementing grapheme to phoneme rules. (step 4) Implementing phonological processes.

Study on the Prerequisite Chinese Characters for Education of Traditional Korean Medicine (한의학 입문을 위한 필수한자 추출 및 분석연구)

  • Chae, Han;Hwang, Sang-Moon;Kwon, Young-Kyu;Baik, Yu-Sang;Shin, Sang-Woo;Yang, Gi-Young;Lee, Byung-Ryul;Kim, Jae-Kyu;Lee, Byung-Wook
    • Journal of Physiology & Pathology in Korean Medicine
    • /
    • v.24 no.3
    • /
    • pp.373-379
    • /
    • 2010
  • There has been a need for establishing operational curriculum for chinese characters and chinese writing used by traditional korean medicine (TKM), but it was not carefully recognized so far. We analysed the frequency of unicode chinese characters from five medical textbooks and showed prerequisite chinese characters for TKM beginners. It was found that 之, 者, 不, 也, 而, 氣, 陽, 陰, 下, 其, 病, 爲, 人, 以, 中, 則, 於, 脈, 上, 故 are the most frequently used 20 chinese characters. We also showed that adequate prerequisite chinese character should be designated for the more efficient education of TKM. This study was the first systematic approach to get essential and prerequisite chinese characters for the education of TKM. The prerequisite characters by this study will be used for the development of KEET (Korean Medicine Education Eligibility Test), entrance exam to the Colleges of Oriental Medicine and textbooks, and educational curriculum of premed students.

Hangul Font Editor based on Multiple Master Glyph Algorithm (다중 마스터 글리프 알고리즘을 적용한 한글 글꼴 에디터)

  • Lim, Soon-Bum;Kim, Hyun-Young;Chung, Hwaju;Park, Ki-Deok;Choi, Kyong-Sun
    • KIISE Transactions on Computing Practices
    • /
    • v.21 no.11
    • /
    • pp.699-705
    • /
    • 2015
  • Thousands of glyphs are necessary for Hangul font generation. It is mandatory to generate the required glyphs before producing Hangul font. This paper, entitled "Multiple Master Glyph Algorithm", presents an process that generates a target number of glyphs automatically from a very small number of glyphs by using a combination rule setting and a glyph interpolation method. A font editor, which is able to generate Hangul glyphs or fonts, is developed based on this algorithm. The editor generates a target number of fundamental glyphs automatically by using a combination rule setting and four master glyphs, which can be set up by a user. The automatically generated glyphs can be used to generate a target font by combining KSX1001 standard Hangul 2350 characters or Unicode standard Hangul 11172 characters automatically. The efficiency of the proposed Hangul editor is analyzed quantitatively in this paper through application to several commercial typefaces.

Development of Tool Management System 'TOOLMAN-II' for CIMS : -on the Application of Milling Operation (CIMS를 위한 밀링공구관리 시스템 'TOOLMAN-II'의 개발)

  • 이재원;김광만;강무진
    • Transactions of the Korean Society of Mechanical Engineers
    • /
    • v.17 no.9
    • /
    • pp.2264-2270
    • /
    • 1993
  • This paper describes the development of a tool management system of milling operations in CIM environment. The system consists of modules for tool room management, tool purchasing, tool magazine management and tool selection. The tool selection is interactively performed by the aid of the graphic icons of milling cutter. The so-called UNICODE tool coding system is also developed to unify different kinds of codes from different tool manufacturers. The system runs on IBM PC AT.

A Sorting of Unicode 3.0 CJK Chinese Characters (유니코드 3.0의 CJK 한자 정렬)

  • 윤지헌;변정용
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 2000.04a
    • /
    • pp.462-465
    • /
    • 2000
  • 최근 많은 양의 문서가 전자화되어 컴퓨터에 저장되고 인터넷을 통하여 공유가 되고 있고, 그 범위를 고문헌에까지 넓혀가고 있다. 그러나 한자 문화권의 고문헌은 대부분 2만에서 3만여자의 한자로 작섣되어 있어서 한자 입력시 코드문제가 뒤따른다. 하지만 유니코드 3.0에서는 27,786자의 한자를 코드화 하여 놓아서 한자 문화권 나라에 많은 도움을 주고 있다. 하지만 한중일 3개국에서 많이 쓰이는 한자를 대상으로 하여 부수, 획수 순으로 정렬하여 국내 실정에 맞지 않고 그나마 유니코드 한자를 입력할 수 있는 환경도 MS Word 2000 정도로 제한적이다. 본 논문에서는 유니코드 3.0 한자 입력기에서 기본 한자 코드로 상요될 CJK 한자 영역에 배정된 한자를 정렬하는 방안을 제안하고 운영체제 독립적인 한자 입력 시스템에 활용한다.

  • PDF

A New DNS Protocol for Multilingual Domain Names (다국어 도메인을 위한 DNS 프로토콜 : mlDNS)

  • 신혜원;이승익;이동만
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10c
    • /
    • pp.328-330
    • /
    • 2000
  • DNS(Domain Name Service)는 인터넷 호스트의 주소를 제공하는 서비스로써 기존의 시스템은 영어 알파벳 이외의 다른 언어들로 구성된 도메인 네임(Domain Name)은 처리하지 못한다. 최근, 인터넷의 국제화에 따른 다국어 도메인의 필요성이 점차 증대됨에 따라 이러한 문제점을 해결하고 다국어 도메인 이름을 처리할 수 있는 새로운 DNS 프로토콜인 mlDNS(Multilingual Domain Name Service)를 제안한다. 기존의 DNS와의 호환성 및 상호 운용성을 보장하고 특정 언어에 종속되지 않는 시스템을 디자인하기 위해 mlDNS에서는 Unicode 문자 집합을 기반으로 모든 DNS 질의를 UTF-8 인코딩 방식으로 처리하고 이러한 새로운 mlDNS 질의와 기존의 DNS 질의를 구분하기 위해 DNS 질의 헤더에 'IN'이라는 새로운 비트 영역을 지정하여 사용한다.

  • PDF

Building Multilingual Information Structure in Korean Environment (한글 환경에서의 다국어정보 환경구축)

  • Jeong, Hwi-Woong;Yoon, Ae-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 1998.10c
    • /
    • pp.198-203
    • /
    • 1998
  • 인터넷은 다양한 언어로 구성된 정보를 사용자들에게 제공해 준다. 따라서 인터넷 환경상의 정보 다국어화는 앞으로도 점차 가속화될 것으로 보인다. 그러나 각 국가별 지역 코드는 다국어 정보화를 가로막는 하나의 걸림돌이 되고 있다. 본 논문에서는 실사용자(end-user)와 개발자(developer) 환경에서 발생하는 다국어 지원의 문제점에 대해 알아보고, 이를 부산대학교 언어 정보 연구실에서 연구중인 다국어 지원 방법과 연관하여 특히 웹 환경에서 다국어가 동시에 지원될 수 있는 방안에 관해 연구하였다. 한글 환경에서 다국어가 원활히 지원되기 위해서는 유니코드 도입과 함께 다국어 입력 알고리즘이 개발되어야 하며, 이에 따른 다국어 입력 컨트롤 및 라이브러리 개발이 선행되어야 한다. 또한 웹 환경에서도 KS-C-5601 기반이 아닌 Unicode 기반 웹 환경 구축이 진행되어야 할 것이다.

  • PDF

Ternary Decomposition and Dictionary Extension for Khmer Word Segmentation

  • Sung, Thaileang;Hwang, Insoo
    • Journal of Information Technology Applications and Management
    • /
    • v.23 no.2
    • /
    • pp.11-28
    • /
    • 2016
  • In this paper, we proposed a dictionary extension and a ternary decomposition technique to improve the effectiveness of Khmer word segmentation. Most word segmentation approaches depend on a dictionary. However, the dictionary being used is not fully reliable and cannot cover all the words of the Khmer language. This causes an issue of unknown words or out-of-vocabulary words. Our approach is to extend the original dictionary to be more reliable with new words. In addition, we use ternary decomposition for the segmentation process. In this research, we also introduced the invisible space of the Khmer Unicode (char\u200B) in order to segment our training corpus. With our segmentation algorithm, based on ternary decomposition and invisible space, we can extract new words from our training text and then input the new words into the dictionary. We used an extended wordlist and a segmentation algorithm regardless of the invisible space to test an unannotated text. Our results remarkably outperformed other approaches. We have achieved 88.8%, 91.8% and 90.6% rates of precision, recall and F-measurement.

A Chinese Character(Hanja) Input System Based on Unicode 3.0 (유니코드 3.0 한자 입력시스템)

  • 윤지헌;변정용
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.04b
    • /
    • pp.375-377
    • /
    • 2000
  • 인터넷의 급속한 보급은 인간 생활의 많은 부분을 바꾸어 놓고있는데, 가장 대표적인 예로 전자상거래와 온라인 문서를 들 수 있다. 전자상거래와 온라인 문서는 과거 자국의 문자위주 PC통신상에서만 이루어지고 있었지만 현재는 대부분이 인터넷과 연동되어있다. 따라서 전자상거래와 온라인 문서 등을 전세계 사람들이 이용하기 위해서 만국 공통의 코드가 필요하게 되었다. 이러한 요구로 ISO10646 코드가 제정되고 발전하여 현재의 유니코드 3.0에 이르게 되었다. 유니코드 3.0에는 세계각국의 문자가 포함되어있고, 한국, 중국, 일본 등 한자문화권에서 공통적으로 많이 사용하는 한자 2만 7천여자도 포함되어있다. 이것은 과거 국내 표준인 완성형 한자 4천 8백여자와 비교하면 무척 많은 양이라 할 수 있다. 이러한 유니코드의 출현으로 국내외의 고문헌과 법전 등의 한자가 포함된 각종 문서를 인터넷상에서 제공할 수 있지만, 현재 유니코드 한자를 입력하기위한 방법은 MS Word2000의 한자 입력기만 있고 다른 운영체제나 인터넷 환경에서는 거의 전무한 상태이다. 본 논문에서는 운영체제에 독립적으로 작동하는 유니코드 한자입력시스템에 관하여 연구 개발하였다.

  • PDF

Designed compressive strength assurance method within 28 days of management period for winter period concrete contain various SCMs (한중콘크리트의 관리재령 연장을 이용한 설계기준강도 확보 기법)

  • Lee, Young-Jun;Lee, Hyuk-Ju;Han, Jun-Hui;Lee, Sang-Woon;Lee, Joung-Gyo;Han, Min-Cheol
    • Proceedings of the Korean Institute of Building Construction Conference
    • /
    • 2018.05a
    • /
    • pp.169-170
    • /
    • 2018
  • The purpose of the research is suggesting the temperature compensation strength for Unicode of constructure standard from Ministry of land, infrastructure and transport. As a result, for the concrete mixture with 100 % OPC, 6, and 3 MPa of compensating strength values were necessary when the temperature were from 4 to 9℃, and from 9 to 17℃, respectively. Additionally, when the temperature was higher than 17℃, compensating strength value was not necessary. In the case of 20 % of blast furnace slag replaced concrete mixture, 9, 6, and 3 MPa of compensating strength values were necessary when the temperature were from 4 to 6℃, from 6 to 12℃, and higher than 17℃, respectively.

  • PDF