• 제목/요약/키워드: Unicode

검색결과 68건 처리시간 0.025초

다국어 음성 인식을 위한 자동 어휘모델의 생성에 대한 연구 (A Study on the Automatic Lexical Acquisition for Multi-lingustic Speech Recognition)

  • 지원우;윤춘덕;김우성;김석동
    • 한국음향학회지
    • /
    • 제22권6호
    • /
    • pp.434-442
    • /
    • 2003
  • 특정한 언어 (영어)로 구현된 소프트웨어를 다른 언어 (한국어, 중국어 등)에서 처리할 수 있도록 하는 과정인 소프트웨어의 국제화는 음성기술 분야에 적응할 때 매우 복잡해진다. 그 이유는 음성 자체가 언어와 많은 연관 관계를 갖기 때문이다. 그러나 어떠한 언어라 해도 그 나라의 언어표현은ASCII코드나 혹은 그 나라 고유의 코드 기반으로 소프트웨어를 처리한다. 영어의 경우는 ASCII코드의 코드체계로 이루어지지만 다른 나라 언어인 경우 다른 형태의 언어코드를 사용하는 것이 일반적이다. 음성 처리에서 언어의 본질적 특성은 어휘모델에 나타난다. 어휘모델은 문자집합, 음소집합, 발음규칙으로 구성된다. 본 논문에서는 다국어 음성인식처리를 위한 어휘모델을 자동으로 생성하기 위하여, 4단계로 나누어 처리하는 어휘모델 구축 방법을 제안한다. 우선 전처리 과정으로 특정한 언어로 표현한 단어를 유니코드로 변환한다. (1단계) 유니코드로부터 중간 형태 코드로의 변환 (2단계) 발음 형태를 기본으로 하는 표준화된 규칙 적용 (3단계) 음소 규칙들에 의한 문자소 구현 (4단계) 음운론을 적용하는 순서로 구성된다.

한의학 입문을 위한 필수한자 추출 및 분석연구 (Study on the Prerequisite Chinese Characters for Education of Traditional Korean Medicine)

  • 채한;황상문;권영규;백유상;신상우;양기영;이병렬;김재규;이병욱
    • 동의생리병리학회지
    • /
    • 제24권3호
    • /
    • pp.373-379
    • /
    • 2010
  • There has been a need for establishing operational curriculum for chinese characters and chinese writing used by traditional korean medicine (TKM), but it was not carefully recognized so far. We analysed the frequency of unicode chinese characters from five medical textbooks and showed prerequisite chinese characters for TKM beginners. It was found that 之, 者, 不, 也, 而, 氣, 陽, 陰, 下, 其, 病, 爲, 人, 以, 中, 則, 於, 脈, 上, 故 are the most frequently used 20 chinese characters. We also showed that adequate prerequisite chinese character should be designated for the more efficient education of TKM. This study was the first systematic approach to get essential and prerequisite chinese characters for the education of TKM. The prerequisite characters by this study will be used for the development of KEET (Korean Medicine Education Eligibility Test), entrance exam to the Colleges of Oriental Medicine and textbooks, and educational curriculum of premed students.

다중 마스터 글리프 알고리즘을 적용한 한글 글꼴 에디터 (Hangul Font Editor based on Multiple Master Glyph Algorithm)

  • 임순범;김현영;정화주;박기덕;최경선
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제21권11호
    • /
    • pp.699-705
    • /
    • 2015
  • 하나의 한글글꼴을 완성하려면 천개 이상의 많은 자모가 필요하다. 본 논문에서는 한글글꼴 제작에 필수적인 자모 생성을 위하여, 조합 규칙 집합에 기반한 글리프 보강 기법을 통하여 몇 개의 자모로부터 원하는 개수 만큼의 자모를 자동생성할 수 있는 "다중 마스터 글리프 알고리즘"을 제시한다. 이 알고리즘을 기반으로 한글 자모 및 문자를 생성하는 글꼴 에디터를 개발하였다. 에디터는 조합 규칙 집합 및 4개의 마스터 글리프를 이용하여 해당 개수의 기본 자모를 자동 생성하며, 자동 생성된 자모를 활용하여 KSX1001 표준한글 2350자 및 Unicode 표준한글 11172자 문자들을 자동 조합하여 원하는 타겟 글꼴을 생성한다. 기존 상용서체에 적용하여, 본고에서 제시한 한글 글꼴 에디터의 효율성을 정량적으로 분석하였다.

CIMS를 위한 밀링공구관리 시스템 'TOOLMAN-II'의 개발 (Development of Tool Management System 'TOOLMAN-II' for CIMS : -on the Application of Milling Operation)

  • 이재원;김광만;강무진
    • 대한기계학회논문집
    • /
    • 제17권9호
    • /
    • pp.2264-2270
    • /
    • 1993
  • This paper describes the development of a tool management system of milling operations in CIM environment. The system consists of modules for tool room management, tool purchasing, tool magazine management and tool selection. The tool selection is interactively performed by the aid of the graphic icons of milling cutter. The so-called UNICODE tool coding system is also developed to unify different kinds of codes from different tool manufacturers. The system runs on IBM PC AT.

유니코드 3.0의 CJK 한자 정렬 (A Sorting of Unicode 3.0 CJK Chinese Characters)

  • 윤지헌;변정용
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2000년도 춘계학술발표논문집
    • /
    • pp.462-465
    • /
    • 2000
  • 최근 많은 양의 문서가 전자화되어 컴퓨터에 저장되고 인터넷을 통하여 공유가 되고 있고, 그 범위를 고문헌에까지 넓혀가고 있다. 그러나 한자 문화권의 고문헌은 대부분 2만에서 3만여자의 한자로 작섣되어 있어서 한자 입력시 코드문제가 뒤따른다. 하지만 유니코드 3.0에서는 27,786자의 한자를 코드화 하여 놓아서 한자 문화권 나라에 많은 도움을 주고 있다. 하지만 한중일 3개국에서 많이 쓰이는 한자를 대상으로 하여 부수, 획수 순으로 정렬하여 국내 실정에 맞지 않고 그나마 유니코드 한자를 입력할 수 있는 환경도 MS Word 2000 정도로 제한적이다. 본 논문에서는 유니코드 3.0 한자 입력기에서 기본 한자 코드로 상요될 CJK 한자 영역에 배정된 한자를 정렬하는 방안을 제안하고 운영체제 독립적인 한자 입력 시스템에 활용한다.

  • PDF

다국어 도메인을 위한 DNS 프로토콜 : mlDNS (A New DNS Protocol for Multilingual Domain Names)

  • 신혜원;이승익;이동만
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (3)
    • /
    • pp.328-330
    • /
    • 2000
  • DNS(Domain Name Service)는 인터넷 호스트의 주소를 제공하는 서비스로써 기존의 시스템은 영어 알파벳 이외의 다른 언어들로 구성된 도메인 네임(Domain Name)은 처리하지 못한다. 최근, 인터넷의 국제화에 따른 다국어 도메인의 필요성이 점차 증대됨에 따라 이러한 문제점을 해결하고 다국어 도메인 이름을 처리할 수 있는 새로운 DNS 프로토콜인 mlDNS(Multilingual Domain Name Service)를 제안한다. 기존의 DNS와의 호환성 및 상호 운용성을 보장하고 특정 언어에 종속되지 않는 시스템을 디자인하기 위해 mlDNS에서는 Unicode 문자 집합을 기반으로 모든 DNS 질의를 UTF-8 인코딩 방식으로 처리하고 이러한 새로운 mlDNS 질의와 기존의 DNS 질의를 구분하기 위해 DNS 질의 헤더에 'IN'이라는 새로운 비트 영역을 지정하여 사용한다.

  • PDF

한글 환경에서의 다국어정보 환경구축 (Building Multilingual Information Structure in Korean Environment)

  • 정휘웅;윤애선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1998년도 제10회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.198-203
    • /
    • 1998
  • 인터넷은 다양한 언어로 구성된 정보를 사용자들에게 제공해 준다. 따라서 인터넷 환경상의 정보 다국어화는 앞으로도 점차 가속화될 것으로 보인다. 그러나 각 국가별 지역 코드는 다국어 정보화를 가로막는 하나의 걸림돌이 되고 있다. 본 논문에서는 실사용자(end-user)와 개발자(developer) 환경에서 발생하는 다국어 지원의 문제점에 대해 알아보고, 이를 부산대학교 언어 정보 연구실에서 연구중인 다국어 지원 방법과 연관하여 특히 웹 환경에서 다국어가 동시에 지원될 수 있는 방안에 관해 연구하였다. 한글 환경에서 다국어가 원활히 지원되기 위해서는 유니코드 도입과 함께 다국어 입력 알고리즘이 개발되어야 하며, 이에 따른 다국어 입력 컨트롤 및 라이브러리 개발이 선행되어야 한다. 또한 웹 환경에서도 KS-C-5601 기반이 아닌 Unicode 기반 웹 환경 구축이 진행되어야 할 것이다.

  • PDF

Ternary Decomposition and Dictionary Extension for Khmer Word Segmentation

  • Sung, Thaileang;Hwang, Insoo
    • Journal of Information Technology Applications and Management
    • /
    • 제23권2호
    • /
    • pp.11-28
    • /
    • 2016
  • In this paper, we proposed a dictionary extension and a ternary decomposition technique to improve the effectiveness of Khmer word segmentation. Most word segmentation approaches depend on a dictionary. However, the dictionary being used is not fully reliable and cannot cover all the words of the Khmer language. This causes an issue of unknown words or out-of-vocabulary words. Our approach is to extend the original dictionary to be more reliable with new words. In addition, we use ternary decomposition for the segmentation process. In this research, we also introduced the invisible space of the Khmer Unicode (char\u200B) in order to segment our training corpus. With our segmentation algorithm, based on ternary decomposition and invisible space, we can extract new words from our training text and then input the new words into the dictionary. We used an extended wordlist and a segmentation algorithm regardless of the invisible space to test an unannotated text. Our results remarkably outperformed other approaches. We have achieved 88.8%, 91.8% and 90.6% rates of precision, recall and F-measurement.

유니코드 3.0 한자 입력시스템 (A Chinese Character(Hanja) Input System Based on Unicode 3.0)

  • 윤지헌;변정용
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 봄 학술발표논문집 Vol.27 No.1 (B)
    • /
    • pp.375-377
    • /
    • 2000
  • 인터넷의 급속한 보급은 인간 생활의 많은 부분을 바꾸어 놓고있는데, 가장 대표적인 예로 전자상거래와 온라인 문서를 들 수 있다. 전자상거래와 온라인 문서는 과거 자국의 문자위주 PC통신상에서만 이루어지고 있었지만 현재는 대부분이 인터넷과 연동되어있다. 따라서 전자상거래와 온라인 문서 등을 전세계 사람들이 이용하기 위해서 만국 공통의 코드가 필요하게 되었다. 이러한 요구로 ISO10646 코드가 제정되고 발전하여 현재의 유니코드 3.0에 이르게 되었다. 유니코드 3.0에는 세계각국의 문자가 포함되어있고, 한국, 중국, 일본 등 한자문화권에서 공통적으로 많이 사용하는 한자 2만 7천여자도 포함되어있다. 이것은 과거 국내 표준인 완성형 한자 4천 8백여자와 비교하면 무척 많은 양이라 할 수 있다. 이러한 유니코드의 출현으로 국내외의 고문헌과 법전 등의 한자가 포함된 각종 문서를 인터넷상에서 제공할 수 있지만, 현재 유니코드 한자를 입력하기위한 방법은 MS Word2000의 한자 입력기만 있고 다른 운영체제나 인터넷 환경에서는 거의 전무한 상태이다. 본 논문에서는 운영체제에 독립적으로 작동하는 유니코드 한자입력시스템에 관하여 연구 개발하였다.

  • PDF

한중콘크리트의 관리재령 연장을 이용한 설계기준강도 확보 기법 (Designed compressive strength assurance method within 28 days of management period for winter period concrete contain various SCMs)

  • 이영준;이혁주;한준희;이상운;이정교;한민철
    • 한국건축시공학회:학술대회논문집
    • /
    • 한국건축시공학회 2018년도 춘계 학술논문 발표대회
    • /
    • pp.169-170
    • /
    • 2018
  • The purpose of the research is suggesting the temperature compensation strength for Unicode of constructure standard from Ministry of land, infrastructure and transport. As a result, for the concrete mixture with 100 % OPC, 6, and 3 MPa of compensating strength values were necessary when the temperature were from 4 to 9℃, and from 9 to 17℃, respectively. Additionally, when the temperature was higher than 17℃, compensating strength value was not necessary. In the case of 20 % of blast furnace slag replaced concrete mixture, 9, 6, and 3 MPa of compensating strength values were necessary when the temperature were from 4 to 6℃, from 6 to 12℃, and higher than 17℃, respectively.

  • PDF