• 제목/요약/키워드: Transliteration

검색결과 54건 처리시간 0.027초

영.한 음차 표기 성능 향상을 위한 음철법 기반 규칙 구축 (Phonics-based Rules for Improving Performance of English-to-Korean Transliteration)

  • 김민정;홍금원;박소영;임해창
    • 말소리와 음성과학
    • /
    • 제1권4호
    • /
    • pp.133-144
    • /
    • 2009
  • This paper presents a method for constructing and using transliteration rules which are based on Phonics, an instructional method for speaking and writing English letters. Conventional approaches to automatic transliteration often focused on statistical methods. However, the construction or the collection of correct transliteration examples is always the bottleneck of the statistical transliteration model. Also, in practical domains where the collection of such data is very difficult, such as education and tourism, it is reasonable to build a system without much qualified data. Furthermore, compared with Korean orthography of borrowed foreign words, the proposed approach is much easier to construct, and can generate more refined rules. The experimentation result shows that the proposed approach can improve the performance of a statistical-based transliteration system.

  • PDF

Using Semantic Knowledge in the Uyghur-Chinese Person Name Transliteration

  • Murat, Alim;Osman, Turghun;Yang, Yating;Zhou, Xi;Wang, Lei;Li, Xiao
    • Journal of Information Processing Systems
    • /
    • 제13권4호
    • /
    • pp.716-730
    • /
    • 2017
  • In this paper, we propose a transliteration approach based on semantic information (i.e., language origin and gender) which are automatically learnt from the person name, aiming to transliterate the person name of Uyghur into Chinese. The proposed approach integrates semantic scores (i.e., performance on language origin and gender detection) with general transliteration model and generates the semantic knowledge-based model which can produce the best candidate transliteration results. In the experiment, we use the datasets which contain the person names of different language origins: Uyghur and Chinese. The results show that the proposed semantic transliteration model substantially outperforms the general transliteration model and greatly improves the mean reciprocal rank (MRR) performance on two datasets, as well as aids in developing more efficient transliteration for named entities.

효과적인 외래어 이형태 생성을 위한 확률 문맥 의존 치환 방법 (A Probabilistic Context Sensitive Rewriting Method for Effective Transliteration Variants Generation)

  • 이재성
    • 한국콘텐츠학회논문지
    • /
    • 제7권2호
    • /
    • pp.73-83
    • /
    • 2007
  • 완전 일치 방법을 주로 사용하는 정보 검색 시스템에서 외래어 이형태를 검색할 수 있도록 위해서는 외래어 이형태를 자동 생성하는 전처리나 질의어 확장이 필요하다. 본 연구에서는 하나의 외래어가 입력되면, 이를 근거로 실제 사용될 만한 외래어 이형태들을 효과적으로 생성하기 위한 방법을 제안한다. 혼동 자소를 단순하게 치환하는 방법은 불필요한 이형태를 과도하게 생성하므로, 본 연구에서는 실제 문서에 사용된 외래어 이형태들로부터 혼동 패턴을 학습하고, 이를 확률로 계산하여 생성 순서를 조절하였다. 특히, 혼동 패턴에서 좌우문맥을 고려하고 지역 치환 확률과 전역 치환 확률을 계산하여 조기에 많이 사용하는 이형태를 생성하도록 하였다. KT SET 2.0에서 추출한 이형태 데이터에 대해 실험한 결과, 상위 20개의 생성으로도 평균 80% 이상 찾아내어 이 방법이 매우 효과적임을 보였다.

발음 사전에 기반한 영.한 음차 표기 사전의 구축 (Building English-to-Korean Transliteration Dictionary Based on Pronouncing Dictionary)

  • 이도길
    • 말소리와 음성과학
    • /
    • 제1권3호
    • /
    • pp.103-108
    • /
    • 2009
  • This paper proposes a method for building a transliteration dictionary, which is based on pronouncing information extracted from two kinds of existing dictionaries. Also, it proposes a method for transforming the pronouncing information into Korean translitered words. To express the pronouncing information, we define Phoman code system. In order to avoid phonetic estimation process of English words which is the most important problem, the proposed method uses the pronouncing information extracted from the existing dictionaries. Therefore, unlike previous approaches, the proposed method does not need any incomplete phonetic estimation process so that it can produce accurate transliteration results. The proposed method has been fully implemented.

  • PDF

동적 윈도우와 토크나이저를 이용한 영-중 음차표기 대역쌍 자동 추출 (Automatic Extraction of English-Chinese Transliteration Pairs using Dynamic Window and Tokenizer)

  • 김성국;나승훈;김동일;이종혁
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제13권6호
    • /
    • pp.417-421
    • /
    • 2007
  • 인터넷의 발달로 대량의 이중언어 문서 구축이 가능해짐에 따라 이런 언어자원을 이용하여 음차표기 대역쌍을 추출하는 연구가 활발히 진행되고 있다. 이런 연구들은 대부분 통계기반 음차표기 모델을 기반으로 하고 있다. 본 논문에서는 기존의 통계기반 음차표기 모델의 문제점에 대하여 분석하고 동적 윈도우와 토크나이저 기법을 제안하여 약 99%의 단어 정확률을 나타냈으며 그 결과 기존의 통계기반 음차표기 모델에 비하여 약 23%정도의 성능 향상을 보였다.

입말 표기를 이용한 영어 단어 검색 (Retrieving English Words with a Spoken Work Transliteration)

  • 김지승;김광현;이준호
    • 한국문헌정보학회지
    • /
    • 제39권3호
    • /
    • pp.93-103
    • /
    • 2005
  • 영어 사전 검색 서비스 이용자들은 원하는 영어 단어의 철자를 정확하게 기억하지 못하고, 발음만을 기억하는 경우가 있다. 이러한 이용자들에게 도움을 주기 위해 본 연구에서는 입말 표기, 즉 영어 단어 발음의 한글 표기를 이용하여 영어 단어를 효과적으로 검색할 수 있는 방법을 제안한다. 이를 위하여 코닉스(KONIX) 코드를 개발하며, 입말 표기와 영어 단어를 코닉스 코드들로 변환한다. 그리고 변환된 코닉스 코드들 사이의 음성적 유사도를 편집 거리 방법과 2-그램 방법을 이용하여 계산한다. 또한 제안한 방법이 입말 표기에 의한 영어 단어 검색에 매우 효과적임을 실험을 통하여 입증한다.

자소 및 음소 정보를 이용한 영어-한국어 음차표기 모델 (An English-to-Korean Transliteration Model based on Grapheme and Phoneme)

  • 오종훈;최기선
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제32권4호
    • /
    • pp.312-326
    • /
    • 2005
  • 최근 정보검색과 기계번역과 같은 자연언어응용에서 영-한 자동 음차표기에 대한 관심이 높아지고 있다. 지금까지의 영-한 자동 음차표기 연구에는 $<영어자소{\rightarrow}$한글자소>의 직접방식, <영어자소${\rightarrow$음소$\rightarrow$한글자소>의 피봇방식이 있다 기존의 영-한 음차표기 연구들은 주로 직접방식에 대한 연구가 활발히 진행되어 찼다. 하지만, 음차표기는 직접방식에서 사용하는 단순한 자소 대 자소변환 작업이라기보다는 자소의 음성적 변환 작업이라고 할 수 있다. 따라서 자소 뿐만 아니라 음소 등 음성적 정보가 매우 중요하다. 본 논문에서는 이러한 특성을 이용하여 자소 정보뿐만 아니라 음소 정보를 이용한 음차표기 기법을 제안한다. 주어진 자소와 음소 및 자소와 음소의 문맥정보를 이용하여 한국어 음차표기를 생성하는 본 논문의 기법은 약 $60\%$의 단어 정확도를 나타내었다.

한글 로마자 번자법(飜字法)과 우리말 로마자 표음법(表音法) - 두 가지 서로 다른 표기방식 대비예시(對比例示)를 곁들여 - (Two Ways of the Romanization of Korean - Transliteration of Hanngul and the Transcription of Korean Sounds -)

  • 유만근
    • 대한음성학회지:말소리
    • /
    • 제35_36호
    • /
    • pp.63-76
    • /
    • 1998
  • The writer discusses the necessity of clear distinction between transliteration and transcription. Romanization problems in Korea have been entangled for decades by confusing and mixing those two. For the transliteration of Hanngul a new system with the utmost simplicity and perfect convertibility is suggested here. For the transcription of Korean sounds another system is suggested which can transcribe even the chroneme as well as all the phonemes. So it surpasses the current Hanngul orthography. Korean sentences containing many pairs of homographic heteronyms are romanized in the two ways side by side for the contrasting of the two systems.

  • PDF

메타 검색에서 외래어 질의 정제 효과 (The Refinement Effect of Foreign Word Transliteration Query on Meta Search)

  • 이재성
    • 정보처리학회논문지B
    • /
    • 제15B권2호
    • /
    • pp.171-178
    • /
    • 2008
  • 문서에서 외래어가 일관되게 사용되지 않고 여러 이형태로 사용되고 있기 때문에, 정확한 질의어 일치를 지원하는 검색 시스템에서 외래어 질의로 문서를 검색하는데 어려움이 많다. 본 논문에서는 하나의 외래어로 질의할 경우, 원 질의어와 같은 뜻의 다양한 이형태 외래어 질의로 자동 확장하고 정제하여 더 많은 관련 문서를 손쉽게 검색할 수 있는 메타 검색 방법을 제안한다. 이 방법은 1차로 원 질의어에서 다양한 외래어 이형태를 통계적 방법으로 확장하고, 2차로 그 결과를 각 검색 엔진에게 질의하여 일정 개수 이상의 질의어가 문서에 나타났는지, 원 질의어의 문맥과 유사한 문맥에서 그 질의어가 쓰였는지를 비교하여, 같은 뜻의 유효한 외래어를 판별해 내고 이를 이용하여 검색할 수 있도록 한다. 실험 결과, 기준점으로 쓰인 1차로 만든 이형태로 검색했을 때 F값은 평균 38%이었으나, 제안된 방법인 2차로 정제된 질의어로 검색했을 때의 F값은 평균 81%로 매우 향상된 결과를 보였다.

Some Characteristics of Hanmal and Hangul from the viewpoint of Processing Hangul Information on Computers

  • Kim, Kyong-Sok
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 1996년도 10월 학술대회지
    • /
    • pp.456-463
    • /
    • 1996
  • In this paper, we discussed three cases to see the effects of the characteristics of Hangul writing system. In applications such as computer Hangul shorthands for ordinary people and pushbuttons with Hangul characters engraved, we found that there is much advantage in using Hangul. In case of Hangul Transliteration, we discussed some problems which are related with the characteristics of Hangul writing system. Shorthands use 3-set keyboards in England, America, and Korea. We saw how ordinary people can do computer Hangul shorthands, whereas only experts can do computer shorthands in other countries. Specifically, the facts that 1) Hangul characters are grouped into syllables (syllabic blocks) and that 2) there is already a 3-set Hangul keyboard for ordinary people allow ordinary people to do computer Hangul shorthands without taking special training as with English shorthands. This study was done by the author under the codename of 'Sejong 89'. In contrast like QWERTY or DVORAK, a 2-set Hangul keyboard cannot be used for shorthands. In case of English pushbuttons, one digit is associated with only one character. However, by engraving only syllable-initial characters on the phone pushbuttons, we can associate one Hangul "syllable" with one digit. Therefore, for a given number of digits, we can associate longer words or more meaningful words in Hangul than in English. We discussed the problems of the Hangul Transliteration system proposed by South Korea and suggested their solutions, if available. 1) We are incorrectly using the framework of transcription for transliteration. To solve the problem, the author suggests that a) we include all complex characters in the transliteration table, and that b) we specify syllable-initial and -final characters separately in the table. 2) The proposed system cannot represent independent characters and incomplete syllables. 3) The proposed system cannot distinguish between syllable-initial and -final characters.

  • PDF