• Title/Summary/Keyword: Transliteration

Search Result 54, Processing Time 0.018 seconds

Automatic Foreign Word Transliteration Model for Information Retrieval (정보검색을 위한 외래어 자동표기 모델)

  • 이재성;최기선
    • Proceedings of the Korean Society for Information Management Conference
    • /
    • 1997.08a
    • /
    • pp.17-24
    • /
    • 1997
  • 조사에 따르면 한글 문서에서 사용되는 단어 중 외래어 또는 영어가 포함된 단어가 약 26%정도를 차지하고 있으며, 이는 정보검색의 중요 색인어로 사용된다(권윤형 1996). 그러나 이들 단어들은 서로 같은 단어인데도 영어로 표기되기도 하고 이형의 외래어들로 표기되기도 하여, 정보검색의 효율을 떨어뜨리고 있다. 본 논문에서는 영어 단어와 그에 대응되어 표기되는 외래어들을 찾기 위한 한 단계로서, 영어를 한글로 음차(transliteration)하여 자동표기하는 통계적 모델을 제안하고 실험한다. 제안된 모델은 통계적 기계번역 방식과 그의 한 방법인 문서 정렬(text alignment) 방식에 근거하고 있다. 특히 이 모델에서는 효과적으로 발음의 단위를 분리한 다음 정렬을 하여. 전체적인 계산량을 줄이고 성능도 향상시켰다. 음차표기는 피봇방식과 직접방식의 두가지로 구현하였다. 피봇방식은 영어에서 발음을 생성한 후, 그 발음을 다시 한글로 표기하는 방식이고, 직접방식은 직접 영어 단어에서 한글 표기로 포기하는 방식이다. 두 방식을 제안된 모델을 이용하여 비교 테스트한 결과 직접방식이 보다 정확하게 표준 외래어로 표기하였다.

  • PDF

Standardizing Korean transliteration of foreign proper names and loan words in headings and notes in the 4th edition of KDC (KDC 4판(1996)상의 외국인명, 지명 및 외래어의 한글표기 문제)

  • 유경숙
    • Journal of Korean Library and Information Science Society
    • /
    • v.30 no.4
    • /
    • pp.27-57
    • /
    • 1999
  • Standardization is a prerequisite of quality control in any field. Library field is not an exception. The bibliographic control structures of AACR2R, MARC, DDC, LCC, LCSH, ISBD are highly standardized and dependent on rigorous authority work, so that libraries and bibliographic utilities using these tools could provide effective quality services. In order to emphasize the importance of standardization in the field of bibliographic control structures, this study focuses on inconsistencies in transliterated foreign personal and geographic names in headings, used as the caption of a given class as well as in notes describing what is found in a class or clarifying the notation hierarchy in the 4th edition of KDC. This study also examines Korean transliteration of loan words in the schedule as well as the transliterated entries of the Relative Index.

  • PDF

A Transliteration Model based on the Seq2seq Learning and Methods for Phonetically-Aware Partial Match for Transliterated Terms in Korean (문장대문장 학습을 이용한 음차변환 모델과 한글 음차변환어의 발음 유사도 기반 부분매칭 방법론)

  • Park, Joohee;Park, Wonjun;Seo, Heecheol
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.443-448
    • /
    • 2018
  • 웹검색 결과의 품질 향상을 위해서는 질의의 정확한 매칭 뿐만이 아니라, 서로 같은 대상을 지칭하는 한글 문자열과 영문 문자열(예: 네이버-naver)의 매칭과 같은 유연한 매칭 또한 중요하다. 본 논문에서는 문장대문장 학습을 통해 영문 문자열을 한글 문자열로 음차변환하는 방법론을 제시한다. 또한 음차변환 결과로 얻어진 한글 문자열을 동일 영문 문자열의 다양한 음차변환 결과와 매칭시킬 수 있는 발음 유사성 기반 부분 매칭 방법론을 제시하고, 위키피디아의 리다이렉트 키워드를 활용하여 이들의 성능을 정량적으로 평가하였다. 이를 통해 본 논문은 문장대문장 학습 기반의 음차 변환 결과가 복잡한 문맥을 고려할 수 있으며, Damerau-Levenshtein 거리의 계산에 자모 유사도를 활용하여 기존에 비해 효과적으로 한글 키워드들 간의 부분매칭이 가능함을 보였다.

  • PDF

Text Transliteration System and Number Transliteration Disambiguation for TTS (음성합성을 위한 텍스트 음역 시스템과 숫자 음역 모호성 처리)

  • Park, Jeong Yeon;Shin, Hyeong Jin;Yuk, Dae Bum;Lee, Jae Sung
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.449-452
    • /
    • 2018
  • TTS(Text-to-Speech)는 문자열을 입력받아 그 문자열을 음성으로 변환하는 음성합성 기술이다. 그러나 실제 입력되는 문장에는 한글뿐만 아니라 영단어 및 숫자 등이 혼합되어 있다. 영단어는 대소문자에 따라 다르게 읽을 수 있으며, 단위로 사용될 때는 약어로 사용되는 것이므로, 알파벳 단위로 읽어서는 안 된다. 숫자 또한 함께 사용되는 단어에 따라 읽는 방식이 달라진다. 본 논문에서는 한글과 숫자 및 단위, 영단어가 혼합된 문장을 분류하고 이를 음역하는 시스템을 구성하며 word vector를 이용한 숫자 및 단위의 모호성 해소방법을 소개한다.

  • PDF

A Study on the Names of Boshon(보션) and Chung(청) (보션과 ?의 명칭 연구)

  • 김진구
    • The Research Journal of the Costume Culture
    • /
    • v.6 no.3
    • /
    • pp.6-10
    • /
    • 1998
  • The purpose of this study was to identify and to trace origins of the names of boshon(보션) and Chung(쳥) used in Chosun period. Comparative linguistic analytical approaches were employed for this research. Conclusions and summary of finds and results of this study can be summarized as follows: It was found that the name, boshon had its origin in Aramaic, while the name, chung had its origin in Chinese. The word, boshon (보션) is a transliteration of Aramaic pattashehon, leggins. The name, boshon is a borrowed word from Aramaic. The word, bai shu(背戍) of Koryo period and the word, boshon(보션) of Chosun period were originated in one word, ai shu was taken from a singular form, while boshon was taken from a plural form. Because these two words in Koran have different phonetic values, ′they ar treated as tow different words. The name, chung(쳥) is a transliteration of Chinese cheuan, ch′"uan, Korean chung is a corrupted form of cheunan or ch′"uan.

  • PDF

An Algorithm for extracting English-Korean Transliteration pairs using Automatic I-K Transliteration (자동 음차표기를 이용한 영-한 음차표기 대역쌍의 자동 추출)

  • 오종훈;배선미;최기선
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04b
    • /
    • pp.928-930
    • /
    • 2004
  • 지금까지 기계번역과 교차언어 정보검색 등과 같은 자연언어응용에서 사용되는 번역지식을 자동으로 구축하는 연구가 활발히 진행되어 왔다. 번역지식을 자동으로 구축하는 연구는 대역사전에 등재되어 있지 않은 미등록어에 대한 대역정보를 문서에서 자동으로 획득하는 것을 목표로 한다. 최근에는 이러한 미등록어 중 음차표기 번역지식에 대한 연구가 활발히 진행되고 있다. 음차표기는 주로 영어 단어를 발음에 기반하여 비영어권의 언어로 표기하는 것을 의미한다. 음차표기된 단어들은 새로운 개념을 나타내는 신조어가 많기 때문에 사전에 등재되어 있지 않온 경우가 많다. 따라서 효과적인 번역지식 구축을 위해서는 이러한 음차표기 번역지식을 자동으로 획득하는 것은 매우 중요하다. 본 논문에서는 영-한 음차표기 대역쌍을 문서에서 자동으로 추출하는 알고리즘을 제안한다. 본 논문의 기법은 한국어 음차표기의 인식, 영-한 자동음차표기, 한국어 음차표기와 자동음차표기된 영어단어간의 음성적 유사도 비교를 통하여 음차표기 대역쌍을 추출한다. 본 논문의 기법은 약 93%의 정확률과 68%의 재현율을 나타내었다.

  • PDF

A Study on User Satisfaction with CJK Romanization in the OCLC WorldCat System (도서관 서지정보의 한중일 로마자표기법에 대한 이용자 만족도 연구)

  • Ha, Yoo-Jin
    • Journal of the Korean Society for information Management
    • /
    • v.27 no.2
    • /
    • pp.95-115
    • /
    • 2010
  • The purpose of this study is to investigate how individuals assess Chinese, Japanese, and Korean (CJK) transliterated bibliographic information on current library catalogs. Two separate studies, a survey and an experiment, were conducted using the WorldCat system. Users noted that Romanization has many issues which can inhibit user‘s ability to understand the transliterated bibliographic information even when it is in the person’s own native language and even when the individual had extensive experience with transliteration systems. The experimental results also supported these findings: participants had better results and satisfaction when looking for information written in English than when searching for transliterated information written in their native language. Implications for future research suggests a need to investigate user preferences for translation vs. transliteration of bibliographic information. This study proposes consideration of using English translation as a parallel link with CJK Romanization for bibliographic information.

English to Korean transliteration using Sequence to Sequence model (Sequence to Sequence 모델을 이용한 영단어 음차 표기)

  • Shin, Hyeong Jin;Yuk, Dae Bum;Lee, Jae Sung
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.627-629
    • /
    • 2018
  • 영단어를 음역 하는 방법으로 규칙 기반 방법, 통계 기반 방법, 최대 엔트로피 기반 방법 등이 연구되어 왔다. 본 연구에서는 최근 기계 번역에서 우수한 성능을 보인 Sequence-to-Sequence 모델을 영어-한글 음차 표기에 적용해보았다. 실험결과, 다른 방법에 비해 우수한 성능을 보였다.

  • PDF

Arabic-Numerals to Korean Transliteration Disambiguation using BERT (BERT를 이용한 숫자-한국어 음역 모호성 해소)

  • Park, Jeong Yeon;Yuk, Dae Bum;Lee, Jae Sung
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.42-44
    • /
    • 2020
  • TTS(Text-to-Speech) 시스템을 위해서는 한글 이외의 문자열을 한글로 변환해줄 필요가 있다. 이러한 문자열에는 숫자, 특수문자 등의 문자열이 포함되어 있다. 특히 숫자의 경우, 숫자가 사용되는 문맥에 따라 그 발음방법이 달라지는 문제점이 있다. 본 논문에서는 기존의 규칙기반과 한정된 문맥 정보만을 활용할 수 있는 방법이 아닌, 딥러닝을 이용한 방법으로 문맥에 따라 발음방법이 달라지는 숫자 음역의 모호성을 해소하는 방법을 소개한다.

  • PDF