• 제목/요약/키워드: Transliteration

검색결과 54건 처리시간 0.021초

영-한 병렬 코퍼스로부터 외래어 표기 사전의 자동 구축 (Automatic Construction of Foreign Word Transliteration Dictionary from English-Korean Parallel Corpus)

  • 이재성
    • 컴퓨터교육학회논문지
    • /
    • 제6권2호
    • /
    • pp.9-21
    • /
    • 2003
  • 본 논문에서는 한국어 번역문과 영어 원문으로 구성된 병렬 코퍼스로부터 자동으로 외래어 표기 사전을 구축하는 시스템을 제안한다. 구축 시스템은 첫 단계로 한국어 문서에서 명사를 추출하고, 두 번째 단계에서 추출된 명사 중 언어 모델에 근거하여 외래어만을 추출한 후, 마지막 세 번째 단계에서 확률적 정렬 방법을 이용하여 외래어에 대응되는 영어를 추출한다. 특히, 외래어는 한국어 어미나 조사가 붙어서 같이 쓰이기 때문에, 한국어 어절 내에서 정확하게 외래어 부분만을 분리하기 위해, 병렬 코퍼스 내에 존재하는 대응 영어 단어 정보를 활용하였다. 또, 문자체계가 다른 두 단어를 같은 문자로 변환하지 않고 직접 음운 유사도를 비교할 수 있도록 했다. 실험 결과, 성능은 전처리 단계인 한국어 미등록어 및 외래어 추정에 영향을 많이 받았고, 수작업으로 전처리를 한 모델 중 가장 성능이 높은 것은 재현률 85.4%, 정확률 91.0%를 보였고, 전 과정을 자동으로 한 모델중에서는 재현률 68.3%, 정확률 89.2%를 보였다.

  • PDF

Korean-Chinese Person Name Translation for Cross Language Information Retrieval

  • Wang, Yu-Chun;Lee, Yi-Hsun;Lin, Chu-Cheng;Tsai, Richard Tzong-Han;Hsu, Wen-Lian
    • 한국언어정보학회:학술대회논문집
    • /
    • 한국언어정보학회 2007년도 정기학술대회
    • /
    • pp.489-497
    • /
    • 2007
  • Named entity translation plays an important role in many applications, such as information retrieval and machine translation. In this paper, we focus on translating person names, the most common type of name entity in Korean-Chinese cross language information retrieval (KCIR). Unlike other languages, Chinese uses characters (ideographs), which makes person name translation difficult because one syllable may map to several Chinese characters. We propose an effective hybrid person name translation method to improve the performance of KCIR. First, we use Wikipedia as a translation tool based on the inter-language links between the Korean edition and the Chinese or English editions. Second, we adopt the Naver people search engine to find the query name's Chinese or English translation. Third, we extract Korean-English transliteration pairs from Google snippets, and then search for the English-Chinese transliteration in the database of Taiwan's Central News Agency or in Google. The performance of KCIR using our method is over five times better than that of a dictionary-based system. The mean average precision is 0.3490 and the average recall is 0.7534. The method can deal with Chinese, Japanese, Korean, as well as non-CJK person name translation from Korean to Chinese. Hence, it substantially improves the performance of KCIR.

  • PDF

고깔의 比較 言語學的 硏究 (A Comparative Linguistic Study on Kokal)

  • 김진구
    • 복식문화연구
    • /
    • 제3권2호
    • /
    • pp.193-199
    • /
    • 1995
  • The purpose of this research was to study the origins and the meanings of the Kokal (고깔). Comparative linguistic analytical approaches were employed to trace the development of the word, the Kokal(고깔). Results of this study revealed that the kotkal(곳갈, 곧갈) was a general term referring to a variety of head coverings in eh period of Choson Dynasty. This broad meanings of the Kotkal(곳갈,곧갈) of the Chosun Dynasty period has been changed to a narrow sense meanings a conical cap made of folds of the material, mainly used by some of the Buddhist monks in modern Korean. Also, the phonetic value of the Kotkal(곳갈,곧갈) of the Choson Dynasty period changed to the Kokal(고깔) in modern Korean. A variety of words for the Kokal(고깔) was found in the different languages such as Latin, English, French, Turkish, German, Mongolian, and Chinese. The examination and analysis of this study indicated that the origin of the Korean word Kotkal(곳갈,곧갈) or Kokal(고깔) and the meanings of it were derived from LL. Cuculla(monk's cowl)

  • PDF

麻帝核試의 硏究 (A Study on Ma Je Kai Shi(麻帝核試))

  • 김진구
    • 복식문화연구
    • /
    • 제5권4호
    • /
    • pp.6-11
    • /
    • 1997
  • The purpose of this study was to identify and to trace the source of origins of 麻帝核試 that appears in Kei Rim Yu Sa(鷄林類事). Comparative liguistic analytical approaches ware employed for this study. Results of this study revealed that madi(마디) survives as a dialect for m ∂ri[머리(頭)] in Kyung Sang Province Thus, it si considered that the dialect madi(마디) is a survival of 마디(麻帝) of Koryo. Similar words to 核試 of Koryo were found in Hebrew and Japanese : Heb. k-u-tsi(zi) means locks of hair and Japanese ku-shi(くシ) has several meanings : comb, head, and the hair of the head. The word 麻帝核試 of Koryo is a compound ward of madi(麻帝), head and k ∂ shi(그시) 核試 locks of hair(hair of the head). 核試 of Koryo , Jao. ku shi(くシ), and Heb. k-u-tsi(zi) showed close relationships to one another. The word ku shi(si) 그시 核試 was derived from Heb. k-u-tsi(zi) and Jap. ku shi(くシ) was originated from 核試 of Koryo. Kor. ku shi(si) 그시 核試 is a transliteration of Heb. k-u-tsi(zi) and Jap. ku shi(くシ) is a trans-literation of Kor. ku shi 그시 核試.

  • PDF

背戍의 硏究 (A Study on Bai Su(背戍))

  • 김진구
    • 복식문화연구
    • /
    • 제5권4호
    • /
    • pp.1-5
    • /
    • 1997
  • This study is concerned with the bai su(背戍) of Koryo period which recorded in Kei Rim Yu Sa(鷄林類事). Results of this research can be summarized as follows : The record of Bai Su(背戍) in Kei Rim Yu Sa(鷄林類事) was correct. It was not a mistake in writing. Thus, this word(背戍) was used by the people of Koryo. The 背戍 of Koryo was related to Aramaic patash and Japanese byets or bats, バツ. It was found that 背戍 of Koryo was very similar to Aramaic patash, legging. It indicates that 背戍 was derived from Aramaic and it was a transliteration of patash. Thus, 背戍 was a borrowed word from Aramaic. Also it was found that 背戍 of Koryo and Japanese byets(ぺツ) or bats(バツ) showed a very close affininty with each other in phonetic value. These words had the same meanings of 襪 one another. It reveals that 背戍 of Koryo and Japanese byets of bats has the same origins. Japanese byets or bats were transliterations of 背戍 of Koryo and they were borrowed words from 背戍 of Koryo.

  • PDF

好袖의 名稱 (A Study on the Name of Ho-Su(好袖))

  • 김진구
    • 복식문화연구
    • /
    • 제7권3호
    • /
    • pp.17-21
    • /
    • 1999
  • The purpose of this study was to trace and identify the word, ho-su(好袖), appeared in Sejosillok(世祖實錄). The results of this research can be summerized as follow : the word, ho-su(好袖) was one of the names of sleeves of so-o-sa(小 子). The ho-su(好袖)is a kind of round sleeves with small wrists. The ho-su(好袖) was a synomym of hak-su(鶴袖). The word, ho-su(好袖)is Korean transliteration of ho-su(好袖). Although the first characters of ho-su(好袖) and ho-su(胡袖) are different from each other in Korean, the sounds and the meanings of these two words are the same. Ho-su(好袖), ho-su(胡袖), and hak-su 鶴袖are synonyms.

  • PDF

음차표기된 외래어의 발음특성을 이용한 자동 영어단어 복원 (Automatic Back-Transliteration from Foreign Word to English Word)

  • 이상율;강인수;나승훈;이종혁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (B)
    • /
    • pp.525-527
    • /
    • 2003
  • 음차 표기된 외래어의 원어 복원 문제에 있어서 확률모델을 이용한 방법들이 기존에 많이 사용되었다. 이는‘발음단위’개념 (이재성 1998)을 이용하여 서로 대응될 수 있는 한글발음단위와 영어발음단위의 쌍들을 대역어 집합으로부터 추출하고 이를 확률모델에 적용하는 방법이다. 하지만 영어 철자를 영어 발음단위로 변환하는 과정에서 그 단어의 어원에 따라 서로 다른 발음상의 특징을 보이게 되는데. 이것이 기존의 연구에서 성능을 떨어뜨리는 원인이 되었다. 따라서 본 논문에서는 학습 데이터(대역어 집합)들을 발음 특성에 따라 분류하고. 분류된 각 데이터 집합을 학습과정에서 따로 적용함으로써 서로 다른 특성을 가지는 여러 개의 복원 모델을 얻을 수 있고, 이를 이용하여 원어 복원에 대한 성능을 높일 수 있음을 보여준다.

  • PDF

Distance LSTM-CNN with Layer Normalization을 이용한 음차 표기 대역 쌍 판별 (Verification of Transliteration Pairs Using Distance LSTM-CNN with Layer Normalization)

  • 이창수;천주룡;김주근;김태일;강인호
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.76-81
    • /
    • 2017
  • 외국어로 구성된 용어를 발음에 기반하여 자국의 언어로 표기하는 것을 음차 표기라 한다. 국가 간의 경계가 허물어짐에 따라, 외국어에 기원을 두는 용어를 설명하기 위해 뉴스 등 다양한 웹 문서에서는 동일한 발음을 가지는 외국어 표기와 한국어 표기를 혼용하여 사용하고 있다. 이에 좋은 검색 결과를 가져오기 위해서는 외국어 표기와 더불어 사람들이 많이 사용하는 다양한 음차 표기를 함께 검색에 활용하는 것이 중요하다. 음차 표기 모델과 음차 표기 대역 쌍 추출을 통해 음차 표현을 생성하는 기존 방법 대신, 본 논문에서는 신뢰할 수 있는 다양한 음차 표현을 찾기 위해 문서에서 음차 표기 후보를 찾고, 이 음차 표기 후보가 정확한 표기인지 판별하는 방식을 제안한다. 다양한 딥러닝 모델을 비교, 검토하여 최종적으로 음차 표기 대역 쌍 판별에 특화된 모델인 Distance LSTM-CNN 모델을 제안하며, 제안하는 모델의 Batch Size 영향을 줄이고 학습 시 수렴 속도 개선을 위해 Layer Normalization을 적용하는 방법을 보인다.

  • PDF

복수 음운 정보를 이용한 영.한 음차 표기 (English-to-Korean Transliteration using Multiple Unbounded Overlapping Phonemes)

  • 강인호;김길창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.50-54
    • /
    • 1999
  • 본 연구에서는 기존의 한정된 길이의 영어 또는 한글의 발음 단위를 이용하던 자동 음차 표기 방식과 달리, 학습 데이터에서 추출한 임의 길이의 음운 패턴을 사용하는 방법을 제안한다. 통계적 정보에 기반하여 추출한 음차 표기 패턴과 외래어 표기 규칙에 기반하여 기술한 음차 표기 패턴을 위치와 길이에 관계없이 사용하여 주어진 영어 단어의 한글 음차 표기를 얻어낸다. 제안하는 방법은 먼저 주어진 영어 단어의 가능한 모든 발음 단위를 기준으로 한글 표기 네트워크를 만든 후, 학습 데이터에서 추출한 음운 패턴을 교차 적용시켜 네트워크 각 노드의 가중치를 결정한다. 가중치가 결정된 네트워크에서 가중치의 합이 가장 좋은 경로를 찾아냄으로 해서 음차 표기를 수행한다. 본 연구에서 제안하는 방법으로 실험을 한 결과 자소 단위 86.5%, 단어 단위 55.3%의 정확률을 얻을 수 있었다.

  • PDF

한-영 자동 음차 복원 (Automatic Korean-English Back-Transliteration)

  • 강병주;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.63-69
    • /
    • 1999
  • 최근 다국어 정보검색, 기계번역 등과 관련하여 자동 음차 표기 및 복원에 대한 필요성이 증대되고 있다. 특히 영어와 한국어 같이 그 음운구조의 차이가 큰 언어 쌍인 경우에는 간단한 문제가 아니다. 더구나 외래어를 영어로 복원하는 것은 표기의 경우보다 훨씬 어렵다. 본 논문에서는 결정트리 학습을 통한 한/영 자동 음차 복원 방법을 제안하고 기존의 방법 및 로마자 표기법에 기반한 방법에 비교하여 매우 정확하게 복원이 가능함을 보인다.

  • PDF