• 제목/요약/키워드: Word translation

검색결과 146건 처리시간 0.024초

언어 자원과 토픽 모델의 순차 매칭을 이용한 유사 문장 계산 기반의 위키피디아 한국어-영어 병렬 말뭉치 구축 (Building a Korean-English Parallel Corpus by Measuring Sentence Similarities Using Sequential Matching of Language Resources and Topic Modeling)

  • 천주룡;고영중
    • 정보과학회 논문지
    • /
    • 제42권7호
    • /
    • pp.901-909
    • /
    • 2015
  • 본 논문은 위키피디아로부터 한국어-영어 간 병렬 말뭉치를 구축하기 위한 연구이다. 이를 위해, 언어 자원과 토픽모델의 순차 매칭 기반의 유사 문장 계산 방법을 제안한다. 먼저, 언어자원의 매칭은 위키피디아 제목으로 구성된 위키 사전, 숫자, 다음 온라인 사전을 단어 매칭에 순차적으로 적용하였다. 또한, 위키피디아의 특성을 활용하기 위해 위키 사전에서 추정한 번역 확률을 단어 매칭에 추가 적용하였다. 그리고 토픽모델로부터 추출한 단어 분포를 유사도 계산에 적용함으로써 정확도를 향상시켰다. 실험에서, 선행연구의 언어자원만을 선형 결합한 유사 문장 계산은 F1-score 48.4%, 언어자원과 모든 단어 분포를 고려한 토픽모델의 결합은 51.6%의 성능을 보였으나, 본 논문에서 제안한 언어자원에 번역 확률을 추가하여 순차 매칭을 적용한 방법은 58.3%로 9.9%의 성능 향상을 얻었고, 여기에 중요한 단어 분포를 고려한 토픽모델을 적용한 방법이 59.1%로 7.5%의 성능 향상을 얻었다.

영한번역 시스템에서 연어 사용에 의한 실용적인 대역어 선택 (Practical Target Word Selection Using Collocation in English to Korean Machine Translation)

  • 김성묵
    • 한국산업정보학회논문지
    • /
    • 제5권2호
    • /
    • pp.56-61
    • /
    • 2000
  • 기계번역시스템에서 번역의 우수성은 중의성이 심한 동사의 대역어 선택에 좌우된다. 동사의 의미분별은 함께 어울려 사용되는 연어들에 의해 해소될 수 있지만, 이러한 연어들을 획득하기에는 많은 어려움과 비용의 문제가 발생한다. 이에 따라 기존의 많은 연구 중에서 실용성을 검토해 볼 필요가 있다. 본 논문에서는 영한번역시스템의 성능 향상을 위해 기존에 획득된 연어에 최소한의 명사 의미자질을 구축하여 계산한 의미거리(Semantic Distance)에 의한 실용적인 대역어 선택 방법을 기술하고자 한다.

  • PDF

영추·경맥편 수태음폐경 유주의 한글번역에 대한 고찰 (A Study on Korean Translation of the Pathway of Lung Meridian in Miraculous Pivot·Meridian Vessel)

  • 정혜진;임사비나
    • Korean Journal of Acupuncture
    • /
    • 제33권3호
    • /
    • pp.114-120
    • /
    • 2016
  • Objectives : It aims to establish a basic rule in Korean translation of the pathway of lung meridian in Miraculous Pivot Meridian vessel. Based on the rule, We tried to make standard translation of the pathway of lung meridian in Miraculous Pivot Meridian vessel. Methods : Books needed for this study were collected through searching Kyunghee University Library(http:// khis.khu.ac.kr). Keywords included "Miraculous Pivot of Huangdi's Internal Classic". We also include the book which is generally used as a textbook in Colleges of Korean Medicine. Results : In five Chinese books, the word-spacing was used differently in four phrases. Six Korean-translated books had the different translation in three phrases. We suggested a standard Korean translation of the pathway of lung meridian in Miraculous Pivot Meridian vessel. Conclusions : This result of the study would be expected to not only be published in Korean Journal of Acupuncture but be studied more about Korean translation by experts in this field.

A Survey of Machine Translation and Parts of Speech Tagging for Indian Languages

  • Khedkar, Vijayshri;Shah, Pritesh
    • International Journal of Computer Science & Network Security
    • /
    • 제22권4호
    • /
    • pp.245-253
    • /
    • 2022
  • Commenced in 1954 by IBM, machine translation has expanded immensely, particularly in this period. Machine translation can be broken into seven main steps namely- token generation, analyzing morphology, lexeme, tagging Part of Speech, chunking, parsing, and disambiguation in words. Morphological analysis plays a major role when translating Indian languages to develop accurate parts of speech taggers and word sense. The paper presents various machine translation methods used by different researchers for Indian languages along with their performance and drawbacks. Further, the paper concentrates on parts of speech (POS) tagging in Marathi dialect using various methods such as rule-based tagging, unigram, bigram, and more. After careful study, it is concluded that for machine translation, parts of speech tagging is a major step. Also, for the Marathi language, the Hidden Markov Model gives the best results for parts of speech tagging with an accuracy of 93% which can be further improved according to the dataset.

《매비전(梅妃傳)》의 국내유입과 번역양상 (Dissemination of the Tale of meifeizhuan to Korea and its Translation Practice)

  • 유희준;민관동
    • 비교문화연구
    • /
    • 제27권
    • /
    • pp.255-289
    • /
    • 2012
  • In the course of completing a National Research Foundation project, I recently found that a handwritten Korean manuscript of The Tale of Mei Fei is kept in the Adan Collection, which is a significant scholarly discovery given that no relevant research is available. The editions of the Tale of Mei Fei available in Korea include ${\ll}$藝苑?華${\gg}$ edition, ${\ll}$說?${\gg}$ edition, and the handwritten manuscript in Korean collected in the Adan Collection. Being the only handwritten Korean translation of the work, the Tale of Mei Fei in the Adan Collection was appended by the translations of ${\ll}$한셩뎨됴비연합덕젼${\gg}$ and ${\ll}$당고종무후뎐${\gg}$. As for the practice of translation of the work, literal "word to word" translation was done for the most part of the text; some sentences were occasionally translated liberally. Also, as for the poems in the text, pronunciation of each Chinese character was provided along with the translated text.

Needleman-Wunsch 알고리즘을 이용한 유사예문 검색 (Searching Similar Example-Sentences Using the Needleman-Wunsch Algorithm)

  • 김동주;김한우
    • 한국컴퓨터정보학회논문지
    • /
    • 제11권4호
    • /
    • pp.181-188
    • /
    • 2006
  • 본 논문에서는 번역지원 시스템을 위한 유사예문 검객 알고리즘을 제안한다. 유사예문 검색이란 질의문에 대하여 구조적, 의미적으로 유사한 예문을 찾는 것으로 번역지원 시스템의 핵심 요소이다. 제안하는 알고리즘은 생물정보학 분야에서 두 단백질의 아미노산열의 유사성을 판별하기 위한 Needleman-Wunsch 알고리즘에 기반하고 있다. 표면정보만 이용하는 Needleman-Wunsch 알고리즘을 그대로 문장 비교에 적용하였을 경우 단어 굴절요소에 민감하여 의미적으로 유사한 문장을 발견하지 못할 가능성이 높다. 따라서 표면 정보 외에 단어의 표제어 정보를 추가적으로 이용한다. 또한 문장 구조의 유사성 정도를 반영하기 위해 품사 정보를 이용한다. 즉, 본 논문에서는 단어의 표면 정보. 표제어 정보, 품사 정보를 융합한 문장 비교 척도를 제안한다. 그리고 이 척도를 이용하여 유사 문장을 검색하고, 유사성에 기여하는 부분쌍을 파악하여 결과로 제시한다. 제안하는 알고리즘은 전기통신 분야의 데이터에 대해 매우 우수한 성능을 보였다.

  • PDF

과도한 지식을 요구하지 않는 공통기반축에 의한 용어 번역과 한영 교차정보검색에의 응용 (Knowledge-poor Term Translation using Common Base Axis with application to Korean-English Cross-Language Information Retrieval)

  • 최용석;최기선
    • 인지과학
    • /
    • 제14권1호
    • /
    • pp.29-40
    • /
    • 2003
  • 교차언어 정보검색은 다국어 정보검색의 일부분으로 질의어에서 사용하는 언어와 검색대상인 문서의 언어가 서로 다른 경우의 정보검색을 의미한다. 교차언어 정보검색의 성능 향상을 위해서는 양질의 언어자원이 대량으로 필요한 경우가 많기 때문에 이를 해결하기 쉽지 않다. 본 논문에서는 사전에 기반한 대역어 후보 선정 시, 가중치를 부여해 질의어를 변환하는 방식을 제안한다. 가중치 계산에 이용되는 의미거리는 영어 명사와 한국어 명사를 같은 벡터 공간에 표현하고, 두 벡터간의 관계를 이용해 거리를 계산한다. 서로 다른 두 언어의 명사를 한 공간에 표현하기 위해 "공통 기반축"의 개념을 제시하고, 구축 방법을 제안한다. 고급 자원인 온톨로지를 확보하지 않고, 제안하는 방법으로 우수한 정보검색 결과를 얻을 수 있다는 것을 실험을 통해 보여준다.을 통해 보여준다.

  • PDF

An Alignment based technique for Text Translation between Traditional Chinese and Simplified Chinese

  • Sue J. Ker;Lin, Chun-Hsien
    • 한국언어정보학회:학술대회논문집
    • /
    • 한국언어정보학회 2002년도 Language, Information, and Computation Proceedings of The 16th Pacific Asia Conference
    • /
    • pp.147-156
    • /
    • 2002
  • Aligned parallel corpora have proved very useful in many natural language processing tasks, including statistical machine translation and word sense disambiguation. In this paper, we describe an alignment technique for extracting transfer mapping from the parallel corpus. During building our system and data collection, we observe that there are three types of translation approaches can be used. We especially focuses on Traditional Chinese and Simplified Chinese text lexical translation and a method for extracting transfer mappings for machine translation.

  • PDF

Optimized Chinese Pronunciation Prediction by Component-Based Statistical Machine Translation

  • Zhu, Shunle
    • Journal of Information Processing Systems
    • /
    • 제17권1호
    • /
    • pp.203-212
    • /
    • 2021
  • To eliminate ambiguities in the existing methods to simplify Chinese pronunciation learning, we propose a model that can predict the pronunciation of Chinese characters automatically. The proposed model relies on a statistical machine translation (SMT) framework. In particular, we consider the components of Chinese characters as the basic unit and consider the pronunciation prediction as a machine translation procedure (the component sequence as a source sentence, the pronunciation, pinyin, as a target sentence). In addition to traditional features such as the bidirectional word translation and the n-gram language model, we also implement a component similarity feature to overcome some typos during practical use. We incorporate these features into a log-linear model. The experimental results show that our approach significantly outperforms other baseline models.