• Title/Summary/Keyword: Multilingual Processing

Search Result 41, Processing Time 0.022 seconds

Multilingual Speech and Machine Translation System for Foreign Tourists (외국인 관광객을 위한 다국어 통번역 시스템)

  • Choi, Sung-Kwon;Kim, Young-Gil
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2016.10a
    • /
    • pp.665-666
    • /
    • 2016
  • 본 논문은 현재 개발 중에 있는 외국인 관광객을 위한 다국어 통번역 시스템을 기술하는 것을 목표로 한다. 다국어 통번역 시스템에서 개발 중에 있는 언어는 한국어, 일본어, 중국어, 영어, 스페인어, 불어, 독일어, 러시아어이다. 이렇게 개발된 다국어 통번역 시스템은 2018년 평창 동계 올림픽 때 다국어 통번역 서비스를 제공할 예정이다. 현재의 다국어 통번역 시스템의 성능은 번역만 보았을 때, 영한 87.63%, 한영 88.21%, 중한 85.38%, 한중 77.94%, 일한 89.00%, 한일 86.69%, 스한 76.90%, 한스 77.46%, 불한 76.28%, 한불 79.78%이다.

Effective Cross-Lingual Text Retrieval using a Fuzzy Knowledge Base (퍼지 지식베이스를 이용한 효과적인 다언어 문서 검색)

  • Choi, Myeong-Bok
    • The Journal of the Institute of Internet, Broadcasting and Communication
    • /
    • v.8 no.1
    • /
    • pp.53-62
    • /
    • 2008
  • Cross-lingual text retrieval(CLTR) is the information retrieval in which a user tries to search a set of documents written in one language for a query another language. This thesis proposes a CLTR system based on fuzzy multilingual thesaurus to handle a partial matching between terms of two different languages. The proposed CLTR system uses a fuzzy term matrix defined in our thesis to perform the information retrieval effectively. In the defined fuzzy term matrix, all relation degrees between terms are inferred from using the transitive closure algorithm to reflect all implicit links between terms into processing of the information retrieval. With this framework, the CLTR system proposed in our thesis enhances the retrieval effectiveness because it is able to emulate a human expert's decision making well in CLTR.

  • PDF

Mapping between CoreNet and SUMO through WordNet (WordNet을 매개로 한 CoreNet-SUMO의 매핑)

  • Kang, Sin-Jae;Kang, In-Su;Nam, Se-Jin;Choi, Key-Sun
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.21 no.2
    • /
    • pp.276-282
    • /
    • 2011
  • CoreNet is a valuable resource to use in the domain of natural language processing including Korean-Chinese-Japanese multilingual text analysis, and translation among natural languages. CoreNet is mapped to SUMO in order to encourage its application in broader fields and enhance its international status as a multilingual lexical semantic network. To do this, indirect and direct mapping methodologies are used. Through the indirect mapping among CoreNet-KorLex-PWN-SUMO, we alleviate the difficulty of translating CoreNet concept terms in Korean into SUMO concepts in English, and maximize recall of SUMO concepts corresponding to the concept of CoreNet.

Korean Semantic Annotation on the EXCOM Platform

  • Chai, Hyun-Zoo;Djioua, Brahim;Priol, Florence Le;Descles, Jean-Pierre
    • Proceedings of the Korean Society for Language and Information Conference
    • /
    • 2007.11a
    • /
    • pp.548-556
    • /
    • 2007
  • We present an automatic semantic annotation system for Korean on the EXCOM (EXploration COntextual for Multilingual) platform. The purpose of natural language processing is enabling computers to understand human language, so that they can perform more sophisticated tasks. Accordingly, current research concentrates more and more on extracting semantic information. The realization of semantic processing requires the widespread annotation of documents. However, compared to that of inflectional languages, the technology in agglutinative language processing such as Korean still has shortcomings. EXCOM identifies semantic information in Korean text using our new method, the Contextual Exploration Method. Our initial system properly annotates approximately 88% of standard Korean sentences, and this annotation rate holds across text domains.

  • PDF

Neural Model for Named Entity Recognition Considering Aligned Representation

  • Sun, Hongyang;Kim, Taewhan
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2018.10a
    • /
    • pp.613-616
    • /
    • 2018
  • Sequence tagging is an important task in Natural Language Processing (NLP), in which the Named Entity Recognition (NER) is the key issue. So far the most widely adopted model for NER in NLP is that of combining the neural network of bidirectional long short-term memory (BiLSTM) and the statistical sequence prediction method of Conditional Random Field (CRF). In this work, we improve the prediction accuracy of the BiLSTM by supporting an aligned word representation mechanism. We have performed experiments on multilingual (English, Spanish and Dutch) datasets and confirmed that our proposed model outperformed the existing state-of-the-art models.

Analysis on User Interface in Information Retrieval Systems (정보검색시스템에서의 이용자 인터페이스 기능에 관한 분석적 고찰)

  • 서은경
    • Journal of the Korean Society for information Management
    • /
    • v.16 no.4
    • /
    • pp.125-150
    • /
    • 1999
  • This study reviews various aspects of design of user interfaces in interactive information retrieval systems. Specially the study examines, 1) search related interfaces such as query processing, search strategies, and multilingual processing, and 2) browsing related interfaces such as document browsing and search result browsing. The main goals of this review are to characterize user interface techniques in information retrieval systems and to suggest potential future research direction and challenges.

  • PDF

Multilingual Automatic Translation Based on UNL: A Case Study for the Vietnamese Language

  • Thuyen, Phan Thi Le;Hung, Vo Trung
    • IEIE Transactions on Smart Processing and Computing
    • /
    • v.5 no.2
    • /
    • pp.77-84
    • /
    • 2016
  • In the field of natural language processing, Universal Networking Language (UNL) has been used by various researchers as an inter-lingual approach to automatic machine translation. The UNL system consists of two main components, namely, EnConverter for converting text from a source language to UNL, and DeConverter for converting from UNL to a target language. Currently, many projects are researching how to apply UNL to different languages. In this paper, we introduce the tools that are UNL's applications and discuss how to reuse them to encode a Vietnamese sentence into UNL expressions and decode UNL expressions into a Vietnamese sentence. The testing was done with about 1,000 Vietnamese sentences (a dictionary that includes 4573 entries and 3161 rules). In addition, we compare the proportion of sentences translated based on a direct method (Google Translator) and another one based on UNL.

Korean Analysis and Transfer in Unification-based Multilingual Machine Translation System (통합기반 다국어 자동번역 시스템에서의 한국어 분석과 변환)

  • Choi, Sung-Kwon;Park, Dong-In
    • Annual Conference on Human and Language Technology
    • /
    • 1996.10a
    • /
    • pp.301-307
    • /
    • 1996
  • 다국어 자동번역이란 2개국어 이상 언어들간의 번역을 말한다. 기존의 다국어 자동번역 시스템은 크게 변환기반 transfer-based 방식과 피봇방식으로 분류될 수 있는데 변환기반 다국어 자동번역 시스템에서는 각 언어의 분석과 생성 규칙이 상이하게 작성됨으로써 언어들간의 공통성이 수용되지 못하였고 그로 인해 전체 번역 메모리의 크기가 증가하는 결과를 초래하였었다. 또한 기존의 피봇방식에서는 다국어에 적용될 수 있는 언어학적 보편성 모델을 구현하는 어려움이 있었다. 이러한 기존의 다국어 자동번역 시스템의 단점들을 극복하기 위해 본 논문에서는 언어들간의 공통성을 수용하며 또한 여러 언어에서 공유될 수 있는 공통 규칙에 의한 다국어 자동번역 시스템을 제안하고자 한다. 공통 규칙의 장점은 전산학적으로는 여러 언어에서 단지 한번 load 되기 때문에 전체 번역 메모리의 크기를 줄일 수 있다는 것과 언어학적으로는 문법 정보의 작성.수정.관리의 일관성을 유지할 수 있다는 것이다.

  • PDF

An Optimization of Hangul Input in Multilingual Input Method (다국어 입력기에서 한글 입력의 최적화 방안)

  • Yoo, Jeong-Won;Byun, Jeong-Yong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2005.11a
    • /
    • pp.677-680
    • /
    • 2005
  • 다국어 입력기에서 한글 입력의 최적화를 위하여 문자별 보편성과 개별성을 밝혀내어서 어떤 문자의 개별성이 다른 문자의 보편성을 헤치지 않도록 충돌 요인을 최대한 낮추어야 한다. 특히 한글은 표음 문자로서 음절 및 음소문자의 특성을 가지고 있고, 한글전용을 하고 있다. 반면에 일본어와 중국어는 음절문자에 해당하며 가나 또는 병음을 입력하여 마지막에는 한자로 바꾸어야 한다. 여기서 훈민정음창제원리를 기본으로 삼아 최적화에 적용하고자 한다.

  • PDF

A Study on Intelligent ebook Multilingual TTS Service based on HTML5 (HTML5기반 지능형 전자책 다국어 TTS 서비스에 관한 연구)

  • Ryu, Ho-Bin;Kim, Ha-Kyung;Hong, Seong-Yong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2016.04a
    • /
    • pp.815-817
    • /
    • 2016
  • 웹 기술의 발전은 인간 사회의 변화에 많은 영향을 주고 있다. 웹 발전 분야에서도 전자책 기술 발전은 확연하게 달라지고 있으며, 단순 텍스트 정보만을 제공하는 기술을 넘어 음성서비스를 위한 기술 분야에도 많은 연구가 활발하게 진행되고 있다. 따라서 본 논문에서는 웹 표준 기술인 HTML5기반 지능형 전자책 다국어 TTS 서비스를 위한 관련 연구 조사와 전자책 사용자의 편리성 및 접근성을 강화하기 위한 전자책 제작 및 서비스 방법에 대하여 연구하였다. 본 연구의 목적은 전자책 사용자들에게 텍스트를 포함한 전자책에서 텍스트 및 여러 객체들에 주제 혹은 설명을 TTS 서비스가 가능하도록 하고, 사용자의 선택적 영역과 언어에 따라 다국어 TTS가 자동 변환되어 서비스 할 수 있도록 연구 개발 하는 것이다.