• Title/Summary/Keyword: Language Processing

Search Result 2,660, Processing Time 0.034 seconds

A Study on Translation of 'Hata' Verb Based on Relation between 'X-hata' and 'X-lul hata' (`X하다`와 'X를 하다'의 상관성에 기반한 한중 자동 번역 시스템에서의 '하다' 동사 번역에 관한 연구)

  • Seo, Young-Ae;Huang, Yinxia;Hong, Mu-Xyo;Choi, Sung-Kwon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2002.11a
    • /
    • pp.607-610
    • /
    • 2002
  • 패턴에 기반한 자동번역 시스템에 있어서, 번역률을 결정하는 가장 중요한 요소는 패턴의 양과 질이다. 필요한 대량의 패턴을 단기에 구축하기 위해서 패턴 정보 기술상의 잉여성을 줄일 필요가 있다. '하다' 동사는 한국어에서 가장 빈번하게 사용되는 동사 중의 하나로서, 'X를 하다'와 'X하다'의 2가지 구문 구조를 갖는다. 본 논문에서는 동사구 패턴에 기반한 한중 자동 번역 시스템에서 'X를 하다'와 'X하다' 구문간의 상관성을 이용하여 두 구문이 'X하다' 동사에 대한 동사구 패턴을 공유하도록 함으로써 동사구 패턴 구축 시에 정보의 중복 기술을 피하고, 패턴의 적용 범위를 넓힌다. 패턴의 공유로 인해 발생하는 대역문 생성 시의 문제점은, 'X를 하다' 구문에 대응하는 중국어 대역 형태 별로 분류하여 해결함으로써 패턴을 공유하면서도 번역의 질은 유지시킬 수 있는 방법을 제안한다.

  • PDF

English Dialogue System for City Tour (도시 관광용 영어 대화 시스템)

  • Choi, Sung-Kwon;Kwon, Oh-Woog;Roh, Yoon-Hyung;Lee, Ki-Young;Kim, Young-Gil
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2012.11a
    • /
    • pp.560-563
    • /
    • 2012
  • 본 논문은 한국전자통신연구원(ETRI)에서 2010 년부터 2015 년까지 5 년간에 걸쳐 개발 예정인 영어 교육용 대화 시스템 중 2011 년에 개발된 관광용 영어 교육용 대화 시스템 중 도시 관광 도메인을 대상으로 한 도시 관광용 영어 대화 시스템을 소개하는 것을 목표로 한다. 도시 관광용 영어 대화 시스템은 크게 대화 이해 모듈, 대화 관리 모듈, 대화 생성 모듈, 대화 모델링 구축/관리 모듈, 대화 지식 구축 도구로 구성된다. 도시 관광용 영어 대화 시스템 평가를 위해 평가자를 초급, 중급, 고급의 3 개 그룹으로 나누어 평가를 실시하였다. 평가자는 원격 웹 평가 도구에 접속하여 4 개의 대화 미션에 대해 영어로 대화 시스템과 대화를 실시하였으며 평가는 태스크 성공률로 측정되었다. 태스크 성공률은 82.5%로 측정되었다.

ETRI small-sized dialog style TTS system (ETRI 소용량 대화체 음성합성시스템)

  • Kim, Jong-Jin;Kim, Jeong-Se;Kim, Sang-Hun;Park, Jun;Lee, Yun-Keun;Hahn, Min-Soo
    • Proceedings of the KSPS conference
    • /
    • 2007.05a
    • /
    • pp.217-220
    • /
    • 2007
  • This study outlines a small-sized dialog style ETRI Korean TTS system which applies a HMM based speech synthesis techniques. In order to build the VoiceFont, dialog-style 500 sentences were used in training HMM. And the context information about phonemes, syllables, words, phrases and sentence were extracted fully automatically to build context-dependent HMM. In training the acoustic model, acoustic features such as Mel-cepstrums, logF0 and its delta, delta-delta were used. The size of the VoiceFont which was built through the training is 0.93Mb. The developed HMM-based TTS system were installed on the ARM720T processor which operates 60MHz clocks/second. To reduce computation time, the MLSA inverse filtering module is implemented with Assembly language. The speed of the fully implemented system is the 1.73 times faster than real time.

  • PDF

Implementation of Iconic Language for the Language Support System of the Language Disorders (언어 장애인의 언어보조 시스템을 위한 아이콘 언어의 구현)

  • Choo Kyo-Nam;Woo Yo-Seob;Min Hong-Ki
    • The KIPS Transactions:PartB
    • /
    • v.13B no.4 s.107
    • /
    • pp.479-488
    • /
    • 2006
  • The iconic language interlace is designed to provide more convenient environments for communication to the target system than the keyboard-based interface. For this work, tendencies and features of vocabulary are analyzed in conversation corpora constructed from the corresponding domains with high degree of utilization, and the meaning and vocabulary system of iconic language are constructed through application of natural language processing methodologies such as morphological, syntactic and semantic analyses. The part of speech and grammatical rules of iconic language are defined in order to make the situation corresponding the icon to the vocabulary and meaning of the Korean language and to communicate through icon sequence. For linguistic ambiguity resolution which may occur in the iconic language and for effective semantic processing, semantic data focused on situation of the iconic language are constructed from the general purpose Korean semantic dictionary and subcategorization dictionary. Based on them, the Korean language generation from the iconic interface in semantic domain is suggested.

Boolean Formulation of Korean Natural Language Queries Using Syntactic Analysis (구문 분석에 기반한 자연어 질의로부터의 불리언 질의 생성)

  • Park, Mi-Hwa;Won, Hyung-Suk;Lee, Won-Il;Lee, Geun-Bae
    • Annual Conference on Human and Language Technology
    • /
    • 1998.10c
    • /
    • pp.73-80
    • /
    • 1998
  • 본 연구는 자연어 질의의 형태 및 구문 정보를 바탕으로 불리언 질의를 생성하는데 그 목적을 둔다. 일반적으로 대부분의 상용정보검색시스템은 입력형식을 검색성능이 종은 불리언 형태로 하고 있으나, 일반 사용자는 자신이 원하는 정보를 불리언 형태로 표현하는데 익숙하지 않다. 그러므로 본 정보검색시스템은 자연어 질의를 기본 입력형태로 하여 사용자의 편의성을 높이고, 이 질의를 범주문법에 기반한 구문분석 결과에 의해 복합명사를 고려한 불리언 형태로 변환하여 검색을 수행함으로써 시스템의 검색 성능의 향상을 도모하였다. 정보검색 실험용 데이터 모음인 KTSET2.0으로 실험한 결과 본 논문에서 제안한 자연어 질의로부터 자동 생성된 불리언 질의의 검객성능이 KTSET2.0에서 제공하는 수동으로 추출한 불리언 질의보다 8% 더 우수한 성능을 보였고, 기존 자연어질의 시스템이 수용해온 방법인 형태소 분석을 거쳐 불용어를 제거한 후 Vector 모델을 적용하여 검색을 수행한 경우보다는 23% 더 나은 성능을 보였다.

  • PDF

Building Hybrid Stop-Words Technique with Normalization for Pre-Processing Arabic Text

  • Atwan, Jaffar
    • International Journal of Computer Science & Network Security
    • /
    • v.22 no.7
    • /
    • pp.65-74
    • /
    • 2022
  • In natural language processing, commonly used words such as prepositions are referred to as stop-words; they have no inherent meaning and are therefore ignored in indexing and retrieval tasks. The removal of stop-words from Arabic text has a significant impact in terms of reducing the size of a cor- pus text, which leads to an improvement in the effectiveness and performance of Arabic-language processing systems. This study investigated the effectiveness of applying a stop-word lists elimination with normalization as a preprocessing step. The idea was to merge statistical method with the linguistic method to attain the best efficacy, and comparing the effects of this two-pronged approach in reducing corpus size for Ara- bic natural language processing systems. Three stop-word lists were considered: an Arabic Text Lookup Stop-list, Frequency- based Stop-list using Zipf's law, and Combined Stop-list. An experiment was conducted using a selected file from the Arabic Newswire data set. In the experiment, the size of the cor- pus was compared after removing the words contained in each list. The results showed that the best reduction in size was achieved by using the Combined Stop-list with normalization, with a word count reduction of 452930 and a compression rate of 30%.

Analysis of the Korean Tokenizing Library Module (한글 토크나이징 라이브러리 모듈 분석)

  • Lee, Jae-kyung;Seo, Jin-beom;Cho, Young-bok
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2021.05a
    • /
    • pp.78-80
    • /
    • 2021
  • Currently, research on natural language processing (NLP) is rapidly evolving. Natural language processing is a technology that allows computers to analyze the meanings of languages used in everyday life, and is used in various fields such as speech recognition, spelling tests, and text classification. Currently, the most commonly used natural language processing library is NLTK based on English, which has a disadvantage in Korean language processing. Therefore, after introducing KonLPy and Soynlp, the Korean Tokenizing libraries, we will analyze morphology analysis and processing techniques, compare and analyze modules with Soynlp that complement KonLPy's shortcomings, and use them as natural language processing models.

  • PDF

Evaluation of the Translation Part of the Concept-based Spoken Language Translation System (개념기반 대화체 언어번역시스템의 번역부평가)

  • Choi, Un-Cheon;Han, Nam-Yong;Kim, Jae-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 1996.10a
    • /
    • pp.322-325
    • /
    • 1996
  • 이 논문은 개념기반의 대화체 언어번역시스템의 번역부의 평가에 대해 기술한 것이다. 대상언어는 한국어와 영어로 한국어를 해석하여 영어로 번역하는 시스템이다. 개념기반 시스템은 개념을 기준으로 입력된 문장을 해석하고 그 개념을 이용하여 번역한다. 개념기반 시스템은 개념에 기반을 두기 때문에 자유로운 간투사의 사용, 빈번한 단어 생략 등의 특성을 가지는 대화체 번역에 유리하다. 시스템의 평가는 입력문에 대한 번역문의 결과가 의미적으로 어느 정도 전달되었는지를 평가자의 주관적인 판단에 의해 평가한다. 현재 개발된 시스템은 여행안내 영역(domain)을 대상으로 하고 있다. 개발된 시스템에 대한 평가는 대화체를 전사한 문장과 음성인식의 결과 두 가지의 입력에 대해 하였다.

  • PDF

Korean Semantic Annotation on the EXCOM Platform

  • Chai, Hyun-Zoo;Djioua, Brahim;Priol, Florence Le;Descles, Jean-Pierre
    • Proceedings of the Korean Society for Language and Information Conference
    • /
    • 2007.11a
    • /
    • pp.548-556
    • /
    • 2007
  • We present an automatic semantic annotation system for Korean on the EXCOM (EXploration COntextual for Multilingual) platform. The purpose of natural language processing is enabling computers to understand human language, so that they can perform more sophisticated tasks. Accordingly, current research concentrates more and more on extracting semantic information. The realization of semantic processing requires the widespread annotation of documents. However, compared to that of inflectional languages, the technology in agglutinative language processing such as Korean still has shortcomings. EXCOM identifies semantic information in Korean text using our new method, the Contextual Exploration Method. Our initial system properly annotates approximately 88% of standard Korean sentences, and this annotation rate holds across text domains.

  • PDF

Numeric Sign Language Interpreting Algorithm Based on Hand Image Processing (영상처리 기반 숫자 수화표현 인식 알고리즘)

  • Gwon, Kyungpil;Yoo, Joonhyuk
    • IEMEK Journal of Embedded Systems and Applications
    • /
    • v.14 no.3
    • /
    • pp.133-142
    • /
    • 2019
  • The existing auxiliary communicating aids for the hearing-impaired have an inconvenience of using additional expensive sensing devices. This paper presents a hand image detection based algorithm to interpret the sign language of the hearing-impaired. The proposed sign language recognition system exploits the hand image only captured by the camera without using any additional gloves with extra sensors. Based on the hand image processing, the system can perfectly classify several numeric sign language representations. This work proposes a simple lightweight classification algorithm to identify the hand image of the hearing-impaired to communicate with others even further in an environment of complex background. Experimental results show that the proposed system can interpret the numeric sign language quite well with an accuracy of 95.6% on average.