• 제목/요약/키워드: language processing

검색결과 2,672건 처리시간 0.026초

`X하다`와 'X를 하다'의 상관성에 기반한 한중 자동 번역 시스템에서의 '하다' 동사 번역에 관한 연구 (A Study on Translation of 'Hata' Verb Based on Relation between 'X-hata' and 'X-lul hata')

  • 서영애;황은하;홍문표;최승권
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 추계학술발표논문집 (상)
    • /
    • pp.607-610
    • /
    • 2002
  • 패턴에 기반한 자동번역 시스템에 있어서, 번역률을 결정하는 가장 중요한 요소는 패턴의 양과 질이다. 필요한 대량의 패턴을 단기에 구축하기 위해서 패턴 정보 기술상의 잉여성을 줄일 필요가 있다. '하다' 동사는 한국어에서 가장 빈번하게 사용되는 동사 중의 하나로서, 'X를 하다'와 'X하다'의 2가지 구문 구조를 갖는다. 본 논문에서는 동사구 패턴에 기반한 한중 자동 번역 시스템에서 'X를 하다'와 'X하다' 구문간의 상관성을 이용하여 두 구문이 'X하다' 동사에 대한 동사구 패턴을 공유하도록 함으로써 동사구 패턴 구축 시에 정보의 중복 기술을 피하고, 패턴의 적용 범위를 넓힌다. 패턴의 공유로 인해 발생하는 대역문 생성 시의 문제점은, 'X를 하다' 구문에 대응하는 중국어 대역 형태 별로 분류하여 해결함으로써 패턴을 공유하면서도 번역의 질은 유지시킬 수 있는 방법을 제안한다.

  • PDF

도시 관광용 영어 대화 시스템 (English Dialogue System for City Tour)

  • 최승권;권오욱;노윤형;이기영;김영길
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 추계학술발표대회
    • /
    • pp.560-563
    • /
    • 2012
  • 본 논문은 한국전자통신연구원(ETRI)에서 2010 년부터 2015 년까지 5 년간에 걸쳐 개발 예정인 영어 교육용 대화 시스템 중 2011 년에 개발된 관광용 영어 교육용 대화 시스템 중 도시 관광 도메인을 대상으로 한 도시 관광용 영어 대화 시스템을 소개하는 것을 목표로 한다. 도시 관광용 영어 대화 시스템은 크게 대화 이해 모듈, 대화 관리 모듈, 대화 생성 모듈, 대화 모델링 구축/관리 모듈, 대화 지식 구축 도구로 구성된다. 도시 관광용 영어 대화 시스템 평가를 위해 평가자를 초급, 중급, 고급의 3 개 그룹으로 나누어 평가를 실시하였다. 평가자는 원격 웹 평가 도구에 접속하여 4 개의 대화 미션에 대해 영어로 대화 시스템과 대화를 실시하였으며 평가는 태스크 성공률로 측정되었다. 태스크 성공률은 82.5%로 측정되었다.

ETRI 소용량 대화체 음성합성시스템 (ETRI small-sized dialog style TTS system)

  • 김종진;김정세;김상훈;박준;이윤근;한민수
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2007년도 한국음성과학회 공동학술대회 발표논문집
    • /
    • pp.217-220
    • /
    • 2007
  • This study outlines a small-sized dialog style ETRI Korean TTS system which applies a HMM based speech synthesis techniques. In order to build the VoiceFont, dialog-style 500 sentences were used in training HMM. And the context information about phonemes, syllables, words, phrases and sentence were extracted fully automatically to build context-dependent HMM. In training the acoustic model, acoustic features such as Mel-cepstrums, logF0 and its delta, delta-delta were used. The size of the VoiceFont which was built through the training is 0.93Mb. The developed HMM-based TTS system were installed on the ARM720T processor which operates 60MHz clocks/second. To reduce computation time, the MLSA inverse filtering module is implemented with Assembly language. The speed of the fully implemented system is the 1.73 times faster than real time.

  • PDF

언어 장애인의 언어보조 시스템을 위한 아이콘 언어의 구현 (Implementation of Iconic Language for the Language Support System of the Language Disorders)

  • 추교남;우요섭;민홍기
    • 정보처리학회논문지B
    • /
    • 제13B권4호
    • /
    • pp.479-488
    • /
    • 2006
  • 언어 장애인에게 기존의 키보드에 의한 문자입력 방법보다 원활하고 편리한 의사전달 환경을 제공하기 위한 아이콘 언어 인터페이스를 설계한다. 이를 위하여 활용성이 높은 대화 영역으로부터 구축한 원시 말뭉치를 대상으로 어휘 구사 경향과 특성을 분석하고 형태소, 구문, 의미 분석을 적용하여 아이콘에 부여되는 한국어의 어휘와 의미를 추출한다. 사용자가 직관적으로 인지하고 전달할 수 있는 아이콘 영역을 선별하고 추출한 한국어의 어휘와 의미를 정합시킨다. 이웃하는 아이콘간의 연결로부터 전달하고자 하는 의미적 상황을 만들어내기 위하여, 아이콘 언어의 어휘와 품사, 문법 규칙, 의미체계를 정의하여 아이콘 언어를 설계한다. 아이콘 언어에서 나타날 수 있는 언어적 애매성을 해결하기 위한 방법으로 범용의 한국어 의미사전과 술어 중심의 하위범주화사전으로부터 아이콘 언어에 대한 상황중심의 의미 데이터를 구축한다. 이를 바탕으로 아이콘 언어 인터페이스로부터 한국어를 의미적인 범주에서 생성한다.

구문 분석에 기반한 자연어 질의로부터의 불리언 질의 생성 (Boolean Formulation of Korean Natural Language Queries Using Syntactic Analysis)

  • 박미화;원형석;이원일;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1998년도 제10회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.73-80
    • /
    • 1998
  • 본 연구는 자연어 질의의 형태 및 구문 정보를 바탕으로 불리언 질의를 생성하는데 그 목적을 둔다. 일반적으로 대부분의 상용정보검색시스템은 입력형식을 검색성능이 종은 불리언 형태로 하고 있으나, 일반 사용자는 자신이 원하는 정보를 불리언 형태로 표현하는데 익숙하지 않다. 그러므로 본 정보검색시스템은 자연어 질의를 기본 입력형태로 하여 사용자의 편의성을 높이고, 이 질의를 범주문법에 기반한 구문분석 결과에 의해 복합명사를 고려한 불리언 형태로 변환하여 검색을 수행함으로써 시스템의 검색 성능의 향상을 도모하였다. 정보검색 실험용 데이터 모음인 KTSET2.0으로 실험한 결과 본 논문에서 제안한 자연어 질의로부터 자동 생성된 불리언 질의의 검객성능이 KTSET2.0에서 제공하는 수동으로 추출한 불리언 질의보다 8% 더 우수한 성능을 보였고, 기존 자연어질의 시스템이 수용해온 방법인 형태소 분석을 거쳐 불용어를 제거한 후 Vector 모델을 적용하여 검색을 수행한 경우보다는 23% 더 나은 성능을 보였다.

  • PDF

Building Hybrid Stop-Words Technique with Normalization for Pre-Processing Arabic Text

  • Atwan, Jaffar
    • International Journal of Computer Science & Network Security
    • /
    • 제22권7호
    • /
    • pp.65-74
    • /
    • 2022
  • In natural language processing, commonly used words such as prepositions are referred to as stop-words; they have no inherent meaning and are therefore ignored in indexing and retrieval tasks. The removal of stop-words from Arabic text has a significant impact in terms of reducing the size of a cor- pus text, which leads to an improvement in the effectiveness and performance of Arabic-language processing systems. This study investigated the effectiveness of applying a stop-word lists elimination with normalization as a preprocessing step. The idea was to merge statistical method with the linguistic method to attain the best efficacy, and comparing the effects of this two-pronged approach in reducing corpus size for Ara- bic natural language processing systems. Three stop-word lists were considered: an Arabic Text Lookup Stop-list, Frequency- based Stop-list using Zipf's law, and Combined Stop-list. An experiment was conducted using a selected file from the Arabic Newswire data set. In the experiment, the size of the cor- pus was compared after removing the words contained in each list. The results showed that the best reduction in size was achieved by using the Combined Stop-list with normalization, with a word count reduction of 452930 and a compression rate of 30%.

한글 토크나이징 라이브러리 모듈 분석 (Analysis of the Korean Tokenizing Library Module)

  • 이재경;서진범;조영복
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2021년도 춘계학술대회
    • /
    • pp.78-80
    • /
    • 2021
  • 현재 자연어 처리(NLP)에 대한 연구는 급속히 발전하고 있다. 자연어 처리는 인간이 일상생활에서 사용하는 언어의 의미를 분석하여 컴퓨터가 처리할 수 있도록 하는 기술로 음성인식, 맞춤법 검사, 텍스트 분류 등 여러 분야에 사용하고 있다. 현재 가장 많이 사용되는 자연어처리 라이브러리는 영어를 기준으로 한 NLTK로 한글처리에 단점을 가지고 있다. 따라서 본 논문에서는 한글 토크나이징(Tokenizing) 라이브러리인 KonLPy와 Soynlp를 소개 후 형태소 분석 및 처리 기법을 분석하고, KonLPy의 단점을 보완한 Soynlp와의 모듈을 비교·분석하여 향후 의료분야에 적합한 자연어 처리 모델로 활용하고자 한다.

  • PDF

개념기반 대화체 언어번역시스템의 번역부평가 (Evaluation of the Translation Part of the Concept-based Spoken Language Translation System)

  • 최운천;한남용;김재훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1996년도 제8회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.322-325
    • /
    • 1996
  • 이 논문은 개념기반의 대화체 언어번역시스템의 번역부의 평가에 대해 기술한 것이다. 대상언어는 한국어와 영어로 한국어를 해석하여 영어로 번역하는 시스템이다. 개념기반 시스템은 개념을 기준으로 입력된 문장을 해석하고 그 개념을 이용하여 번역한다. 개념기반 시스템은 개념에 기반을 두기 때문에 자유로운 간투사의 사용, 빈번한 단어 생략 등의 특성을 가지는 대화체 번역에 유리하다. 시스템의 평가는 입력문에 대한 번역문의 결과가 의미적으로 어느 정도 전달되었는지를 평가자의 주관적인 판단에 의해 평가한다. 현재 개발된 시스템은 여행안내 영역(domain)을 대상으로 하고 있다. 개발된 시스템에 대한 평가는 대화체를 전사한 문장과 음성인식의 결과 두 가지의 입력에 대해 하였다.

  • PDF

Korean Semantic Annotation on the EXCOM Platform

  • Chai, Hyun-Zoo;Djioua, Brahim;Priol, Florence Le;Descles, Jean-Pierre
    • 한국언어정보학회:학술대회논문집
    • /
    • 한국언어정보학회 2007년도 정기학술대회
    • /
    • pp.548-556
    • /
    • 2007
  • We present an automatic semantic annotation system for Korean on the EXCOM (EXploration COntextual for Multilingual) platform. The purpose of natural language processing is enabling computers to understand human language, so that they can perform more sophisticated tasks. Accordingly, current research concentrates more and more on extracting semantic information. The realization of semantic processing requires the widespread annotation of documents. However, compared to that of inflectional languages, the technology in agglutinative language processing such as Korean still has shortcomings. EXCOM identifies semantic information in Korean text using our new method, the Contextual Exploration Method. Our initial system properly annotates approximately 88% of standard Korean sentences, and this annotation rate holds across text domains.

  • PDF

영상처리 기반 숫자 수화표현 인식 알고리즘 (Numeric Sign Language Interpreting Algorithm Based on Hand Image Processing)

  • 권경필;유준혁
    • 대한임베디드공학회논문지
    • /
    • 제14권3호
    • /
    • pp.133-142
    • /
    • 2019
  • The existing auxiliary communicating aids for the hearing-impaired have an inconvenience of using additional expensive sensing devices. This paper presents a hand image detection based algorithm to interpret the sign language of the hearing-impaired. The proposed sign language recognition system exploits the hand image only captured by the camera without using any additional gloves with extra sensors. Based on the hand image processing, the system can perfectly classify several numeric sign language representations. This work proposes a simple lightweight classification algorithm to identify the hand image of the hearing-impaired to communicate with others even further in an environment of complex background. Experimental results show that the proposed system can interpret the numeric sign language quite well with an accuracy of 95.6% on average.