• Title/Summary/Keyword: Korean Language Processing

Search Result 1,248, Processing Time 0.025 seconds

Korean Pronouns and Anaphoric Scale (한국어 대명사들과 조응성의 등급)

  • Sung, Won-Kyung;Park, Soo-Jun;Cha, Keon-Hoe;Park, Jae-Deuk;Seo, Lai-Won
    • Annual Conference on Human and Language Technology
    • /
    • 1997.10a
    • /
    • pp.391-395
    • /
    • 1997
  • 한국어 문법 연구에서 뿐만 아니라, 현대 언어학에서는 일반적으로 대명사들은 재귀적 대명사와 비재귀적 대명사라는 두 개의 구분된 통사 범주로 분류된다는 대명사의 이분법적 통사 분류 가설이 지배적이다. 그러나 최근 [Hertz 92ab]가 제시한 조응성의 등급(anaphoric scale)이라는 개념에 의거한 본 연구에서는 한국어 대명사들을 두 개의 구분된 통사 범주로 이분하지 않으며 오직 서로 다른 조응도(anaphoric degree)에 의해서만 구분하는 스칼라식 관점을 제안하였다. 한국어 대명사들의 조응도를 기술하기 위해 본 연구에서는 몇 가지 통사 의미적 준거 항목들을 제시하였다. 본 연구의 접근 방법은 그간 많은 연구들에 의해 밝혀진 바와 같은 대명사들의 다양하고도 이질적인 통사 의미 특성들을 자연스럽게 설명하여 줄 수 있다는 장점이 있다. 반면, 이와 같은 대명사들의 통사 의미적 다양성은 전통적인 이분법적 분류의 관점에서는 풀기 어려운 숙제로 남게 된다.

  • PDF

FromTo-$Web/EK^{TM}$: English-to-Korean Machine Translation System for HTML Documents (에서로-웹/$EK^{TM}$: 영한 웹 문서 번역 시스템)

  • Sim, Chul-Min;Yuh, Sang-Wha;Jung, Han-Min;Kim, Tae-Wan;Park, Dong-In;Kwon, Hyuk-Chul
    • Annual Conference on Human and Language Technology
    • /
    • 1997.10a
    • /
    • pp.277-282
    • /
    • 1997
  • 최근 들어 웹 상의 문서를 번역해 주는 번역 시스템이 상용화되고 있다. 일반 문서와 달리 웹 문서는 HTML 태그를 포함하고 있어 번역 시스템에서 문장 단위로 분리하는데 어려움이 있다. 또한 그 대상 영역이 제한되지 않으므로 미등록어 및 구문 분석 실패에 대한 대처 기능이 필요하다. 따라서 웹 문서의 번역 품질이 일반 문서 번역에 비해 현저히 떨어지게 된다. 이 논문에서는 HTML 태그를 보유한 영어 웹 문서를 대상으로 하는 번역 시스템인 "에서로-웹/EK"에 대해 기술한다. 에서로-웹/EK는 HTML 문서의 특성을 고려하여 태그를 분리, 복원하는 태그 관리자를 별도로 가진다. 또한 태그를 유지하면서 영어에서 한국어로 변환되는 과정에서 발생하는 어휘 분리, 어휘 통합, 어순 변환 둥의 다양한 변환 현상을 처리한다. 이 시스템은 변환 방식에 기반한 번역 시스템으로서 영어 해석, 영한 변환, 한국어 생성의 단계를 거친다. 구현된 시스템은 Netscape와 DDE(Dynamic Data Exchange) 방식으로 연동하여 HTML 문서를 번역한다.

  • PDF

Evolution of Customization Method for Commercialization of an English-Korean MT System (영한 번역기의 상용화를 위한 도메인 특화 방법의 진화)

  • Choi, Sung-Kwon;Lee, Ki-Young;Roh, Yoon-Hyung;Kwon, Oh-Woog;Kim, Young-Gil
    • Annual Conference on Human and Language Technology
    • /
    • 2011.10a
    • /
    • pp.72-76
    • /
    • 2011
  • 본 논문은 한국전자통신연구원 언어처리연구팀에서 2004년까지 개발하였던 웹문서 자동번역 시스템을 2006년부터 매년 도메인별로 상용화에 성공한 사례를 기술한 것이다. 상용화가 가능하였던 주요 요인 중 하나인 도메인 특화 방법을 소개하며 이 도메인 특화 방법이 시기별로 개선되어 진화되는 모습을 기술한다. 즉 2004년의 웹문서 영한 자동번역기를 2006년에 특허문서 영한 자동번역기로 특화할 때 사용한 도메인 특화 방법이 '초기 도메인 특화 방법'이라 할 수 있는데, 이 초기의 도메인 특화 방법에 번역지식 및 번역엔진 모듈의 반자동 튜닝 방법과 자동화된 평가 방법을 추가하여 2007년에 '개선된 도메인 특화 방법'을 개발하였다. 이 '개선된 도메인 특화 방법'은 2007년에 특허문서 영한 자동번역기를 기술논문 영한 자동번역기로, 2008년에 기술논문 영한 자동번역기를 IT웹신문 영한 자동번역기로, 2009년에 IT 웹신문 영한 자동번역기를 전자우편 및 기업문서 영한 자동번역기로, 그리고 2010년에 전자우편 영한 자동번역기를 메신저 영한 자동번역기로 구현할 때 사용하였으며 그 효과는 신규 도메인용 영한 번역기를 개발하는 기간을 점차적으로 줄이게 하였으며 구현 프로세스에 일관성을 제공하였다.

  • PDF

English Auxiliary Verb Generation for Korean-to-English Machine Translation (한영 자동 번역을 위한 보조 용언 생성)

  • Shin, Jong-Hun;Yang, Seong-Il;Seo, Young-Ae;Kim, Chang-Hyun;Kim, Young-Kil
    • Annual Conference on Human and Language Technology
    • /
    • 2011.10a
    • /
    • pp.143-147
    • /
    • 2011
  • 본 논문에서는 한국어로 입력된 문장을 분석한 결과로부터 그에 해당하는 영어 대역문을 생성하는 과정에서, 어떻게 한국어의 보조용언을 영어 대역문에 반영 할 것인가를 다룬다. 특히 대화체 분야를 다루는 한영 자동번역 시스템에서는 한국어의 보조용언 생성이 대역문의 품질을 향상시키는데 중요한 위치를 차지하기 때문에, 한영 자동 번역에서의 자연스러운 영어 보조용언 생성을 위한 방법론을 제안한다. 첫째, 기존 패턴 기반 한영 자동 번역 엔진과 한국어 말뭉치를 형태소 분석한 결과를 살펴보고, 자연스러운 보조 용언 대역어 생성의 어려움을 살펴본다. 둘째, 자연스러운 보조용언 생성에 필요한 양상을 규칙화 한 지식을 기반으로 자연스러운 단일 보조용언 생성을 위한 방법을 제시한다. 셋째, 두 개 이상의 보조용언이 연속해서 나타나는 다중 보조용언의 생성 방법을 제시한다. 마지막으로, 실험과 결론을 통하여 본 논문이 제안하는 방법론을 사용했을 때, 자동 번역 엔진의 성능 평가 지표 중 하나인 BLEU와 NIST점수의 변화를 나타내봄으로 그 성능을 보인다.

  • PDF

Customizing a Pattern-based English-Korean MT System: From Written Style to Spoken Style (문어체에서 대화체 문장 패턴기반 영한 번역기로의 특화)

  • Cho, Sung-Kwon;Lee, Ki-Young;Roh, Yoon-Hyung;Kwon, Oh-Woog;Kim, Young-Gil
    • Annual Conference on Human and Language Technology
    • /
    • 2010.10a
    • /
    • pp.136-140
    • /
    • 2010
  • 본 논문은 지식경제부의 지원 하에 한국전자통신연구원 언어처리연구팀에서 2010년에 개발하고 있는 패턴기반 영한 메신저 대화체 문장 번역 시스템에 관한 것이다. 본 논문의 목표는 문어체 문장 위주의 패턴기반 영한 웹문서 자동번역 시스템을 대화체 문장 위주의 패턴기반 영한 메신저 자동번역 시스템으로 전환하고자 할 때, 특화하는 방법 및 모듈에 관해 기술하는 것이다. 영어권 Native speaker로부터 수집한 메신저 대화체 문장을 대상으로 번역률을 평가한 결과, 문어체 위주의 영한 웹 자동번역 시스템은 71.83%인 반면, 대화체 위주의 영한 메신저 자동번역 시스템은 76.88%였다. 대화체 문장을 대상으로 번역률을 5.05% 향상시킬 수 있었던 이유는 본 논문에서 제시한 특화 방법을 따른 결과라고 할 수 있다.

  • PDF

Analysis of the Korean Tokenizing Library Module (한글 토크나이징 라이브러리 모듈 분석)

  • Lee, Jae-kyung;Seo, Jin-beom;Cho, Young-bok
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2021.05a
    • /
    • pp.78-80
    • /
    • 2021
  • Currently, research on natural language processing (NLP) is rapidly evolving. Natural language processing is a technology that allows computers to analyze the meanings of languages used in everyday life, and is used in various fields such as speech recognition, spelling tests, and text classification. Currently, the most commonly used natural language processing library is NLTK based on English, which has a disadvantage in Korean language processing. Therefore, after introducing KonLPy and Soynlp, the Korean Tokenizing libraries, we will analyze morphology analysis and processing techniques, compare and analyze modules with Soynlp that complement KonLPy's shortcomings, and use them as natural language processing models.

  • PDF

Implementation of Iconic Language for the Language Support System of the Language Disorders (언어 장애인의 언어보조 시스템을 위한 아이콘 언어의 구현)

  • Choo Kyo-Nam;Woo Yo-Seob;Min Hong-Ki
    • The KIPS Transactions:PartB
    • /
    • v.13B no.4 s.107
    • /
    • pp.479-488
    • /
    • 2006
  • The iconic language interlace is designed to provide more convenient environments for communication to the target system than the keyboard-based interface. For this work, tendencies and features of vocabulary are analyzed in conversation corpora constructed from the corresponding domains with high degree of utilization, and the meaning and vocabulary system of iconic language are constructed through application of natural language processing methodologies such as morphological, syntactic and semantic analyses. The part of speech and grammatical rules of iconic language are defined in order to make the situation corresponding the icon to the vocabulary and meaning of the Korean language and to communicate through icon sequence. For linguistic ambiguity resolution which may occur in the iconic language and for effective semantic processing, semantic data focused on situation of the iconic language are constructed from the general purpose Korean semantic dictionary and subcategorization dictionary. Based on them, the Korean language generation from the iconic interface in semantic domain is suggested.

ETRI small-sized dialog style TTS system (ETRI 소용량 대화체 음성합성시스템)

  • Kim, Jong-Jin;Kim, Jeong-Se;Kim, Sang-Hun;Park, Jun;Lee, Yun-Keun;Hahn, Min-Soo
    • Proceedings of the KSPS conference
    • /
    • 2007.05a
    • /
    • pp.217-220
    • /
    • 2007
  • This study outlines a small-sized dialog style ETRI Korean TTS system which applies a HMM based speech synthesis techniques. In order to build the VoiceFont, dialog-style 500 sentences were used in training HMM. And the context information about phonemes, syllables, words, phrases and sentence were extracted fully automatically to build context-dependent HMM. In training the acoustic model, acoustic features such as Mel-cepstrums, logF0 and its delta, delta-delta were used. The size of the VoiceFont which was built through the training is 0.93Mb. The developed HMM-based TTS system were installed on the ARM720T processor which operates 60MHz clocks/second. To reduce computation time, the MLSA inverse filtering module is implemented with Assembly language. The speed of the fully implemented system is the 1.73 times faster than real time.

  • PDF

An Analysis of Feasibility of Sentence Frame Based Method for Korean to English Translation System (한영 번역 시스템을 위한 문틀 기반 번역 방식의 실현성 분석)

  • Kim, Young-Kil;Seo, Young-Ae;Seo, Kwang-Jun;Choi, Sung-Kwon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2000.10a
    • /
    • pp.261-264
    • /
    • 2000
  • 지금까지의 한영 번역 방식은 규칙 기반 방식이 주를 이루었지만 현재 패턴을 이용한 번역 방식이 활발히 연구되고 있다. 그러나 패턴 기반 방식은 그 적용성(Coverage)에 대한 치명적인 단점을 지닌다. 따라서 본 논문에서는 한국어 패턴을 어절 단위의 일반 문틀과 동사구를 중심으로 하는 용언중심의 문틀로 나누어 각 패턴들에 대한 적용성 및 실현성을 조사한다. 실험은 기존의 형태소 분석기를 이용하여 방송 자막 문장 351,806 문장을 대상으로 자동으로 문틀을 구축하여 4,995 문장의 테스트 데이터에 대한 적용성 검사를 실시하였다. 즉 본 논문에서는 방송 자막 문장을 대상으로 한영번역을 위한 일반 문틀 및 용언 중심의 문틀 방식의 적용성을 조사하여 문틀 기반 방식의 실현성을 평가하고 앞으로의 한영 번역 시스템 개발 방향을 제시한다.

  • PDF

Chunking Using Automatic Constructed Syntactic Pattern Dictionary and Rule (자동 구축된 구문패턴사전과 규칙을 이용한 구묶음)

  • Im, Ji-Hui;Choe, Ho-Seop;Lee, Jung-Chul;Ock, Cheul-Young
    • Annual Conference on Human and Language Technology
    • /
    • 2004.10d
    • /
    • pp.35-39
    • /
    • 2004
  • 본 논문은 실용적인 구문분석기의 전단계로서, 자동 구축된 구문패턴사전과 규칙을 이용하여 구묶음하는 방법을 제안한다. 우선 규칙은 구문분석 말뭉치(30,875어절)를 대상으로 자동 추출된 고빈도의 규칙(Rewriting Rule)을 본 논문에 맞게 수동으로 구축하였다. 규칙은 조건부, 행위부로 이루어진 이진 규칙(binary rule)의 형태를 이루며, 명사구(NP), 수식어구(AP, DP), 인용구(X), 용언구(VP, VC)을 대상으로 15개를 구축하였다. 그리고 구문패턴은 중심어와 중심어 선행 요소의 특성뿐만 아니라 중심어 후행 요소도 고려하여 형식화시킨 것으로, 중심어의 복합용언 여부에 따라 일반용언패턴과 본+보조용언패턴으로 구분한다. 부분적인 언어 현상의 처리보다는 실세계에서 사용되는 수많은 문장들에 내재되어 있는 매우 광범위한 언어 현상의 처리를 하기 위해, 구문패턴은 형태소주석 말뭉치(460만 어절)을 대상으로 자동 구축하였다. 구축된 구문패턴사전과 규칙을 이용하여 구묶음을 수행한 결과 정확율 83.09%가 나타났다.

  • PDF