• 제목/요약/키워드: UTagger

검색결과 11건 처리시간 0.021초

UTagger의 속도 향상을 위한 선택적 기능제한 (Optional features for speeding up UTagger)

  • 신준철;옥철영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2012년도 제24회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.113-116
    • /
    • 2012
  • UTagger는 한국어 의미 처리를 위해 개발된 형태소분석기이며 의미 분열 기능도 가지고 있다. 정확률이 매우 높고 다앙한 기능을 갖추고 있으나 이전에 개발된 다른 형태소 분석기에 비하여 속도가 느리다는 단점을 가지고 있었다. 형태소 분석기의 빠른 속도는 많은 분야에서 요구되고 있기 때문에 본 논문에서는 UTagger의 정확률을 유지하면서 속도를 향상시키는 캐시(Cache) 방법과, 정확률을 조금 낮추면서 향상시키는 다앙한 방법들을 제시한다. 또한 상황에 따라 적합한 방법을 선택할 때 참조가 되도록 하기 위해 각 방법들 실험 결과를 정리한다.

  • PDF

한-베 기계번역에서 한국어 분석기 (UTagger)의 영향 (Effect of Korean Analysis Tool (UTagger) on Korean-Vietnamese Machine Translations)

  • 원광복;옥철영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.184-189
    • /
    • 2017
  • With the advent of robust deep learning method, Neural machine translation has recently become a dominant paradigm and achieved adequate results in translation between popular languages such as English, German, and Spanish. However, its results in under-resourced languages Korean and Vietnamese are still limited. This paper reports an attempt at constructing a bidirectional Korean-Vietnamese Neural machine translation system with the supporting of Korean analysis tool - UTagger, which includes morphological analyzing, POS tagging, and WSD. Experiment results demonstrate that UTagger can significantly improve translation quality of Korean-Vietnamese NMT system in both translation direction. Particularly, it improves approximately 15 BLEU scores for the translation from Korean to Vietnamese direction and 3.12 BLEU scores for the reverse direction.

  • PDF

한-베 기계번역에서 한국어 분석기 (UTagger)의 영향 (Effect of Korean Analysis Tool (UTagger) on Korean-Vietnamese Machine Translations)

  • 원광복;옥철영
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.184-189
    • /
    • 2017
  • With the advent of robust deep learning method, Neural machine translation has recently become a dominant paradigm and achieved adequate results in translation between popular languages such as English, German, and Spanish. However, its results in under-resourced languages Korean and Vietnamese are still limited. This paper reports an attempt at constructing a bidirectional Korean-Vietnamese Neural machine translation system with the supporting of Korean analysis tool - UTagger, which includes morphological analyzing, POS tagging, and WSD. Experiment results demonstrate that UTagger can significantly improve translation quality of Korean-Vietnamese NMT system in both translation direction. Particularly, it improves approximately 15 BLEU scores for the translation from Korean to Vietnamese direction and 3.12 BLEU scores for the reverse direction.

  • PDF

한국어 목적격조사의 몽골어 격 어미 번역 (Translation of Korean Object Case Markers to Mongolian's Suffixes)

  • ;신준철;옥철영
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제8권2호
    • /
    • pp.79-88
    • /
    • 2019
  • 최근 기계 번역에 관한 연구들이 활발하게 이루어지고 있고 한국어와 몽골어 간의 상호 기계 번역 시스템도 개발되고 있다. 한국어와 몽골어는 계통적으로 같은 어족에 속하며 '주어+목적어+서술어'라는 비교적 자유로운 어순을 가지는 언어이고 어미와 조사가 발달한 것이 그 특징이다. 따라서 기계 번역 시 양언어의 조사나 어미의 의미를 잘 번역하는 것이 중요하다. 그러나 한국어 목적격 조사를 몽골어로 번역할 때 한국어 목적격 조사가 몽골어의 여러 격 어미로 번역이 될 수 있는데, 기존의 연구들은 한 가지 격 어미로만 번역해 정확한 의미를 전달하지 못하는 문제점이 있다. 본 논문에서는 이러한 문제점을 개선하기 위하여 한국어 형태소 분석과 동시에 품사 및 동형이의어 태깅 시스템인 유태거(UTagger)를 기반으로 하여 한국어 목적격 조사의 몽골어 격 어미 결정 방법을 제안한다. 제안하는 방법에서는 한국어 목적격 조사에 대응하는 몽골어 격 어미들을 살펴보고 데이터 테이블을 설계하여 적절한 격 어미를 결정한다. 제안한 방법의 성능을 검증하기 위하여 한국어기초사전에서 데이터를 추출하고 유태거와 비교 실험하였다. 실험 결과 목적격 조사를 바로 대격 어미로 번역한 유태거의 정확률은 46.9%인데 반해 본 논문에서 제안한 방법은 88.38%로 제안한 방법이 41.48%p 더 우수한 결과를 보였다.

한-X 신경기계번역시스템에서 동형이의어 분별에 따른 변역질 평가 (An Evaluation of Translation Quality by Homograph Disambiguation in Korean-X Neural Machine Translation Systems)

  • 원광복;신준철;옥철영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.504-509
    • /
    • 2018
  • Neural machine translation (NMT) has recently achieved the state-of-the-art performance. However, it is reported failing in the word sense disambiguation (WSD) for several popular language pairs. In this paper, we explore the extent to which NMT systems are able to disambiguate the Korean homographs. Homographs, words with different meanings but the same written form, cause the word choice problems for NMT systems. Consistent with the popular language pairs, we discover that NMT systems fail to translate Korean homographs correctly. We provide a Korean word sense disambiguation tool-UTagger to use for improvement of NMT's translation quality. We conducted translation experiments using Korean-English and Korean-Vietnamese language pairs. The experimental results show that UTagger can significantly improve the translation quality of NMT in terms of the BLEU, TER, and DLRATIO evaluation metrics.

  • PDF

전산언어학에서의 한국어 필수논항의 의미역 상정과 재고 (Consideration of Sematic Roles of Korean Subcategory in Computational Linguistics)

  • 김윤정;김완수;옥철영
    • 한국언어정보학회지:언어와정보
    • /
    • 제18권2호
    • /
    • pp.169-199
    • /
    • 2014
  • This study was performed to assume the Sematic role of the obligatory argument of the predicate in a Korean sentence, and to accomplish the task to attach the assumed thematic role to the real corpus. With this study, the maximum of the Sematic role was determined and the Criterion of the Sematic role was set. The maximum of the Sematic role was determined 22. This study arranged the Sematic role of case marker and attached the Sematic role to the predicate of the sentence within The standard Korean Dictionary. The program to attach the thematic role was developed(UTagger-SR). The Sematic role of case marker and Case frame dictionary was equipped in this program. By attaching the Sematic role, it was found that the most important the Sematic role in the korean sentence is the theme of the predicate and the next is the subject of the predicate.

  • PDF

한국어 목적격조사의 몽골어 격 어미 결정 (Determination of Mongolian's suffixes based on the object case markers of Korean)

  • 셋겔후 훌란;신준철;옥철영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.587-590
    • /
    • 2018
  • 한국어 목적격 조사를 몽골어 격 어미로 번역할 때 한국어 목적격 조사가 몽골어의 여러 격 어미로 번역이 될 수 있는데, 기존의 연구들은 한가지 격 어미로만 번역해 정확한 의미를 전달하지 못하는 문제점이 있다. 이런 문제점을 개선하기 위하여 본 논문에서는 한국어 형태소 분석과 동시에 품사 및 동형이의어 태깅 시스템인 유태거(UTagger)를 기반으로 한국어 목적격 조사의 몽골어 격 어미 결정 방법을 제안한다. 제안한 방법의 성능을 검증하기 위하여 한국어기초사전에서 데이터를 추출하고 유태거와 비교 실험하였다. 실험 결과 유태거의 정확률은 72%인데 반해 제안한 방법은 94%로 제안한 방법이 22%p 더 우수한 결과를 보였다.

  • PDF

한국어 격틀사전 기반 의미역 반자동 부착 도구 (Semi-automatic Semantic Role Labelling Tool based on Korean Case Frame)

  • 김완수;옥철영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2014년도 제26회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.251-254
    • /
    • 2014
  • 의미역 결정은 문장의 서술어와 그 서술어에 속하는 논항들 사이의 의미관계를 결정하는 문제로, 기계학습에 의한 의미역을 부착하기 위해서는 의미역 부착 말뭉치를 필요로 한다. 본 논문에서 격틀 사전을 사용하여 각 서술어의 논항의 의미역을 제한하여 작업자가 빠르게 의미역 말뭉치를 구축할 수 있도록 하는 의미역 반자동 부착 도구(UTagger-SR)를 개발하였다.

  • PDF

초등영어교육 연구 논문의 변천: 코퍼스 기반 분석 (A Corpus-based Analysis on Primary English Education Research for the Past 20 Years)

  • 최원경
    • 한국콘텐츠학회논문지
    • /
    • 제19권2호
    • /
    • pp.11-21
    • /
    • 2019
  • 우리나라의 공립 초등학교의 정규교육과정에서 '영어' 과목을 가르치기 시작한 것은 1997년으로 이제 20년 정도의 시간이 지났다. 본 연구는 과거 20년 동안에 초등 영어 관련 연구들을 되짚어봄으로써, 향후 초등영어 교육이 나아갈 방향을 탐색하려 한다. 이를 위하여, 국내에 발표된 석 박사 학위논문과 학술지게재 논문을 검색하여(총 6,467편), 이들 연구의 '제목'을 코퍼스 분석 프로그램인 Utagger와 WordSmith Tools를 통해 빈도 분석하였다. 분석 결과, 지난 20년 동안 '초등 영어' 논문편수는 꾸준히 성장하는 추세를 보였지만, 최근에는 다소 침체된 것으로 보인다. 연구 주제로는 교수 학습 관련 영역을 포함하여 교육과정, 평가, 의사소통 기능 등과 같이 20년간 꾸준히 수행된 분야가 있는가 하면, 당시 교육정책의 기조에 따라 몰입, 원어민 등과 같이 특정 기간에 집중적으로 연구된 분야도 있었다. 최근에는 정보통신기술의 발달에 따라 스마트 교육, ICT 관련 연구가 많이 진행되는 것으로 보인다. 결론적으로, 지난 20년 동안 초등 영어 교육 분야는 양적 측면에서 괄목할 만한 성장을 했고 연구의 스펙트럼도 다양해졌다는 성과를 보였다. 본 연구의 결과가 향후 초등 영어 교육의 방향을 설정하는데 도움이 되길 기대한다.

모두의 말뭉치를 이용한 한국어 다의어 분별 (Korean Polysemy Word-Sense-Disambiguation using MoDu-Corpus)

  • 신준철;이주상;옥철영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.205-210
    • /
    • 2020
  • 한국어 자연어처리 분야가 발달하면서 동형이의어 분별을 한 단계 넘어선 다의어 분별의 중요성이 점점 상승하고 있다. 최근에 다의어가 태깅된 "모두의 말뭉치"가 발표되었고, 이 말뭉치는 다의어가 태깅된 최초의 공개 말뭉치로써 다의어 연구가 본격적으로 진행될 수 있음을 의미한다. 본 논문에서는 이 말뭉치를 학습하여 작동하는 다의어 분별의 초기 모델을 제시하며, 이 모델의 실험 결과는 차후 연구를 위한 비교 기준점이 될 수 있다. 이 모델은 딥러닝을 사용하지 않은 통계형으로 개발되었고, 형태소분석과 동형이의어 분별은 기존의 UTagger로 해결하고 말뭉치 자원 외에도 UWordMap을 사용하여 다의어 분별을 보조하였다. 이 모델의 정확률은 약 87%이며, 다의어 분별 전에 형태소분석 또는 동형이의어 분별 단계에서 오류가 난 것을 포함한다. 현재까지 공개된 이 말뭉치는 오직 명사만 다의어 주석이 있기 때문에 명사만 정확률 측정 대상이 되었다. 이 연구를 통하여 다의어 분별의 어려움과, 다의어 분별에는 동형이의어 분별과는 다른 방법이 필요하다는 것을 확인할 수 있었다.

  • PDF