DOI QR코드

DOI QR Code

korean-Hanja Translation System based on Semantic Processing

의미처리 기반의 한글-한자 변환 시스템

  • Kim, Hong-Soon (Dept of Computer Engineering and Information Technology, Ulsan University) ;
  • Sin, Joon-Choul (Dept of Computer Engineering and Information Technology, Ulsan University) ;
  • Ok, Cheol-Young (Dept of Computer Engineering and Information Technology, Ulsan University)
  • 김홍순 (울산대학교 컴퓨터정보통신공학과) ;
  • 신준철 (울산대학교 컴퓨터정보통신공학과) ;
  • 옥철영 (울산대학교 컴퓨터정보통신공학과)
  • Published : 2011.04.30

Abstract

워드프로세서에서의 한자를 가진 한글 어휘의 한자 변환 작업은 사용자에 의해 음절/단어 단위의 변환으로 많은 시간이 소요되어 효율이 떨어진다. 본 논문에서는 한글 문장의 의미처리를 통해 문맥에 맞는 한자를 자동 변환하는 시스템을 제안한다. 문맥에 맞는 한글-한자 변환을 위해서는 우선 정확한 형태소 분석 및 동형이의어 분별이 선행되어야 한다. 이를 위해 본 논문에서는 은닉마르코프모델 기반의 형태소 및 동형이의어 동시 태깅 시스템을 구현하였다. 제안한 시스템은 형태의미 세종 말뭉치 1,100만여 어절을 이용하여 unigram과 bigram을 추출 하였고, unigram을 이용하여 어절의 생성확률 사전을 구축하고 bigram을 이용하여 전이확률 학습사전을 구축하였다. 그리고 품사 및 동형이의어 태깅 후 명사를 표준국어대사전에 등재된 한자로 변환하는 시스템을 구현하였다. 구현된 시스템의 성능 확인을 위해 전체 세종 말뭉치를 문장단위로 비학습 말뭉치를 구성하여 실험하였고, 실험결과 한자를 가진 동형이의어에 대한 한자 변환에서 90.35%의 정확률을 보였다.

Keywords