한국정보처리학회:학술대회논문집 (Proceedings of the Korea Information Processing Society Conference)
- 한국정보처리학회 2011년도 춘계학술발표대회
- /
- Pages.398-401
- /
- 2011
- /
- 2005-0011(pISSN)
- /
- 2671-7298(eISSN)
DOI QR Code
의미처리 기반의 한글-한자 변환 시스템
korean-Hanja Translation System based on Semantic Processing
- Kim, Hong-Soon (Dept of Computer Engineering and Information Technology, Ulsan University) ;
- Sin, Joon-Choul (Dept of Computer Engineering and Information Technology, Ulsan University) ;
- Ok, Cheol-Young (Dept of Computer Engineering and Information Technology, Ulsan University)
- 발행 : 2011.04.30
초록
워드프로세서에서의 한자를 가진 한글 어휘의 한자 변환 작업은 사용자에 의해 음절/단어 단위의 변환으로 많은 시간이 소요되어 효율이 떨어진다. 본 논문에서는 한글 문장의 의미처리를 통해 문맥에 맞는 한자를 자동 변환하는 시스템을 제안한다. 문맥에 맞는 한글-한자 변환을 위해서는 우선 정확한 형태소 분석 및 동형이의어 분별이 선행되어야 한다. 이를 위해 본 논문에서는 은닉마르코프모델 기반의 형태소 및 동형이의어 동시 태깅 시스템을 구현하였다. 제안한 시스템은 형태의미 세종 말뭉치 1,100만여 어절을 이용하여 unigram과 bigram을 추출 하였고, unigram을 이용하여 어절의 생성확률 사전을 구축하고 bigram을 이용하여 전이확률 학습사전을 구축하였다. 그리고 품사 및 동형이의어 태깅 후 명사를 표준국어대사전에 등재된 한자로 변환하는 시스템을 구현하였다. 구현된 시스템의 성능 확인을 위해 전체 세종 말뭉치를 문장단위로 비학습 말뭉치를 구성하여 실험하였고, 실험결과 한자를 가진 동형이의어에 대한 한자 변환에서 90.35%의 정확률을 보였다.
키워드