Patent Tokenizer: a research on the optimization of tokenize for the Patent sentence using the Morphemes and SentencePiece

Patent Tokenizer: 형태소와 SentencePiece를 활용한 특허문장 토크나이즈 최적화 연구

  • Park, Jinwoo (Korea Institute of Patent Information, R&D Center) ;
  • Min, Jae-Ok (Korea Institute of Patent Information, R&D Center) ;
  • Sim, Woo-Chul (Korea Institute of Patent Information, R&D Center) ;
  • Noh, Han-Sung (Korea Institute of Patent Information, R&D Center)
  • 박진우 (한국특허정보원, R&D센터) ;
  • 민재옥 (한국특허정보원, R&D센터) ;
  • 심우철 (한국특허정보원, R&D센터) ;
  • 노한성 (한국특허정보원, R&D센터)
  • Published : 2020.10.14

Abstract

토큰화(Tokenization)는 사람이 작성한 자연어 문장을 기계가 잘 이해할 수 있도록 최소 단위인 토큰으로 분리하는 작업을 말하여, 이러한 토큰화는 자연어처리 전반적인 태스크들의 전처리에 필수적으로 사용되고 있다. 최근 자연어처리 분야에서 높은 성능을 보이며, 다양한 딥러닝 모델에 많이 활용되고 있는 SentencePiece 토큰화는 여러 단어에서 공통적으로 출현하는 부분단어들을 기준으로, BPE 알고리즘을 이용하여 문장을 압축 표현하는 토큰화 방법이다. 본 논문에서는 한국어 기반 특허 문헌의 초록 자연어 데이터를 기반으로 SentencePiece를 비롯한 여러 토큰화 방법에 대하여 소개하며, 해당 방법을 응용한 기계번역 (Neural Machine Translation) 태스크를 수행하고, 토큰화 방법별 비교 평가를 통해 특허 분야 자연어 데이터에 최적화된 토큰화 방법을 제안한다. 그리고 본 논문에서 제안한 방법을 사용하여 특허 초록 한-영 기계번역 태스크에서 성능이 향상됨을 보였다.

Keywords

Acknowledgement

본 연구는 2020년도 한국과학기술정보연구원(KISTI) 주요사업 과제로 수행한 것입니다.