DOI QR코드

DOI QR Code

A Morpheme Analyzer based on Transformer using Morpheme Tokens and User Dictionary

사용자 사전과 형태소 토큰을 사용한 트랜스포머 기반 형태소 분석기

  • 김동현 (인하대학교 전기컴퓨터공학과) ;
  • 김도국 (인하대학교 인공지능공학과) ;
  • 김철희 (인하대학교 프런티어학부대학) ;
  • 신명선 (인하대학교 국어교육과) ;
  • 서영덕 (인하대학교 컴퓨터공학과)
  • Received : 2023.07.21
  • Accepted : 2023.09.07
  • Published : 2023.10.31

Abstract

Since morphemes are the smallest unit of meaning in Korean, it is necessary to develop an accurate morphemes analyzer to improve the performance of the Korean language model. However, most existing analyzers present morpheme analysis results by learning word unit tokens as input values. However, since Korean words are consist of postpositions and affixes that are attached to the root, even if they have the same root, the meaning tends to change due to the postpositions or affixes. Therefore, learning morphemes using word unit tokens can lead to misclassification of postposition or affixes. In this paper, we use morpheme-level tokens to grasp the inherent meaning in Korean sentences and propose a morpheme analyzer based on a sequence generation method using Transformer. In addition, a user dictionary is constructed based on corpus data to solve the out - of-vocabulary problem. During the experiment, the morpheme and morpheme tags printed by each morpheme analyzer were compared with the correct answer data, and the experiment proved that the morpheme analyzer presented in this paper performed better than the existing morpheme analyzer.

형태소는 한국어에서 의미를 가진 최소단위이기 때문에, 한국어 언어모델의 성능을 높이기 위해서는 정확한 형태소 분석기의 개발이 필요하다. 기존의 형태소 분석기는 대부분 어절 단위 토큰을 입력 값으로 학습하여 형태소 분석 결과를 제시한다. 하지만 한국어의 어절은 어근에 조사나 접사가 부착된 형태이기 때문에 어근이 같은 어절이어도 조사나 접사로 인해 의미가 달라지는 성향이 있다. 따라서 어절 단위 토큰을 사용하여 형태소를 학습하면 조사나 접사에 대한 오분류가 발생할 수 있다. 본 논문에서는 형태소 단위의 토큰을 사용하여 한국어 문장에 내재된 의미를 과악하고, Transformer를 사용한 시퀀스 생성 방식의 형태소 분석기를 제안한다. 또한, 미등록 단어 문제를 해결하기 위해 학습 말뭉치 데이터를 기반으로 사용자 사전을 구축하였다. 실험 과정에서 각 형태소 분석기가 출력 한 형태소와 품사 태그를 함께 정답 데이터와 비교하여 성능을 측정하였으며, 실험 결과 본 논문에서 제시한 형태소 분석기가 기존 형태소 분석기에 비해 성능이 높음을 증명하였다.

Keywords

Acknowledgement

본 연구는 2022년도 정부(과학기술정보통신부)의 재원으로 한국연구재단의 지원(NRF-2022R1C1C1012408, 우수신진연구)과 정보통신기획평가원의 지원(No.2022-0-00448, 사람중심인공지능핵심원천기술개발, No.RS-2022-00155915, 인공지능융합혁신인재양성(인하대학교)을 받아 수행한 연구임.

References

  1. 이선웅, "형태소의 식별과 분류" 國語學, 제81호, 263-294쪽, 2017년
  2. 김철희, "한국어 교육을 위한 형태소 분석기의 조건과 향후 과제," 새국어교육, 제129호, 635-672쪽, 2021년 https://doi.org/10.15734/KOED..129.202112.635
  3. J. Devlin, M. Chang, K. Lee, K. Toutanova, "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding," arXiv preprint arXiv:1810.04805, 2018.
  4. 이동주, "꼬꼬마 : 관계형 데이터베이스를 활용한 세종 말뭉치 활용 도구," 정보과학회 컴퓨팅의 실제 논문지, 제16권, 제11호, 1046-1050쪽, 2010년
  5. S. Na, Y. Kim, "Phrase-Based Statistical Model for Korean Morpheme Segmentation and POS Tagging," IEICE Transactions on Information and Systems, vol. 101, no. 2, pp. 512-522, 2018. https://doi.org/10.1587/transinf.2017EDP7085
  6. 이창기, "Structural SVM을 이용한 한국어 띄어쓰기 및 품사 태깅 결합 모델," 정보과학회논문지 : 소프트웨어 및 응용, 제40권, 제12호, 826-832쪽, 2013년
  7. 이건일, "Sequence-to-Sequence 기반 한국어 형태소 분석 및 품사 태깅," 정보과학회논문지, 제44권, 제1호, 57-62쪽, 2017년 https://doi.org/10.5626/JOK.2017.44.1.57
  8. 황현선, "Copy-mechanism을 이용한 Sequence to Sequence 모델기반 한국어 형태소 분석," 한국정보과학회 학술발표논문집, 443-445쪽, 2016년 12월
  9. Eddy, Sean R. "Hidden markov models," Current opinion in structural biology, vol. 6, no. 3, pp. 361-365. , Jun. 2006. https://doi.org/10.1016/S0959-440X(96)80056-X
  10. L., J., A. McCallum, and F. Pereira. "Conditional random fields: Probabilistic models for segmenting and labeling sequence data," ICML, pp282-289, Jun. 2001.
  11. I. Sutskever, O. Vinyals, Q.-V. Le, "Sequence to sequence learning with neural networks," Advances in Neural Information Processing Systems, vol. 27, 2014.
  12. 최병서, "신조어 및 띄어쓰기 오류에 강인한 시퀀스-투-시퀀스 기반 한국어 형태소 분석기," 정보과학회 논문지, 제47권, 제1호, 70-77쪽, 2020년 https://doi.org/10.5626/JOK.2020.47.1.70
  13. S. Basodi, C. Ji, H. Zhang and Y. Pan, "Gradient amplification: An efficient way to train deep neural networks," Big Data Mining and Analytics, vol. 3, no. 3, pp. 196-207, Sep. 2020. https://doi.org/10.26599/BDMA.2020.9020004
  14. A. Vaswani, N.Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A.-N. Gomez, L. Kaiser, I. Polosukhin, "Attention is all you need," Advances in Neural lnformation Processing Systems, pp. 5998-6008, Jun. 2017.
  15. 최용석, "트랜스포머와 BERT로 구현한 한국어 형태소 분석기의 성능 분석," 정보과학회논문지, 제47권, 제8호, 730-741쪽, 2020년 https://doi.org/10.5626/JOK.2020.47.8.730
  16. L. Chen, G. Varoquaux, F. M. Suchanek, "Imputing Out-of-Vocabulary Embeddings with LOVE Makes Language Models Robust with Little Cost," arXiv preprint arXiv:2203.07860, 2022.
  17. 이현영, "Out-of-Vocabulary 단어에 강건한 병렬 Tri-LSTM 문장 임베딩을 이용한 감정분석," 스마트미디어저널, 제10권, 제1호, 16-24쪽 2021년 https://doi.org/10.30693/SMJ.2021.10.1.16
  18. Khaiii(2018), https://github.com/kakao/khaiii, (Mar., 10, 2023).
  19. 이용호, "CNN과 LSTM을 이용한 한국어 형태소 분석 및 품사 결정의 정확도 향상," 한국정보과학회 학술발표논문집, 689-691쪽, 2018년 12월
  20. 서현재, "Head-Tail 토큰화 기법을 이용한 한국어 품사 태깅," 스마트미디어저널, 제11권, 제5호, 17-25쪽, 2022년 6월 https://doi.org/10.30693/SMJ.2022.11.5.17
  21. 김선우, "Bidirectional LSTM -CRF 기반의 음절 단위 한국어 품사 태깅 및 띄어쓰기 통합 모델 연구 정보과학회논문지, 제45권, 제8호, 792-800쪽, 2018년 https://doi.org/10.5626/JOK.2018.45.8.792
  22. 강승식, "구어체 말뭉치의 어휘 사용 특징 분석 및 감정 어휘 사전의 자동 구축," 스마트미디어저널, 제9권, 제4호, 144-151쪽, 2020년 12월