DOI QR코드

DOI QR Code

Hybrid Word-Character Neural Network Model for the Improvement of Document Classification

문서 분류의 개선을 위한 단어-문자 혼합 신경망 모델

  • 홍대영 (서울대학교 전기 및 정보 공학부) ;
  • 심규석 (서울대학교 전기 및 정보 공학부)
  • Received : 2017.08.08
  • Accepted : 2017.11.03
  • Published : 2017.12.15

Abstract

Document classification, a task of classifying the category of each document based on text, is one of the fundamental areas for natural language processing. Document classification may be used in various fields such as topic classification and sentiment classification. Neural network models for document classification can be divided into two categories: word-level models and character-level models that treat words and characters as basic units respectively. In this study, we propose a neural network model that combines character-level and word-level models to improve performance of document classification. The proposed model extracts the feature vector of each word by combining information obtained from a word embedding matrix and information encoded by a character-level neural network. Based on feature vectors of words, the model classifies documents with a hierarchical structure wherein recurrent neural networks with attention mechanisms are used for both the word and the sentence levels. Experiments on real life datasets demonstrate effectiveness of our proposed model.

문서의 텍스트를 바탕으로 각 문서가 속한 분류를 찾아내는 문서 분류는 자연어 처리의 기본 분야 중 하나로 주제 분류, 감정 분류 등 다양한 분야에 이용될 수 있다. 문서를 분류하기 위한 신경망 모델은 크게 단어를 기본 단위로 다루는 단어 수준 모델과 문자를 기본 단위로 다루는 문자 수준 모델로 나누어진다. 본 논문에서는 문서를 분류하는 신경망 모델의 성능을 향상시키기 위하여 문자 수준과 단어 수준의 모델을 혼합한 신경망 모델을 제안한다. 제안하는 모델은 각 단어에 대하여 문자 수준의 신경망 모델로 인코딩한 정보와 단어들의 정보를 저장하고 있는 단어 임베딩 행렬의 정보를 결합하여 각 단어에 대한 특징 벡터를 만든다. 추출된 단어들에 대한 특징 벡터를 바탕으로, 주의(attention) 메커니즘을 이용한 순환 신경망을 단어 수준과 문장 수준에 각각 적용하는 계층적 신경망 구조를 통해 문서를 분류한다. 제안한 모델에 대하여 실생활 데이터를 바탕으로 한 실험으로 효용성을 검증한다.

Keywords

Acknowledgement

Supported by : 한국연구재단

References

  1. X. Zhang, J. Zhao and Y. LeCun, "Character-level Convolutional Networks for Text Classification," Advances in Neural Information Processing Systems, pp. 649-657, 2015.
  2. Y. Xiao and K. Cho, "Efficient Character-level Document Classification by Combining Convolution and Recurrent Layers," arXiv preprint arXiv:1602. 00367, 2016.
  3. D. Tang, B. Qin and T. Liu, "Document modeling with gated recurrent neural network for sentiment classification," Proc. of the 2015 Conference on Empirical Methods in Natural Language Processing, pp. 1422-1432, 2015.
  4. Z. Yang, D. Yang, C. Dyer, X. He, A. Smola and E. Hovy, "Hierarchical attention networks for document classification," NAACL, pp. 1480-1489, 2016.
  5. Y. Ji and N. Smith, "Neural discourse structure for text categorization," arXiv preprint arXiv:1702.01829, 2017.
  6. M.-T. Luong and C. D. Manning, "Achieving open vocabulary neural machine translation with hybrid word character models," Proc. of the 54th Annual Meeting of the Association for Computational Linguistics, pp. 1054-1063, 2016.
  7. Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard and L. D. Jackel, “Backpropagation applied to handwritten zip code recognition,” Neural Computation, Vol. 1, No. 4, pp. 541-551, 1989. https://doi.org/10.1162/neco.1989.1.4.541
  8. Y. LeCun, L. Bottou, Y. Bengio and P. Haffner, “Gradient-based learning applied to document recognition,” Proc. of the IEEE, Vol. 86, No. 11, pp. 2278-2324, 1998. https://doi.org/10.1109/5.726791
  9. D. Bahdanau, K. Cho and Y. Bengio, "Neural machine translation by jointly learning to align and translate," arXiv preprint arXiv:1409.0473, 2014.
  10. C. D. Manning, M. Surdeanu, J. Bauer, J. R. Finkel, S. Bethard and D. McClosky, "The stanford corenlp natural language processing toolkit," Proc. of 52nd Annual Meeting of the Association for Computational Linguistics: System Demonstrations, pp. 55-60, 2014.
  11. X. Glorot, A. Bordes and Y. Bengio, "Deep Sparse Rectifier Neural Networks," Proc. of the Fourteenth International Conference on Artificial Intelligence and Statistics, pp. 315-323, 2011.
  12. J. Pennington, R. Socher and C. D. Manning, "Glove: Global Vectors for Word Representation," Proc. of the 2014 Conference on Empirical Methods in Natural Language Processing, pp. 1532-1543, 2014.