DOI QR코드

DOI QR Code

국민청원 주제 분석 및 딥러닝 기반 답변 가능 청원 예측

Topic Analysis of the National Petition Site and Prediction of Answerable Petitions Based on Deep Learning

  • 우윤희 (동덕여자대학교 정보통계학과) ;
  • 김현희 (동덕여자대학교 정보통계학과)
  • 투고 : 2019.07.17
  • 심사 : 2019.11.20
  • 발행 : 2020.02.29

초록

청와대 국민 청원 사이트가 개설된 이래로 많은 관심을 받고 있다. 본 논문에서는 국민 청원의 주제를 분석하고 딥러닝을 활용하여 답변 가능한 청원을 예측하는 모델을 제안하였다. 먼저, 추천순으로 1,500개의 청원글을 수집하였고, K-means 클러스터링을 적용하여 청원글을 군집하여 대주제를 정의하고, 보다 구체적인 세부 주제를 정의하기 위히여 토픽 모델링을 실시하였다. 다음으로는 LSTM을 활용한 답변 가능한 청원 예측 모델을 생성하여, 20만의 청원동의를 얻는 청원을 예측하기 위한 모델을 개발하였다. 이를 위해 글의 주제와 본문뿐만 아니라 글의 길이, 카테고리, 특정 품사의 비율이 영향을 미칠 수 있는지를 살펴보았다. 그 결과, 본문과 함께 글의 길이, 카테고리, 체언, 용언, 독립언, 수식언의 품사의 비율을 변수로 추가한 모델의 f1-score가 0.9 이상으로 글의 제목과 본문을 변수로 하는 모델보다 예측력이 높음을 알 수 있었다.

Since the opening of the national petition site, it has attracted much attention. In this paper, we perform topic analysis of the national petition site and propose a prediction model for answerable petitions based on deep learning. First, 1,500 petitions are collected, topics are extracted based on the petitions' contents. Main subjects are defined using K-means clustering algorithm, and detailed subjects are defined using topic modeling of petitions belonging to the main subjects. Also, long short-term memory (LSTM) is used for prediction of answerable petitions. Not only title and contents but also categories, length of text, and ratio of part of speech such as noun, adjective, adverb, verb are also used for the proposed model. Our experimental results show that the type 2 model using other features such as ratio of part of speech, length of text, and categories outperforms the type 1 model without other features.

키워드

참고문헌

  1. The Cheong Wa Dae National Petition Site [Internet], https://www1.president.go.kr/petitions
  2. K. Park, "Semantic Analysis of The Sub-Thematic Word in Big Data," Journal of the Linguistic Society of Korea, Vol. 65, pp. 89-109, 2013.
  3. D. Scully, "Web-scale K-means clustering," in Proceedings of the 19 th International Conference on WWW, pp. 1177-1178, 2010.
  4. H. You, S. Lee, and Y. Ko, "Incremental Clustering and Multi-Document Summarization for Issue Analysis based on Real-time News," Journal of KIISE, Vol.45, No.4, pp.355- 362, 2019.
  5. D. M. Blei, A. Y. Ng, and M. I. Jordan, "Latent Dirichlet Allocation," Journal of Machine Learning Research, Vol.3, pp.993-1022, 2003.
  6. D. W. Ko and J. J. Yang, "Korean Natural Language Processing and Analysis Using KoNLPy and Word2Vec," in Proceedings of the Korean Institute of Information Scientists and Engineers, pp.140-142, 2018.
  7. Scikit-learn [Internet], https://scikit-learn.org/stable/
  8. G. U. Park and I. K. Jang, "Comparison of resampling methods for dealing with imbalanced data in binary classification problem," The Korean Journal of Applied Statistics, Vol.32, No.3, pp.349-374, 2019. https://doi.org/10.5351/KJAS.2019.32.3.349