DOI QR코드

DOI QR Code

Reconstruction of Categories on the National Petition Site Using K-Means clustering and Topic Modeling

K-means 클러스터링과 토픽 모델링을 기반으로 한 국민청원 사이트의 카테고리 재구성

  • Woo, Yun Hui (Dept. of Statistics and Information Science, Dongduk Women's University) ;
  • Kim, Hyon Hee (Dept. of Statistics and Information Science, Dongduk Women's University)
  • 우윤희 (동덕여자대학교 정보통계학과) ;
  • 김현희 (동덕여자대학교 정보통계학과)
  • Published : 2019.05.10

Abstract

국민 청원 사이트가 뛰어난 접근성과 신속성으로 인하여 국민들로부터 많은 관심을 받고 있다. 현재 국민청원 사이트의 카테고리 분류는 '미래', '성장동력' 등을 포함한 16개의 카테고리 및 기타로 구성되어 있으나 그 기준이 모호하여 많은 청원글들이 기타 카테고리로 분류되고 있는 상황이다. 이는 청원글의 내용을 명확히 반영하지 않고 미리 정의된 카테고리 구조를 사용하고 있는데서 기인한다고 할 수 있다. 본 논문에서는 보다 구체적으로 정의된 카테고리를 정의하고자 추천 순으로 1,500개의 청원글을 수집하였고, 수집된 청원글의 내용을 바탕으로 카테고리 구조를 추출하였다. 먼저, k-평균 알고리즘을 적용하여 청원글을 군집하여 대분류를 정의하였고, 보다 구체적인 세부 분류를 정의하기 위하여 토픽모델링을 실시하였다. 본 논문에서 제시하는 계층적 카테고리 구조는 청원글의 내용을 바탕으로 대분류와 세부분류로 구성된 것이므로 새로운 청원글을 등록하거나 분류하는 데 적절한 것으로 보인다.

Keywords