DOI QR코드

DOI QR Code

Word2Vec을 이용한 웹 문서 클러스터링 시스템 구현

Implementation of a Web Document Clustering System Using Word2Vec

  • 이현석 (동국대학교 컴퓨터공학과-서울) ;
  • 안성훈 (동국대학교 컴퓨터공학과-서울) ;
  • 이용환 (동국대학교 컴퓨터공학과-서울) ;
  • 천명재 (동국대학교 컴퓨터공학과-서울) ;
  • 박혁주 (동국대학교 컴퓨터공학과-서울) ;
  • 박미화 (동국대학교 컴퓨터공학과-서울) ;
  • 이용규 (동국대학교 컴퓨터공학과-서울)
  • Yi, Hyun Seok (Department of Computer Science and Engineering, Dongguk University-Seoul) ;
  • Ahn, Sung Hun (Department of Computer Science and Engineering, Dongguk University-Seoul) ;
  • Lee, Yong Hwan (Department of Computer Science and Engineering, Dongguk University-Seoul) ;
  • Cheon, Myung Jae (Department of Computer Science and Engineering, Dongguk University-Seoul) ;
  • Park, Hyeok Ju (Department of Computer Science and Engineering, Dongguk University-Seoul) ;
  • Park, Mee Hwa (Department of Computer Science and Engineering, Dongguk University-Seoul) ;
  • Lee, Yong Kyu (Department of Computer Science and Engineering, Dongguk University-Seoul)
  • 발행 : 2016.10.27

초록

웹 문서 추천 시스템에서는 유사한 내용의 문서임에도 불구하고 URL이 달라서 다른 문서로 인식하여 사용자에게 추천하는 데이터 희소성 문제가 있다. 여기서 기존 연구들은 이 문제에 대한 해결 방법으로 TF-IDF를 이용하였으나 비용 및 시간의 한계가 있으며 유의어 분류 문제가 있다. 본 논문에서는 Word2Vec을 이용한 웹문서 학습 시스템을 통해 문제를 해결한다. 제안 시스템은 언론사의 뉴스를 수집하고 이를 정형화된 형식으로 분석하여 가공하는 전처리 과정을 거친 후 Word2Vec 학습을 통해 문서 벡터를 생성하고 이를 K-Means 클러스터링으로 유사 문서군으로 분류한다. 이 시스템을 이용하면 데이터 희소성 문제를 해결할 뿐만 아니라 연산량이 TF-IDF에 비해 줄어들고 유의어 분류 시 유사도가 높아지는 강점이 있다.

키워드