Implementation of a Web Document Clustering System Using Word2Vec

Yi, Hyun Seok;Ahn, Sung Hun;Lee, Yong Hwan;Cheon, Myung Jae;Park, Hyeok Ju;Park, Mee Hwa;Lee, Yong Kyu;

doi:10.3745/PKIPS.y2016m10a.26

한국정보처리학회:학술대회논문집 (Proceedings of the Korea Information Processing Society Conference)

한국정보처리학회 2016년도 추계학술발표대회
/
Pages.26-29
/
2016
/
2005-0011(pISSN)
/
2671-7298(eISSN)

한국정보처리학회 (Korea Information Processing Society)

DOI QR Code

Word2Vec을 이용한 웹 문서 클러스터링 시스템 구현

Implementation of a Web Document Clustering System Using Word2Vec

이현석 (동국대학교 컴퓨터공학과-서울) ;
안성훈 (동국대학교 컴퓨터공학과-서울) ;
이용환 (동국대학교 컴퓨터공학과-서울) ;
천명재 (동국대학교 컴퓨터공학과-서울) ;
박혁주 (동국대학교 컴퓨터공학과-서울) ;
박미화 (동국대학교 컴퓨터공학과-서울) ;
이용규 (동국대학교 컴퓨터공학과-서울)

Yi, Hyun Seok (Department of Computer Science and Engineering, Dongguk University-Seoul) ;
Ahn, Sung Hun (Department of Computer Science and Engineering, Dongguk University-Seoul) ;
Lee, Yong Hwan (Department of Computer Science and Engineering, Dongguk University-Seoul) ;
Cheon, Myung Jae (Department of Computer Science and Engineering, Dongguk University-Seoul) ;
Park, Hyeok Ju (Department of Computer Science and Engineering, Dongguk University-Seoul) ;
Park, Mee Hwa (Department of Computer Science and Engineering, Dongguk University-Seoul) ;
Lee, Yong Kyu (Department of Computer Science and Engineering, Dongguk University-Seoul)

발행 : 2016.10.27

https://doi.org/10.3745/PKIPS.y2016m10a.26 인용 PDF

PDF 다운로드

⟨ 이전 논문 다음 논문 ⟩

초록

웹 문서 추천 시스템에서는 유사한 내용의 문서임에도 불구하고 URL이 달라서 다른 문서로 인식하여 사용자에게 추천하는 데이터 희소성 문제가 있다. 여기서 기존 연구들은 이 문제에 대한 해결 방법으로 TF-IDF를 이용하였으나 비용 및 시간의 한계가 있으며 유의어 분류 문제가 있다. 본 논문에서는 Word2Vec을 이용한 웹문서 학습 시스템을 통해 문제를 해결한다. 제안 시스템은 언론사의 뉴스를 수집하고 이를 정형화된 형식으로 분석하여 가공하는 전처리 과정을 거친 후 Word2Vec 학습을 통해 문서 벡터를 생성하고 이를 K-Means 클러스터링으로 유사 문서군으로 분류한다. 이 시스템을 이용하면 데이터 희소성 문제를 해결할 뿐만 아니라 연산량이 TF-IDF에 비해 줄어들고 유의어 분류 시 유사도가 높아지는 강점이 있다.

한국정보처리학회:학술대회논문집 (Proceedings of the Korea Information Processing Society Conference)

Word2Vec을 이용한 웹 문서 클러스터링 시스템 구현

Implementation of a Web Document Clustering System Using Word2Vec

초록

키워드

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)