Abstract
The advance in web accessibility with dissemination of smart phones gives rise to rapid increment of users on social network platforms. Many research projects are in progress to detect events using Twitter because it has a powerful influence on the dissemination of information with its open networks, and it is the representative service which generates more than 500 million Tweets a day in average; however, existing studies to detect events has been used TFIDF algorithm without any consideration of the various conditions of tweets. In addition, some of them detected predefined events. In this paper, we propose the RTFIDF VT algorithm which is a modified algorithm of TFIDF by reflecting features of Twitter. We also verified the optimal section of TF and DF for detecting events through the experiment. Finally, we suggest a system that extracts result-sets of places and related keywords at the given specific time using the RTFIDF VT algorithm and validated section of TF and DF.
스마트폰의 확산으로 인한 웹 접근성의 발달은 소셜 네트워크를 기반으로 하는 플랫폼 서비스 이용자의 급격한 증가를 이끌어냈다. 그중에서도 개방적인 네트워크를 기반으로 빠른 확산과 강력한 영향력을 보이는 트위터(Twitter)는 하루 평균 5억 건이 넘는 트윗(Tweet)이 생산되는 대표적인 서비스이다. 따라서 트위터를 이용하여 이벤트를 탐지하려는 다양한 연구들이 진행되고 있다. 그러나 기존의 연구들은 이벤트 탐지를 위해 트윗을 구성하는 다양한 조건에 대한 고려 없이 일반 문서와 동일하게 일반적인 TFIDF 알고리즘을 적용하였다. 또한 TF와 DF에 대한 언급이 생략된 채, 사전에 지정한 키워드와 관련된 이벤트를 대상으로 탐지하였다. 이에 본 논문에서는 트위터의 특징을 반영한 TFIDF 변형 알고리즘인 RTFIDF VT를 제안하고, 실험을 통해 이벤트 탐지에 최적인 것으로 검증된 TF와 DF 구간을 밝힌다. 최종 검증된 TF와 DF의 구간과 RTFIDF VT를 적용하여 특정시점을 입력받아 이벤트로 예상되는 지역명들과 이벤트 관련 키워드의 결과 집합을 추출하는 시스템을 제안한다.