토픽 모델링을 이용한 트위터 데이터의 공간 분포 패턴 분석

Spatial Distribution Patterns of Twitter Data with Topic Modeling

  • 우현지 (한국교원대학교 지리교육과) ;
  • 김영훈 (한국교원대학교 지리교육과)
  • Woo, Hyun Jee (Department of Geography Education, Korea National University of Education) ;
  • Kim, Young Hoon (Department of Geography Education, Korea National University of Education)
  • 투고 : 2017.04.22
  • 심사 : 2017.05.20
  • 발행 : 2017.05.31

초록

본 연구는 트위터를 대상으로 트윗 공간 데이터에서 지리적 의미를 탐색하기 위한 방법을 모색하였다. 트윗 공간 데이터의 구축 과정 및 지리적 분석의 프레임워크를 정립하고 지리적 연구 방법론을 제안하였다. 이를 위해 본 연구는 제주도의 GPS 좌표 참조 트윗(geotweet)을 대상으로 트윗의 내용적 특성과 트윗 발생 위치의 공간 분포 특성을 확인하였다. 제주도 좌표 참조 트윗에서는 지명 또는 장소명이 많이 출현하였는데, 이는 자신의 위치를 알리고자하는 의도로 파악하였다. 트윗의 공간 분포는 제주공항을 중심으로 한 일부 관광지 주변으로 핫스팟이 확인되었고, 이는 제주도 유동인구 핫스팟과 유사한 패턴을 보였다. 주제 중심의 트윗 분석을 위해 본 연구에서는 토픽 모델링 알고리즘을 이용하여 분석하였다. 분석 결과, 주제의 지리적 위치와 트윗의 내용은 서로 관련이 있음을 알 수 있었다. 마지막으로 본 연구는 토픽 모델링 분석을 통해 방대한 트윗 데이터의 내용에 상응하는 지역 분포 특성을 직관적으로 확인하는데 유용하게 활용될 수 있다는 것을 확인하였다.

This paper attempts to analyze the geographical characters of Twitter data and presents analysis potentials for social network analysis in geography. First, this paper suggests a methodology for a topic modeling-based approach in order to identify the geographical characteristics of tweets, including an analysis flow of Twitter data sets, tweet data collection and conversion, textural pre-processing and structural analysis, topic discovery, and interpretation of tweets' topics. GPS coordinates referencing tweets(geotweets) were extracted among sampled Twitter data sets because it contains the tweet place where it was created. This paper identifies a correlated relationship between some specific topics and local places in Jeju. This correlation is closely associated with some place names and local sites in Jeju Island. We assume it is the intention of tweeters to record their tweet places and to share and retweet with other tweeters in some cases. A surface density map shows the hotspots of tweets, detecting around some specific places and sites such as Jeju airport, sightseeing sites, and local places in Jeju Island. The hotspots show similar patterns of the floating population of Jeju, especially the thirty-year age group. In addition, a topic modeling algorithm is applied for the geographical topic discovery and comparison of the spatial patterns of tweets. Finally, this empirical analysis presents that Twitter data, as social network data, provide geographical significance, with topic modeling approach being useful in analyzing the textural features reflecting the geographical characteristics in large data sets of tweets.

키워드

참고문헌

  1. 강애띠, 2016, 트윗에서 추출한 스트레스 감성과 토픽의 공간적 특성 연구, 이화여자대학교 박사학위논문.
  2. 강애띠.강영옥, 2015, 타임라인데이터를 이용한 트위터 사용자의 거주 지역 유추방법, 한국공간정보학회지, 23(2), 69-81.
  3. 구자용, 2015, 공간정보 빅 데이터의 지도화와 공간적 분포 특성에 관한 연구 -서울시 지역의 트윗 데이터를 사례로, 국토지리학회지, 49(3), 349-360.
  4. 김자연, 2016, Multi-depth LDA 모델을 이용한 마이크로블로그에서의 토픽분석, 고려대학교 석사학위논문.
  5. 김진만, 2015, 소셜네트워크서비스에서 추출된 감정의 핫스팟 분석: 한국어 트위터와 하둡에코시스템을 중심으로, 상명대학교 박사학위논문.
  6. 박유경, 2014, 공공기관 소셜미디어의 메타데이터 표준요소 분석, 경북대학교 석사학위논문.
  7. 박자현.송민, 2013, 토픽모델링을 활용한 국내 문헌정보학 연구동향 분석, 정보관리학회지, 30(1), 7-32. https://doi.org/10.3743/KOSIM.2013.30.1.007
  8. 박재희, 2013, SNS데이터의 도시정책지표로서의 활용 가능성 연구: 트윗 데이터의 주거환경 만족에 대한 공간적 특성, 이화여자대학교 석사학위논문.
  9. 배정환.손지은.송민, 2013, 텍스트 마이닝을 이용한 2012년 한국대선 관련 트위터 분석, 지능정보연구, 19(3), 141-156. https://doi.org/10.13088/jiis.2013.19.3.141
  10. 신정엽, 2014, 정보 격차의 맥락에서 트윗 데이터의 이론적 고찰과 실증적 공간 탐색: 미국 킹 카운티를 사례로, 한국지도학회지, 14(2), 89-106.
  11. 오효정.윤보현.최남현.유철중.김용, 2014, 소셜 빅데이터 내용 분석 기반 사용자 그룹별 선호지역 및 이동패턴 시각화, 한국정보기술학회지, 12(12), 195-203.
  12. 원진영.김대곤, 2014, 텍스트마이닝을 활용한 사회위험 이슈 도출, 한국위기관리논집, 10(7), 33-52.
  13. 이병혁.이기현.윤지영, 2005, IT와 공간구조의 재구성, 정보통신정책연구원.
  14. 전철욱(편역), 2016, Building Machine Learning Systems with Python 한국어판(개정판), 에이콘, 서울(Coelho, L. P. and Richert, W., 2013,Building Machine Learning Systems withPython, Packt Publishing, Ltd., Birmingham,UK)
  15. 조태민.이지형, 2015, LDA모델을 이용한 잠재 키워드 추출, 한국지능시스템학회 논문집, 25(2), 180-185.
  16. 진설아.허고은.정유경.송민, 2013, 트위터 데이터를 이용한 네트워크 기반 토픽 변화 추적 연구, 정보관리학회지, 30(1), 285-302. https://doi.org/10.3743/KOSIM.2013.30.1.285
  17. 최선화.배병걸, 2013, 소셜 빅데이터 재난관리 운영방안 및 이슈 탐지기법 연구, 국립재난안전연구원.
  18. 하수욱.남광우.류근호, 2012, 마이크로 블로그기반의 공간 지식 추출 기법연구, 한국공간정보학회지, 20(2), 129-136.
  19. 홍일영, 2015, 국내 지오트윗의 공간분포, 한국지도학회지, 15(2), 93-101.
  20. Blei, D. M., Ng, A. Y., and Jordan, M. I., 2003, Latent Dirichlet Allocation, Journal of Machine Learning Research, 3, 993-1022.
  21. Hong, L., and Davison, B. D., 2010, Empirical study of topic modeling in twitter, Proceedings of the First Workshop on Social Media Analytics(SOMA), 80-88.
  22. Li, L., Goodchild, M. F., and Xu, B., 2013, Spatial, temporal, and socioeconomic patterns in the use of Twitter and Flickr, Cartography and Geographic Information Science, 40(2), 61-77. https://doi.org/10.1080/15230406.2013.777139
  23. Sui, D., and Goodchild, M., 2011, The convertgence of GIS and social media: challenges for GIScience, International Journal of Geographical Information Science, 29(1), 1737-1748.
  24. Yin, Z., Cao, L., Han, J., Zhai, C., and Huang, T., 2011, Geographical topic discovery and comparison, Proceedings of the 20th International Conference on World Wide Web, 247-256.
  25. Zhao, W. X., Jiang, J., Weng, J., He, J., Lim, E. P., Yan, H., and Li, X., 2011, Comparing twitter and traditional media using topic models, European Conference on Information Retrieval, Springer Berlin Heidelberg, 338-349.