1. 서 론
핫스팟은 공간의 속성이나 사건이 특정한 곳에 집중되어 있는 공간 패턴을 보이는 것을 얘기한다. 지리학에서의 “모든 것은 다른 모든 것과 관련되어 있지만, 인접해 있는 것들은 멀리 있는 것들보다 더 높은 관련성이 있다.”[1]는 법칙에 따라 많은 연구가 이뤄지고 있다. 보건 분야에서는 19세기 런던에서 발생한 콜레라의 전염경로를 콜레라 사망자 수가 밀집되어 있는 공간을 지도에 매핑하여 발견한 사례가 있었다[2]. 사회적 문제에 대한 사람들의 행복도를 지도에 지역 또는 나라별로 색을 달리하여 표현하기도 하였다[3]. 이외에 핫스팟은 기업 브랜드나 상품홍보에 보다 집중적이고 효과적인 전략을 세우는데 도움을 주어 그들의 이미지를 제고할 수 있게 한다. 또한, 핫스팟이 아닌 지역은 마케팅 전략에서 회피하거나 시험하는 공간으로 선택적으로 사용될 수도 있다. 지역 경제나 문화적 측면에서는 핫스팟 이외 지역을 문화 행사의 주최 장소로 사용함으로써 지역주민의 문화 체험과 동시에 주변 지역 이미지 개선 및 상권 경제력 회복의 기회로 삼을 수 있어 지역내 불균형 문제를 경감시킬 수도 있다.
핫스팟을 찾기 위해서는 공간자료와 속성자료가 필요하다. 예를 들어, 우범지역이나 교통사고다발지역 및 생활 만족도와 같은 핫스팟을 찾기 위해서는 경/위도 좌표, 고도와 같은 공간정보와 더불어 해당공간에서의 개인감정, 보행/생활환경 만족도, 범죄율, 교통사고 발생 수, 산업 수, 유동인구와 같은 사회/경제적 특성을 분석해야 한다. 이러한 데이터는 그 수집이 매우 어려운 경우가 많다. 특히, 사람들의 감정은 전통적으로 주로 설문지를 통해 수집되기 때문에 범죄율이나 교통사고 발생건수와 같은 수치데이터와 비교했을 때 수집에 더 많은 노력이 수반된다. 또한, 이는 수집된 데이터의 수가 적을 수 있어 공간에 위치한 많은 사람들의 의견을 듣기 어렵다.
소셜네트워크 메시지에도 공간자료와 속성자료가 있다. 서비스에 배포된 메시지는 위치, 즉 경/위도 좌표 값을 가지고 있어 공간자료의 대상이 된다. 또한, 메시지에는 감정이나 의견이 내포되어있어 속성 자료의 대상으로 사용할 수 있다. 많은 연구에서 이 메시지에 감정이 포함되어 있음을 인지하고 기업 이미지나 사회 현상에 대한 대중의 감정을 파악하고 있다[4–8]. 따라서 이러한 메시지를 통해 우리는 감정 핫스팟을 찾을 수 있다.
소셜네트워크 메시지는 또한 대량의 데이터를 빠르게 수집할 수 있다. 즉, 공간자료인 경/위도 좌표와 속성자료의 대상이 되는 메시지를 실시간으로 수집할 수 있다. 이러한 실시간성은 대부분의 소셜네트워크 서비스들이 제공하는 API를 통해 가능하다. 따라서 우리는 이 메시지를 통해 실시간으로 대량의 공간 자료와 속성자료를 얻을 수 있어 핫스팟 분석을 통해 분석대상의 상태를 빠르게 이해할 수 있다.
이와 같이, 소셜네트워크 메시지는 공간자료와 속성자료를 포함하고 있기 때문에 충분히 핫스팟 분석 재료로 사용될 수 있다. 또한, 이는 대량의 데이터를 실시간으로 수집할 수 있기 때문에 특정 공간의 현상을 이해하는데 유리한 점이 있다. 따라서 본 연구에서는 소셜네트워크 서비스 중 하나인 트위터의 메시지(트윗, tweet)를 대상으로 경/위도 좌표와 감정을 추출하여 감정 핫스팟을 분석하였고 그 결과를 서울시 행복지수와 단순 비교하였다. 그 결과, 서북권을 제외한 나머지 권역이 핫스팟과 행복지수가 동일한 순위(도심권 > 동남권 > 서남권 > 동북권)를 보이는 것으로 나타났다.
2. 관련 연구
트위터를 대상으로 핫스팟을 분석한 연구는 찾아보기 어렵다. 트위터 분석과 관련된 연구들은 주로 트위터 메시지인 트윗에서 감정을 추출하거나 멘션, 리트윗과 같은 트윗 형태를 분석하고 있다. 이들 연구에서는 분석 결과를 통해 실제 사회지표(예: 다우지수, 영화수입)나 사건(예: 대통령선거, 지진)에 대한 트위터의 연관성을 찾으려 노력했다(Table 1 참조).
Table 1.Compare analysis content and target of twitter researches
2.1 트위터 감정 분석
트위터 감정 분석 연구는 주로 특정 키워드를 포함한 트윗만을 분석 대상으로 삼고 있다[4-8]. 이들 연구 중에서 [4,5,7]은 감정 어휘집을 사용하여 트위터 트윗의 감정을 분석하였고 [6,8]은 Amazon Mechanical Turk을 사용하여 수작업으로 감정을 분류하였다.
트위터 감정 분석과 관련된 연구들을 상세히 살펴보면, [4]는 트위터에서 전자적 입소문(Electronic Word of Mouth)의 가치를 확인하기 위해 기업 브랜드 감정을 분석하였다. 이 연구에서는 50개 기업 브랜드와 관련된 트윗 약 15만개를 수집(2008년 4월∼7월)하고 브랜드와 관련된 감정 6가지(No Sentiment, Wretched, Bad, So-so, Swell, Great)를 분석하여 시계열그래프와 네트워크망으로 나타내었다. 그 결과, 전체 트위터 중 약 19%가 기업 브랜드와 관련이 있고, 이 중 20% 트윗에 브랜드 감정이나 의견이 언급되어 있음을 확인했다. [5]는 ‘economy’, ‘job’, ‘jobs’, ‘obama’, ‘mccain’와 같은 키워드를 포함한 트윗의 감정을 분석하여 그 결과를 소비자 신뢰지수와 대통령 지지도에 비교하였다. 감정 분석에는 긍/부정 어휘집이 사용되었으며 2008년∼2009년까지의 트윗 10억 개 중에 관련 키워드를 포함한 트윗만을 대상으로 삼았다. 분석된 트윗 감정은 시계열그래프로 시각화되었고 실제 설문조사 결과(경기(景氣)에 대한 인식과 정치적 견해)와 비교하여 상관분석과 예측분석을 수행하였다. 그 결과, ‘jobs’ 키워드를 포함한 트윗 집합의 감정이 소비자 신뢰지수와 가장 높은 상관성을 보였다. 또한, 미국 56대 대통령선거와 선거 이후 대통령의 지지도를 트윗 감정과 비교한 결과 트위터를 통해 정치적 견해를 예측할 수 있다는 가능성을 확인했다. [6]은 TV에서 방영된 대통령 후보 토론회의 토론 주제 각각에 대한 트위터 감정을 분석했다. 이 연구에서는 실제 2008년 TV로 방영된 미국 대통령 후보 토론회 중에 발생된 트윗들에서 ‘#debate98’, ‘#current’, ‘#tweetdebate’와 같은 해시태그를 포함한 트윗 3,238개를 1,426명 트위터 사용자로부터 수집하였다. 트윗의 감정은 Amazon Mechanical Turk을 사용하여 4개의 감정(negative, positive, mixed, other)으로 분류되었다. 그 결과, 토론회 주제에 따른 감정(긍정/부정)을 시계열그래프로 나타내었고, 이를 통해 토론 주제에 대한 대중의 심리를 파악하였다. [7]은 트위터 감정과 다우존스지수를 비교하였다. 이 연구에서는 실제 2008년 2월∼12월까지의 발생한 사건(대통령 선거, 추수감사절)을 중심으로 약 270만 트위터 사용자로부터 키워드 (‘i feel’, ‘i am feeling’, ‘i'm feeling’, ‘i dont feel’, ‘I'm’, ‘Im’, ‘I am’, ‘makes me’)를 포함한 약 985만개 트윗을 수집하였다. 수집된 트윗은 6개의 감정(Calm, Alert, Sure, Vital, Kind, Happy)에 긍/부정을 추가하여 총 7가지 감정으로 분류되었다. 분류 결과, 시계 열그래프로 나타낸 트윗 감정과 미국 경제지표중 하나인 다우존스지수와의 인과관계 분석을 수행하여 트윗 감정이 실제 지수를 통계적으로 약 87.6% 예측할 수 있음을 보였다. [8]은 트위터 감정 분석을 통해 사회적 사건과 연관된 감정이 어떻게 변화하는지를 살펴보았다. 이 연구는 약 3년간(2008년 9월∼2011년 9월) 트위터에 게시된 모든 트윗 중 약 5%(약 46억 개)를 수집하고 1만여 개 단어에 대해서 [6]의 연구와 같이 Amazon Mechanical Turk를 이용해 단어 각각의 행복(happiness) 정도를 측정하였다. 측정된 단어의 행복 정도는 연구에서 구현한 행복측정기(Headonometer)에서 사용되어 ‘Tiger Woods’, ‘BP’(석유시추시설 폭발 사고), ‘Pope’, ‘Israel’와 같은 키워드들에 대한 행복이 시간에 따라 어떻게 변화해가는지 시계열그래프와 word shift 그래프를 사용하여 나타내었다.
2.2 트위터 형태 분석
트윗 형태를 분석한 연구도 감정 분석 연구와 마찬가지로 주로 키워드를 통해 트윗을 수집하였다 [9-12]. 이들 연구는 수집된 트윗의 형태를 분석하여 트위터를 통해 특정 사건과 관련된 정보가 어떻게 확산되고 군집되는지를 살펴보았고[9,11], 정보가 확산되는 과정을 특정 사회 현상과 비교하였다[10]. 또한 자연재해와 같은 사회 또는 국제적 사건을 파악하는데 지도와 트위터를 사용하였다[12].
트윗 형태를 분석한 연구들을 자세히 살펴보면, [9]는 트위터 서비스에 배포된 트윗 형태를 분석하여 사회적 사건과 관련된 정보가 어떻게 확산되는지를 살펴보았다. 이 연구에서는 2008년 8월∼9월 사이 발생한 미국의 정치적 사건(민주당/공화당전당대회)과 자연 재해(허리케인(‘Gustav’, ‘Ike’))와 관련해 5.3만여 명으로 부터 약 13.7만개의 트윗을 수집하였다. 다음으로, 수집된 트윗으로부터 사건과 관련된 키워드를 포함한 트윗 빈도를 시계열그래프로 나타내었고, URL을 포함하거나 리트윗되는 메시지를 관찰하여 사건이 발생한 시점으로 부터 트윗을 통해 정보가 어떻게 확산되는지를 분석하여 사회적 문제나 사건이 대중들을 트위터 사용자로 끌어들이는 요인임을 확인하였다. [10]은 영화와 관련된 트윗을 수집하여 트윗의 형태를 분석하고 영화 수입 즉, 박스오피스 수입을 역추적 하였다. 이를 위해, 2009년 11월∼2010년 2월 사이 개봉한 24개 영화와 관련된 트윗 289만개를 120만 명으로부터 수집하였고, 관련 영화정보를 트윗에 링크(URL)하거나 리트윗한 메시지를 시계열그래프를 통해 분석하였다. 그 결과, 트윗을 통해 예측한 박스오피스 수입이 실제 영화 수입지표(Hollywood Stock Exchange)와 매우 유사한 형태를 보이고 있음을 확인하였다. [11]은 트윗의 형태뿐만 아니라 트윗에 포함된 감정을 추출하여 사회적 사건에 대한 정보를 형상하는 군집을 분석하였다. 이 연구는 2009년 쿠바에서 발생한 ‘국경 없는 평화 콘서트 (Paz Sin Fronteras II)’와 호주의 ‘풋볼 리그 (AFL preliminary finals)’와 같은 집단 군중이 형성된 실제 사례에 기반 하여 각 사례별로 1500개 트윗을 수집하고 감정 키워드를 이용하여 트윗의 감정을 추출하였다. 또한, 트윗의 메타데이터(예: 모바일/비모바일, 위치, 성별, 트윗 형태(멘션, 해쉬태그, URL, 리트윗))를 분석 하였다. 분석된 결과를 바탕으로 SOM(Self Organizing Map) 알고리즘을 적용하여 해당 사건에 대한 4개의 군집을 찾아내었다. [12]는 트위터에 배포된 메시지인 트윗과 트윗 위치정보를 사용하여 재난이나 사회적 사건과 관련된 상황 인지를 원조하는 시각화시스템을 구현하였다. 이 연구에 서는 구현된 시스템 성능을 확인하기 위해 2010년 1월 발생한 아이티 지진과 같은 실제 재난을 사례로 구조 활동과 관련된 트윗을 수집하여 상황정보를 추출하였고, 지도(트윗 위치, heat map), 시계열, 트윗리스트, 단어 클라우드와 같은 다양한 시각화기법으로 추출된 상황정보를 표현하였다.
2.3 공간 분석
[11,12]의 연구에서는 트윗의 위치정보를 사용하였다. 하지만 이는 단순히 지도위에 트윗 위치를 매핑시킨것으로 분석결과의 지리적 분포만을 확인할 수 있다. 즉, 보건, 사회와 같은 여러 분야에서 핫스팟과 같은 공간 분석이 유용하게 쓰임에도 불구하고 아직까지 트위터와 관련된 공간 분석 연구는 찾아보기 어렵다.
핫스팟 분석은 산업집적지나 생태학에서 식생의 분포, 의료분야에서 질병의 공간적 분포를 탐색하는데 주로 사용되지만 범죄분야에서도 그 사용이 활발하다 [13]. 실제 범죄 발생은 특정 지역에 집중되어 있는데 [14], [15]의 연구에서는 범죄 핫스팟에 대한 순찰활동을 늘리는 것만으로 범죄가 효과적으로 감소되는 것을 찾아내었다 [16]. 국내에서는 [17]의 연구에서 서울 성북구 지역의 1995년도 주거침입절도 자료를 대상으로 공간 분포 패턴과 그에 영향을 미치는 요인들과의 관계를 분석하였다. 핫스팟 분석의 결과를 살펴보면, 성북 2동과 보문동, 안암동의 일부지역에 절도범죄가 집중되어 있는 것으로 나타났다. 또한, [18]의 연구에서는 진주시에서 발생한 5대 범죄 (살인, 강도, 강간, 절도, 폭력)를 대상 (2008년 범죄신고 관리대장)으로 범죄발생의 시간 및 공간적 분포 패턴을 분석하였다. 그 결과, 범죄 발생의 핫스팟을 찾아내었고, 하루 중 야간과 심야시간대에 폭력과 절도 범죄가 집중되고, 상업지역과 밀접한 주거지역이 범죄에 더 취약할 뿐만 아니라 공간적으로도 인접하여 발생하는 군집적 분포특성을 가짐을 확인하였다.
범죄분야에서의 공간 분석 외에 부동산과 같은 사회 경제의 지표 대상을 재료로 공간분석을 수행할수 도 있다. 그 예로 [16]의 연구에서는 가격변동 핫스팟의 후보군을 대상으로 공간스캔통계량의 정규모형으로 공간집중성 평가하고, Moran’s I를 통해 주변 부동산과의 공간연관관계를 평가하는 모형을 개발하였다. 그리고 개발된 모형을 통해 서울 강남·서초·송파 3개구 지역에서 2003년 8월부터 11월 사이에 투기과열지역 및 부동산 침체 가능성이 높은 지역을 탐색하였다. 그 결과, 2003년 10.29 부동산 대책발표 전인 8월과 9월은 대치동과 개포동 일대에 가격 변동 핫스팟이 발견되었고 대책 시점인 10월에는 가격변동 핫스팟이나 콜드스팟을 발견할 수 없었다. 그러나 대책 시점 1개월 후에는 대치동 일대에서 가격 변동 콜드스팟을 발견하였다.
이처럼, 트위터를 공간에 투영하여 분석하는 연구는 매우 미흡하다. 트윗은 감정뿐만 아니라 위치정보를 포함할 가능성이 매우 높기 때문에 트윗의 감정과 위치정보를 결합함으로 기존 연구와 달리 공간적인 관점에서 사회 문제를 이해할 수 있는 기회가 있다. 따라서 본 연구에서는 트위터 감정을 분류하는 것뿐만 아니라 트윗의 위치정보를 사용하여 트위터 감정의 핫스팟 분석을 수행하였다.
3. 연구 방법
3.1 트위터 감정 분류
트위터의 감정을 분류하기위해 본 연구에서는 기계학습을 사용하였다. 기계학습은 주어진 데이터로부터 학습에 사용될 데이터를 구분하고 이에서 분류자질을 추출하여 분류모델을 생성하는 것으로 이 모델을 통해 새로운 데이터의 분류가 가능해진다.
트위터 데이터는 본 연구의 사전 연구[19]에서 수집된 1,563,944개를 사용하였다. 이는 트위터 서비스에서 제공하는 API를 사용하여 수집된 것으로 국내트위터 사용자 중에서 무작위 추출된 2,759명이 2011 년 1월∼2012년 4월 사이 작성한 것이다.
분류 모델에 사용할 학습데이터는 분류 라벨이 명시되어 있어야 한다. 본 연구에서는 우선, 전체데이터에서 학습데이터 후보 1,333개 트윗을 무작위 추출하고 주관적으로 긍정과 부정 라벨을 부여했다. 다음으로, 주관적으로 감정 라벨이 부여된 학습데이터 후보를 검증하기 위해 3명의 실험자가 참여하여 데이터를 긍/부정으로 분류하고 평가자간 일관성 테스트를 수행하였다. 그 결과 높은 상관성을 보였다(Fleiss’ kappa Coeffiecient = 0.82). 마지막으로, 2명 이상 동일한 감정으로 판정된 트윗만을 선별하여 총 1067개 (긍정 509개, 부정 558개) 트윗을 감정 분류 모델에 사용할 학습데이터로 구성하였다.
다음으로 학습데이터로부터 감정 분류에 영향을 미치는 자질을 추출해야 한다. 이러한 자질은 보통 형태소 분석과 음절단위로 추출한다. 본 연구에서는 트윗에서 자질을 추출하기 전에 감정 분류에 부정적인 영향을 미칠 수 있는 여러 요소(이모티콘, 특수기호, @, ‘RT’문자, ‘URL’관련 문자열)를 전 처리한 후 3음절 단위로 자질을 추출하였다. 3음절 방식을 사용한 이유는 사전 연구[19]의 결과에 기반을 둔 것으로 트윗에서 추출한 분류 자질 중에 형태소(명사+형용사+동사)나 2음절 방식보다 3음절이 감정 분류 정확도가 더 높게 나왔다.
마지막으로, 트위터 감정을 분류하기 위해 기계학습법으로 SVM(Support Vector Machines)을 사용하였다. SVM은 다른 기계학습법에 비해 텍스트를 분류하는데 있어 우수한 성능을 보이는 것으로 보고되고 있다[20-22]. SVM의 분류 성능은 앞서 추출된 학습데이터를 사용하여 측정되었다. 측정은 교차 검증(Cross Validation)을 통해 이루어졌다. 교차 검증은 재 샘플링 기법 중 하나로 데이터양이 충분하지 않을 때 사용한다. 이는 같은 데이터를 여러 번 구분지어 모델의 성능을 측정하는 것으로 측정결과의 통계적인 신뢰도를 높일 수 있다. 총 20회 교차 검증한 결과, 본 연구의 SVM 분류 모델 정확도는 83%정도로 높게 나왔다.
3.4 트위터 감정 공간 분석
핫스팟과 같은 분석 대상의 군집되는 패턴 즉, 분석대상의 공간적 상호작용을 확인하기 위해서는 공간자기상관(Spatial Autocorrelation)의 유의성을 검증해야 한다. 따라서 본 연구에서는 트위터 감정의 핫스팟을 찾아 지도공간에 시각화하기 위해 전역적 공간자기상관성 측정에 Moran’sI[23]를, 국지적 공간자기상관성 측정에 Getis-Ord [24]을 사용하였다.
3.4.1 전역적 공간 분석
공간 사이의 상관성은 일반적으로 특정 공간과 인접해 있는 다른 공간들이 갖는 속성자료(예: 범죄율, 출산율)를 비교하여 산출된다. 전역적 공간의 자기상관성을 측정할 수 있는 방법에는 Join Count[25], Moran’s I, Geary’s C[26], Getis-Ord G[27]를 들 수 있다.
본 연구에서는 보편적으로 사용되는 Moran’s I를 사용하였다. 이 지수는 -1∼+1 사이의 값으로 상관성을 표현하며 특정 공간과 인접한 공간이 유사한 값을 갖는 경우 양의 값을, 상이한 값을 갖는 경우에는 음의 값으로 나타난다. 즉, +1에 가까울수록 공간들은 군집 패턴을, -1에 가까울수록 분산된 패턴을 보이게 된다. 이는 아래와 같은 식으로 표현될 수 있다. 식 (1)에서 N은 공간의 수를 나타내는 것으로써 본 연구에서는 경/위도 좌표를 포함한 트윗의 수가된다. xi와 xj는 i, j 위치 트윗의 속성자료로써 트윗 감정을 나타낸다. 는 트윗 감정의 평균을, wij는 트윗 i와 j 위치 사이의 공간가중치를 각각 나타낸다.
예를 들어, 4개(N) 위치 속성 값이 x = {3,2,2,1} 이고, 그들 각각의 거리(가중치(wij))가 {x12=x21=0.202, x13=x31=0.307, x14=x41=0.359, x23=x32=0.212, x24=x42=0.157, x34=x43=0.238, x11=x22=x=33=x44=0} 이라면
의 값을 가지고, 로 계산된다. 따라서 이 4개 위치의 Moran’s I 값은 식 (1)에 따라 -0.487(=4×-0.718)/5.9)로 나타나 분산된 패턴을 보이는 것을 알 수 있다.
3.4.2 국지적 공간 분석
전역적 공간의 자기상관성이 의미 있는 수치가 나왔다면 이는 분석 대상에 군집 패턴이 있다는 것이다. 즉, 이는 핫스팟 존재 가능성이 높음을 시사하고 있는 것이다. 명확한 핫스팟의 존재를 확인하기 위해서는 국지공간자기상관지수(LISA: Local Indicators of Spatial Association)[21]를 사용해야 한다. Moran’s I, Geary’s C와 같은 전역적 공간자기상관 지수는 군집 패턴의 유무를 확인하는 것에는 적절하지만 실제 군집에서 핫스팟이 존재하는지를 결정하는 것에는 무리가 있다.
본 연구에서는 LISA로 국지적 Getis-Ord G인 를 사용하였다. 3.4.1에서 살펴 본 전역적 공간자기상관 지수들 중 Join Count Statistic을 제외한 나머지는 LISA를 통해 국지적 공간의 자기상관성을 구할 수있다. 하지만, [22]의 연구에 따르면, 국지적 Geary’s C는 공간들의 속성 값 차이에만 기반을 두기 때문에 핫스팟, 콜드스팟이 뒤섞여 찾아지게 되고 국지적 Moran’s I는 공간적 이례치(Spatial Outlier)와 공간군집의 탐지가 우수하지만 핫스팟과 콜드스팟을 수치상으로는 구분 하여 보여주지 못한다. 그 반면에 는 분석 값을 통해 직관적으로 핫스팟과 콜드스팟을 확인할 수 있다. 여기서 콜드스팟이란 가 통계적으로 유의한 음의 값을 가지는 경우에 나타나는 스팟이다. 아래 식을 살펴보면, d는 군집이 되기 위한 이웃 공간(또는 위치)의 거리를 나타낸다. 공간가중치 wij에서 j와 i의 거리가 d내에 있으면 1, 벗어나면 0의 값을 가진다. 즉, 특정 공간의 거리가 d보다 크면 는 0의 값을 가지게 되어 군집에서 제외되게 된다.
3.4.1에서의 예와 같은 속성 값과 거리가 주어져 있을 때, 3번 위치의 이웃 거리를 0.255로 설정 한다면 으로 계산되어 위 식의 분자는 -1이 되고 는 9로 각각 계산되어 식의 분모는 즉 1이 된다. 따라서 의 값은 식 (2)에 따라 -1이 나오므로 3번 위치의 이웃 거리를 0.255로 설정했을 때 이 위치는 콜드스팟으로 확인된다.
4. 트위터 감정 핫스팟 분석
기 서술한 연구방법을 토대로 우리는 서울지역에 위치한 트윗을 선별하여 감정을 분류하고 공간자기상관성을 분석하여 감정 핫스팟을 서울시지도에 시각화 하였다.
4.1 서울지역 트위터 감정 분류
본 연구에서는 트윗의 감정 분류에 앞서 기 수집된 데이터(1,563,944개)에서 서울지역 트윗만을 추출하여 감정 분류 및 공간분석 대상으로 삼았다. [12]의 2011년 조사에 따르면 트위터 서비스에 등록된 모든 트윗 중 약 1%에 해당하는 트윗만이 위치정보를 가지고 있는 것으로 나타났다. 본 연구에서 수집한 데이터를 살펴보면 이와 유사하게 약 1.3% (20,574개)의 트윗이 위치정보 (경/위도 좌표)를 포함하고 있었고 이 중 서울지역에 위치한 트윗이 약 49% (10,142 개)를 차지하고 있었다. 이러한 서울지역 트윗의 감정을 분류한 결과, 긍정과 부정 트윗이 각각 6,715개, 3,427개로 나타났다.
4.2 트위터 감정 핫스팟 분석
서울지역 트위터 감정의 핫스팟을 분석하기 위해 Moran’s I를 사용하여 전역적 공간자기상관성을 분석하였다. 그 결과, 트위터 감정의 공간자기상관 지수는 0.0264(Z-Score: 45.6421)로 1% 수준에서 유의하게 나타났다. 따라서 서울지역 트위터 감정이 군집 패턴을 이루고 있음을 가늠할 수 있다. 군집 패턴은 Moran 산포도를 통해 가시적으로 살펴볼 수 있다. 이 산포도에서 군집은 네 가지(HH: High-High, LL: Low-Low, HL: High-Low, LH: Low-High)로 범주화 된다. HH는 높은 속성 값을 가진 한 공간이 높은 속성 값을 가진 또 다른 공간들에 둘러싸여 있는 것을 나타낸다. LL은 낮은 속성 값을 가지는 공간 주변에 또 다른 낮은 속성 값을 가지는 공간이 밀집되어 있는 것이다. HL은 높은 값이 낮은 값에, LH는 낮은 값이 높은 값 주변에 집중되어 있는 것이다. 우리는 분석 도구로 ArcGIS(v10.0)를 사용하여 서울지역 트위터 감정 군집의 Moran 산포도를 지도에 시각화하였다(Fig. 1. 참조). 이를 살펴보면, HH(1,980개)는 긍정 트윗 주위에 다른 긍정 트윗이 집중적으로 위치하고 있는 것을 보여준다. LL(1,085개)은 부정 트윗 주변에 부정 트윗이 밀집되어 있음을 나타낸다. 군집 패턴에 속하지 않는 트윗(5,463개)은 지도에서 제거되었다.
Fig. 1.Moran scatterplot map of Seoul twitter emotions.
트윗 감정의 군집을 5개 권역으로 살펴보면 (Table 2 참조) Westnorth(서북권), Central(도심권), Eastsouth(동남권), Westsouth(서남권) 순으로 HH 군집 패턴이 집중화 되어 있는 것으로 나타났다. 특히 서북권은 전체 HH 군집 패턴의 약 51.57%를 차지하고 있고 Eastnorth(동북권)에서는 HH 군집 패턴이 나타나지 않았다. LL 군집 패턴은 동북권, 서북권, 동남권, 서남권, 도심권 순으로 집중화 되었다. 특히 HH 군집 패턴이 나타나지 않은 동북권은 가장 높은 비율(38.71%)로 LL 군집 패턴이 나타났다.
Table 2.Emotion cluster patterns of Seoul
Moran 산포도는 핫스팟을 수치상으로 구분하기 어렵기 때문에 우리는 Getis-Ord 를 사용하여 국지적 공간자기상관분석을 수행하였다. 그 결과, 서울시 감정의 핫스팟이 지도에 시각화 되었고(Fig. 2. 참조) 핫스팟을 수치적으로 구분할 수 있었다.(Table 3. 참조) 서울지역의 트위터 감정 Moran 산포도 지도 (Fig. 1)와 핫스팟 지도(Fig. 2)를 비교해보면 산포도에 나타난 HH 군집 패턴과 유사한 위치에 핫스팟이 분포되어 있는 것을 시각적으로 확인할 수 있었다.
Fig. 2.Hotspots(>2.58) and coldspots(<-2.58) map of Seoul twitter emotions.
Table 3.Hotspots and coldspots of Seoul
핫스팟이 나타난 행정구역을 99% 신뢰수준에서 살펴보면(Table 3. 참조), 핫스팟(z-score > 2.58)은 Table 2의 HH 군집이 나타난 권역과 동일한 순으로 나타났다. 하지만 콜드스팟 (z-score < -2.58)은 Table 2의 LL 군집 패턴과 달리 핫스팟이 집중되어 있는 서북권에 콜드스팟(42.73%)도 집중되어 있는 것으로 나타났다.
4.3 서울지역 행복지수와 비교
행복지수는 가정생활, 재정 상태와 같은 여러 사회적인 상황에 따른 자신 또는 집단의 상태를 나타내는 지표라 할 수 있다. 우리는 이러한 지수를 통해 행복을 상대적으로 이해할 수 있다. 2011년 서울시에서 약 4만5천명의 서울시민을 대상으로 행복지수를 조사한 결과를 Table 4에 권역별로 나타내었다. 여기서 ‘종합행복지수’(Composite happiness index)를 살펴보면 ‘도심권’, ‘동남권’, ‘서남권’ 순으로 행복지수 차이가 나타났고 ‘동북권’과 ‘서북권’은 동일한 행복 지수를 보이고 있다.
Table 4.Happiness index of Seoul(2011)[29]
서울시 행복지수와 본 연구에서 분석한 결과를 통계적으로 평가하기 위해서는 행복지수와 관련된 설문조사 데이터가 필요하다. 하지만 이 설문조사 데이터를 구하는데 어려움이 따라 여기서는 분석결과의 측청치만 단순 비교를 하였다. 이를 Table 5에 나타내어 살펴보면 내림차순으로 정렬한 권역별 행복지수와 권역별 핫스팟이 ‘서북권’을 제외하면 동일한 순서로 정렬된 것을 볼 수 있다. 또한 오름차순으로 정렬한 권역별 콜드스팟은 핫스팟에 비해 행복지수와 동일한 순서를 보이지는 않았지만 ‘도심권’과 ‘동북권’이 동일한 위치에 놓여있어 권역별간 상대적인 위치를 확인할 수 있다.
Table 5.Compare Happiness index/Hotspot/Coldspot
5. 결 론
트위터 분석과 관련된 연구 대부분은 트윗의 감정이나 형태를 통해 사회 사건이나 현상을 이해하고 있다. 하지만 트위터는 감정뿐만 아니라 위치정보를 포함하고 있기 때문에 핫스팟과 같은 공간분석을 통해 이를 증진시킬 수 있다. 또한 트위터는 대량의 데이터를 빠른 시간 안에 수집할 수 있어 분석된 결과는 사회 현상을 이해하는 수준을 넘어 조기에 문제점을 완화하는 방법을 찾는데 도움을 줄 수 있다. 따라서 본 연구에서는 국내 트위터 사용자를 대상으로 트윗을 수집하여 그 중, 서울지역 트윗만을 대상으로 기계학습법을 사용하여 트윗 감정을 긍정과 부정으로 이분화 하였다. 또한, 트위터 감정의 핫스팟을 찾기 위해 전역적/국지적 공간자기상관성을 분석하였고 이를 시각화 하여 서울지역 감정이 일부 권역에 밀집되어 나타나는 것을 확인했다. 또한, 본 연구의 결과와 서울시 행복지수를 비교하여 권역간의 상대적인 차이가 유사한 것을 확인하였다. 따라서 이러한 소셜네트워크 분석의 결과물은 시각화를 통한 정보의 제공 및 가공을 넘어 설문조사와 같은 대규모 조사방법의 대안 또는 보완할 수 있는 도구로 성장할 가능성이 있다.
본 연구는 트위터 감정의 핫스팟을 분석하는 연구로 트위터 감정을 긍정과 부정으로 한정하였다. 따라서 본 연구에서 얻은 결과를 일반화하기 위해서는 트위터에 담긴 다양한 감정이나 의견을 추출하는 작업이 이루어져야 할 것이다. 또한, 핫스팟 분석 결과를 사회나 경제와 관련된 문제에 직접 투영하여 분석대상을 이해하는 수준을 넘어 예측하고 나아가 문제를 완화할 수 있는 방안을 제시하는 후속 연구가 이루어져야 할 것이다.
References
- W.R. Tobler, “A Computer Movie Simulating Urban Growth in the Detroit Region,” Economic Geography, Vol. 46, pp. 234-240, 1970. https://doi.org/10.2307/143141
- J. Snow, On the Mode of Communication of Cholera, John Churchill, London, 1855.
- J.F. Helliwell, R. Layard, J. Sachs, and Emirates Competitiveness Council, World H appiness Report 2013, Sustainable Development Solutions Network, 2013.
- B.J. Jansen, M. Zhang, K. Sobel, and A. Chowdury, “Twitter Power: Tweets as Electronic Word of Mouth,” Journal of the American Society for Information Science and Technology, Vol. 60, No. 11, pp. 2169-2188, 2009. https://doi.org/10.1002/asi.21149
- B. O’Connor, R. Balasubramanyan, B.R. Routledge, and N.A. Smith, “From Tweets to Polls: Linking Text Sentiment to Public Opinion Time Series,” Proceeding of International Conference on Weblogs and Social Media, Vol. 11, pp. 122-129, 2010.
- N.A. Diakopoulos and D.A. Shamma, “Characterizing Debate Performance via Aggregated Twitter Sentiment,” Proceeding of the Special Interest Group on Computer-Human Interaction Conference on Human Factors in Computing Systems, pp. 1195-1198, 2010.
- J. Bollen, H. Mao, and X. Zeng, “Twitter Mood Predicts the Stock Market,” Journal of Computational Science, Vol. 2, No. 1, pp. 1-8, 2011. https://doi.org/10.1016/j.jocs.2010.12.007
- P.S. Dodds, K.D. Harris, I.M. Kloumann, C.A. Bliss, and C.M. Danforth, “Temporal Patterns of Happiness and Information in a Global Social Network: Hedonometrics and Twitter,” Public Library of Science, Vol. 6, No. 12, pp. e26752, 2011.
- A.L. Hughes and L. Palen, “Twitter Adoption and Use in Mass Convergence and Emergency Events,” International Journal of Emergency Management, Vol. 6, No. 3, pp. 248-260, 2009. https://doi.org/10.1504/IJEM.2009.031564
- S. Asur and B.A. Huberman, “Predicting the Future With Social Media,” Proceeding of the IEEE/ WIC/ ACM International Conference on Web Intelligence and Intelligent Agent Technology 2010, Vol. 1, pp. 492-499, 2010.
- M. Cheong and V.C.S. Lee, “A Microblogging-based Approach to Terrorism Informatics: Exploration and Chronicling Civilian Sentiment and Response to Terrorism Events via Twitter,” Journal of Information Systems Frontiers, Vol. 13, No. 1, pp. 45-59, 2011. https://doi.org/10.1007/s10796-010-9273-x
- A.M. MacEachren, A. Jaiswal, A.C. Robinson, S. Pezanowski, A. Savelyev, P. Mitra, et al., “Senseplace2: Geotwitter Analytics Support for Situational Awareness,” Proceeding of the IEEE Conference on Visual Analytics Science and Technology 2011, pp. 181-190, 2011.
- H. Kang, “Understanding and Their Application for Spatial Analysis Foundation, Nearest Neighbor Clustering Analysis and Local Moran Indice,” Planning and Policy of Korea Research Institute For Human Settlements, Vol. 324, No. 3, pp. 116-121, 2008.
- P.L. Brantingham and P.J. Brantingham, “Mobility, Notoriety, and Crime: A Study in the Crime Patterns of Urban Nodal Points,” Journal of Environmental Systems, Vol. 11, No. 1, pp. 89-99, 1981. https://doi.org/10.2190/DTHJ-ERNN-HVCV-6K5T
- L.W. Sherman and D. Weisburd, “General Deterrent Effects of Police Patrol in Crime ‘Hot Spots’: A Randomized, Controlled Trial,” Journal of Justice Quarterly, Vol. 12, No. 4, pp. 625-648, 1995. https://doi.org/10.1080/07418829500096221
- H. Sohn and K. Park. “A Spatial Statistical Method for Exploring Hotspots of House Price Volatility,” Journal of the Korean Geographical Society, Vol. 43, No. 3, pp. 392-411, 2008.
- S. Hwang and C. Hwang, “The Spatial Pattern Analysis Of Urban Crimes using GIS: The Case of Residential Burglary,” Journal of the Korea Planners Association, Vol. 38, No. 1, pp. 53- 66, 2003.
- S. Hur and T. Moon, “The Pattern of Crime Occurrence and its Spatial Distribution Characteristics,” Journal of the Korea Planners Association, Vol. 45, No. 5, pp. 237-248, 2010.
- J. Lim and J. Kim, “An Empirical Comparison of Machine Learning Models for Classifying Emotions in Korean Twitter,” Journal of Korea Multimedia Society, Vol. 17, No. 2, pp. 232-239, 2014. https://doi.org/10.9717/kmms.2014.17.2.232
- Y. Yang and X. Liu, “A Re-examination of Text Categorization Methods,” Proceeding of the 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pp. 42-49. 1999.
- J.D.M. Rennie and R. Rifkin, Improving Multiclass Text Classification with the Support Vector Machine, Technical Report AIM-2001-026, Massachusetts Institute of Technology, 2001.
- B. Pang, L. Lee, and S. Vaithyanathan, “Thumbs up? Sentiment Classification using Machine Learning Techniques,” Proceeding of the ACL-02 Conference on Empirical Methods in Natural Language Processing, Vol. 10, pp. 79-86, 2002.
- P.A.P. Moran, “Notes on Continuous Stochastic Phenomena,” Journal of Biometrika, Vol. 37, No. 1-2, pp. 17-23, 1950. https://doi.org/10.1093/biomet/37.1-2.17
- A. Getis and J.K. Ord, “The Analysis of Spatial Association by Use of Distance Statistics,” Journal of Geographical Analysis, Vol. 24, No. 3, pp. 189-206, 1992. https://doi.org/10.1111/j.1538-4632.1992.tb00261.x
- G.J.G. Upton and B. Fingleton, Spatial data analysis by example. Vol.1: Point Pattern and Quantitative Data. Wiley, Chichester, 1985.
- R.C. Geary, “The Contiguity Ratio and Statistical Mapping,” Journal of the Incorporated Statistician, Vol. 5, No. 3, pp. 115-146, 1954. https://doi.org/10.2307/2986645
- L. Anselin, “Local Indicators of Spatial Association—LISA,” Journal of Geographical Analysis, Vol. 27, No. 2, pp. 93-115, 1995. https://doi.org/10.1111/j.1538-4632.1995.tb00338.x
- S. Lee, D. Cho, H. Sohn, and M. Chae, “A GIS-based Method for Delineating Spatial Clusters: A Modified AMOEBA Technique,” Journal of Korean Geographical Society, Vol. 45, No. 4, pp. 502-520, 2010.
- The Seoul Institute, 2011 Seoul Survey Report, 2012.
Cited by
- 트윗 데이터를 이용한 황사 관련 질병 유의성 분석 vol.47, pp.1, 2015, https://doi.org/10.22640/lxsiri.2017.47.1.267