• 제목/요약/키워드: tweet analysis

검색결과 75건 처리시간 0.026초

오피니언 마이닝을 이용한 한글 트윗 감정분석 시스템 (The Hangul Tweet Sentiment Analysis System using Opinion Mining)

  • 어문선;박두순
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 추계학술발표대회
    • /
    • pp.1145-1146
    • /
    • 2013
  • 인터넷과 스마트폰의 발달로 SNS서비스의 사용자와 데이터가 활발하게 증가하고 있다. 이로 인하여 SNS 데이터의 가치와 신뢰성이 점점 증가하고 있으며, 이러한 추세에 따라 여러 연구와 실험을 통하여 데이터를 분석하고 분석 결과를 제공하는 서비스가 증가하고 있다. 본 논문에서는 이러한 배경을 바탕으로 특정 키워드를 포함하고 있는 한글 트윗을 검색하여 해당 트윗에 대한 연관 키워드와 감정 키워드를 분석해서 출력해주는 시스템을 개발한다.

효과적 이모션마이닝을 위한 속성선택 방법에 관한 연구 (Exploring Feature Selection Methods for Effective Emotion Mining)

  • 어균선;이건창
    • 디지털융복합연구
    • /
    • 제17권3호
    • /
    • pp.107-117
    • /
    • 2019
  • 블로그, 소셜 미디어 등의 발달로 인해 점점 더 많은 사람들이 본인의 의견이나 감정을 표현하기 위해 온라인상에서 텍스트 문장을 작성한다. 그리고 이같은 온라인 텍스트 문장속에 숨겨져 있는 긍정 또는 부정등의 감성을 찾아내는 연구분야를 감성분석 이라고 한다. 그중에서도 이모션 마이닝은 사람들의 구체적인 이모션을 찾아내는데 초점을 맞춘 연구분야이다. 본 연구에서는 속성선택 방법과 단일 및 앙상블 분류기를 조합하여 효과적인 이모션 마이닝 예측모델을 제시하고자 한다. 이를 위해 두가지 대표적인 오픈 데이터인 Tweet와 SemEval2007 데이터를 이용하여 TF-IDF를 계산하고 백 오브 워즈(BOW: bag-of-words) 형태로 속성 셋을 구성하였다. 그리고 효과적인 이모션 마이닝이 될 수 있는 최적의 속성을 선택하기 위하여 상관관계 기반 속성선택(CFS), 정보획득 속성선택 (IG), 그리고 ReliefF 등 세가지 속성선택 방법을 적용하였다. 선택된 속성을 이용하여 아홉가지 분류기 모델로 이모션 마이닝의 정확도를 비교하였다. 실험 결과, Tweet 데이터는 의사결정나무(DT)가 CFS, IG, ReliefF에 의한 속성을 이용할 경우 정확도가 상승했고, 랜덤서브스페이스(RS)는 CFS, IG에 선택된 속성을 사용할 경우 정확도가 상승했다. SemEval2007 데이터는 ReliefF에 의해 선택된 속성으로 로지스틱 회귀분석(LR)을 적용하였을 때 정확도가 상승했고, 나이브 베이지안 네트워크(NBN)은 CFS, IG에 의한 속성을 사용할 경우 정확도가 상승하였다.

한국어 트위터 감정의 핫스팟 분석 (Hotspot Analysis of Korean Twitter Sentiments)

  • 임좌상;김진만
    • 한국멀티미디어학회논문지
    • /
    • 제18권2호
    • /
    • pp.233-243
    • /
    • 2015
  • A hotspot is a spatial pattern that properties or events of spaces are densely revealed in a particular area. Whereas location information is easily captured with increasing use of mobile devices, so is not our emotion unless asking directly through a survey. Tweet provides a good way of analyzing such spatial sentiment, but relevant research is hard to find. Therefore, we analyzed hotspots of emotion in the twitter using spatial autocorrelation. 10,142 tweets and related GPS data were extracted. Sentiment of tweets was classified into good or bad with a support vector machine algorithm. We used Moran's I and Getis-Ord $G_i^*$ for global and local spatial autocorrelation. Some hotspots were found significant and drawn on Seoul metropolitan area map. These results were found very similar to an earlier conducted official survey of happiness index.

Analysis and Implications of Twitter Data during the 2012 Election

  • 윤홍원
    • 한국산업정보학회논문지
    • /
    • 제19권6호
    • /
    • pp.7-13
    • /
    • 2014
  • Twitter is a microblogging service that allows users to post short messages on a variety of topics in real-time. In this work, we analyze Twitter messages posted during the 2012 elections and find those implications. This study uses Twitter messages related to the 2012 South Korean presidential campaign. The three main candidates are represented by the abbreviations A, M, and P. According to the statistical analysis, the number of tweets and re-tweets for candidate P was relatively stable over the entire campaign period. Candidate P had the highest percentage of terms related to elections pledges, and candidates A and M were judged to be a little bit poorer with respect to campaign promises. The positive terms ratio for candidate P was higher than those for the other two candidates. The negative terms ratio in the Twitter messages of P was considerably smaller than those of candidates A and M. After considering all these results, it is suggested cautiously that Twitter messages posted during an election campaign could be correlated with the outcome of the election.

다트판형 공간분할 기법을 이용한 서울지역 지하철 역세권 분석 (Geo-spatial Analysis of the Seoul Subway Station Areas Using the Haversine Distance and the Azimuth Angle Formulas)

  • 조재희;백의영
    • 한국IT서비스학회지
    • /
    • 제17권4호
    • /
    • pp.139-150
    • /
    • 2018
  • This paper investigated the human distribution in subway station areas in Seoul, using geotweets and subway ridership data. Eight stations were selected from the districts of Gangnam and Gangbuk. Geotweets located within a 600-meter radius of the central coordinates of each station were extracted, and distances between the center of station and each tweet location were calculated. Donut-shaped dimension and pie-shaped dimension were generated, using the Haversine distance formula and the Azimuth angle formula respectively. By combining the two dimensions, Dartboard-shaped space division is created. Popular places within the subway station areas identified from this research are almost the same as the current well-known popular places, and this is an important case showing that people send tweets from various places where they engage in daily activities. We expect this study can be a methodological guideline for social scientists who use spatio-temporal or GPS data for their research.

격자기반 분석을 통한 위치기반 소셜 미디어 데이터와 부동산 가격지수 간의 공간적 상관성 분석 연구 (Analyzing Spatial Correlation between Location-Based Social Media Data and Real Estates Price Index through Rasterization)

  • 박우진;어승원;유기윤
    • 대한공간정보학회지
    • /
    • 제23권1호
    • /
    • pp.23-29
    • /
    • 2015
  • 본 연구에서는 위치기반 소셜 미디어 데이터의 공간적 분포가 지역별 부동산 지수와 어떠한 공간적 관련성을 가지는지에 대해 알아보고자 한다. 두 데이터는 상이한 자료 형식을 가지고 있어, 이를 보완할 수 있는 방법론으로 본 연구에서는 격자 기반의 공간분석 방법을 적용하였다. 대상 데이터로는 2013년 8월 한 달간의 지오태그된 트윗 데이터와 행정구역별 주택가격지수(매매, 전세)를 이용하였으며, 공간적 범위는 서울과 수도권 일부를 포함하도록 하였다. 두 데이터 간의 상이한 공간적 단위를 고려하여 2,000m 단위의 격자망을 구성하고 이에 맞게 두 데이터를 격자 데이터 형태로 변환하였다. 변환된 두 데이터에 대하여 Hot spot 분석을 실시하여 공간적 분포를 시각적으로 비교하였으며, 공간시차를 고려한 이변량 공간적 상관계수를 측정함으로써 정량적 분석을 실시하였다. 시각적, 정량적 분석 결과, 서초구 지역이 트윗 데이터와 주택매매가격지수 데이터에서 공통적인 Hotspot 지역으로 탐색되었으나 주택전세가격지수 데이터와는 뚜렷한 공간적 상관성이 탐색되지 않았다.

오피니언 마이닝 기법을 이용한 사회적 재난의 시민 감성도 분석 (Citizen Sentiment Analysis of the Social Disaster by Using Opinion Mining)

  • 서민송;유환희
    • 대한공간정보학회지
    • /
    • 제25권1호
    • /
    • pp.37-46
    • /
    • 2017
  • 최근 우리나라는 사회적 요인에 의한 재난이 빈번하게 발생하고 있다. 어떤 위기가 도시민들을 위협할지 예측하기 어려워 우려가 높아지고 있다. 따라서 본 연구에서는 Python언어 기반 Tweepy 플러그인을 적용하여 트윗 데이터를 취득하는 프로그램을 개발하고, 자연어 처리 후 R Studio프로그램에서 텍스트 클러스터링 분석과 오피니언 마이닝 분석을 통하여 시민들의 건강에 영향을 미치는 성분이 검출된 '옥시'와 시민들에게 많은 공포감을 주었던 '묻지마 범죄'와 같은 사회적 재난에 대해 정신적 충격과 불안감을 평가하였다. 텍스트 클러스터링 분석에서 '옥시' 사건은 '정부의 대처능력이 세월호 사건과의 연관성', '옥시제품의 철수지시에도 여전한 판매' 등이 가장 높은 관심도를 보였다. 그리고 '묻지마 범죄' 사건은 '스크린 도어 사건, 세월호 사건 등 예측 못하는 사건에 대한 정부의 대응, 대책', '강남역, 부산의 범죄가 여성혐오로 인한 것' 등이 가장 높은 관심도를 보였다. 또한, 두 범죄를 비교 분석 하였을 때 묻지마 범죄에 대해 시민 감성도 평균 지수가 11.61%p 더 부정적이라는 것을 알 수 있었다.

식품안전 관련 트위터 정보의 연관 관계 분석 및 시각화 (Coocurrence Relation Analysis and Visualization in Tweet for Food Safety Domain)

  • 소현수;강승식;오세욱
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2016년도 제28회 한글및한국어정보처리학술대회
    • /
    • pp.305-306
    • /
    • 2016
  • 식품안전 사고가 발생했을 때 뉴스, 인터넷 기사를 통해 정보를 인지하기 전에 그 음식을 섭취하는 경우가 발생하는 문제점 최소화하기 위하여 실시간 트윗 분석으로 현재 발생한 식품안전 키워드와 어느 지역에서 발생했는지를 신속하게 파악하고, 키워드 연관관계 분석 프로그램을 활용하여 정확한 정보를 추출한다. 이와 더불어, SNS 등 다양한 정보 소스로부터 추출한 정보를 간단명료하게 파악하기 위해서 워드 클라우드 등 데이터 시각화 기법을 활용하여 시각화로 정보를 제공한다. 이 기법은 식품안전 뿐만 아니라 최근 발생한 콜레라 감염 발생과 같은 문제를 해결하기 위한 방법으로 활용될 수 있을 것이다.

  • PDF

Company Name Discrimination in Tweets using Topic Signatures Extracted from News Corpus

  • Hong, Beomseok;Kim, Yanggon;Lee, Sang Ho
    • Journal of Computing Science and Engineering
    • /
    • 제10권4호
    • /
    • pp.128-136
    • /
    • 2016
  • It is impossible for any human being to analyze the more than 500 million tweets that are generated per day. Lexical ambiguities on Twitter make it difficult to retrieve the desired data and relevant topics. Most of the solutions for the word sense disambiguation problem rely on knowledge base systems. Unfortunately, it is expensive and time-consuming to manually create a knowledge base system, resulting in a knowledge acquisition bottleneck. To solve the knowledge-acquisition bottleneck, a topic signature is used to disambiguate words. In this paper, we evaluate the effectiveness of various features of newspapers on the topic signature extraction for word sense discrimination in tweets. Based on our results, topic signatures obtained from a snippet feature exhibit higher accuracy in discriminating company names than those from the article body. We conclude that topic signatures extracted from news articles improve the accuracy of word sense discrimination in the automated analysis of tweets.

텍스트 마이닝을 활용한 대선 관련 SNS 분석 (SNS Analysis Related to Presidential Election Using Text Mining)

  • 권영우;정덕길
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2017년도 춘계학술대회
    • /
    • pp.361-363
    • /
    • 2017
  • 최근 소셜 미디어의 이용률이 폭발적으로 증가함에 따라, 방대한 데이터가 네트워크로 쏟아져 나오고 있다. 이들 데이터는 기존의 정형 데이터뿐만 아니라 이미지, 동영상 등의 비정형 데이터가 있으며, 이들을 포괄하여 빅데이터라고 불린다. 이러한 빅데이터는 오피니언 마이닝, 테스트 마이닝 등의 기술적인 분석 기법과 빅데이터 요약 및 효과적인 표현방법에 대한 시각화 기법에 대하여 활발한 연구가 이루어지고 있다. 이 논문은 인기 있는 사회연결망 서비스인 Twitter의 트윗을 수집하고, 빅데이터 분석 기법인 텍스트 마이닝을 활용하여 2017년 대선에 대하여 분석하였다. 또한 분석된 자료의 효과적인 전달을 위해 워드 클라우드 진행하였다. 이 논문을 위하여 인기 있는 SNS인 Twitter의 최근 7일간 트윗(tweet)을 수집하고 분석하였다.

  • PDF