• 제목/요약/키워드: 트윗 분석

검색결과 128건 처리시간 0.023초

텍스트마이닝을 이용한 사회 이슈 찬반 분류에 관한 연구 (Study on the social issue sentiment classification using text mining)

  • 강선아;김유신;최상현
    • Journal of the Korean Data and Information Science Society
    • /
    • 제26권5호
    • /
    • pp.1167-1173
    • /
    • 2015
  • 정보통신기술의 발전은 SNS, 블로그, 게시판 등 자신의 생각이나 의견을 표출할 수 있는 장소의 다양성을 제공하였고 이는 빅데이터 성장을 가능케 하였다. 특히 매순간마다 엄청난 수의 사용자가 이용가능하고 다양한 이슈에 대한 의견을 작성할 수 있는 SNS의 특징으로 인해 많은 사람들이 트위터 등에 사회적 이슈에 대한 자신의 의견을 드러낸다. 따라서 본 연구에서는 트위터에서 작성되는 사회 이슈에 대한 의견을 수집하여 사회이슈를 주제로 하는 감성사전을 구축하고 구축된 감성사전을 통해 감성 분석을 실시하고자 한다. 사용된 데이터는 '비키니', '나꼼수'를 포함하는 트윗 글이다. 사회이슈에 특화된 주제지향 감성사전을 구축하고 구축된 감성사전을 통해 긍부정 의견을 분석한 결과 Precision은 61%로 나타났으며 F1-score는 74%의 성능을 보여주었다. 본 연구는 정치적 색을 띄고 있는 특정 사회 이슈에 대한 트윗 작성자의 의견이 긍정인지 부정인지 자동으로 분류할 수 있도록 하는 사전 구축의 하나의 기준을 제시할 것이라 기대한다.

소셜 빅 데이터를 이용한 이슈 감지 사례분석 (A Case Study of the Issue detected Analysis on Social Media Big Data)

  • 송은지;강민식
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2014년도 추계학술대회
    • /
    • pp.682-683
    • /
    • 2014
  • 최근 IT업체들은 온라인 상에서 소비자들이 평소에 쏟아내는 의견들을 수집, 축적해서, 원하는 키워드를 중심으로 내용을 분석함으로써, 특정 주제에 대해 어떤 여론이 형성되고 있으며, 여론이 어떻게 전파되고 있는지 경로를 파악할 수 있는 소셜 빅데이터 분석 툴을 경쟁적으로 개발하고 있다. 본 논문에서는 소셜 빅 데이터를 분석함에 있어 이슈를 감지하고 예측하는 기술을 실제 사례에 적용하여 분석한 결과를 고찰해 보고자 한다. 소셜 미디어 데이터 패턴을 비교 분석하고 부정이슈 감지를 위해 부정 여론을 확산시키는데 영향을 미치는 내용과 작성자를 독립변수로 하고, 평균 이슈 도달 시간 및 속도를 종속변수로 정의한다. 부정 여론 형성의 영향력은 트윗수, 리트윗 수를 기준으로 이슈 감지한다. 분석결과 전체 트윗 중 리트윗 메시지가 큰 비중 차지하고 이슈에 대한 버즈가 증가할수록 리트윗 비중이 증가하였으며 크게 확산될 때는 리트윗량이 크게 증가하여 짧은 시간 안에 넓게 확산하였다.

  • PDF

의견 어구의 구문 관계를 고려한 트위터 의견 검색 (Opinion Retrieval in Twitter Considering Syntactic Relations of Sentiment Phrase)

  • 김윤성;양민철;이승욱;임해창
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제20권9호
    • /
    • pp.492-497
    • /
    • 2014
  • 본 연구에서는 대중적인 소셜 네트워크 서비스 중 하나이며 많은 사람들이 다양한 의견을 공유하는 트위터를 대상으로 질의어(또는 주제어)에 적합한 의견을 지닌 트윗을 검색하는 방법론을 제안한다. 기존의 의견 검색 시스템은 의견을 지닌 구절이 주어진 질의어나 화자와 관련이 없음에도 불구하고 그런 구절의 유무를 중요한 요소로 여겼다. 이와 같은 문제를 해결하기 위하여 본 연구에서는 1) 의견 어구-질의어 관계, 2) 의견 어구-화자 관계, 그리고 3) 의견 어구의 의존 구문 역할 등의 구문 요소를 반영하는 방법을 고안하였다. 또한, 의견을 가진 트윗을 검색하기 위하여 질의어와의 적절성, 텍스트 정보, 사용자 정보, 트위터 특화 자질에 기반한 랭킹 학습 방법을 이용하였다. 실제 데이터를 이용한 실험 결과, 본 시스템은 기존 연구들보다 더 좋은 성능을 보이고 있다.

격자기반 분석을 통한 위치기반 소셜 미디어 데이터와 부동산 가격지수 간의 공간적 상관성 분석 연구 (Analyzing Spatial Correlation between Location-Based Social Media Data and Real Estates Price Index through Rasterization)

  • 박우진;어승원;유기윤
    • 대한공간정보학회지
    • /
    • 제23권1호
    • /
    • pp.23-29
    • /
    • 2015
  • 본 연구에서는 위치기반 소셜 미디어 데이터의 공간적 분포가 지역별 부동산 지수와 어떠한 공간적 관련성을 가지는지에 대해 알아보고자 한다. 두 데이터는 상이한 자료 형식을 가지고 있어, 이를 보완할 수 있는 방법론으로 본 연구에서는 격자 기반의 공간분석 방법을 적용하였다. 대상 데이터로는 2013년 8월 한 달간의 지오태그된 트윗 데이터와 행정구역별 주택가격지수(매매, 전세)를 이용하였으며, 공간적 범위는 서울과 수도권 일부를 포함하도록 하였다. 두 데이터 간의 상이한 공간적 단위를 고려하여 2,000m 단위의 격자망을 구성하고 이에 맞게 두 데이터를 격자 데이터 형태로 변환하였다. 변환된 두 데이터에 대하여 Hot spot 분석을 실시하여 공간적 분포를 시각적으로 비교하였으며, 공간시차를 고려한 이변량 공간적 상관계수를 측정함으로써 정량적 분석을 실시하였다. 시각적, 정량적 분석 결과, 서초구 지역이 트윗 데이터와 주택매매가격지수 데이터에서 공통적인 Hotspot 지역으로 탐색되었으나 주택전세가격지수 데이터와는 뚜렷한 공간적 상관성이 탐색되지 않았다.

초기 소량 데이터와 RNN을 활용한 루머 전파 추적 기법 (Initial Small Data Reveal Rumor Traits via Recurrent Neural Networks)

  • 권세정;차미영
    • 정보과학회 논문지
    • /
    • 제44권7호
    • /
    • pp.680-685
    • /
    • 2017
  • 온라인 소셜미디어의 등장으로 방대한 사용자 데이터가 수집되고 이는 루머의 탐지와 같은 복잡하고 도전적인 사회 문제를 자료 기반 기법으로 해결할 수 있게끔 한다. 최근 딥러닝 기반 모델들이 이러한 문제를 해결하기 위한 빠르고 정확한 기법 중의 하나로서 소개되었다. 하지만 기존에 제시된 모델들은 전파 종료 후 작동하거나 오랜 관찰기간을 필요로 하여 활용성이 제한된다. 이 연구에서는 초기 소량 데이터만을 활용하는 recurrent neural networks (RNNs) 기반의 빠른 루머 분류 알고리즘을 제안한다. 제시된 모델은 소셜미디어 스트림을 시계열 자료로 변환하여 사용하며, 이 때 시계열 데이터는 팔로워 수와 같이 정보 전파자 관련 정보는 물론 주어진 컨텐츠에서 추론한 언어심리학적 감성의 점수로 구성된다. 수백만의 트윗을 포함하는 498개의 실제 루머 및 494개의 비루머 사례 분석을 통해 이 연구는 제안하는 RNN 기반 모델이 초기 30개의 트윗 만으로도 (초기 수시간) 0.74 F1의 높은 성능을 보임을 확인한다. 이러한 결과는 실제 응용가능한 수준의 빠르고 효율적인 루머 분류 알고리즘 개발의 초석이 된다.

대용량 소셜 미디어 감성분석을 위한 반감독 학습 기법 (Semi-supervised learning for sentiment analysis in mass social media)

  • 홍소라;정연오;이지형
    • 한국지능시스템학회논문지
    • /
    • 제24권5호
    • /
    • pp.482-488
    • /
    • 2014
  • 대표적인 소셜 네트워크 서비스(SNS)인 트위터의 내용을 분석하여 자동으로 트윗에 나타난 사용자의 감성을 분석하고자 한다. 기계학습 기법을 사용해서 감성 분석 모델을 생성하기 위해서는 각각의 트윗에 긍정 또는 부정을 나타내는 감성 레이블이 필요하다. 그러나 사람이 모든 트윗에 감성 레이블을 붙이는 것은 비용이 많이 소요되고, 실질적으로 불가능하다. 그래서 본 연구에서는 "감성 레이블이 있는 데이터"와 함께 "감성 레이블이 없는 데이터"도 활용하기 위해서 반감독 학습기법인 self-training 알고리즘을 적용하여 감성분석 모델을 생성한다. Self-training 알고리즘은 "레이블이 있는 데이터"의 레이블이 있는 데이터를 활용하여 "레이블이 없는 데이터"의 레이블을 확정하여 "레이블이 있는 데이터"를 확장하는 방식으로, 분류모델을 점진적으로 개선시키는 방식이다. 그러나 데이터의 레이블이 한번 확정되면 향후 학습에서 계속 사용되므로, 초기의 오류가 계속적으로 학습에 영향을 미치게 된다. 그러므로 조금 더 신중하게 "레이블이 없는 데이터"의 레이블을 결정할 필요가 있다. 본 논문에서는 self-training 알고리즘을 이용하여 보다 높은 정확도의 감성 분석 모델을 생성하기 위하여, self-training 중 "감성 레이블이 없는 데이터"의 레이블을 결정하여 "감성 레이블이 있는 데이터"로 확장하기 위한 3가지 정책을 제시하고, 각각의 성능을 비교 분석한다. 첫 번째 정책은 임계치를 고려하는 것이다. 분류 경계로부터 일정거리 이상 떨어져 있는 데이터를 선택하고자 하는 것이다. 두 번째 정책은 같은 개수의 긍/부정 데이터를 추가하는 것이다. 한쪽 감성에 해당하는 데이터에만 국한된 학습을 하는 것을 방지하기 위한 것이다. 세 번째 정책은 최대 개수를 고려하는 것이다. 한 번에 많은 양의 데이터가 "감성 레이블이 있는 데이터"에 추가되는 것을 방지하고 상위 몇%만 선택하기 위해서, 선택되는 데이터의 개수의 상한선을 정한 것이다. 실험은 긍정과 부정으로 분류되어 있는 트위터 데이터 셋인 Stanford data set에 적용하여 실험하였다. 그 결과 학습된 모델은 "감성 레이블이 있는 데이터" 만을 가지고 모델을 생성한 것보다 감성분석의 성능을 향상 시킬 수 있었고 3가지 정책을 적용한 방법의 효과를 입증하였다.

형태소분석과 인공신경망을 활용한 SNS 기반 재난알림시스템의 정확도 향상 (Improving accuracy of SNS-based Disaster Notification System using Morphological Analysis and Artificial Neural Network)

  • 이동호;강석민;김수현;조성재;박찬혁
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 추계학술발표대회
    • /
    • pp.881-884
    • /
    • 2017
  • 스마트 디바이스가 대중화 되면서 각종 사건 사고에 대한 데이터가 SNS 상에 실시간으로 업데이트 된다. SNS의 이런 특성을 이용하여 이용자 개개인이 사고감지센서의 역할을 하면 빠른 사고감지가 가능하다. 하지만 기존 연구들은 단순히 키워드의 출현 빈도로 사고를 판단하는 방식과, 문법파괴 요소가 많은 트위터의 특성으로 인해 정확성에서 한계를 보인다. 본 연구에서는 사고감지의 정확도를 높이기 위해 형태소로 분석한 트윗을 벡터화하여 다층퍼셉트론신경망으로 학습시키는 모델을 구현하였다. 연구 결과 일반명사로 이루어진 40개의 단어를 사용했을 때 가장 높은 82.58%의 정확도를 얻었다.

소셜 빅데이터의 감성과 재난전조의 연관성에 관한 연구 (The Study on the Relationship between Disaster Signs and Sentimental of the Social Bigdata)

  • 배병걸;이보람;최선화
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2014년도 추계학술발표대회
    • /
    • pp.898-899
    • /
    • 2014
  • 여러 가지 예측하기 힘든 요소에 의해서 발생되는 재난을 미리 감지하는 것은 매우 어려운 일이다. 특히, 일부라도 예측할 수가 있는 자연재난이 아닌 복합재난의 경우, 측정될 수가 있는 정형적인 데이터가 존재하지 않기 때문에 재난을 예측하기 위한 데이터가 없는 것이 현실이다. 본 논문에서는 재난에 대한 전조를 감지하기 위해 소셜미디어에서 사람들이 직접 생성하는 소셜 빅데이터를 활용하여 재난과 관련된 메시지의 감성이 재난전조와 연관성이 있다는 것을 알아보고자 한다. 그래서 실제 사람들이 작성한 재난과 관련된 트윗을 수집하고 감성분석하여 재난발생 전후의 감성변화를 분석하였다.

빅 데이터를 활용한 의료정보 질 관리 (The Management of Medical Information Quality Utilizing Big Data)

  • 조영복;우성희;이상호
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2014년도 춘계학술대회
    • /
    • pp.728-731
    • /
    • 2014
  • 오늘날 IT 기술의 지속적인 발전과 국민의 평균 수명이 연장되면서 의료 서비스의 질도 중요한 관심사가 되고 있다. 개인의 일상에서 생성되는 트윗 빅 데이터를 분석해서 의료정보의 질 관리 툴로 사용한다. 분석된 빅 데이터는 근거중심의학에 기반한 향상된 의료정보를 제공한다. 또한 만성질환의 추적관찰이 가능하고 유병자의 추가적인 합병증 발생률을 감소시킬 수 있다. 따라서 효율적인 질병 치료와 질병 예방이 가능하게 된다.

  • PDF

오피니언 마이닝 기법을 이용한 사회적 재난의 시민 감성도 분석 (Citizen Sentiment Analysis of the Social Disaster by Using Opinion Mining)

  • 서민송;유환희
    • 대한공간정보학회지
    • /
    • 제25권1호
    • /
    • pp.37-46
    • /
    • 2017
  • 최근 우리나라는 사회적 요인에 의한 재난이 빈번하게 발생하고 있다. 어떤 위기가 도시민들을 위협할지 예측하기 어려워 우려가 높아지고 있다. 따라서 본 연구에서는 Python언어 기반 Tweepy 플러그인을 적용하여 트윗 데이터를 취득하는 프로그램을 개발하고, 자연어 처리 후 R Studio프로그램에서 텍스트 클러스터링 분석과 오피니언 마이닝 분석을 통하여 시민들의 건강에 영향을 미치는 성분이 검출된 '옥시'와 시민들에게 많은 공포감을 주었던 '묻지마 범죄'와 같은 사회적 재난에 대해 정신적 충격과 불안감을 평가하였다. 텍스트 클러스터링 분석에서 '옥시' 사건은 '정부의 대처능력이 세월호 사건과의 연관성', '옥시제품의 철수지시에도 여전한 판매' 등이 가장 높은 관심도를 보였다. 그리고 '묻지마 범죄' 사건은 '스크린 도어 사건, 세월호 사건 등 예측 못하는 사건에 대한 정부의 대응, 대책', '강남역, 부산의 범죄가 여성혐오로 인한 것' 등이 가장 높은 관심도를 보였다. 또한, 두 범죄를 비교 분석 하였을 때 묻지마 범죄에 대해 시민 감성도 평균 지수가 11.61%p 더 부정적이라는 것을 알 수 있었다.