• 제목/요약/키워드: Tweet Data

검색결과 54건 처리시간 0.024초

데이터 변형성 기반 유사성 연결을 위한 단어 추천 알고리즘 (Words Recommendation Algorithm for Similarity Connection based on Data Transmutability)

  • 김분희
    • 한국전자통신학회논문지
    • /
    • 제8권11호
    • /
    • pp.1719-1724
    • /
    • 2013
  • 기존의 데이터 처리 방식과는 다른 접근이 필요한 빅데이터는 데이터의 분량, 데이터의 변화 속도, 데이터의 다양성의 특징을 가진 비정형 데이터이다. 트위터의 트윗(tweet)이 국내만 보더라도 하루 500만건이 넘는 상황이다. 이렇게 많은 데이터는 저렴해진 저장시스템과 분석정보에 대한 수요 증대로 인해 연구가치가 높아지고 있다. 본 논문에서는 이러한 기술에서 요구되는 요소 기술로써 데이터 변형성의 특징을 기반으로 우선순위기반 단어 추천 알고리즘을 제안한다.

소셜미디어 위험도기반 재난이슈 탐지모델 (The Detection Model of Disaster Issues based on the Risk Degree of Social Media Contents)

  • 최선화
    • 한국안전학회지
    • /
    • 제31권6호
    • /
    • pp.121-128
    • /
    • 2016
  • Social Media transformed the mass media based information traffic, and it has become a key resource for finding value in enterprises and public institutions. Particularly, in regards to disaster management, the necessity for public participation policy development through the use of social media is emphasized. National Disaster Management Research Institute developed the Social Big Board, which is a system that monitors social Big Data in real time for purposes of implementing social media disaster management. Social Big Board collects a daily average of 36 million tweets in Korean in real time and automatically filters disaster safety related tweets. The filtered tweets are then automatically categorized into 71 disaster safety types. This real time tweet monitoring system provides various information and insights based on the tweets, such as disaster issues, tweet frequency by region, original tweets, etc. The purpose of using this system is to take advantage of the potential benefits of social media in relations to disaster management. It is a first step towards disaster management that communicates with the people that allows us to hear the voice of the people concerning disaster issues and also understand their emotions at the same time. In this paper, Korean language text mining based Social Big Board will be briefly introduced, and disaster issue detection model, which is key algorithms, will be described. Disaster issues are divided into two categories: potential issues, which refers to abnormal signs prior to disaster events, and occurrence issues, which is a notification of disaster events. The detection models of these two categories are defined and the performance of the models are compared and evaluated.

트윗 텍스트 마이닝 기법을 이용한 구제역의 감성분석 (Sentiment Analysis of Foot-and-Mouth Disease Using Tweet Text-Mining Technique)

  • 채희찬;이종욱;최윤아;박대희;정용화
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제7권11호
    • /
    • pp.419-426
    • /
    • 2018
  • 구제역으로 인하여 국내 축산업계 및 관련 산업분야는 매년 막대한 피해를 입고 있다. 구제역과 관련한 다양한 학술적 연구들이 현재 진행되고는 있으나, 구제역의 발병에 따른 사회적 파급효과에 관한 공학적 분석 연구는 매우 제한적이다. 본 연구에서는 구제역에 관한 일반 시민들의 감성적 반응을 텍스트 마이닝 방법론을 사용하여 분석하는 체계적인 방법론을 제안한다. 제안하는 시스템은 먼저, 트위터에 게시된 트윗 중 구제역과 관련된 데이터를 수집한 후, 딥러닝 기법을 사용하여 극성 분류 과정을 거친다. 둘째, 토픽 모델링의 대표적인 기법 중 하나인 LDA를 활용하여 트윗으로 부터 키워드들을 추출하고, 추출된 키워드들로부터 극성별 동시출현 키워드 네트워크를 구성한다. 셋째, 키워드 네트워크을 통해 구제역의 위기단계 구간별 사회적 파급효과를 분석한다. 사례 분석으로써, 2010년 7월부터 2011년 12월까지 국내에서 발생한 구제역에 관한 일반 시민들의 감성적 변화를 분석하였다.

격자기반 분석을 통한 위치기반 소셜 미디어 데이터와 부동산 가격지수 간의 공간적 상관성 분석 연구 (Analyzing Spatial Correlation between Location-Based Social Media Data and Real Estates Price Index through Rasterization)

  • 박우진;어승원;유기윤
    • 대한공간정보학회지
    • /
    • 제23권1호
    • /
    • pp.23-29
    • /
    • 2015
  • 본 연구에서는 위치기반 소셜 미디어 데이터의 공간적 분포가 지역별 부동산 지수와 어떠한 공간적 관련성을 가지는지에 대해 알아보고자 한다. 두 데이터는 상이한 자료 형식을 가지고 있어, 이를 보완할 수 있는 방법론으로 본 연구에서는 격자 기반의 공간분석 방법을 적용하였다. 대상 데이터로는 2013년 8월 한 달간의 지오태그된 트윗 데이터와 행정구역별 주택가격지수(매매, 전세)를 이용하였으며, 공간적 범위는 서울과 수도권 일부를 포함하도록 하였다. 두 데이터 간의 상이한 공간적 단위를 고려하여 2,000m 단위의 격자망을 구성하고 이에 맞게 두 데이터를 격자 데이터 형태로 변환하였다. 변환된 두 데이터에 대하여 Hot spot 분석을 실시하여 공간적 분포를 시각적으로 비교하였으며, 공간시차를 고려한 이변량 공간적 상관계수를 측정함으로써 정량적 분석을 실시하였다. 시각적, 정량적 분석 결과, 서초구 지역이 트윗 데이터와 주택매매가격지수 데이터에서 공통적인 Hotspot 지역으로 탐색되었으나 주택전세가격지수 데이터와는 뚜렷한 공간적 상관성이 탐색되지 않았다.

국내외 국립기록관의 트위터 운용 현황 분석 및 활성화 방안 (A Study on the Vitalization Strategy Based on Current Status Analysis of National Archives)

  • 강주연;김태영;최정원;오효정
    • 정보관리학회지
    • /
    • 제33권3호
    • /
    • pp.263-285
    • /
    • 2016
  • 요즘 커뮤니케이션 수단으로 가장 각광받고 있는 도구는 소셜네트워크서비스(Social Network Service, 이하 SNS)로, 이용자들의 접근성과 편의성을 증진시키는 가장 효과적인 서비스로 자리 잡았다. 본 연구에서는 가장 대표적인 SNS 서비스 중 자동수집이 가능한 서비스인 트위터(Twittter)를 선정, 국내외 국립기록관의 트위터 운용 현황을 비교 분석하고 그 특징을 파악함으로써 이용자들의 관심도를 향상시키기 위한 활성화 방안을 제언하고자 한다. 이를 위해 미국의 NARA를 비롯해 영국의 TNA, 호주의 NAA와 국내의 국가기록원의 트윗(tweet)을 수집하고 이에 대한 정보 유형 분석과 시계열 분석을 실시하였다. 정보 유형 분석은 국립기록관이 제공하는 정보가 이용자의 정보 요구에 부응하는가를 살펴보는데 목적이 있으며 시계열 분석은 시간의 추이에 따른 이용자의 반응 추이를 살펴보는데 그 목적이 있다. 각국의 국립기록관 트위터 운용의 비교분석을 통해 4가지의 특성을 도출하였으며 이를 바탕으로 우리나라 국가기록원의 트위터 활성화 방안을 제언하였다.

트위터 사용자들의 감성을 이용한 사회적 이슈 분석 (Social Issue Analysis Based on Sentiment of Twitter Users)

  • 김한나;정영섭
    • 융합정보논문지
    • /
    • 제9권11호
    • /
    • pp.81-91
    • /
    • 2019
  • 대중들의 소통의 창구로 자리매김 하고 있는 소셜 네트워크 서비스(SNS)에 작성된 글은 감성을 많이 포함하고 있다는 특징을 갖고 있다. 그 중 트위터는 공개 Application Programming Interface(API)를 통한 데이터의 수집이 편리하다는 장점을 지니고 있다. 본 논문에서는 트위터 상에 표현된 사용자들의 감성 정보를 통해 사회적 이슈를 분석하고 마케팅 분야 활용 가능성을 제시한다. 이는 국민 또는 소비자의 의견과 반응을 필요로 하는 정부, 기업 등에 도움이 될 수 있다. 본 논문에서는 최근 사회적 이슈에 대한 트위터 텍스트 데이터를 긍정 또는 부정으로 분류하여 질적 분석을 제공하였고, 각 트윗의 좋아요 수, 리트윗 수 등에 대한 상관관계 분석을 통해 양적분석을 제공하였다. 질적 분석의 결과로 국민의 지지를 얻기 위해 관세정책을 홍보하고, 버즈 사용자에게는 기술적 편의를 제공할 것을 제안하였다. 양적 분석의 결과, 트위터 사용자들의 관심을 끌기 위해서는 긍정적인 트윗을 짧고 간단하게 작성해야 함을 밝혔다. 데이터의 수집 기간이 짧고, 단 두 가지의 키워드만을 분석하여 일반화 가능성이 떨어지는 한계를 가져 향후, 보다 긴 기간의 다양한 사회적 이슈를 분석할 예정이다.

Analysis and Implications of Twitter Data during the 2012 Election

  • 윤홍원
    • 한국산업정보학회논문지
    • /
    • 제19권6호
    • /
    • pp.7-13
    • /
    • 2014
  • Twitter is a microblogging service that allows users to post short messages on a variety of topics in real-time. In this work, we analyze Twitter messages posted during the 2012 elections and find those implications. This study uses Twitter messages related to the 2012 South Korean presidential campaign. The three main candidates are represented by the abbreviations A, M, and P. According to the statistical analysis, the number of tweets and re-tweets for candidate P was relatively stable over the entire campaign period. Candidate P had the highest percentage of terms related to elections pledges, and candidates A and M were judged to be a little bit poorer with respect to campaign promises. The positive terms ratio for candidate P was higher than those for the other two candidates. The negative terms ratio in the Twitter messages of P was considerably smaller than those of candidates A and M. After considering all these results, it is suggested cautiously that Twitter messages posted during an election campaign could be correlated with the outcome of the election.

다트판형 공간분할 기법을 이용한 서울지역 지하철 역세권 분석 (Geo-spatial Analysis of the Seoul Subway Station Areas Using the Haversine Distance and the Azimuth Angle Formulas)

  • 조재희;백의영
    • 한국IT서비스학회지
    • /
    • 제17권4호
    • /
    • pp.139-150
    • /
    • 2018
  • This paper investigated the human distribution in subway station areas in Seoul, using geotweets and subway ridership data. Eight stations were selected from the districts of Gangnam and Gangbuk. Geotweets located within a 600-meter radius of the central coordinates of each station were extracted, and distances between the center of station and each tweet location were calculated. Donut-shaped dimension and pie-shaped dimension were generated, using the Haversine distance formula and the Azimuth angle formula respectively. By combining the two dimensions, Dartboard-shaped space division is created. Popular places within the subway station areas identified from this research are almost the same as the current well-known popular places, and this is an important case showing that people send tweets from various places where they engage in daily activities. We expect this study can be a methodological guideline for social scientists who use spatio-temporal or GPS data for their research.

토픽 모델링을 이용한 댓글 그래프 기반 소셜 마이닝 기법 (A Reply Graph-based Social Mining Method with Topic Modeling)

  • 이상연;이건명
    • 한국지능시스템학회논문지
    • /
    • 제24권6호
    • /
    • pp.640-645
    • /
    • 2014
  • 인터넷 상에서 많은 사람들은 사용자 간의 의사소통과 정보 공유, 사회적 관계를 생성하기 위한 방법으로 소셜 네트워크 서비스를 이용한다. 그 중 대표적인 트위터는 하루에 수백만 건의 소셜 데이터가 발생하기 때문에 수집되고 있는 데이터의 양이 엄청나다. 이 방대한 양의 데이터로부터 의미 있는 정보를 추출하는 소셜 마이닝이 집중적으로 연구되고 있다. 트위터는 일반적으로 유용한 정보 혹은 공유하고자 하는 내용을 팔로잉-팔로워 관계를 이용해 쉽게 전달하고 리트윗할 수 있다. 소셜 미디어에서 트윗 데이터에 대한 토픽 모델링은 이슈를 추적하기 위한 좋은 도구이다. 짧은 텍스트 기반인 트윗 데이터의 제한점을 극복하기 위해, 사용자를 노드로 사용자간 댓글과 리트윗 메시지의 여부를 간선으로 하는 그래프 구조를 갖는 댓글 그래프의 개념을 소개한다. 토픽 모델링의 대표적인 방법인 LDA 토픽 모델이 짧은 텍스트 데이터에 대해 비효율적인 것을 보완하기 위한 방법으로, 이 논문에서는 짧은 문서의 수를 줄이고 마이닝 결과의 질을 향상시키기 위한 댓글 그래프를 사용하는 토픽 모델링 방법을 소개한다. 제안한 모델은 토픽 모델링 방법으로 LDA 모델을 사용하였으며, 7일간 수집한 트윗 데이터에 대한 실험 결과를 보인다.

삼각 부등식을 이용한 온라인 VQ 코드북 생성 방법 (Online VQ Codebook Generation using a Triangle Inequality)

  • 이현진
    • 디지털콘텐츠학회 논문지
    • /
    • 제16권3호
    • /
    • pp.373-379
    • /
    • 2015
  • 본 논문에서는 실시간으로, 문서, 웹 페이지, 블로그, tweet 등 텍스트 정보와 센서, 머신데이터등 IoT의 데이터가 생성되는 상황에서 새로 추가되는 데이터들을 기존에 만들어진 VQ 코드북에 추가시키면서, 기존 VQ 코드북 모델을 실시간으로 갱신하기 위한 온라인 VQ 코드북 생성 방법을 제안한다. 기존에 일괄 작업으로 만들어진 VQ 코드북의 성능을 저하시키지 않으면서, 새로 추가된 데이터를 활용하여 VQ 코드북을 점진적으로 수정하는 방식으로 삼각 부등식을 활용하여 높은 정확도와 속도를 보일 수 있었다. 테스트 데이터에 적용한 결과 일괄 작업과 유사한 성능을 보이면서, 다른 온라인 K-Means 보다 빠른 속도를 보였다.