• Title/Summary/Keyword: 트윗 수집

Search Result 72, Processing Time 0.026 seconds

Development of Restaurant Recommendation System Using K-Pop Hashtag Crawling (K-POP 연관 해시태그 크롤링을 이용한 맛집 추천 시스템 개발)

  • Kim, Hwa-Seon;Lee, Chae-Yeon;Cho, Seo-Yun;Nah, Jeong-Eun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2022.11a
    • /
    • pp.878-880
    • /
    • 2022
  • COVID-19 상황 속에서도 전 세계 Twitter K-POP 콘텐츠 관련 트윗 양은 78억 건 이상으로 매년 성장세를 보인다. Twitter 내 K-POP 팬들은 아티스트 관련 해시태그를 포함한 트윗을 작성하여 같은 팬덤끼리 실시간으로 정보를 전달하고 생산한다. 이러한 맛집 트윗들은 K-POP 팬들이 Twitter 내에서 신뢰도 있는 맛집 정보를 얻는 용도로 사용된다. 하지만 팬들이 정보를 얻기 위해서는 여러 맛집 해시태그로 검색하고 리트윗 수가 많은 트윗을 직접 찾아야 한다. 기존의 맛집 추천 시스템은 서비스 제공자 중심의 구조를 띤다. 서비스 제공자가 일방적으로 정보를 전달하거나, 사용자 리뷰 갱신 간격이 길다는 한계가 존재한다. 본 논문에서는 Twitter 내 K-POP 맛집 해시태그가 포함된 트윗을 Twitter API와 Tweepy를 사용하여 크롤링하였다. 수집한 데이터의 좋아요 수와 리트윗 수를 바탕으로 데이터 필터링을 진행하여 bot user와 광고 계정이 제외된 맛집 관련 트윗을 추출한다. 최종적으로는 추출한 트윗의 정보를 마커로 표시하여 웹 사이트를 제작하였다. K-POP 팬들은 맛집 해시태그를 검색하여 일일이 찾을 필요 없이 웹 사이트에 방문하여 맛집 위치를 확인할 수 있다. 웹 사이트 사용자의 위치가 지도상에 표시되어 가까운 맛집을 찾기도 편리하다. 본 논문에서는 맛집의 위치를 서대문구로 한정하여 진행했다.

A Method of Classifying Tweet by subject using features (특징추출을 이용한 트위터 메시지 주제 분류 방법)

  • Song, Ji-min;Kim, Han-woo;Kim, Dong-joo;Jung, Sung-hoon
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2014.05a
    • /
    • pp.905-907
    • /
    • 2014
  • Twitter is the special place that people in the world can freely share their information and opinion. There are tries to utilize a vast amount of information made from twitter. The study on classification of tweets by subject is actively conducted. Twitter is a service for sharing information with short 140-characters text message. The short message including brief content makes extracting a variety of information hard. In the paper, we suggests the method to classify tweet by subject. The method uses both tweet and subject features. In order to conduct experiments to verify the proposed method, we collected 10,000 tweet messages with the Twitter API. Through the experimental results, we will show that the performance of our proposed method is better than those of previous methods.

  • PDF

An Efficient Method for Design and Implementation of Tweet Analysis System (효율적인 트윗 분석 시스템 설계 및 구현 방법)

  • Choi, Minseok
    • Journal of Digital Convergence
    • /
    • v.13 no.2
    • /
    • pp.43-50
    • /
    • 2015
  • Since the popularity of social network services (SNS) rise, the data produced from them is rapidly increased. The SNS data includes personal propensity or interest and propagates rapidly so there are many requests on analyzing the data for applying the analytic results to various fields. New technologies and services for processing and analyzing big data in the real-time are introduced but it is hard to apply them in a short time and low coast. In this paper, an efficient method to build a tweet analysis system without inducing new technologies or service platforms for handling big data is proposed. The proposed method was verified through building a prototype monitoring system to collect and analyze tweets using the MySQL database and the PHP scripts.

DiSAnT: Design and Implementation of Distributed System for Analysing Twitter (트위터 분석을 위한 분산 시스템 설계 및 구현)

  • Yoon, Jinyoung;Kim, Sukjoong;Lee, Bumsuk;Hwang, Byung-Yeon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2012.04a
    • /
    • pp.1326-1329
    • /
    • 2012
  • 트위터는 대표적인 소셜 네트워크 서비스이며 스마트 기기의 발달로 사용자 수뿐만 아니라 생성되는 트윗의 수도 지속적으로 늘고 있다. 또한 트위터는 인증과정을 통하여 API 요청을 제한해 데이터의 수집이 어렵기 때문에 트위터 기반 연구를 위해서는 빅 데이터를 처리하기 위한 분산처리 기술이 요구된다. 본 논문에서는 네트워크로 연결된 다수의 클라이언트를 이용해 계정과 트윗의 수집에 용이하고 수집한 데이터를 분석할 수 있는 기능까지 추가한 분산처리 시스템인 DiSAnT을 소개한다.

A Method for Twitter Spam Detection Using N-Gram Dictionary Under Limited Labeling (트레이닝 데이터가 제한된 환경에서 N-Gram 사전을 이용한 트위터 스팸 탐지 방법)

  • Choi, Hyeok-Jun;Park, Cheong Hee
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.6 no.9
    • /
    • pp.445-456
    • /
    • 2017
  • In this paper, we propose a method to detect spam tweets containing unhealthy information by using an n-gram dictionary under limited labeling. Spam tweets that contain unhealthy information have a tendency to use similar words and sentences. Based on this characteristic, we show that spam tweets can be effectively detected by applying a Naive Bayesian classifier using n-gram dictionaries which are constructed from spam tweets and normal tweets. On the other hand, constructing an initial training set requires very high cost because a large amount of data flows in real time in a twitter. Therefore, there is a need for a spam detection method that can be applied in an environment where the initial training set is very small or non exist. To solve the problem, we propose a method to generate pseudo-labels by utilizing twitter's retweet function and use them for the configuration of the initial training set and the n-gram dictionary update. The results from various experiments using 1.3 million korean tweets collected from December 1, 2016 to December 7, 2016 prove that the proposed method has superior performance than the compared spam detection methods.

Developing a Sentiment Analysing and Tagging System (감성 분석 및 감성 정보 부착 시스템 구현)

  • Lee, Hyun Gyu;Lee, Songwook
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.5 no.8
    • /
    • pp.377-384
    • /
    • 2016
  • Our goal is to build the system which collects tweets from Twitter, analyzes the sentiment of each tweet, and helps users build a sentiment tagged corpus semi-automatically. After collecting tweets with the Twitter API, we analyzes the sentiments of them with a sentiment dictionary. With the proposed system, users can verify the results of the system and can insert new sentimental words or dependency relations where sentiment information exist. Sentiment information is tagged with the JSON structure which is useful for building or accessing the corpus. With a test set, the system shows about 76% on the accuracy in analysing the sentiments of sentences as positive, neutral, or negative.

An Analysis of Image Use in Twitter Message (트위터 상의 이미지 이용에 관한 분석)

  • Chung, EunKyung;Yoon, JungWon
    • Journal of the Korean BIBLIA Society for library and Information Science
    • /
    • v.24 no.4
    • /
    • pp.75-90
    • /
    • 2013
  • Given the context that users are actively using social media with multimedia embedded information, the purpose of this study is to demonstrate how images are used within Twitter messages, especially in influential and favorited messages. In order to achieve the purpose of this study, the top 200 influential and favorited messages with images were selected out of 1,589 tweets related to "Boston bombing" in April 2013. The characteristics of the message, image use, and user are analyzed and compared. Two phases of the analysis were conducted on three data sets containing the top 200 influential messages, top 200 favorited messages, and general messages. In the first phase, coding schemes have been developed for conducting three categorical analyses: (1) categorization of tweets, (2) categorization of image use, and (3) categorization of users. The three data sets were then coded using the coding schemes. In the second phase, comparison analyses were conducted among influential, favorited, and general tweets in terms of tweet type, image use, and user. While messages expressing opinion were found to be most favorited, the messages that shared information were recognized as most influential to users. On the other hand, as only four image uses - information dissemination, illustration, emotive/persuasive, and information processing - were found in this data set, the primary image use is likely to be data-driven rather than object-driven. From the perspective of users, the user types such as government, celebrity, and photo-sharing sites were found to be favorited and influential. An improved understanding of how users' image needs, in the context of social media, contribute to the body of knowledge of image needs. This study will also provide valuable insight into practical designs and implications of image retrieval systems or services.

SNS Analysis Related to Presidential Election Using Text Mining (텍스트 마이닝을 활용한 대선 관련 SNS 분석)

  • Kwon, Young-Woo;Jung, Deok-Gil
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2017.05a
    • /
    • pp.361-363
    • /
    • 2017
  • 최근 소셜 미디어의 이용률이 폭발적으로 증가함에 따라, 방대한 데이터가 네트워크로 쏟아져 나오고 있다. 이들 데이터는 기존의 정형 데이터뿐만 아니라 이미지, 동영상 등의 비정형 데이터가 있으며, 이들을 포괄하여 빅데이터라고 불린다. 이러한 빅데이터는 오피니언 마이닝, 테스트 마이닝 등의 기술적인 분석 기법과 빅데이터 요약 및 효과적인 표현방법에 대한 시각화 기법에 대하여 활발한 연구가 이루어지고 있다. 이 논문은 인기 있는 사회연결망 서비스인 Twitter의 트윗을 수집하고, 빅데이터 분석 기법인 텍스트 마이닝을 활용하여 2017년 대선에 대하여 분석하였다. 또한 분석된 자료의 효과적인 전달을 위해 워드 클라우드 진행하였다. 이 논문을 위하여 인기 있는 SNS인 Twitter의 최근 7일간 트윗(tweet)을 수집하고 분석하였다.

  • PDF

Designing of Event Decision Module using Twitter (트위터를 활용한 이벤트 결정 모듈 설계)

  • Yim, Junyeob;Yoon, Jinyoung;Lee, Bumsuk;Hwang, Byung-Yeon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2014.04a
    • /
    • pp.680-683
    • /
    • 2014
  • 최근 스마트폰의 보급과 더불어 소셜 네트워크 서비스의 사용자가 급증하였다. 그 중 트위터는 개방적인 네트워크 구조로 인한 정보의 빠른 확산성을 가지고 있다. 또한 트위터 사용자들은 주로 자신들이 경험하거나 겪은 일들을 글로 작성하여 다른 사용자들과 공유한다. 따라서 그들이 남긴 데이터를 수집하고 분석할 수 있다면 트위터를 이벤트 탐지의 도구로써 활용하는 것이 가능하다. 이에 본 논문에서는 트위터를 이용하여 이벤트를 탐지하는 시스템을 제안한다. 실험을 위해 6개월간 수집한 트윗을 이용하였으며 분석을 위해 트윗 발생량에 관한 각종 수치들을 제시하였다. 이를 이용하여 이벤트 후보지역들을 선별하였고 실험 결과 최종 90%의 탐지율로 이벤트 지역들을 추출하였다.

Design of Twitter data collection system for regional sentiment analysis (지역별 감성 분석을 위한 트위터 데이터 수집 시스템 설계)

  • Choi, Kiwon;Kim, Hee-Cheol
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2017.10a
    • /
    • pp.506-509
    • /
    • 2017
  • Opinion mining is a way to analyze the emotions in the text and is used to identify the emotional state of the author and to find out the opinions of the public. As you can analyze individual emotions through opinion mining, if you analyze the text by region, you can find out the emotional state you have in each region. The regional sentiment analysis can obtain information that could not be obtained from personal sentiment analysis, and if a certain area has emotions, it can understand the cause. For regional sentiment analysis, we need text data created by region, so we need to collect data through Twitter crawling. Therefore, this paper designs a Twitter data collection system for regional sentiment analysis. The client requests the tweet data of the specific region and time, and the server collects and transmits the requested tweet data from the client. Through the latitude and longitude values of the region, it collects the tweet data of the area, and it can manage the text by region and time through collected data. We expect efficient data collection and management for emotional analysis through the design of this system.

  • PDF