• 제목/요약/키워드: 트윗 수집

검색결과 72건 처리시간 0.023초

자연어 처리 기반 맞춤형 트윗 추천 시스템 (Natural Language Processing-based Personalized Twitter Recommendation System)

  • 이현창;유동필;정가빈;남용욱;김용혁
    • 한국융합학회논문지
    • /
    • 제9권12호
    • /
    • pp.39-45
    • /
    • 2018
  • 트위터 사용자는 팔로우, 리트윗 등을 사용하여 자신이 관심 있어 하는 트윗을 찾는다. 하지만 사용자가 3억여 명에 달하는 트위터에서 사용자가 관심 있는 트윗을 찾기는 힘든 일이다. 이를 해결하기 위해 본 논문에서는 사용자 맞춤형 트윗 추천 시스템을 개발하였다. 우선, 사용자에게 추천할 수 있을 만한 가치가 있는 트윗을 수집하기 위해 현재 트랜드를 수집하고, 트랜드에 대해 이야기하는 인기 있는 트윗들을 수집한다. 이후 사용자를 분석하고 맞춤형 트윗을 추천하기 위해 사용자의 트윗과 수집한 트윗을 범주화한다. 최종적으로 웹서비스를 이용하여 사용자에게 본인과 카테고리가 일치하는 트윗과 관심사가 일치하는 사용자를 추천해준다. 결과적으로 67.2%로 적절한 트윗을 추천하였다.

한국어 트위터의 감정 분석 도구 (A Sentiment Analysis Tool for Korean Twitter)

  • 서형원;전길호;최명길;남유림;김재훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2011년도 제23회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.94-97
    • /
    • 2011
  • 본 논문은 자동으로 한글 트위터 메시지(트윗: tweet)에 포함된 감정을 분석하는 방법에 대하여 기술한다. 제안된 시스템에 의하여 수집된 트윗들은 어떤 질의에 대해 긍정 혹은 부정으로 분류된다. 이것은 일반적으로 어떤 상품을 구매하기 원하는 고객이나, 상품에 대한 고객들의 평가를 수집하기 원하는 기업에게 유용하다. 영문 트윗에 대한 연구는 이미 활발하게 진행되고 있지만 한글 트윗, 특히 감정 분류에 대한 연구는 아직 공개된 것이 없다. 수집된 트윗들은 기계 학습(Naive Bayes, Maximum Entropy, 그리고 SVM)을 이용하여 분류하였고 한글 특성에 따라 자질 선택의 기본 단위를 2음절과 3음절로 나누어 실험하였다. 기존의 영어에 대한 연구는 80% 이상의 정확도를 가지는 반면에, 본 실험에서는 60% 정도의 정확도를 얻을 수 있었다.

  • PDF

토픽 기반의 트윗 분류를 위한 해시태그 분석 기법 (Hashtag Analysis Scheme for Topic based Tweet Categorization)

  • 김용성;전상훈;유제혁;황인준
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2014년도 추계학술발표대회
    • /
    • pp.737-740
    • /
    • 2014
  • 최근 SNS 사용자가 급증하면서 매우 다양하고 방대한 양의 글이 여러 종류의 SNS를 통해 생성되고 있다. 그중 트위터는 정보의 전달 및 확산에 상당히 유용한 도구로 사용되고 있다. 이러한 트위터의 사용자 트윗은 뉴스, 음악, 사진, 여행 등 다양한 형태로 등장한다. 또한 트위터는 해시태그라는 사용자 정의 태그를 사용하는데 이는 트윗의 키워드 및 핵심을 쉽게 표현할 수 있도록 해주는 효과적인 수단이다. 최근 상당히 많은 양의 트윗의 생성에도 불구하고 이를 다양한 카테고리별로 분류할 수 있는 연구가 많이 진행되지 않았다. 따라서 본 논문에서는 해시태그를 이용해 트윗의 핵심을 파악하고 수많은 트윗을 다양한 토픽별로 분류할 수 있는 기법을 제안한다. 우선 다양한 카테고리의 인기 해시태그가 포함된 트윗을 수집하고 수집한 트윗에서 해시태그별 키워드를 추출한다. 그리고 코사인 유사도를 통해 해시태그별 내용 유사도를 파악하여 각 카테고리 내의 해시태그가 얼마나 유사한 내용을 지니고 있는지 파악한다. 마지막으로 사용자 트윗이 입력되면 모든 카테고리와 유사도를 비교하여 가장 유사도가 높은 카테고리를 찾아 추천해준다. 제안된 기법을 바탕으로 프로토타입을 구현하고 실험을 통해 성능을 평가한다.

트위터 데이터 수집을 위한 동적 시드 선택 (Dynamic Seed Selection for Twitter Data Collection)

  • 이현철;변창현;김양곤;이상호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제41권4호
    • /
    • pp.217-225
    • /
    • 2014
  • 트위터와 같은 소셜 네트워크 분석은 인간의 행동을 이해하거나, 화제가 되는 주제를 탐지하거나, 영향력 있는 사람을 식별하거나, 커뮤니티나 그룹을 발견하는데 흥미로운 시각을 제공할 수 있다. 하지만 소셜 네트워크가 가지는 특성(즉 데이터가 방대하고, 정교하지 않으며 또한 동적인 특성)으로 인하여 소셜 네트워크에서 주제와 연관이 있는 데이터를 수집하는 것은 어려운 일이다. 본 논문은 주어진 주제와 관련 있는 트윗을 효과적으로 수집하기 위하여 시드 노드를 동적으로 선택하는 알고리즘을 제안한다. 본 알고리즘은 사용자의 영향력을 측정하기 위하여 사용자 속성을 활용하며, 수집 프로세스 중에 시드 노드를 동적으로 할당한다. 우리는 제안한 알고리즘을 실제 트윗 데이터에 적용하였으며, 만족할 만한 성능결과를 얻었다.

유사 트윗 분석에 기반한 트위터 해시태그 추천기법 (Twitter HashTag Recommendation Scheme based on Similar Tweet Analysis)

  • 전민아;전상훈;황인준
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 추계학술발표대회
    • /
    • pp.962-963
    • /
    • 2013
  • 트위터 해시태그(#, HashTag)는 트윗(Tweets)에서 특정 키워드나 내용을 주제별로 분류하고 검색을 보다 효율적으로 사용하기 위한 사용자 정의 태그이다. 사용자가 정의하기에 따라 다양한 형태로 작성되기 때문에 오히려 검색의 효율성이 떨어질 수 있으며, 사용자는 자신이 작성한 트윗에 어떤 해시태그를 추가해야 하는지에 대한 궁금증이 생기는 경우가 발생한다. 본 논문에서는 이러한 문제를 해결하기 위해 사용자가 작성한 트윗에 적합한 해시태그를 추천하는 기법을 제안한다. 수집한 트윗과 해시태그의 키워드를 추출하고 트윗의 유사도를 계산하기 위해 TF-IDF와 Cosine Similarity를 적용하여 유사한 트윗을 갖는 해시태그를 추천한다. 본 논문에서 제안된 기법을 검증하기 위한 실험으로 추천의 정확성을 평가했다.

유명인과의 트위터 매개 상호작용 특성 탐색 (Characteristics of Interactions between Fan and Celebrities on Twitter)

  • 황유선
    • 한국콘텐츠학회논문지
    • /
    • 제13권8호
    • /
    • pp.72-82
    • /
    • 2013
  • 본 연구에서는 트위터 상에서의 유명인과 트위터 이용자 사이에 이루어지는 트위터 매개 상호작용의 특성 및 감정 반응에 대해 탐색하였다. 이를 위해 유명인과의 트위터 매개 상호작용 유형을 '의사 교호작용', '정보 허브', 그리고 '팬덤' 등의 세 가지로 구분하였고, 유명인의 유형은 '연예인', '정치인', '전문인', 그리고 '블로거' 등의 네 가지로 분류하였다. 이렇게 구분된 트위터 매개 상호작용 및 유명인의 유형 범주에 따라 트위터 이용자들이 수행하는 트윗 행위의 특성을 분석 비교하였다. 또한 트위터 이용자들의 감정 반응을 나타내는 지표로 상정한 '이모티콘 이용'과 '감정 표현 제시' 빈도가 트위터 매개의 상호작용 유형 및 유명인 유형 범주에 따라 어떠한 차이가 있는지도 확인하였다. 분석을 위한 자료는 한국 트위터 공식 사이트를 통해 수집되었다. 공식 사이트를 활용하여 각 유형별 유명인에 대해 이루어진 트윗을 검색해 총 960개의 트윗을 수집하였고 각각의 트윗에 대한 내용 분석을 실시하였다. 분석 결과, 트위터 이용자들의 의사 교호작용 트윗 형태는 정치인과 전문가 유형에 대해서 가장 빈번했고, 팬덤 성격의 트윗은 연예인 유형에 대해서 가장 현저했으며, 정보 허브를 표방하는 트윗은 블로거 유형에 대해서 제일 빈번하게 수행된 것을 알 수 있었다. 감정 반응과 관련해서는 팬덤 유형의 트위터 매개 상호작용에 있어서 이모티콘 이용과 감정 표현의 제시 빈도가 가장 현저했다. 또 유명인 유형 중에서는 연예인에 대한 트윗에서 감정 반응이 가장 현저하게 드러났으며 이모티콘 이용 빈도는 전문인의 경우가 그 뒤를 이었고, 감정 표현 사용은 전문인과 정치인 유형이 유사한 것으로 확인되었다.

2014년~2015년 국가기록원 관련 트윗 이슈분석 (A study on the issue analysis of National Archives of Korea based on SNS(tweet) analysis between 2014~2015)

  • 서지원;박준형;오효정;윤은하
    • 기록학연구
    • /
    • 제50호
    • /
    • pp.139-175
    • /
    • 2016
  • 본 연구는 2014년과 2015년 국가기록원과 관련된 트윗을 수집, 내용분석에 기반한 이슈 파악에 대한 연구이다. 이를 위하여 2014년과 2015년에 생산된 트윗 중 '국가기록원'이라는 키워드가 언급된 모든 트윗을 수집하고, 내용을 분석, 세부 유형과 이슈들에 대해 분석하였다. 분석결과는 다음과 같다. 첫째, 국가기록원 소장 기록물 공개 및 소개에 대한 트윗들은 2년에 걸쳐 그 양은 증가하였지만 비슷한 생산 유형을 보이고 있었다. 둘째, 정치 사회적 트윗의 특징은 정치 사회적 이슈에 관한 국가기록원의 역할에 대한 내용으로 일반 트윗 이용자들에 의해 작성되었다.

트위터의 감정 분석을 통한 실시간 장소 추천 시스템 (Real-time Spatial Recommendation System based on Sentiment Analysis of Twitter)

  • 오평화;황병연
    • 한국전자거래학회지
    • /
    • 제21권3호
    • /
    • pp.15-28
    • /
    • 2016
  • 본 논문에서는 모바일에서 획득한 GPS(Global Positioning System)를 활용하여 사용자의 위치 주변에서 발생한 SNS 데이터를 수집하고 분석을 통해 사용자가 원하는 장소를 추천하는 시스템을 제안한다. 이를 위해 트위터에서 위치정보를 포함하는 게시글을 표본 집합으로 정하고 모바일의 위치정보와 함께 활용했을 때, 사용자의 검색의도에 부합하는 양질의 정보를 제공할 수 있음을 실험을 통해 증명하였다. 이를 위해 2015년 11월부터 12월까지 수집한 트윗(Tweet)을 대상으로 임의의 위치정보와 검색어로 구성된 질의를 구성하고 형태소 분석을 거쳐 분석에 적합한 형태의 데이터로 변환하였다. 또한 장소 추천을 위해 감정사전을 구축하여 긍정 및 부정을 의미하는 극성 키워드들을 정의하고 레이블을 구성한 후, 감정사전과 극성키워드를 이용해 개별 트윗의 추천 점수를 도출하였다. 논문은 추천 점수와 사용자의 현재 위치, 트윗이 작성된 위치와 사용자 위치 사이의 거리 계산을 통해 가까운 거리 순으로 10개의 장소 정보를 정렬하여 결과를 보인다. 또한 성능평가를 위해 감정 분석된 트윗에 대한 정밀도와 재현율을 도출하여 시스템의 성능을 확인한다. 실험은 '맛집', '공연' 2개의 키워드와 10개 지역을 기준으로 수행하였다. 실험 결과 키워드 1개당 수집된 트윗은 평균 10.5개였으며, 총 10번의 실험에 사용된 평균 210개의 트윗 중 긍정 또는 부정의 단어를 포함한 트윗의 개수는 평균 122개였다. 또한 감정 분석을 통해 긍정 또는 부정으로 분류된 트윗은 평균 65개였으며 그 중 실제로 긍정 또는 부정의 의미를 담은 트윗은 평균 46개였다. 이를 통해 시스템은 38%의 재현율로 감정요소를 담은 트윗을 탐지하고, 71%의 정밀도로 감정 분석을 수행했음을 확인했다.

트위터 사용자의 위치정보와 성향을 고려한 트윗 수집 시스템 (Tweet Acquisition System by Considering Location Information and Tendency of Twitter User)

  • 최우성;임준엽;황병연
    • Spatial Information Research
    • /
    • 제22권3호
    • /
    • pp.1-8
    • /
    • 2014
  • 최근 소셜 네트워크 서비스가 급격히 성장하면서, 소셜 네트워크 분석에 관련된 연구들도 많은 관심을 받고 있다. 특히 트위터는 사회적 이슈나 사건들에 대해 실시간으로 반응하기 때문에, 사회과학 분야나 정보검색 분야의 연구자들이 유용한 실험 데이터를 수집하는 데에 활용되고 있다. 그러나 정작 데이터를 수집하는 방법론에 관한 연구는 아직 미흡하다. 이에 본 논문에서는 위치 기반의 이벤트와 정치 사회적 이벤트 위주의 사용자의 성향을 고려한 트윗 수집 시스템을 제안한다. 우선 위치정보와 이벤트 관련 키워드를 포함하고 있는 트윗과 정치 사회적인 이벤트 검출에 필요한 ID들을 수집한 후, 사용자들의 성향을 분류할 ID 분석기를 설계했다. 또한 ID 분석기의 신뢰도 측정을 위해 상위 등급에 분류된 ID를 이용하여 트윗을 분석했다. 분석결과 1등급으로 분류된 ID는 88.8%의 신뢰도를 보였으며, 2등급으로 분류된 ID는 76.05%의 신뢰도를 보였다. 또한 ID 분석기는 77.5%의 신뢰도를 보였으며 소수의 ID를 사용함으로써 데이터의 수집시간을 줄였다.

신문기사로부터 추출한 최근동향에 대한 트위터 감성분석 (Twitter Sentiment Analysis for the Recent Trend Extracted from the Newspaper Article)

  • 이경호;이공주
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제2권10호
    • /
    • pp.731-738
    • /
    • 2013
  • 본 논문은 사회의 최근 동향에 대한 여론의 반응을 관찰하기 위한 방법을 나타낸다. 최근 동향을 나타내는 키워드를 신문기사로부터 추출하고, 추출된 키워드를 이용하여 수집된 트윗의 감성 분석을 통해 최근 동향에 대한 여론을 분석한다. 수집된 신문기사를 k-means알고리즘을 이용하여 군집화하고, 군집내의 단어의 출현 빈도를 이용하여 토픽 키워드를 선정하였다. 각 토픽에 대하여 수집된 트윗은 그 토픽 대한 트윗이라는 가정하에 기계학습 방법을 이용하여 긍/부정을 판별하여 감성을 판단하게 하였다. 그리고 이와 같은 가정에 대한 타당성을 검증해 보았다.