• 제목/요약/키워드: 소셜 데이터 분석

검색결과 737건 처리시간 0.026초

K개의 점 데이터를 포함하는 최소MBR 탐색 (Finding the Minimum MBRs Embedding K Points)

  • 김건우;김영훈
    • 정보과학회 논문지
    • /
    • 제44권1호
    • /
    • pp.71-77
    • /
    • 2017
  • 스마트폰과 같은 GPS센서가 장착된 모바일 기기가 널리 보급되고 있다. 이러한 추세에 따라 트위터나 페이스북과 같은 소셜 미디어에서 GEO태그가 된 메시지 (즉, GPS 위치를 갖는 멀티미디어 메시지)를 손쉽게 작성할 수 있게 되었고 게시자의 위치정보를 포함하는 공간데이터가 급증하고 있다. 그러나 이러한 공간데이터에서 항상 위치 정보와 게시글 내용이 명시적인 연관성을 갖고 있지는 않다. 때문에 키워드와 위치정보 분포의 관련성에 따라 검색결과를 재구성할 필요가 있다. 우리는 크기가 가장 작은 k개의 점 데이터를 포함하는 최소경계사각형(MBR)을 찾음으로써 데이터가 가장 밀집된 사각형을 찾으며, 이는 위치 검색시스템에서 유용하게 사용될 수 있다. 본 논문은 최소경계사각형과 같이 거리가 가까운 2차원 공간데이터의 묶음을 찾기 위해 효율적인 알고리즘을 제안하였고 합성데이터와 실제 데이터를 이용한 실험을 통해 알고리즘의 효율성을 검증하였다.

텍스트 분석 기술 및 활용 동향 (Investigations on Techniques and Applications of Text Analytics)

  • 김남규;이동훈;최호창
    • 한국통신학회논문지
    • /
    • 제42권2호
    • /
    • pp.471-492
    • /
    • 2017
  • 최근 데이터의 양 자체가 해결해야 할 문제의 일부분이 되는 빅데이터(Big Data) 분석에 대한 수요와 관심이 급증하고 있다. 빅데이터는 기존의 정형 데이터 뿐 아니라 이미지, 동영상, 로그 등 다양한 형태의 비정형 데이터 또한 포함하는 개념으로 사용되고 있으며, 다양한 유형의 데이터 중 특히 정보의 표현 및 전달을 위한 대표적 수단인 텍스트(Text) 분석에 대한 연구가 활발하게 이루어지고 있다. 텍스트 분석은 일반적으로 문서 수집, 파싱(Parsing) 및 필터링(Filtering), 구조화, 빈도 분석 및 유사도 분석의 순서로 수행되며, 분석의 결과는 워드 클라우드(Word Cloud), 워드 네트워크(Word Network), 토픽 모델링(Topic Modeling), 문서 분류, 감성 분석 등의 형태로 나타나게 된다. 특히 최근 다양한 소셜미디어(Social Media)를 통해 급증하고 있는 텍스트 데이터로부터 주요 토픽을 파악하기 위한 수요가 증가함에 따라, 방대한 양의 비정형 텍스트 문서로부터 주요 토픽을 추출하고 각 토픽별 해당 문서를 묶어서 제공하는 토픽 모델링에 대한 연구 및 적용 사례가 다양한 분야에서 생성되고 있다. 이에 본 논문에서는 텍스트 분석 관련 주요 기술 및 연구 동향을 살펴보고, 토픽 모델링을 활용하여 다양한 분야의 문제를 해결한 연구 사례를 소개한다.

텍스트 마이닝 기법을 이용한 학습 수요자 요구에 관한 연구 : SNS를 중심으로 (A Study on Learners' Needs Analysis Using Text Mining Techniques : Focusing on SNS)

  • 이명숙;이경미;임영규;한경임;박혜정
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2016년도 제53차 동계학술대회논문집 24권1호
    • /
    • pp.259-261
    • /
    • 2016
  • 본 연구는 교양교육에 대한 학습 수요자의 요구와 현재 편성되어 있는 교양교육 교과목들에 대한 차이를 알아본다. 학습 수요자의 다양한 생각들을 SNS를 통해 데이터를 수집하고, 텍스트 마이닝 기법을 이용하여 유용한 정보를 발견하고 시각화 분석을 통해 학습자의 요구를 제시한다. 분석 결과로는 학습자는 교수자와 상호작용 잘되는 수업 방식, 학습자가 참여할 수 있는 수업, 자기주도 학습을 선호하였다. 또한 교양교육 교과목 개설로서는 취업에 필요한 외국어, 자격증 취득이 가능한 과목, 실생활에 적용할 수 있는 실용적인 과목들을 요구하여 실제 균형에 맞게 개설된 교과목과는 차이를 보임을 알 수 있었다.

  • PDF

트위터를 활용한 이벤트 결정 모듈 설계 (Designing of Event Decision Module using Twitter)

  • 임준엽;윤진영;이범석;황병연
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2014년도 춘계학술발표대회
    • /
    • pp.680-683
    • /
    • 2014
  • 최근 스마트폰의 보급과 더불어 소셜 네트워크 서비스의 사용자가 급증하였다. 그 중 트위터는 개방적인 네트워크 구조로 인한 정보의 빠른 확산성을 가지고 있다. 또한 트위터 사용자들은 주로 자신들이 경험하거나 겪은 일들을 글로 작성하여 다른 사용자들과 공유한다. 따라서 그들이 남긴 데이터를 수집하고 분석할 수 있다면 트위터를 이벤트 탐지의 도구로써 활용하는 것이 가능하다. 이에 본 논문에서는 트위터를 이용하여 이벤트를 탐지하는 시스템을 제안한다. 실험을 위해 6개월간 수집한 트윗을 이용하였으며 분석을 위해 트윗 발생량에 관한 각종 수치들을 제시하였다. 이를 이용하여 이벤트 후보지역들을 선별하였고 실험 결과 최종 90%의 탐지율로 이벤트 지역들을 추출하였다.

분산 테라스케일 텐서 생성기 (TeT: Distributed Tera-Scale Tensor Generator)

  • 전병수;이정우;강유
    • 정보과학회 논문지
    • /
    • 제43권8호
    • /
    • pp.910-918
    • /
    • 2016
  • 많은 종류의 데이터들은 텐서로 표현될 수 있다. 텐서란 다차원 배열을 의미하며, 그 예로 (사용자, 사용자, 시간)으로 이루어진 소셜 네트워크 데이터가 있다. 이러한 다차원 데이터 분석에 있어서 텐서 생성기는 시뮬레이션, 다차원 데이터 모델링 및 이해, 샘플링/외삽법 등 다양한 응용이 가능하다. 하지만, 존재하는 텐서 생성기들은 실제 세계의 텐서처럼 멱 법칙을 따르는 특성과 희박성을 갖는 텐서를 생성할 수 없다. 또한, 처리가능한 텐서 크기에 한계가 존재하고, 분산시스템에서 추가 분석을 하려면 텐서를 분산시스템에 업로드 하는 추가비용이 든다. 본 논문은 분산 테라스케일 텐서 생성기(TeT)를 제안함으로써 이러한 문제를 해결하고자 한다. TeT는 희박성을 갖는 랜덤 텐서와 희박성과 멱 법칙을 따르는 특성을 갖는 Recursive-MATrix 텐서, 크로네커 텐서를 크기 제한없이 생성할 수 있다. 또한, TeT에서 생성된 텐서는 같은 분산 시스템에서 추가적인 텐서분석이 가능하다. TeT는 효율적인 설계로 인해 거의 선형적인 머신확장성을 보인다.

대용량 데이터 분석을 위한 맵리듀스 기반 kNN join 질의처리 알고리즘 (A MapReduce-based kNN Join Query Processing Algorithm for Analyzing Large-scale Data)

  • 이현조;김태훈;장재우
    • 정보과학회 논문지
    • /
    • 제42권4호
    • /
    • pp.504-511
    • /
    • 2015
  • 최근 모바일 기술의 발달 및 소셜 네트워크 서비스의 활성화를 통해 사용자 데이터가 급격히 증대되고 있다. 이에 따라 대용량 데이터에 대한 효율적인 데이터 분석 기법에 대한 연구가 활발히 이루어지고 있다. 대표적인 대용량 데이터 분석 기법으로는 맵리듀스 환경에서 보로노이 다이어그램을 이용한 k 최근접점 조인(VkNN-join) 알고리즘이 존재한다. 데이터집합 R, S에 대해, VkNN-join 알고리즘은 부분집합 Ri에 연관된 부분집합 Sj만을 후보탐색 영역으로 선정하여 질의처리를 수행하기 때문에, 대용량 데이터에 대한 join 질의처리 시간을 감소시키는 장점이 존재한다. 그러나 VkNN-join은 보로노이 다이어그램을 사용하기 때문에, 색인 구축 비용이 높은 단점이 존재한다. 아울러 kNN 질의처리를 위한 후보 영역 선정 시 k값에 비례하여 후보영역의 크기가 증가하기 때문에, kNN 연산 오버헤드가 증가하는 문제점이 존재한다. 이를 해결하기 위해 본 논문에서는 대용량 데이터 분석을 위한 맵리듀스 기반 kNN join 질의처리 알고리즘을 제안한다. 제안하는 질의처리 알고리즘은 시드 기반의 동적 분할을 통해 색인구조 구축비용을 절감한다. 또한 시드 간 평균 거리를 기반으로 질의 처리 후보 영역을 선정함으로써, kNN-join 질의를 위한 연산 오버헤드를 감소시킨다. 아울러, 성능 평가를 통해 제안하는 기법이 질의처리 시간 측면에서 기존 기법에 비해 우수함을 보인다.

주가지수 방향성 예측을 위한 도메인 맞춤형 감성사전 구축방안 (A domain-specific sentiment lexicon construction method for stock index directionality)

  • 김재봉;김형중
    • 디지털콘텐츠학회 논문지
    • /
    • 제18권3호
    • /
    • pp.585-592
    • /
    • 2017
  • 개인용 디바이스의 발달로 개인들이 손쉽게 인터넷에 접속할 수 있게 되었으며, 소셜미디어를 통한 정보의 공유와 습득이 일반화 되고 있다. 특히 분야별 전문 커뮤니티가 발달하며 사회적 영향력을 행사하고 있어 기업과 정부는 이들의 의견을 반영하여 전략을 수립하는 일에 관심을 기울이고 있다. 온라인상의 다양한 텍스트로부터 대중의 의견을 읽어내는 것을 오피니언마이닝이라고 한다. 그 중 하나인 감성사전은 방대한 비정형데이터를 빠르게 파악하는 도구로 여러 분야에서 활용되고 있다. 주식시장은 사회의 여러 요인을 반영하여 변동한다. 최근에는 버즈량 분석 등 빅데이터를 기반으로 오피니언마이닝을 활용한 주식시장 연구가 시도되고 있다. 대표적인 예로 뉴스와 같은 텍스트 데이터 분석을 활용한 연구들이 발표되고 있다. 본 논문에서는 뉴스의 정제된 형식과 한정된 어휘를 사용한 기존연구를 보완하고자 증권전문 사이트 'Paxnet'의 게시 글을 분석대상으로 삼아 주식시장 맞춤형 감성사전을 구축하여 투자자들의 감성을 분석하는 데 기여했다.

Effect of Participant Activity of SNS Based Online Event on the Diffusion

  • Hong, Jae-Won;Kwak, Jun-Sik
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권2호
    • /
    • pp.221-227
    • /
    • 2021
  • 본 연구에서는 SNS를 통한 온라인 이벤트 확산에 영향을 미치는 요인을 소비자들의 발자취를 통해 탐색하고자 하였다. 이를 위해 시중 'C' 맥주 브랜드가 시행한 온라인 이벤트의 로그 데이터를 수집하여 분석하였다. 로그 데이터의 분석단위는 시간대별로 설정하였으며 분석방법은 기술적 분석과 회귀분석을 이용하였다. 연구결과는 다음과 같다. 첫째, SNS 기반 온라인 이벤트의 뷰(view) 확산에 영향을 미치는 요인은 좋아요, 친구 사용 쿠폰, 친구 규모 등으로 나타났다. 특히 친구 규모가 확산에 가장 큰 영향을 미쳤는데 이는 온라인 이벤트에서 소셜 허브의 중요성을 다시금 시사하고 있다. 둘째, 유입자 수 확산에 영향을 미치는 요인도 좋아요, 친구 사용 쿠폰, 친구 규모 등으로 나타났다. 셋째, 댓글은 참여 빈도가 적어 뷰와 유입자의 확산에 영향을 미치지 않는 것으로 나타났다. 본 연구는 실제 데이터를 기반으로 온라인 소비자들의 행동을 탐색하고 나아가 기업의 온라인 이벤트 효과를 제고할 수 있는 방안을 제시하고자 하였다는 데 의의가 있다.

스마트폰 사용과 MBTI 사용자 특성간의 관계 평가 (Assessing the Relationship between MBTI User Personality and Smartphone Usage)

  • 라저스리 소카세인;김경백
    • 한국빅데이터학회지
    • /
    • 제1권1호
    • /
    • pp.33-39
    • /
    • 2016
  • 최근 스마트폰 사용 형태의 도움을 받아 사용자 특성을 예측하는 것은 매우 흥미롭고 주의를 사로잡는 연주 주제이다. 현재 몇몇 연구들은 사용자의 특성을 예측하기 위해 전화 사용 기록, 문자 메시지 사용 기록, 소셜 네트워크 서비스 사용 기록 등을 이용하고 있다. 이 논문에서, 우리는 MBTI 사용자 특성과 스마트폰 사용로그 간의 관계를 평가한다. 이를 위해, 스마트폰 사용 기록에서 부터 몇몇 특징들을 추출하고 이를 Naive Bayes와 SVM등의 분류기에 적용하여 사용자의 특성을 구분하였다. 사용자 특성 분석 결과의 분석을 통해 facebook사용 기록이 외향적인 사람과 내향적인 사람을 가장 잘 구분하는 것을 알 수 있었고, SVM 분류기가 Naive Bayes보다 사용자의 특성을 잘 예측하는 것을 확인하였다.

  • PDF

소셜 빅데이터 텍스트 마이닝을 활용한 전국장애인체육대회 분석 연구 (Study on the Analysis of National Paralympics by Utilizing Social Big Data Text Mining)

  • 김대경;이현수
    • 한국체육학회지인문사회과학편
    • /
    • 제55권6호
    • /
    • pp.801-810
    • /
    • 2016
  • 본 연구는 전국장애인체육대회 관련 키워드를 분석하여 객관적인 시각을 통한 비장애인의 인식 전환과 인터넷 웹 브라우저를 활용한 전국장애인체육대회 참여율 향상을 위한 기초자료로 제시하는데 목적이 있다. 연구목적을 네이버, 다음, 구글 사이트에서 제공하는 뉴스 기사, 블로그를 통하여 수집된 전국장애인체육대회, 전국장애인체전 관련 소셜 빅데이터를 대상으로 하였다. 자료처리는 R-3.3.1 Version Program을 이용하여 워드클라우드, 연관성 분석, 사회연결망 분석을 사용하였다. 이상과 같은 연구방법 및 자료분석의 결과를 통해 도출된 결론은 다음과 같다. 첫째, 제33회~제35회에 대한 전국장애인체육대회 키워드에서는 경기결과, 종목, 선수단 참가, 개최지역 소식이 중점적으로 나타났다. 둘째, 제33회~제36회에 대한 전국장애인체육대회 연관성 분석을 통하여 네이버, 다음 등 웹 검색에서의 연관 검색어와 유사함을 나타냈다. 셋째, 전국장애인체육대회, 장애인체육, 장애인, 체육 키워드 간의 높은 근접 중심성을 나타내고 있으며, 생활체육, 참여, 연구, 발전, 스포츠-장애인, 연구-장애인, 생활체육-참여, 장애인-참여, 생활체육-장애인, 개최-전국장애인생활체육대회 키워드 간의 연결 중심성과 매개 중심성이 비례하게 나타났다.