• 제목/요약/키워드: 소셜 데이터 분석

검색결과 739건 처리시간 0.033초

빅데이터 시스템의 데이터 수집 및 저장에 관한 연구 (A Study on the Data Collection and Storage of Big Data Systems)

  • 박지훈;김경환;정은수
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 추계학술발표대회
    • /
    • pp.48-51
    • /
    • 2017
  • 빅데이터는 저장되지 않았거나 저장되더라도 분석되지 못하고 버리게 되는 방대한 양의 데이터를 말한다. 실제로도 빅데이터는 페이스북, 트위터등의 소셜 네트워크에서 많이 발생하고 있는데, 이러한 방대한 데이터들을 어떻게 효율적으로 저장하고 분석하는지에 대한 관심이 많아지고 있다. 따라서 본 논문에서는 빅데이터의 개념, 빅데이터의 향후 동향과 이슈들에 대해 살펴보고, 빅데이터 시스템이 데이터를 수집하고 저장하는 것에 대한 고려할만한 사항들과 효율적인 해결방안에 대해 제시하였다.

페이스북 그룹 게시물 분석을 통한 우울증 관련 주제에 대한 고찰 (Investigating Major Topics Through the Analysis of Depression-related Facebook Group Posts)

  • 주영준;김동훈;이창호;이용정
    • 한국문헌정보학회지
    • /
    • 제53권4호
    • /
    • pp.171-187
    • /
    • 2019
  • 본 연구는 소셜 네트워크 서비스인 페이스북에서 우울증 관련 게시물을 분석하여 그 안에서 주로 논의되는 주제를 파악하고자 한다. 구체적으로, 접근 용이성, 개방성 및 익명성 등의 특징을 지니는 페이스북이라는 온라인 커뮤니티에서 사용자들이 다소 민감한 정신적 질환인 우울증에 관하여 어떤 내용을 논의하는지 살펴보고자 한다. 본 연구를 위해 페이스북 데이터 수집에서부터 주제어 추출에 이르기까지의 전반적인 과정을 포함하는 자연어 처리 기반의 데이터 분석 프레임워크를 구현하였다. 구현한 프레임워크를 이용하여, 본 연구는 우울증을 논의하는 페이스북 최대 사용자 그룹에서 최근 1년간 작성한 885개의 게시물을 수집하여 분석하였다. 주제어 추출의 완성도와 정확도를 위해 자동화된 기법과 수동적인 접근법(불용어 제거, 주제어 개수 지정)을 결합하였으며, 이를 통해 주제를 다각도에서 분석하였다. 분석 결과, 사용자들은 우울증 일반, 인간관계, 기분 및 느낌, 우울증 증상, 자살, 의료 참고, 그리고 가족 등에 대한 논의를 주로 하는 것으로 파악되었다.

소셜미디어 기반 의사결정 지원을 위한 이벤트 템플릿 추출 (Event Template Extraction for the Decision Support based on Social Media)

  • 허정;류법모;최윤재;김현기
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2012년도 제24회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.53-57
    • /
    • 2012
  • 본 논문은 소셜 미디어 기반 의사결정 지원 시스템인 '소셜위즈덤'에 포함된 이벤트 템플릿 추출에 대해서 소개한다. 의사결정 지원 시스템은 경제적, 사회적 중요사항을 결정할 수 있도록 관련 정보와 인사이트(Insight)를 제공하는 정보시스템을 이른다. 기존 시스템은 단지 특정 키워드 빈도나 공기하는 키워드들의 관계만을 제공하였다. 그러나, 소셜위즈덤은 이벤트로 정의되는 주체(Subject), 이벤트 속성(Event-Property), 객체(Object)의 트리플(Triple) 집합인 템플릿을 추출하여 이를 기반으로 이벤트 정보를 함께 제공한다. 템플릿 추출은 고정밀 언어분석의 관계추출 기술과 온톨로지에 기반한 템플릿 제약 및 필터링 규칙을 이용하였다. 수작업으로 구축한 평가데이터로 평가한 결과, 템플릿 추출 성능(F-Score)은 뉴스 0.544, 블로그 0.3386, 트위터 0.3251이고 전체 통합 성능은 0.4648이었다. 필터링 성능(Accuracy)은 뉴스 0.7257, 블로그 0.6122, 트위터 0.6207이고 전체 통합 성능은 0.722이었다.

  • PDF

소셜 네트워크에서 행위 분석을 통한 사용자 영향력 판별 기법 (User Influence Discrimination Scheme Using Activity Analysis in Social Networks)

  • 박윤정;이서희;한진수;노연우;임종태;김연우;복경수;유재수
    • 한국콘텐츠학회논문지
    • /
    • 제16권12호
    • /
    • pp.551-561
    • /
    • 2016
  • 소셜 네트워크에서 발생하는 방대한 데이터를 이용해 사용자 영향력을 판별하기 위한 기법이 요구되고 있다. 본 논문에서는 소셜 네트워크에서 신뢰성을 고려한 사용자 영향력 판별 기법을 제안한다. 제안하는 기법은 사용자의 소셜 행위를 통해 신뢰성 점수를 측정하고 신뢰할 수 있는 사용자들만을 모아 네트워크를 간소화한다. 또한, 사용자간의 연결정도에 따라 직-간접적인 영향력을 반영하여 사용자 영향력을 도출한다. 이를 통해 사용자 영향력 판별함으로써 사용자 영향력의 확산성을 향상시킨다. 제안하는 기법의 우수성을 보이기 위해 제안하는 기법과 기존 기법을 신뢰성과 사용자 영향력 확산성 측면에서 성능평가를 수행한다.

데이터 마이닝과 집단 지성 기법을 활용한 소셜 콘텐츠 추천 방법에 대한 연구 (A Study on Social Contents-Recommendation method using Data Mining and Collective Intelligence)

  • 강대현;박한샘;이정민;권경락;정인정
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2014년도 추계학술발표대회
    • /
    • pp.1050-1053
    • /
    • 2014
  • 웹 기반 서비스의 발전과 스마트 기기의 보급으로 사용자들은 다양한 웹 서비스들을 이용할 수 있게 되었고, 소셜 웹과 같은 사람들 간의 관계를 형성함으로써 정보를 주고받는 서비스에 접근하여 자신만의 콘텐츠를 생성, 공유하기가 용이해졌다. 그러나 소셜 웹 사용자들이 증가하고 지식의 양이 늘어남에 따라, 방대한 양의 지식들 중 필요한 정보만을 효율적으로 창출해내고자 하는 연구 또한 시도되어 왔다. 그러나, 기존의 방법은 다수의 서비스 사용자들의 공통적인 관심사가 반영된 결과를 도출해내기에는 부족하다는 단점이 있었다. 그리하여, 본 논문에서는 집단 지성 알고리즘과 의사 결정 나무를 활용하여 소셜 웹을 이용하는 사용자들의 태그와 URL 정보를 토대로 트렌드를 분석, 콘텐츠를 추천하는 방법을 제안하고, 이를 통하여 다수 사용자들의 기호가 반영된 다양한 정보들을 소셜 웹 사용자들에게 제공해줄 수 있음을 보인다.

Spark 프레임워크 기반 비정형 빅데이터 토픽 추출 시스템 설계 (A Design on Informal Big Data Topic Extraction System Based on Spark Framework)

  • 박기진
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제5권11호
    • /
    • pp.521-526
    • /
    • 2016
  • 온라인상에서 다루어지는 비정형 텍스트 데이터는 대용량이면서 비구조적 형태의 특성을 가지고 있기 때문에, 기존 관계형 데이터 모델의 저장 방식과 분석 방법만으로는 한계가 있다. 더군다나, 동적으로 발생하는 대량의 소셜 데이터를 활용하여 이용자의 반응을 실시간으로 분석하기란 어려운 상황이다. 이에 본 논문에서는 대용량 비정형 데이터(문서)의 의미를 빠르고, 용이하게 파악하기 위하여 데이터 셋에 대한 사전학습 없이, 문서 내 단어 비중에 따라 자동으로 토픽(주제)이 추출되는 시스템을 설계 및 구현하였다. 제안된 시스템의 토픽 모델링에 사용될 입력 단어는 N-gram 알고리즘에 의하여 도출되어 복수 개의 단어도 묶음 처리할 수 있게 했으며, 또한, 대용량 비정형 데이터 저장 및 연산을 위하여 Hadoop과 분산 인메모리 처리 프레임워크인 Spark 기반 클러스터를 구성하여, 토픽 모델 연산을 수행하였다. 성능 실험에서는 TB급의 소셜 댓글 데이터를 읽어 들여, 전체 데이터에 대한 전처리 과정과 특정 항목의 토픽 추출 작업을 수행하였으며, 대용량 데이터를 클러스터의 디스크가 아닌 메모리에 바로 적재 후, 처리함으로써 토픽 추출 성능의 우수성을 확인할 수 있었다.

K-means를 이용한 아파치 스파크 및 맵 리듀스 성능 분석 (Apache Spark and Map Reduce with Performance Analysis using K-Means)

  • 정영교;정동영;송준석;윤희용
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2016년도 제53차 동계학술대회논문집 24권1호
    • /
    • pp.77-78
    • /
    • 2016
  • 빅 데이터의 데이터 수집 및 분석 기술에 대한 연구는 컴퓨터 과학 분야에서 각광 받고 있다. 또한 소셜 미디어로 인한 대량의 비정형 데이터 분석을 요구하는 다양한 분야에 접목되어 효용성을 인정받고 있다. 그러나 빅 데이터 개념을 기반으로 하는 하둡과 스파크는 유즈케이스에 따라 성능이 크게 달라진다는 문제점이 있다. 이러한 문제점을 해결하기 위해 본 논문에서는 하둡의 맵리듀스를 줄이고 아파치 스파크를 이용한 빅 데이터 분석을 위하여 머신러닝 알고리즘인 K-Means 알고리즘을 이용하여 프로세싱 모델의 성능을 비교한다.

  • PDF

국가R&D와 소셜 데이터를 활용한 수소연료전지 기술마이닝과 감성분석 (Technology Mining and Sentiment Analysis on Hydrogen Fuel Cell Using National R&D and Social Data)

  • 이병희;최정우;김태현
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 추계학술발표대회
    • /
    • pp.341-343
    • /
    • 2022
  • 온실가스 배출 문제가 세계적인 현안으로 부각되면서 수소를 에너지원으로 사용하는 수소경제가 주목받고 있다. 수소연료전지는 수소경제의 구성요소 중 하나로, 수소를 활용해 열과 전기를 생산하며 에너지 변환 효율이 높이는데 장점이 있다. 본 연구는 세계적인 온라인 커뮤니티인 레딧(Reddit)에서 수집한 수소연료전지와 관련된 소셜 데이터를 텍스트마이닝과 감성분석 기법으로 분석하였다. 분석 결과 9,211건의 댓글을 LDA(Latent Dirichlet Allocation)을 이용해 4개의 토픽 그룹으로 분류할 수 있었다. 이 중 수소연료전지와 관련이 높은 그룹을 선정해 STM(Structural Topic Model) 분석으로 10개 토픽을 추출하였고, 기후 환경, 수소 산업, 수소 차와 관련 있는 토픽 3개를 발견할 수 있었다. 이 연구 결과를 통해 수소연료전지의 세계적으로 실제적인 내용을 빠르고 효과적으로 파악하여 수소연료전지에 대한 예측하고, 우리나라의 수소연료전지 관련 국가R&D의 정책적 방향을 제시하고자 한다.

소셜미디어 데이터를 활용한 중앙정부와 지방정부 간 지하공간의 주요 이슈 고찰 (Analysis of Issues on Underground Space between Central and Local Governments Utilizing Social Media Data)

  • 최해옥;백성준
    • 지적과 국토정보
    • /
    • 제46권1호
    • /
    • pp.75-86
    • /
    • 2016
  • 본 연구는 중앙정부와 지방정부 간 지하공간에 관한 주요 이슈를 파악하기 위해 소셜미디어 데이터를 활용하였다. 또한 이를 빅데이터 분석방법론을 통해 분석하였다. 연구방법론으로 사회네트워크분석의 키워드 네트워크 방법을 사용하였고 트위터를 통해 얻어진 텍스트 데이터를 텍스트마이닝 기법을 사용하여 분석하였다. 특히 지하공간은 2014년 잠실 싱크홀 사건 이후 사회적으로 관심을 가지고 있는 이슈로서 키워드 네트워크 분석을 통해 계량적으로 분석을 시도하였다. 네트워크의 속성을 파악하기 위해 중심성 지수, 그룹밀도 분석을 통해 지하공간과 관련된 이슈를 파악하였다. 이러한 분석 결과 중앙정부의 정책 관련 항목은 지자체 정책과 관련이 있음을 확인하였다. 중앙정부는 예방차원에서 특별법을 바탕으로 예방체계를 구축하여 지자체가 지하공간에 관련된 문제에 대해 대응 관리하도록 법에 근거한 예방체계를 구축하고 있다. 이와 같은 결과는 앞으로 중앙 정부가 연구관련 분야를 강화함으로써 지하공간 관련 안전대책을 구축하는 데 법과 기술이 서로 협력하여 발전해야 함을 시사해 준다.

해양수산 SNS 빅데이터 분석 결과 및 시사점 (SNS Big-data Analysis and Implication of the Marine and Fisheries Sector)

  • 박광서;이정민;이선량
    • 한국해양환경ㆍ에너지학회지
    • /
    • 제20권2호
    • /
    • pp.117-125
    • /
    • 2017
  • SNS 빅데이터 분석은 소셜 미디어에서 생성되는 빅데이터로부터 숨겨진 가치를 찾아내는 것을 의미한다. 본고는 해양수산 분야의 국민적 관심사를 파악하기 위해 24개 키워드를 도출하여 SNS 빅데이터 분석을 실시하였다. 언급량이 많은 키워드는 수산물, 해운, 독도 순이었으며, 해양정책, 해양안보 등 국민적 관심사가 적은 키워드는 상대적으로 언급량이 미미했다. 매체별 언급량은 정부가 주도하는 분야는 뉴스에, 민간이 주도하거나 국민생활 연관성이 큰 경우는 블로그와 트위터에 많았다. 따라서 해양수산 정책 수립 시 SNS 빅데이터 분석을 활용해 국민적 관심사를 반영하고, 특히 부정적인 요인을 해소하는데 역점을 두어야 한다. 또한 매체별로 언급량이 다르므로 차별화된 홍보방안을 마련할 필요가 있다.