• 제목/요약/키워드: 소셜 데이터 분석

검색결과 737건 처리시간 0.028초

BERTopic을 활용한 불면증 소셜 데이터 토픽 모델링 및 불면증 경향 문헌 딥러닝 자동분류 모델 구축 (Topic Modeling Insomnia Social Media Corpus using BERTopic and Building Automatic Deep Learning Classification Model)

  • 고영수;이수빈;차민정;김성덕;이주희;한지영;송민
    • 정보관리학회지
    • /
    • 제39권2호
    • /
    • pp.111-129
    • /
    • 2022
  • 불면증은 최근 5년 새 환자가 20% 이상 증가하고 있는 현대 사회의 만성적인 질병이다. 수면이 부족할 경우 나타나는 개인 및 사회적 문제가 심각하고 불면증의 유발 요인이 복합적으로 작용하고 있어서 진단 및 치료가 중요한 질환이다. 본 연구는 자유롭게 의견을 표출하는 소셜 미디어 'Reddit'의 불면증 커뮤니티인 'insomnia'를 대상으로 5,699개의 데이터를 수집하였고 이를 국제수면장애분류 ICSD-3 기준과 정신의학과 전문의의 자문을 받은 가이드라인을 바탕으로 불면증 경향 문헌과 비경향 문헌으로 태깅하여 불면증 말뭉치를 구축하였다. 구축된 불면증 말뭉치를 학습데이터로 하여 5개의 딥러닝 언어모델(BERT, RoBERTa, ALBERT, ELECTRA, XLNet)을 훈련시켰고 성능 평가 결과 RoBERTa가 정확도, 정밀도, 재현율, F1점수에서 가장 높은 성능을 보였다. 불면증 소셜 데이터를 심층적으로 분석하기 위해 기존에 많이 사용되었던 LDA의 약점을 보완하며 새롭게 등장한 BERTopic 방법을 사용하여 토픽 모델링을 진행하였다. 계층적 클러스터링 분석 결과 8개의 주제군('부정적 감정', '조언 및 도움과 감사', '불면증 관련 질병', '수면제', '운동 및 식습관', '신체적 특징', '활동적 특징', '환경적 특징')을 확인할 수 있었다. 이용자들은 불면증 커뮤니티에서 부정 감정을 표현하고 도움과 조언을 구하는 모습을 보였다. 또한, 불면증과 관련된 질병들을 언급하고 수면제 사용에 대한 담론을 나누며 운동 및 식습관에 관한 관심을 표현하고 있었다. 발견된 불면증 관련 특징으로는 호흡, 임신, 심장 등의 신체적 특징과 좀비, 수면 경련, 그로기상태 등의 활동적 특징, 햇빛, 담요, 온도, 낮잠 등의 환경적 특징이 확인되었다.

Min-Hash를 이용한 효율적인 대용량 그래프 클러스터링 기법 (An Efficient Large Graph Clustering Technique based on Min-Hash)

  • 이석주;민준기
    • 정보과학회 논문지
    • /
    • 제43권3호
    • /
    • pp.380-388
    • /
    • 2016
  • 그래프 클러스터링은 서로 유사한 특성을 갖는 정점들을 동일한 클러스터로 묶는 기법으로 그래프 데이터를 분석하고 그 특성을 파악하는데 폭넓게 사용된다. 최근 소셜 네트워크 서비스와 월드 와이드 웹, 텔레폰 네트워크 등의 다양한 응용분야에서 크기가 큰 대용량 그래프 데이터가 생성되고 있다. 이에 따라서 대용량 그래프 데이터를 효율적으로 처리하는 클러스터링 기법의 중요성이 증가하고 있다. 본 논문에서는 대용량 그래프 데이터의 클러스터들을 효율적으로 생성하는 클러스터링 알고리즘을 제안한다. 우리의 제안 기법은 그래프 내의 클러스터들 간의 유사도를 Min-Hash를 이용하여 효과적으로 추정하고 계산된 유사도에 따라서 클러스터들을 생성한다. 실세계 데이터를 이용한 실험에서 우리는 본 논문에서 제안하는 기법과 기존 그래프 클러스터링 기법들과 비교하여 제안기법의 효율성을 보였다.

공유자전거 데이터 분석 및 활용방안 연구 세종특별자치시 공유자전거 어울링의 데이터를 적용하여 (A Study on Analysis and Utilization of Public Sharing Bike Data - By applying the data of Ouling, Public Sharing Bike System in Sejong City)

  • 안세윤;주한나;김소연;조민준;김성환
    • 한국콘텐츠학회논문지
    • /
    • 제21권7호
    • /
    • pp.259-270
    • /
    • 2021
  • 최근 친환경 교통수단에 대한 관심과 바이러스로부터의 안전성을 고려하여 도시 공간 내 공유자전거 활용에 대한 관심이 높아지고 있다. 정보통신기술의 발달로 데이터를 수집하고 저장하는 기술이 향상되면서, 시민들의 공유자전거 사용에 따라 수집·저장되는 데이터를 활용한 도시 공간 내 이동성(Mobility)에 대한 연구도 활발히 진행되고 있다. 따라서, 본 논문은 문헌고찰을 통해 도시 공간 내 공유자전거 시스템을 통해 수집되는 데이터의 속성과 활용사례를 분석하여, 고찰·분석한 결과를 바탕으로 국내 공유자전거 시스템 중 하나인 세종특별자치시 어울링의 데이터 분석에 적용함으로써, 공유자전거 데이터 활용방안을 모색하였다. 분석대상으로 선정한 문헌은 GIS데이터, O-D데이터, 대여 및 반납 이력, 대여소 위치정보 및 주변정보, 날씨정보 등을 활용하여 GIS 네트워크 분석기법, 방정식 및 비율 분석, 소셜 네트워크 분석, 통계 및 네트워크 분석 등의 방법을 사용하였다. 데이터 분석을 통해 공유자전거 시스템의 현황 및 문제점을 파악하여 해결방안을 제안, 공유자전거 사용의 확장 및 활성화 방안 도출, 효율적인 공유자전거 관리 및 운영방안 도출을 위한 기초자료를 마련하였다. 궁극적으로, 데이터 분석을 통해 공유자전거를 활용하여 도시 공간 내 이동성(Mobility)을 향상시킬 수 있는 방안을 모색할 수 있을 것이다.

네트워크 분석 기반 적정기술국제학회의 최근 연구동향 분석 (Network Analysis Based the Trends in International Conference on Appropriate Technology (ICAT))

  • 곽지윤;정성필
    • 적정기술학회지
    • /
    • 제7권1호
    • /
    • pp.85-92
    • /
    • 2021
  • 적정기술연구 분야는 환경, 의료, 교육 및 에너지 등 다양한 주제를 포함하고 있다. 따라서, 한 분야의 연구자가 적정 기술 전체 분야에 대한 연구 동향을 파악하기에는 어려움이 있다. 소셜 네트워크 분석, 즉, 사회 연결망 분석은 네트워크에 어떤 전체적인 연결관계가 있는지를 분석하여 특정 관계망을 보기 쉽게 시각화 하거나 인사이트를 도출할 수 있는 방법이다. 이 논문에서는 소셜 네트워크 분석을 적정기술학회에서 개최한 2017-2019년까지의 적정기술 국제학회 초록집 자료를 이용하여 적정기술 분야의 학술 동향을 파악하고자 하였다. 적정기술학회에서 확보한 자료를 바탕으로 데이터 전처리 과정을 거쳐 공저자 네트워크를 분석하고 그와 관련된 통계적 지표를 해석하였다. 또한, 적정기술학회의 일반 현황 자료를 기반으로 연차별 발표자 및 연구 내용 변화를 분석하고 결과를 도출하였다.

여고생들의 SNS 자료를 이용한 기능성 화장품 기호분석시스템 (Functional Cosmetics Trend Analysis System Using SNS Big Data For The Girls High School Students)

  • 서정민;송재오;이채리;이상문
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2013년도 제47차 동계학술대회논문집 21권1호
    • /
    • pp.99-101
    • /
    • 2013
  • 본 논문에서는 사춘기 여고생들의 기능성 화장품의 신상품 개발과 성능 향상을 위한 효율적인 정보의 분석과 생산 정책을 위한 SNS 분석시스템을 제안한다. 제안하는 시스템은 여고생들의 기능성 화장품에 관한 SNS 내용을 분석하기 위한 효율적 알고리즘과 방법론을 제안하여 시스템의 처리량을 최대화하고, 각 작업의 수행시간을 최소화한다. 또한 여고생들의 기능성 화장품에 대한 기호 상태를 파악하여, 그 분석 결과를 제품의 개발 및 생산에 반영하기 위한 비주얼 방법론을 함께 제안한다. 따라서 본 논문에서 제안하는 시스템은 단지 화장품에 대한 분석뿐만 아니라 이와 비슷한 소비자의 기호가 빠르게 변화하는 제조업 분야에서 다양하게 응용이 가능하다.

  • PDF

BEOLTONG: 트위터 기반 정서분석 시스템 (BEOL TONG: Twitter-based Sentiment Analysis System)

  • 김주근;배원식;차정원
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2010년도 제22회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.107-111
    • /
    • 2010
  • 본 논문에서는 트위터를 기반으로 정서분석을 수행하여 사용자에게 제시해주는 시스템인 BEOLTONG을 제안한다. BEOLTONG은 최근에 주목 받기 시작해 많은 사람들이 사용하고 있는 트위터의 장점인 풍부한 데이터와 인적 네트워크를 정서분석에 활용하여 효과적인 정서분석을 수행하고, 그 결과를 그래프와 이미지 등을 사용하여 가시적으로 사용자에게 보여줌으로써 좀 더 직관적으로, 알기 쉽게 정서분석 결과를 보고 활용할 수 있도록 한다.

  • PDF

A Study on the Classification of Unstructured Data through Morpheme Analysis

  • Kim, SungJin;Choi, NakJin;Lee, JunDong
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권4호
    • /
    • pp.105-112
    • /
    • 2021
  • 빅데이터 시대에 접어들며 데이터에 대한 관심이 폭발적으로 늘어나고 있다. 특히, 인터넷 및 소셜미디어의 발전은 새로운 데이터들의 생성으로 연결되어 빅데이터와 인공지능 시대의 실현과 융합 기술의 새로운 장을 열 수 있게 되었으며, 과거에는 프로그램으로 다루지 못하던 데이터에 대한 분석 요구가 많이 발생하고 있다. 본 논문에서는 빅데이터 시대에서 많이 요구되는 비정형 데이터에 대한 분류를 위하여 분석 모델을 설계하고 이를 검증하였다. 데이터는 디비피아의 논문 요약과 주제어, 그리고 부주제 어를 크롤링하였으며, 코엔엘피의 데이터 사전을 이용해 데이터베이스를 생성하고, 형태소 분석을 통하여 단어의 토큰화 과정을 수행하였다. 또한, 카이스트의 9 품사 분류 체계를 이용해 명사를 추출하고, TF-IDF 값을 생성하였으며, 학습 데이터와 Y 값을 결합하여 분석 데이터 셋을 생성하였다. 이와 같이 생성된 분석 데이터 셋에 랜덤 포레스트와 서포트 벡터 머신 그리고 의사결정트리, 이렇게 세 가지 분석 알고리즘을 적용하여 분류의 적정성을 측정하였다. 본 논문에서 제안한 분류 모델 기법은 논문 분류 외에도 민원 분류 분석 및 텍스트 관련 분석 등 다양한 분야에 유용하게 사용될 수 있다.

BPAF2.0: 프로세스기반 소셜 네트워크 마이닝을 위한 비즈니스 프로세스 분석로그 포맷의 확장 표준 (BPAF2.0: Extended Business Process Analytics Format for Mining Process-driven Social Networks)

  • 전명훈;안현;김광훈
    • 한국통신학회논문지
    • /
    • 제36권12B호
    • /
    • pp.1509-1521
    • /
    • 2011
  • 비즈니스 프로세스 및 워크플로우 기술의 국제표준화기구인 WfMCl)에서는 최근 비즈니스 프로세스 인텔리전스 마이닝 분야에 대한 산업체의 관심이 증가함에 따라 프로세스 실행이벤트로그 표준포맷인 비즈니스 프로세스 분석로그 포맷, BPAF2) 1.0을 공식적으로 발표한 바 있다. 즉, 비즈니스 프로세스 인텔리전스 마이닝 기술은 비즈니스 프로세스 모델의 실행이벤트로그로부터 제어흐름, 데이터흐름, 역할흐름, 수행자흐름 등의 흐름중심의 인텔리전스와 최근에 관심이 집중되는 프로세스기반 소셜네트워크, 소속성네트워크 등의 관계중심의 인텔리전스를 마이닝하는 일련의 알고리즘들과 분석기법들로 구성되는데 현재의 표준포맷인 BPAF 1.0은 비즈니스 프로세스의 제어흐름 인텔리전스 마이닝에 초점 맞추고 있어 최근에 관심이 집중되는 관계중심의 인텔리전스 마이닝을 지원할 수가 없다. 따라서, 본 표준화 논문에서는 제어흐름 인텔리전스 이외에 데이터흐름, 역할흐름, 수행자흐름의 흐름 중심 인텔리전스 뿐만 아니라 프로세스기반 소셜네트워크, 소속성 네트워크의 관계중심 인텔리전스의 마이닝을 지원할 수 있도록 기존의 BPAF 1.0 표준포맷을 확장한 BPAF 2.0 표준포맷을 제안한다. 특히, 본 논문에서 제안하는 BPAF 2.0은 한국정보통신기술협회 표준총회의 e 비즈니스 프로젝트 그룹을 통한 국내 표준안의 기반기술이 될 뿐 만 아니라 BPAF 1.0을 제정한 WfMC 국제표준화기구의 국제 표준안의 확장에 기여할 것이라고 판단한다.

소셜미디어에 나타난 코로나 바이러스(COVID-19) 인식 분석 (Trend Analysis of Corona Virus(COVID-19) based on Social Media)

  • 윤상후;정상윤;김영아
    • 한국산학기술학회논문지
    • /
    • 제22권5호
    • /
    • pp.317-324
    • /
    • 2021
  • 본 연구는 국내 소셜미디어를 기반으로 코로나 확산 시기에 따른 코로나19 관심사 변화를 텍스트 기반으로 살펴 보았다. 연구자료는 2020년 1월 20일부터 8월 15일까지 네이버와 다음의 블로그와 카페에 올라온 글이다. 코로나 확산시기는 총 3단계로 분류하였다. 중국에서 발견된 코로나19가 한국에 확산되기 시작한 1월 20일부터 2월 17일을 '전조기', 대구를 중심으로 본격적 확산을 진행된 2월 18일부터 4월 20일을 '심각기', 그리고 일 확진자 수가 안정화되는 4월 21일부터 8월 15일을 '안정기'로 명명하였다. 코로나19와 연관된 상위 50개 단어를 추출하여 TF-IDF를 이용하여 군집 분석 하였다. 분석결과 전조기는 코로나 '상황'에 관련된 텍스트가 많았고, 심각기에는 '국가'와 '감염경로'에 관련된 텍스트가 많았다. 안정기에는 '치료'가 주로 언급되었다. 시기와 무관하게 공통적으로 언급이 많이 된 단어는 '감염', '마스크', '사람', '발생', '확진', '정보'이다. 시기별 감정의 변화를 살펴보면 시간이 지남에 따라 긍정의 비율이 높아지고 있다. 카페와 블로그는 글쓴이의 생각과 주관이 담긴 글을 인터넷을 통해 공유하므로 코로나19로 인한 비대면 시대의 주요 정보공유 공간이다. 그러나 정보전달의 선택성과 임의성이 존재하므로 소셜미디어에서 생산되는 정보를 비판적으로 바라보는 시각이 필요하다.

소셜미디어를 통한 직원의 기업전망 평가와 고용증가와의 상관성 : 잡플래닛 기업전망을 대상으로 (Employee's Business Outlook Disclosed Through Social Media And Employment Growth : The Case of Jobplanet)

  • 김병수;강주영
    • 스마트미디어저널
    • /
    • 제11권10호
    • /
    • pp.9-21
    • /
    • 2022
  • 최근 소셜미디어의 사용 확대는 사회, 경제, 정치, 문화 등 여러 방면에서 이용자들의 의견을 실시간으로 표현할 수 있는 계기가 되었고, 기업에 관한 다양한 정보를 제공하는 플랫폼들이 많이 늘어났다. 그중에서 2008년 미국에서 시작된 글래스도어(Glassdoor.com)는 기업의 전현직 직원이 자신이 근무한 기업의 처우를 평가하고 기업의 성장성에 관한 전망을 제공하고 있다. 이러한 플랫폼은 취업 또는 이직하려는 구직자에 필요한 정보를 제공하는 효용성이 있다. 이 외에도 여러 연구에서 이러한 플랫폼을 통해 제공되는 기업의 정보가 투자자에게도 유용하다는 점이 밝혀지고 있다. 본 연구에서는 국내에서 글래스도어와 대표적으로 유사한 기능을 하는 플랫폼인 잡플래닛(Jobplanet)에서 제공되는 직원들의 기업성장 전망이 실재 기업성장을 예측하는 예측력이 있는지 파악하였다. 잡플래닛에서 제공되는 전망과 에프앤가이드에서 받은 기업의 재무지표 데이터를 취합하여 패널데이터로 구성한 뒤 고정효과 모형 회귀분석을 이용하여 분석하였다. 그 결과 긍정적인 전망을 받은 회사가 부정적인 전망을 받은 회사보다 고용증가율이 더 높은 것으로 나타났다. 전망이 중립인 경우에도 전망이 부정적인 회사보다 고용증가율이 더 높은 것으로 나타났다.