• 제목/요약/키워드: 소셜 데이터 분석

검색결과 740건 처리시간 0.033초

맵리듀스에서 데이터의 유용성을 이용한 데이터 분할 기법 (Data Partitioning on MapReduce by Leveraging Data Utility)

  • 김종욱
    • 한국멀티미디어학회논문지
    • /
    • 제16권5호
    • /
    • pp.657-666
    • /
    • 2013
  • 현대사회는 소셜 미디어, 비즈니스, 바이오 인포메틱스 같은 다양한 응용프로그램에서 지속적으로 생산되어 지고 있는 수많은 데이터의 빠른 유입으로 특징지어 지고 있다. 이에 따라 폭발적으로 증가하고 있는 대규모 데이터를 보다 효율적으로 분석하고 처리 할 수 있는 방법이 그 어느 때보다 강조 되고 있다. 지난 몇 년간 학계에서는 배치 지향 시스템 (batch oriented system) 환경 내에서 병렬 처리를 효과적으로 지원할 수 있는 맵리듀스 기법이 활발히 연구 되어 왔으며, 맵리듀스 기법은 다양한 분야에서 성공적으로 사용되고 있다. 그러나 이 기법은 데이터의 상대적 유용성 (data utility)을 고려하지 않기 때문에, 멀티미디어 응용프로그램 사용자의 특성 (즉, 높은 혹은 낮은 스코어를 가지는 몇몇 결과물에 관심을 가지는 사용자들의 특성)으로 인하여 효과적인 성능을 보여 주지 못하고 있다. 따라서 본 논문에서는 이러한 문제점을 해소하기 위해, 맵리듀스 상에서의 데이터 분할 방식을 제안한다. 또한, 제안된 분할 방식에 대한 성능 실험을 통하여 우리가 제안하는 데이터 분할 방식이 기존 방식보다 성능 향상을 자져올 수 있음을 보여준다.

품사별 출현 빈도를 활용한 코로나19 관련 한국어 가짜뉴스 탐지 (COVID-19-related Korean Fake News Detection Using Occurrence Frequencies of Parts of Speech)

  • 김지혁;안현철
    • 지능정보연구
    • /
    • 제29권2호
    • /
    • pp.267-283
    • /
    • 2023
  • 2019년 12월부터 현재까지 지속되고 있는 코로나19 팬데믹으로 인해 대중들은 감염병 대응을 위한 정보를 필요로 하게 되었다. 하지만 소셜미디어에서 유포되는 코로나19 관련 가짜뉴스로 인해 대중들의 건강이 심각하게 위협받고 있다. 특히 코로나19와 관련된 가짜뉴스가 유사한 내용으로 대량 유포될 경우 사실인지 거짓인지 진위를 가리기 위한 검증에 소요되는 시간이 길어지게 되어 우리 사회의 전반에 심각한 위협이 될 수 있다. 이에 학계에서는 신속하게 코로나19 관련 가짜뉴스를 탐지할 수 있는 지능형 모델에 대한 연구를 활발하게 수행해 오고 있으나, 대부분의 기존 연구에 사용된 데이터는 영문으로 구성되어 있어 한국어 가짜뉴스 탐지에 대한 연구는 매우 드문 실정이다. 이에 본 연구에서는 소셜 미디어 상에서 유포되는 한국어로 작성된 코로나19 관련 가짜뉴스 데이터를 직접 수집하고, 이를 기반으로 한 지능형 가짜뉴스 탐지 모델을 제안한다. 본 연구의 제안모델은 언어학적 특성 중 하나인 품사별 빈도 정보를 추가적으로 활용하여, 기존 연구에서 주로 사용되어 온 문서 임베딩 기법인 Doc2Vec 기반 가짜뉴스 탐지 모델의 예측 성능을 제고하고자 하였다. 실증분석 결과, 제안 모델이 비교 모델에 비해 Recall 및 F1 점수가 높아져 코로나19 관련 한국어 가짜뉴스를 보다 정확하게 판별함을 확인하였다.

트위터에서 트윗 주기와 사용자 속도 사이 관계 (Relationship Between Tweet Frequency and User Velocity on Twitter)

  • 전소영;이알찬;서고은;신원용
    • 한국정보통신학회논문지
    • /
    • 제19권6호
    • /
    • pp.1380-1386
    • /
    • 2015
  • 최근 위치 정보를 제공하는 온라인 소셜 네트워크 서비스들의 급증으로 인해 사용자들의 지리적 위치 데이터의 중요성이 강조되고 있다. 본 논문에서는 사용자들의 고 정밀 위치 정보를 알려주는 공간 태그된 트윗 (geo-tagged tweet) 정보를 활용하여 트위터 사용자들의 정확한 위치와 트윗 전송시각을 알아낸 후, 이를 통해 사용자의 평균 이동속도와 트윗 주기 (tweet frequency) 사이의 관계를 분석한다. 구체적으로, 트윗 빈도수 계산 알고리즘을 소개하며, 결과에 대한 분석은 국가별, 도시별로 나누어 진행한다. 주요 결과로써, 사용자 속도에 따른 트윗 주기가 멱 법칙 분포 (power-law distribution) (또는 Zipf의 법칙 분포, Pareto 분포)를 따름을 보인다. 또한, 미국과 일본에서의 결과를 비교할 때, 일본에서의 분포도 지수가 미국의 경우에 비해 작음을 확인한다.

도서관 유튜브(YouTube) 채널의 활성화 방안에 관한 연구 (A Study on Methods for Activating Libraries' YouTube Channel)

  • 노지윤;노영희
    • 정보관리학회지
    • /
    • 제37권3호
    • /
    • pp.1-24
    • /
    • 2020
  • 5G 시대 단말기의 다양화, 고화질 및 몰입형 중심의 SNS 전개로 동영상 중심의 소셜 미디어 패러다임이 계속적으로 심화되고 있다. 본 연구의 목적은 공공도서관에서 운영되고 있는 유튜브 채널의 운영과 제공 콘텐츠 현황에 대한 분석을 통해 다양한 활용 전략과 방안을 제안하는 데 있다. 본 연구에서는 도서관 유튜브 채널을 개설 및 운영하고 있는 국내의 44개 도서관과 구독자 수 1,000명 이상 도서관 유튜브 채널을 활발하게 활용하고 있는 국외 도서관 12개를 대상으로, 도서관 유튜브 채널의 구독자 수, 조회 수, 비디오 수 데이터 현황, 그리고 콘텐츠 내용과 전달 방식을 조사하였다. 분석 결과를 종합하여, 1) 도서관 유튜브 채널만이 가지는 특수성과 목적성을 확보, 2) 유튜브 채널의 홍보 및 접근성 제고, 3) 공공도서관에서 개설 및 운영하는 유튜브 채널임을 명시, 4) 이용자 친화적인 인터페이스로의 개선, 5) 도서관 전문성과 교육적 콘텐츠를 기획 및 제공, 6) 통합 유튜브 채널의 운영, 7) 이용자 기반 콘텐츠 제공 등의 도서관 유튜브 채널 활용방안을 제안하였다.

의견 어구의 구문 관계를 고려한 트위터 의견 검색 (Opinion Retrieval in Twitter Considering Syntactic Relations of Sentiment Phrase)

  • 김윤성;양민철;이승욱;임해창
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제20권9호
    • /
    • pp.492-497
    • /
    • 2014
  • 본 연구에서는 대중적인 소셜 네트워크 서비스 중 하나이며 많은 사람들이 다양한 의견을 공유하는 트위터를 대상으로 질의어(또는 주제어)에 적합한 의견을 지닌 트윗을 검색하는 방법론을 제안한다. 기존의 의견 검색 시스템은 의견을 지닌 구절이 주어진 질의어나 화자와 관련이 없음에도 불구하고 그런 구절의 유무를 중요한 요소로 여겼다. 이와 같은 문제를 해결하기 위하여 본 연구에서는 1) 의견 어구-질의어 관계, 2) 의견 어구-화자 관계, 그리고 3) 의견 어구의 의존 구문 역할 등의 구문 요소를 반영하는 방법을 고안하였다. 또한, 의견을 가진 트윗을 검색하기 위하여 질의어와의 적절성, 텍스트 정보, 사용자 정보, 트위터 특화 자질에 기반한 랭킹 학습 방법을 이용하였다. 실제 데이터를 이용한 실험 결과, 본 시스템은 기존 연구들보다 더 좋은 성능을 보이고 있다.

사회적 재난에 대한 트위터 여론 수렴 모델: '가습기 살균제' 사건을 중심으로 (A Collecting Model of Public Opinion on Social Disaster in Twitter: A Case Study in 'Humidifier Disinfectant')

  • 박준형;류법모;오효정
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제6권4호
    • /
    • pp.177-184
    • /
    • 2017
  • 최근 점차 복잡해져가는 사회구조 속에서 사회적 재난은 빈번하게 발생되고 있으며, 그 피해 규모 또한 점차 대형화되고 있다. 따라서 사회적 재난에 신속하게 대응함으로써, 추가 피해를 방지할 수 있는 체계화된 방법이 필요하다. 그 중에서도 소셜미디어, 특히 트위터는 신속성 및 확장성이 높아 재난에 대한 대응책으로 새롭게 주목받고 있다. 다양한 대중들의 관심이 드러나는 트위터의 여론을 수렴하는 것은 재난 발생에 신속하게 대응하고, 추가적인 피해를 방지하는데 유용한 수단으로 활용될 수 있다. 따라서 본 연구는 키워드 분석 및 이슈 트윗 추출, 시계열 분석 과정을 통해 사회적 재난에 대한 트위터 여론 수렴 방법을 제안하였으며, 최근 사회적으로 이슈화된 가습기 살균제 사건을 연구 대상으로 선정, 실제 적용가능성을 보이는데 의의가 있다.

간호간병통합서비스 관련 온라인 기사 및 소셜미디어 빅데이터의 의미연결망 분석 (Semantic Network Analysis of Online News and Social Media Text Related to Comprehensive Nursing Care Service)

  • 김민지;최모나;염유식
    • 대한간호학회지
    • /
    • 제47권6호
    • /
    • pp.806-816
    • /
    • 2017
  • Purpose: As comprehensive nursing care service has gradually expanded, it has become necessary to explore the various opinions about it. The purpose of this study is to explore the large amount of text data regarding comprehensive nursing care service extracted from online news and social media by applying a semantic network analysis. Methods: The web pages of the Korean Nurses Association (KNA) News, major daily newspapers, and Twitter were crawled by searching the keyword 'comprehensive nursing care service' using Python. A morphological analysis was performed using KoNLPy. Nodes on a 'comprehensive nursing care service' cluster were selected, and frequency, edge weight, and degree centrality were calculated and visualized with Gephi for the semantic network. Results: A total of 536 news pages and 464 tweets were analyzed. In the KNA News and major daily newspapers, 'nursing workforce' and 'nursing service' were highly rated in frequency, edge weight, and degree centrality. On Twitter, the most frequent nodes were 'National Health Insurance Service' and 'comprehensive nursing care service hospital.' The nodes with the highest edge weight were 'national health insurance,' 'wards without caregiver presence,' and 'caregiving costs.' 'National Health Insurance Service' was highest in degree centrality. Conclusion: This study provides an example of how to use atypical big data for a nursing issue through semantic network analysis to explore diverse perspectives surrounding the nursing community through various media sources. Applying semantic network analysis to online big data to gather information regarding various nursing issues would help to explore opinions for formulating and implementing nursing policies.

스마트 사회의 보안위협과 정보보호 정책추진에 관한 제언

  • 이기주
    • 정보와 통신
    • /
    • 제30권1호
    • /
    • pp.24-32
    • /
    • 2012
  • 우리는 지금 스마트 사회에 살아가고 있다. 언제 어디서든 스마트 디바이스를 통해 기존에 PC에서 하던 작업들을 손쉽게 하고 있다. 한편 스마트폰의 확산으로 이용자 수가 급증하고 있는 소셜네트워크 서비스(SNS)는 이용자들이 자신의 일상적인 이야기를 사이버공간에 게시함으로 인해 개인의 사생활 정보들이 노출되고, 그러한 정보들이 범죄에 악용되는 사례들이 눈에 띄게 증가하고 있다. 또한 SNS를 이용한 악성코드의 유포 및 빠른 전파 등도 새로운 보안위협으로 나타나고 있다. 그 밖에 스마트 기기를 대상으로 한 해킹 및 악성코드 감염 등 위협이 증가하고 있는 형편이다. 본고에서는 스마트 사회의 주요 보안위협을 살펴보고 미국, 유럽, 일본, 호주 등 선진국의 관련 정책 동향과 국내 정책과 실태를 분석하여 새로운 정보보호 정책 수립 방향을 제언하고자 한다. 스마트 사회 위험 요소로 가장 보편적으로 사용되고 있는 스마트폰과 스마트폰을 통해 이용되고 있는 소셜네트워크 서비스, 클라우드 서비스의 보안위협을 제기하고 최근 글로벌 이슈로 떠오르고 있는 빅 데이터 환경의 보안위협을 분석하였다. 스마트 사회의 위협을 대비하고 있는 주요국 정책을 살펴보면, 미국의 경우 사회적 합의를 바탕으로한 감시와 통제를 강화하는 정책을 추진 중에 있으며 유럽의 5개국 EU5(영국, 독일, 프랑스, 스페인, 이탈리아)는 스마트폰 위협을 중심으로 공동 대응 방안을 마련하고 있다. 일본은 스마트 워크중심의 보안대책을 강구하고 있으며 호주는 스마트 사회 보안위협에 대한 국민의 인식제고에 주력하고 있다. 국내의 경우도 스마트 사회의 보안위협에 선제적 대응을 위하여 "스마트 모바일 시큐리티 종합계획"을 수립하여 추진중에 있다. 하지만 보안 실태를 보면 스마트 사회 보안위협에 대한 이용자들의 우려는 높은 반면 기업의 보안 대책 마련에 대한 투자는 여전히 미흡한 상황이다. 향후 우리 사회가 디바이스간 융합을 넘어 모든 사물이 연결되는 초(超)연결(Hyper-Connectivity) 시대로 진화되어 가면 편리성이 증대되는 만큼 더 많은 위협에 우리의 일상이 노출되는 문제가 발생하게 될 것이다. 안전한 미래 사회로 진입하기 위해서는 보다 체계적이고 종합적인 정보보호 정책마련이 필요하다. 본고에서는 이를 위한 정책수립의 방향을 제언했다.

청소년의 컴퓨터 및 인터넷 이용이 정신건강에 미치는 영향: 양육방식과 또래애착의 조절효과 (The Effect of Digital Technologies on Adolescent Mental Health: The Role of Parenting Style and Peer Attachment)

  • 박재영;한치훈;오주현
    • 디지털융복합연구
    • /
    • 제17권8호
    • /
    • pp.1-13
    • /
    • 2019
  • 청소년의 인터넷 이용과 정신건강 간의 관계를 살펴본 연구가 다수 존재한다. 하지만, 대다수가 인터넷 사용시간에 초점을 맞춘 횡단면 분석이며, 정신건강의 단편적인 측면, 즉, 우울만 고려했다는 한계점이 존재한다. 이에 본 연구는 컴퓨터 및 인터넷 이용행태가 청소년 정신건강의 다양한 측면 (주의산만, 공격성, 우울)에 미치는 영향을 검토하였다. 또한, 이러한 영향이 양육방식과 또래애착에 따라 달라지는지 살펴보았다. 한국아동 청소년패널데이터의 중학교 1학년 패널 6차와 7차 자료를 활용하여 종단적 분석을 실시한 결과, 학습 목적의 컴퓨터 및 인터넷 사용은 정신건강에 긍정적인 영향을 주는 것으로 나타났다. 반면, 컴퓨터 게임과 소셜 미디어 이용은 정신건강에 부정적인 영향을 주었다. 학습이 우울에 미치는 긍정적인 영향은 부모의 애정을 낮게 느끼는 경우 영향력이 더 강하게 나타났다. 한편, 소셜 미디어의 부정적인 영향은 부모의 애정과 또래애착에 의해 완화되는 것으로 밝혀졌다. 본 연구는 컴퓨터 및 인터넷 이용의 양면성을 제시하며, 이에 따른 정책적 시사점을 제시한다.

슬라이딩 윈도우 기반의 스트림 하이 유틸리티 패턴 마이닝 기법 성능분석 (Performance Analysis of Siding Window based Stream High Utility Pattern Mining Methods)

  • 양흥모;윤은일
    • 인터넷정보학회논문지
    • /
    • 제17권6호
    • /
    • pp.53-59
    • /
    • 2016
  • 최근 무선 센서 네트워크, 사물 인터넷, 소셜 네트워크 서비스와 같은 다양한 응용 분야에서 대용량 스트림 데이터가 실시간으로 생성되고 있으며, 효율적인 기법을 통해 처리 및 분석하여 유용한 정보를 찾아내고, 이를 의사 결정을 위해 사용할 수 있도록 하는 것은 중요한 이슈 중에 하나이다. 스트림 데이터는 끊임없이 빠른 속도로 생성되므로 최소한의 접근을 통해 처리해야 하며, 신속한 저전력 처리를 필요로 하는 자원이 제한된 환경에서 분석될 수 있도록 적합한 기법이 요구된다. 이러한 문제를 해결하기 위해, 슬라이딩 윈도우 개념이 제안되어 연구되고 있다. 한편, 대용량 데이터로부터 의미 있는 정보를 찾아내기 위한 데이터 마이닝 기법 중에 하나인 패턴 마이닝은 중요 정보를 패턴 형태로 추출한다. 전통적인 빈발 패턴 마이닝은 이진 데이터베이스를 대상으로 하고 모든 아이템을 동일한 중요도로 고려함으로써 데이터 마이닝 분야에서 중요한 역할을 수행해 왔지만, 실제 데이터 특성을 반영하지 못하는 단점을 지닌다. 하이 유틸리티 패턴 마이닝은 비 이진 데이터베이스로부터 상대적인 아이템 중요도를 반영하여 더욱 의미 있는 정보를 찾아내기 위해 제안되었다. 정적 데이터를 대상으로 하는 하이 유틸리티 패턴 마이닝 기법은 그러나 스트림 데이터 처리에 적합하지 못하다. 제한된 환경에서 스트림 데이터의 특성을 반영하고 효율적으로 처리하여 중요한 정보를 찾아내기 위해 슬라이딩 윈도우 기반의 접근법이 제안되었다. 본 논문은 슬라이딩 윈도우 기반 하이 유틸리티 패턴 마이닝 기법들의 성능을 평가하고 분석하여 해당 기법들의 특성 및 발전 방향을 고찰한다.