• 제목/요약/키워드: 소셜 데이터 분석

검색결과 739건 처리시간 0.028초

스마트폰 사용과 MBTI 사용자 특성간의 관계 평가 (Assessing the Relationship between MBTI User Personality and Smartphone Usage)

  • 라저스리 소카세인;김경백
    • 한국빅데이터학회지
    • /
    • 제1권1호
    • /
    • pp.33-39
    • /
    • 2016
  • 최근 스마트폰 사용 형태의 도움을 받아 사용자 특성을 예측하는 것은 매우 흥미롭고 주의를 사로잡는 연주 주제이다. 현재 몇몇 연구들은 사용자의 특성을 예측하기 위해 전화 사용 기록, 문자 메시지 사용 기록, 소셜 네트워크 서비스 사용 기록 등을 이용하고 있다. 이 논문에서, 우리는 MBTI 사용자 특성과 스마트폰 사용로그 간의 관계를 평가한다. 이를 위해, 스마트폰 사용 기록에서 부터 몇몇 특징들을 추출하고 이를 Naive Bayes와 SVM등의 분류기에 적용하여 사용자의 특성을 구분하였다. 사용자 특성 분석 결과의 분석을 통해 facebook사용 기록이 외향적인 사람과 내향적인 사람을 가장 잘 구분하는 것을 알 수 있었고, SVM 분류기가 Naive Bayes보다 사용자의 특성을 잘 예측하는 것을 확인하였다.

  • PDF

소셜 빅데이터 텍스트 마이닝을 활용한 전국장애인체육대회 분석 연구 (Study on the Analysis of National Paralympics by Utilizing Social Big Data Text Mining)

  • 김대경;이현수
    • 한국체육학회지인문사회과학편
    • /
    • 제55권6호
    • /
    • pp.801-810
    • /
    • 2016
  • 본 연구는 전국장애인체육대회 관련 키워드를 분석하여 객관적인 시각을 통한 비장애인의 인식 전환과 인터넷 웹 브라우저를 활용한 전국장애인체육대회 참여율 향상을 위한 기초자료로 제시하는데 목적이 있다. 연구목적을 네이버, 다음, 구글 사이트에서 제공하는 뉴스 기사, 블로그를 통하여 수집된 전국장애인체육대회, 전국장애인체전 관련 소셜 빅데이터를 대상으로 하였다. 자료처리는 R-3.3.1 Version Program을 이용하여 워드클라우드, 연관성 분석, 사회연결망 분석을 사용하였다. 이상과 같은 연구방법 및 자료분석의 결과를 통해 도출된 결론은 다음과 같다. 첫째, 제33회~제35회에 대한 전국장애인체육대회 키워드에서는 경기결과, 종목, 선수단 참가, 개최지역 소식이 중점적으로 나타났다. 둘째, 제33회~제36회에 대한 전국장애인체육대회 연관성 분석을 통하여 네이버, 다음 등 웹 검색에서의 연관 검색어와 유사함을 나타냈다. 셋째, 전국장애인체육대회, 장애인체육, 장애인, 체육 키워드 간의 높은 근접 중심성을 나타내고 있으며, 생활체육, 참여, 연구, 발전, 스포츠-장애인, 연구-장애인, 생활체육-참여, 장애인-참여, 생활체육-장애인, 개최-전국장애인생활체육대회 키워드 간의 연결 중심성과 매개 중심성이 비례하게 나타났다.

Redis 데이터베이스에 대한 디지털 포렌식 조사 기법 연구 (Digital Forensics Investigation of Redis Database)

  • 최재문;정두원;윤종성;이상진
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제5권5호
    • /
    • pp.117-126
    • /
    • 2016
  • 최근 빅 데이터나 소셜 네트워크 서비스의 활용도가 증가하면서 기존 관계형 데이터베이스의 한계를 극복한 NoSQL 데이터베이스의 수요가 꾸준히 증가하고 있다. 디지털 포렌식 관점에서 관계형 데이터베이스의 디지털 포렌식 조사 기법은 꾸준히 연구되어 왔으나 NoSQL 데이터베이스의 디지털 포렌식 조사 기법에 대한 연구는 거의 없는 실정이다. 본 논문에서는 메모리 기반의 Key-Value Store NoSQL 데이터베이스인 Redis를 소개하고 디지털 포렌식 관점에서 살펴보아야 할 아티팩트의 수집과 분석, 삭제된 데이터 복구 기법을 제안한다. 또한 제안된 데이터 복구 기법을 도구로 구현하여 복구 기법을 검증한다.

비-전용 분산 컴퓨팅 환경에서 맵-리듀스 처리 성능 최적화를 위한 효율적인 데이터 재배치 알고리즘 (An Efficient Data Replacement Algorithm for Performance Optimization of MapReduce in Non-dedicated Distributed Computing Environments)

  • 류은경;손인국;박준호;복경수;유재수
    • 한국콘텐츠학회논문지
    • /
    • 제13권9호
    • /
    • pp.20-27
    • /
    • 2013
  • 최근 소셜 미디어의 성장과 모바일 장치와 같은 디지털 기기의 활용이 증가함에 따라 데이터가 기하급수적으로 증가하였다. 이러한 대용량의 데이터를 처리하기 위한 대표적인 프레임워크로 맵-리듀스가 등장하였다. 하지만 전용 분산 컴퓨팅 환경에서 균등한 데이터 배치를 기반으로 수행되는 기존 맵-리듀스는 가용성이 다른 비-전용 분산 컴퓨팅 환경에서는 적합하지 않다. 이러한 비-전용 분산 컴퓨팅 환경을 고려한 데이터 재배치 알고리즘이 제안되었지만, 재배치에 많은 시간을 필요로 하고, 불필요한 데이터 전송에 의한 네트워크 부하가 발생한다. 본 논문에서는 비-전용 분산 컴퓨팅 환경에서 맵-리듀스의 성능 최적화를 위한 효율적인 데이터 재배치 알고리즘을 제안한다. 제안하는 기법에서는 노드의 가용성 분석 모델을 기반으로 노드의 데이터 블록 비율을 연산하고, 기존의 데이터 배치를 고려하여 전송함으로써 네트워크 부하를 감소시킨다. 성능평가 결과, 제안하는 기법이 기존 기법에 비해 성능이 우수함을 확인하였다.

빅데이터를 활용한 도시공원 이용행태 특성의 시계열 분석 (A Time Series Analysis of Urban Park Behavior Using Big Data)

  • 우경숙;서주환
    • 한국조경학회지
    • /
    • 제48권1호
    • /
    • pp.35-45
    • /
    • 2020
  • 본 연구는 현대사회에서 도시민의 행태를 지원하는 공간으로 공원에 주목하였다. 현대의 도시공원은 특정한 역할을 하는 공간으로 국한되지 않으며, 공공의 성격을 가지고 있어 이용자의 이용행태에 따라 그 기능·의미가 변화할 수 있다. 또한, 현재 온라인상의 데이터는 방문할 공원의 선택 혹은 공원 이용행태의 결정을 지원하는 단계로 접어들었다. 이에 본 연구는 빅데이터의 자료 기반의 특징인 시계열 분석이 가능하도록 데이터를 수집할 수 있는 최초 년도인 2000년부터 2018년까지 여의도공원·여의도 한강공원과 양재 시민의 숲의 행태 변화를 빅데이터 기법인 텍스트마이닝(Text Mining)과 소셜 네트워크(Social Network;사회연결망)분석을 활용하여 분석하였다. 연구결과의 요약은 다음과 같다. 먼저 시간의 흐름에 따라 주요 이용행태와 행태에 영향을 미치는 요소에 변화가 있었다. 여의도공원·여의도 한강공원의 이용행태는 제 I시기는 '타다'(동적행태), 제 II시기는 '찍다'(정보통신서비스 행태), 제 III시기는 '걷다'(동적행태), 제 IV시기는 '먹다'(에너지원 행태)로 시간의 흐름에 따라 주요 행태가 다양하게 변화하는 모습이고, 양재 시민의 숲은 제 I시기는 '걷다'(동적행태), 제 II시기는 '걷다'(동적행태), 제 III시기는 '걷다'(동적행태), 제 IV시기는 '놀다'(동적행태)로 주로 동적행태 위주의 행태가 나타나는 것으로 나타났다. 주요 행태에 영향을 미치는 요소로 여의도공원·여의도 한강공원은 스포츠 및 레저, 문화·예술, 여가와 관련된 요소가 도출되었고, 양재 시민의 숲은 자연자원 요소가 도출되어 주요 이용행태에 영향을 미치는 요소에 차이가 있었다. 다음으로 대상지의 행태는 시기별로 특정 행태에 집중화되어 있으며, 차후 발생하는 행태를 선택하거나 제약하는 역할을 하는 것으로 나타났다. 이러한 결과는 대상지에 다양한 행태가 일어나지 않을 뿐만 아니라, 공간, 시설 등이 골고루 활용되지 않고 있다는 것을 알 수 있다. 연구결과의 흥미로운 점은 두 공원에서 공통적으로 눈에 띄게 급증한 행태는 에너지원 행태(먹다, 마시다)와 소비행태(사다, 대여하다)이다. 에너지원 행태는 두 공원에서 모두 제 III시기에서 제 IV시기 사이에 10배 이상으로 치솟았으며, 다른 행태와 빈도에서 큰 차이를 보이며 월등히 높았다. 또한, 공원에 방문하는 시민들은 식음료비, 자전거 등의 대여비, 이밖에 행사 참여 등과 관련된 소비의사가 있으며, 공원이 도심 내 휴식공간에서 지역경제 활성화라는 측면에서 본다면 긍정적으로 평가할 수 있을 것이다. 본 연구는 데이터 기법을 활용하여 도시공원 이용행태를 분석하였다는 점과 오늘날 도시공원은 휴식, 산책 등의 역할을 넘어서 시대적인 트렌드를 반영하며, 소비 성향이 나타나는 놀이공간으로 성향이 변화하였다는 결과를 도출하였다는 점에서 큰 의의가 있다. 현대 도시공원에서 일어나는 행태는 양과 내용이 과거와 다르게 변화하고 있다. 그러므로 빅데이터를 통해 수집되는 대규모 집단의 행태를 유형화하고, 이러한 결과를 바탕으로 이루어지는 다학제적인 논의를 통해 오늘날 도시공원을 시민들이 어떻게 이용하고 있는지를 보다 명확하게 이해할 수 있을 것이다.

온라인 정보 보호: 소셜 미디어 내 정보 유출 반응 분석 (Online Privacy Protection: An Analysis of Social Media Reactions to Data Breaches)

  • 서승우;고영준;이홍주
    • 지식경영연구
    • /
    • 제25권1호
    • /
    • pp.1-19
    • /
    • 2024
  • 최근 개인 정보 유출 사건이 빈번히 발생하고 빈도가 갈수록 증가하는 추세이지만, 개인 정보 유출 사건에 대한 사회나 정보주체인 시민들의 반응은 크게 대두되고 있지 않다. 또한, 개인 정보 유출 사건들에 대한 정보 주체의 반응을 여러 해 기간동안의 데이터에 기반하여 비교하는 연구는 많이 수행되어 있지 않다. 따라서, 본 연구는 2014년 1월부터 2022년 10월까지 국내에서 발생한 주요 개인정보 유출 사건들에 대한 정보주체의 소셜미디어 반응 변화를 분석하였다. 각 사건들이 발생한 직후 일주일간의 기간 동안 네이버 블로그에 작성된 총 1,317건의 포스팅을 수집하였다. 이 포스팅들에 대해 LDA 토픽 모델링 기법을 적용하여 주제를 분석한 결과, 개인정보 유출, 해킹, 정보기술 등 5개의 주요 토픽이 도출되었다. 토픽 분포의 시간변화를 분석한 결과, 개인정보 유출 사건 직후에는 해당 사건에 대한 직접적인 언급 토픽의 비중이 가장 높았으나, 시간이 지나면서 개인정보 유출과 간접적으로 관련된 토픽의 언급 비중이 증가하는 것을 확인하였다. 이는 개인정보 유출 사건 발생 후 정보주체의 관심이 시간이 지남에 따라 해당 사건에서 벗어나 관련 토픽으로 옮겨지고, 개인정보 보호에 대한 관심 또한 줄어든다는 것을 의미한다. 본 연구 결과는 향후 개인정보 유출 사건 이후 정보주체의 프라이버시 인식 변화에 대한 연구의 필요성을 시사한다.

SNS 감성분석을 이용한 정보 추출 방법론에 관한 연구 (Study on the Methodology for Extracting Information from SNS Using a Sentiment Analysis)

  • 홍두표;정하림;박상민;한음;김홍회;윤일수
    • 한국ITS학회 논문지
    • /
    • 제16권6호
    • /
    • pp.141-155
    • /
    • 2017
  • 최근 SNS 이용이 활발해짐에 따라 많은 사람들이 특정 이벤트 등에 대한 자신들의 생각을 비정형 데이터인 텍스트 형태로 자신의 SNS에 게시하고 있다. 이에 따라 금융, 유통 등 다양한 분야에서 이미 SNS를 이용하여 서비스 만족도 조사, 소비자 요구사항 모니터링, 대선 후보 선호도 등을 수행하고 있다. 하지만 교통 분야에서는 감성분석과 같은 비정형 데이터 분석을 활용하는 사례가 부족한 실정이다. 이에 본 연구에서는 한국도로공사에서 수집한 비정형 데이터인 고속도로 VOC 데이터를 이용하여 교통분야에서 사용할 수 있는 감성분석 방법론을 개발하였다. 개발된 감성분석 방법론은 수집된 비정형 데이터에 대한 형태소 분석, 감성사전 구축, 감성 판별 등으로 구성되어 있다. 개발된 방법론은 고속도로 관련 트윗 데이터를 이용하여 검증하였다. 분석 결과, 분석 기간 동안 고속도로와 관련하여 공사, 사고에 대한 정보 전달이 많이 이루어졌음을 짐작할 수 있었다. 또한 공사 및 사고로 인해 발생한 지체에 대하여 이용자들의 불만이 높았던 것으로 판단된다. 결론적으로 SNS 감성분석이 교통분야에서도 의미 있는 정보추출이 가능한 기법임을 확인하였다.

텍스트 마이닝과 네트워크 분석을 이용한 지역 이미지 변화 분석 (Regional Image Change Analysis using Text Mining and Network Analysis)

  • 정은희
    • 한국정보전자통신기술학회논문지
    • /
    • 제15권2호
    • /
    • pp.79-88
    • /
    • 2022
  • 소셜미디어 빅데이터는 소비자의 소비형태 뿐만 아니라 지역의 이미지를 파악할 수 있는 많은 정보가 포함되어 있다. 본 논문에서는 국내 포털 사이트인 네이버와 다음의 Blog와 Cafe로부터 '삼척'이 포함된 데이터를 2015년부터 2019년까지 1년 단위로 수집하였고, 텍스트 마이닝과 네트워크 분석을 실시하여 지역 이미지를 형성하는 키워드를 추출하고 지역 이미지 변화를 분석하였다. 연구 결과에 따르면, 2015년 지역 이미지는 '장호항', '동해', '해수욕장' 등 인근 지명이나 장소 등의 이미지 인지적 요소들로 표현되고 있는데, 2016년과 2019년은 지역 내의 특정 장소인 삼척쏠비치로 이미지 인지적 요소가 변한 것을 알 수 있다. 그리고 지역 이미지와 연관된 키워드들이 삼척을 대표하는 명소인 '장호항', 리조트가 포함하고 있는 것을 보아 지역 이미지 형성에 인프라 시설 요소가 큰 역할을 한다고 볼 수 있다. 네트워크 데이터에 대한 유의성 검증은 부트스트랩 기법을 이용하였고, 2015년, 2016년, 2019년 p-value가 각각 0.0002, 0.0006, 0.0002로 유의수준 5%에서 통계적으로 유의한 것으로 나타났다.

텍스트 마이닝과 감성 분석을 통한 연애관의 변화 연구 : <공항가는 길>과 <이번 주 아내가 바람을 핍니다>를 중심으로 (A Study on the Change of the View of Love using Text Mining and Sentiment Analysis)

  • 김경애;구진희
    • 디지털융복합연구
    • /
    • 제15권2호
    • /
    • pp.285-294
    • /
    • 2017
  • 이 연구에서는 기혼자의 연애를 소재로 하는 최근 드라마에 대한 빅데이터 분석을 수행하여 현대인의 연애관의 변화에 대해 살펴보았다. 정 반대의 서사적 지향을 지닌 드라마 두 편을 선정하여 각각 드라마 종영 후부터 1개월 기간에 대한 시청자들의 공감도를 텍스트 마이닝과 감성 분석 기법을 사용하여 분석하였는데, 그 결과 현대 한국 사회에서 기혼자의 연애에 대한 생각이 변화하고 있다는 결론을 얻었다. 특히 가정의 의미 변화가 확인되는데, 가정은 '남편과 아내라는 사회적 역할을 수행하는 곳'이 아니라, '진정한 교감과 위안을 나눌 수 있고 개인이 행복해야 하는 곳'으로 그 의미가 변화했다고 볼 수 있다. 개인이 행복하지 않다면, 가정을 깨뜨리는 일도 필요하다는 결론이 가능한 것이다. 이런 맥락에서 현대의 이혼율과 이에 대한 문제도 고구되어야 할 것으로 보인다. 그러나 구글 트렌드 검색을 통하여 살핀 결과, 현대 한국 사회에서는 여전히 연애보다 결혼에 대한 관심도가 훨씬 높음을 알 수 있었다. 현대 한국사회에서 아직까지는 '연애를 위한 연애' 곧 '결혼을 목표로 하지 않은 연애'를 선호하고 있지 않음을 뜻한다. 결혼에 비해 연애에 대해 관심이 적은 것이라기보다, 진정한 사랑을 전제로 결혼이 이루어져야한다는 인식이 반영된 결과로 해석할 수 있다. 이와 같은 연구는 소셜미디어를 통한 트렌드 변화 연구에 활용될 수 있을 것으로 기대된다.

맵리듀스에서 데이터의 유용성을 이용한 데이터 분할 기법 (Data Partitioning on MapReduce by Leveraging Data Utility)

  • 김종욱
    • 한국멀티미디어학회논문지
    • /
    • 제16권5호
    • /
    • pp.657-666
    • /
    • 2013
  • 현대사회는 소셜 미디어, 비즈니스, 바이오 인포메틱스 같은 다양한 응용프로그램에서 지속적으로 생산되어 지고 있는 수많은 데이터의 빠른 유입으로 특징지어 지고 있다. 이에 따라 폭발적으로 증가하고 있는 대규모 데이터를 보다 효율적으로 분석하고 처리 할 수 있는 방법이 그 어느 때보다 강조 되고 있다. 지난 몇 년간 학계에서는 배치 지향 시스템 (batch oriented system) 환경 내에서 병렬 처리를 효과적으로 지원할 수 있는 맵리듀스 기법이 활발히 연구 되어 왔으며, 맵리듀스 기법은 다양한 분야에서 성공적으로 사용되고 있다. 그러나 이 기법은 데이터의 상대적 유용성 (data utility)을 고려하지 않기 때문에, 멀티미디어 응용프로그램 사용자의 특성 (즉, 높은 혹은 낮은 스코어를 가지는 몇몇 결과물에 관심을 가지는 사용자들의 특성)으로 인하여 효과적인 성능을 보여 주지 못하고 있다. 따라서 본 논문에서는 이러한 문제점을 해소하기 위해, 맵리듀스 상에서의 데이터 분할 방식을 제안한다. 또한, 제안된 분할 방식에 대한 성능 실험을 통하여 우리가 제안하는 데이터 분할 방식이 기존 방식보다 성능 향상을 자져올 수 있음을 보여준다.