• 제목/요약/키워드: 소셜 마이닝

검색결과 216건 처리시간 0.023초

소셜 미디어 데이터 분석을 활용한 빅데이터에 대한 인식 변화 비교 분석 (A Comparative Analysis of Cognitive Change about Big Data Using Social Media Data Analysis)

  • 윤유동;조재춘;허윤아;임희석
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제6권7호
    • /
    • pp.371-378
    • /
    • 2017
  • 최근 모바일의 확산과 웹 서비스의 도입으로 온라인 상에 데이터가 급격히 증가하게 되어 다양한 분야에서 활용되고 있다. 특히, 빅데이터 분야에서 소셜 미디어의 등장은 축적되는 비정형 데이터의 양이 급격하게 증가하는 계기가 되었다. 이러한 비정형 데이터로부터 의미 있는 정보를 추출하기 위해 다양한 분야에서 빅데이터 기술에 대한 관심이 증가하고 있다. 빅데이터는 선진국을 중심으로 다양한 분야에서 핵심 자원으로서 중요성이 부각되고 있다. 그러나 빅데이터의 긍정적인 미래 전망과 함께 데이터의 침해 및 개인정보 보호에 대한 우려가 지속적으로 언급되고 있다. 이와 같이 긍정적인 시각과 부정적인 시각이 공존하는 빅데이터에 대해 사람들의 의견을 분석하는 연구는 현재 매우 부족한 상황이다. 이에 본 연구에서는 텍스트 마이닝을 활용하여 소셜 미디어에서 수집한 비정형 데이터를 기반으로 빅데이터에 대한 사람들의 인식 변화를 비교하였다. 텍스트 마이닝 결과, 국내 빅데이터에 대한 연도별 키워드와 함께 시간의 흐름에 따라 감소하는 긍정적인 의견과 증가하는 부정적인 의견이 관찰되었다. 그리고 이러한 분석 결과를 기반으로 국내 빅데이터에 대한 흐름을 예측할 수 있었다.

위치기반 소셜 미디어 데이터의 텍스트 마이닝 기반 공간적 클러스터링 분석 연구 (Spatial Clustering Analysis based on Text Mining of Location-Based Social Media Data)

  • 박우진;유기윤
    • 대한공간정보학회지
    • /
    • 제23권2호
    • /
    • pp.89-96
    • /
    • 2015
  • 위치기반 소셜 미디어 데이터는 빅데이터, 위치기반서비스 등 다양한 분야에서 활용가능성이 매우 큰 데이터이다. 본 연구에서는 위치기반 소셜 미디어 데이터의 텍스트 정보를 분석하여 주요한 키워드들이 공간적으로 어떻게 분포하고 있는지를 파악할 수 있는 일련의 분석방법론을 적용해보았다. 이를 위해, 위치태그를 지닌 트윗 데이터를 서울시 강남지역과 그 주변지역에 대하여 2013년 8월 한달 간 수집하였으며, 이 데이터를 대상으로 하여 텍스트 마이닝을 통해 주요 키워드들을 도출하였다. 이러한 키워드들 중 음식, 엔터테인먼트, 업무 및 공부의 세 카테고리에 해당하는 키워드들만 추출, 분류하였으며 각 카테고리에 해당하는 트윗 데이터들에 대해서 공간적 클러스터링을 실시하였다. 도출된 각 카테고리별 클러스터들을 실제 그 지역의 건물 또는 벤치마크 POI들과 비교한 결과, 음식 카테고리 클러스터는 대규모 상업지역들과 일치도가 높았고 엔터테인먼트 카테고리의 클러스터는 공연장, 극장, 잠실운동장 등과 일치하였다. 업무 및 공부 카테고리 클러스터들은 학원 밀집지역 및 사무용 빌딩 밀집지역과 높은 일치도를 나타내었다.

텍스트 마이닝과 소셜 네트워크 분석을 이용한 재난대응 용어분석 (Analyzing Disaster Response Terminologies by Text Mining and Social Network Analysis)

  • 강성경;유환;이영재
    • 경영정보학연구
    • /
    • 제18권1호
    • /
    • pp.141-155
    • /
    • 2016
  • 세월호 침몰사고, 판교 환풍구 붕괴사고 등 재난은 점차 복합적이고 대형화되고 있다. 따라서 이러한 재난에 신속히 대응하기 위한 기관들의 협업 또한 중요해지고 있다. 다수기관 간 협업과정에서는 다양한 용어를 바탕으로 의사소통이 이루어진다. 의사소통은 '용어'를 기반으로 하므로 '용어'에 대한 중요성 또한 간과할 수 없다. 따라서 본 연구에서는 재난현장에서 사용하는 용어를 선정하여 텍스트 마이닝 및 소셜 네트워크 분석(SNA: Social Network Analysis)을 이용해 어떤 용어가 대응과정에 있어 핵심적인 용어인지를 파악해보았다. 텍스트 마이닝의 TDM을 이용하여 역문헌 빈도수를 산출해 용어와 문서 간의 관계를 알아보고, SNA를 통해 노드(용어)와 노드 사이의 관계를 파악하였다. 용어분석의 결과 표현은 용어 간의 유기적인 관계를 시각화할 수 있는 마인드맵(Mind Map)을 이용하였다. 용어는 미국의 NIMS, EMR, 그리고 우리나라의 재난 및 안전관리 기본법을 토대로 온톨로지 개념에 따라 계층적(Class, Object, Instance)으로 분류하였으며. 신문기사와 사설, 정책보고서 등의 정부 간행물에서 선정하였다. 이러한 재난대응 핵심용어의 파악은 재난현장에서 사용하는 용어를 표준화하기 위한 기초자료로 활용할 수 있으며, 온톨로지 개념에 따라 용어들을 계층적으로 분류하였기 때문에 재난 대응에 대한 다양한 자료들을 축적하고 검색하는데 용어의 분류체계를 활용할 수 있다. 이 밖에 사고대응 시나리오 작성 시에도 핵심용어를 활용할 수 있을 것으로 판단된다.

SNS 환경에서 양방향 헬스케어 질의응답 서비스 개발을 위한 사용자 질문 추출 및 분류 방법 연구 (Extracting and Classifying User Questions to Develop Bidirectional Healthcare Q&A Services in an SNS Environment)

  • 오교중;김승석;최호진
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2011년도 한국컴퓨터종합학술대회논문집 Vol.38 No.1(C)
    • /
    • pp.198-201
    • /
    • 2011
  • 본 연구는 현재 널리 사용되고 있는 소셜네트워크 속에서 일반 사용자들이 의료 도메인의 전문가들과 쉽게 질문과 응답을 주고 받을 수 있게 해주는 서비스 개발을 위한 기초 연구로써, 사용자의 문서를 분석하여 질문을 추출해 내고 어떤 의료 도메인에 해당하는 질문인지 분류하는 연구이다. 한글로 구성된 문서 속에서 질문에 해당하는 형태소 분석 방법을 이용하야 질문을 추출을 한 다음 질문 속의 단어 들을 분석하여 KORLEX를 이용한 단어간의 관계성을 분석하여 도메인을 분류하는 작업을 거친다. 또한 본 연구는 텍스트마이닝 기법과 인공지능의 분류 기법을 응용하여 소셜네트워크 속에서 질문과 응답을 분석하여, 의료 도메인의 전문가들이 볼 수 있게 함으로써, 소셜네트워크를 이용한 양방향의 질의응답 서비스를 제공 한다. 이 같은 양방향 질의응답 서비스를 통해 헬스케어 및 의료 관리 서비스를 받을 수 있다. 본 논문은 소셜네트워크 상에서 사용자들이 올린 헬스케어에 관련된 질문들을 추출하고 분류해 주는 과정에 한정하여 진행된 결과를 기술한다.

소셜 텍스트의 주요 정보 추출을 위한 로지스틱 회귀 앙상블 기법 (Logistic Regression Ensemble Method for Extracting Significant Information from Social Texts)

  • 김소현;김한준
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제6권5호
    • /
    • pp.279-284
    • /
    • 2017
  • 빅데이터 시대를 맞이하여 텍스트마이닝과 오피니언마이닝의 활용도가 커지고 있는 시점에서 소셜 네트워크 서비스로부터 유용한 정보를 추출하는 작업은 매우 중요한 연구 주제 중 하나이다. 이에 본 논문은 블로그 HTML 문서에서 주요 본문을 찾는 로지스틱 회귀 앙상블 기법을 제안한다. 먼저, 블로그 HTML 태그에서 구조적 특징, 텍스트 특징을 추출한다. 그 다음, 블로그 HTML 문서에서 추출한 태그 특징에 로지스틱 회귀 및 앙상블 기법을 적용하여 본문을 포함하는 태그를 분류하는 모델을 구성한다. 본 연구의 중요한 발견 중 하나는 태그의 깊이 특징을 이용하여 주요 본문을 찾을 수 있다는 점이다. 다양한 주제의 국내 블로그 데이터를 이용한 실험에서 태그 분류 정확도가 99%, 본문을 찾아낸 문서의 비율이 80.5%로 평가되었다.

키워드 분석 기반 '전통' 용어의 트렌드 분석 (1920~2017) (Exploring 'Tradition' Terminology Trends based on Keyword Analysis (1920~2017))

  • 김민정;김철주
    • 한국콘텐츠학회논문지
    • /
    • 제18권12호
    • /
    • pp.421-431
    • /
    • 2018
  • 본 연구는 우리나라에서 '전통' 용어의 트렌드를 분석하기 위해 과거 신문기사를 수집하여 텍스트 마이닝 기법과 소셜네트워크분석 기법을 수행하였다. 이러한 문헌을 분석하는데 있어서 과거의 해석적 연구 방법을 사용하지 않고 비정형 텍스트 자료에 근거한 정량적 분석을 통해 '전통' 논의들이 신문기사에서는 어떻게 보도되어 왔는지를 분석해봄으로써 우리사회 '전통' 용어의 동향을 파악하였다. 분석 대상은 1920년대부터 2017년까지 미디어에 등장한 '전통' 관련 신문기사 2,481,143건을 수집하였다. 다음으로 시대별 신문기사에 대한 빈도분석을 통해 '전통' 관련 어떤 키워드들이 자주 나타나고 있는지에 대해 파악하였다. 또한 '전통' 관련 키워드들간 연관어 분석을 통해 '전통' 키워드의 연결 맥락을 파악하였다. 마지막으로 소셜네트 워크분석을 통해 키워드들간에 유기적인 관계를 분석하고 군집화하였다. 이러한 텍스트 마이닝 기법을 적용함으로써 객관적이고 가치 중립적인 입장으로 '전통' 관련 사회문화현상에 대한 의미를 포착하고 시대별 '전통'이 담고 있는 사회적 상징성을 파악할 수 있다.

소셜 빅데이터분석을 통한 외국인근로자에 관한 국민 인식 분석과 정책적 함의 (Analysis of Public Perception and Policy Implications of Foreign Workers through Social Big Data analysis)

  • 하재빈;이도은
    • 디지털융복합연구
    • /
    • 제19권11호
    • /
    • pp.1-10
    • /
    • 2021
  • 본 연구에서는 빅데이터 기법 중에 하나인 텍스트마이닝을 활용하여 소셜플랫폼에서 외국인근로자에 대한 인식을 알아보고 시사점을 도출하고자 하였다. 연구를 위해서 2020년 1월 1일부터 12월 31일까지를 기준으로 '외국인근로자' 검색 키워드를 수집하여 빈도분석, TF-IDF 분석, 연결중심성 분석으로 상위 키워드 100개를 도출하고 비교분석을 수행하였다. 또한 Ucinet6.0과 Netdraw를 이용해 의미연결망을 분석하였으며, CONCOR 분석을 통해 외국인정책 이슈, 지역사회 이슈, 사업주 관점 이슈, 고용 이슈, 근로환경 이슈, 법적 이슈, 출입국 이슈, 인권 이슈로 8개 클로스터로 군집화하였다. 이러한 분석 결과를 바탕으로 외국인근로자 국민적 인식, 주요 이슈를 파악하였으며, 향후 외국인근로자에 대한 정책 및 관련 연구에 필요한 기초자료를 제공하고자 한다.

텍스트 마이닝과 소셜 네트워크 분석 기법을 활용한 소비자의 의복 맞음새(Fit)평가에 영향을 미치는 특성 (Using Text Mining and Social Network Analysis to Identify Determinant Characteristics Affecting Consumers' Evaluation of Clothing Fit)

  • 황수현;박주연
    • 감성과학
    • /
    • 제26권1호
    • /
    • pp.101-114
    • /
    • 2023
  • 본 연구의 목적은 텍스트 마이닝과 소셜 네트워크 분석을 활용한 소비자 맞음새 평가의 주요 특징을 규명하는 것이다. 이를 위해 SNS에서 수집된 소비자의 2,000여건의 의복 맞음새 평가 후기로부터 의복 맞음새 관련된 텍스트 데이터를 추출하고 의미연결망 분석과 CONCOR 분석을 수행하였다. 연구 결과, '팬츠'와 '스커트'가 많은 맞음새평가어를 공유하며 다양한 형태로 평가되는 것을 확인하였고 의복의 길이가 가장 많이 평가되었다. 인체부위 중 '허리'는 다양한 의복의 맞음새를 평가하는 가장 중요한 부분이며 의복 맞음새평가어 중 '넓은', '큰', '와이드한', '긴' 등이 가장 많이 사용되는 것으로 나타났다. 본 연구는 소비자 맞음새 평가에 사용된 언어의 구조적 관계와 의미를 구체적으로 규명하고 의복 맞음새의 향상을 위한 실증적 기초 자료를 제공하는데 의의가 있다.

맵리듀스 기반 DFP-Tree를 이용한 클러스터링 알고리즘 (Clustering Algorithm using the DFP-Tree based on the MapReduce)

  • 서영원;김창수
    • 인터넷정보학회논문지
    • /
    • 제16권6호
    • /
    • pp.23-30
    • /
    • 2015
  • 빅 데이터가 이슈화됨에 따라 데이터 분석의 결과를 기반으로 동작하는 많은 응용들이연구되고 왔고, 대표적인 응용들은 전자상거래 시스템의 상품 추천 서비스, 검색 엔진에서의 검색 서비스, 소셜 네트워크 서비스에서의 친구 추천 서비스 등이 있다. 본 논문은 기존의 데이터 마이닝 기법 중 데이터 집합에서 나타나는 유사한 패턴들을 마이닝하는 빈발 패턴 트리와 컴퓨터 과학의 이론에 기초한 결정트리를 결합하여 결정 빈발 트리 알고리즘을 제안한다. 이는 기존의 빈발 패턴 트리 알고리즘은 패튼 트리에서 패턴 생성에 대한 정확성은 보장되나 소셜 데이터처럼 다양한 패턴이 나타는 데이터에 대해서는 많은 수의 패턴들을 생성시켜 분석에 대한 어려움이 있어, 서브트리들과의 수렴 여부를 판단하는 모델로 변형시켜 문제를 개선한다. 또한 맵리듀스로 모델링하여 분산처리를 통한 고속 처리 알고리즘을 제시한다.

교통망 관찰과 도시 특징지도를 위한 퍼지영역 온톨로지 기반 오피니언 마이닝 (Fuzzy Domain Ontology-based Opinion Mining for Transportation Network Monitoring and City Features Map)

  • 알리;곽대한;리아즈;김계현;곽경섭
    • 한국ITS학회 논문지
    • /
    • 제15권1호
    • /
    • pp.109-118
    • /
    • 2016
  • 트래픽 혼잡이 도심지역에서는 급속히 증가하고 있다. 이 문제를 해결하기 위하여 유용한 핵심 정보를 사용하여 트래픽 상황을 신속하게 인지할 수 있는 실시간 그리고 지능적인 방안이 필요하다. 본 연구는 실시간 교통망을 관찰하고 여행자를 위한 도시의 극성 지도를 구축하기 위하여 퍼지기반 오피니언 마이닝 시스템을 제안한다. 제안된 시스템은 도시의 교통 상황에 관련한 트위터 및 리뷰를 추출하고, 특징 오피니언을 추출하여, 퍼지기반 오피니언 마이닝 시스템를 사용하여 교통 및 도시의 특징적 극성을 규명한다. $Prot{\acute{e}}g{\acute{e}}$ OWL 과 자바를 사용하여 퍼지기반 오피니언 마이닝 시스템과 그 지능형 프로토타입을 개발한다. 실험을 통하여 트위트 및 리뷰의 분석과 오피니언 마이닝 측면에서 성능이 개선됨을 확인하였다.