• 제목/요약/키워드: social media data

검색결과 1,219건 처리시간 0.029초

엔트로피 점수를 이용한 감성분석 분류알고리즘의 수행도 평가 (Evaluation of Classification Algorithm Performance of Sentiment Analysis Using Entropy Score)

  • 박만희
    • 한국정보통신학회논문지
    • /
    • 제22권9호
    • /
    • pp.1153-1158
    • /
    • 2018
  • 다양한 온라인 고객 평가 및 소셜 미디어 정보는 고객의 의사결정에 영향을 미치기 때문에 기업에게 매우 중요한 정보 출처라고 할 수 있다. 설문 조사를 통해 고객의 다양한 요구와 불만 사항을 파악하는 데는 많은 비용과 시간적인 제약이 발생하고 있다. 온라인 쇼핑몰의 고객 후기 데이터는 제품에 대한 고객들의 감성을 분석할 수 있는 이상적인 자료를 제공하고 있다. 본 연구에서는 삼성과 애플 스마폰에 대한 감성분석을 위해 아마존 쇼핑몰로부터 고객 리뷰 데이터를 수집하였다. 선행 연구에서 대표적인 감성분석 기법으로 사용된 5가지 분류 알고리즘을 적용하였다. 5가지 분류알고리즘은 support vector machines, bagging, random forest, classification or regression tree, maximum entropy 등이다. 본 연구에서는 분류 알고리즘의 수행도를 종합적으로 평가할 수 있는 entropy score를 제안하였다. Entropy score를 이용하여 5가지 알고리즘을 평가한 결과에 따르면 support vector machines 알고리즘의 entropy score가 가장 높은 것으로 분석되었다.

주의집중 및 복사 작용을 가진 Sequence-to-Sequence 순환신경망을 이용한 제목 생성 모델 (Title Generation Model for which Sequence-to-Sequence RNNs with Attention and Copying Mechanisms are used)

  • 이현구;김학수
    • 정보과학회 논문지
    • /
    • 제44권7호
    • /
    • pp.674-679
    • /
    • 2017
  • 대용량의 텍스트 문서가 매일 만들어지는 빅데이터 환경에서 제목은 문서의 핵심 아이디어를 빠르게 집어내는데 매우 중요한 단서가 된다. 그러나 블로그 기사나 소셜 미디어 메시지와 같은 많은 종류의 문서들은 제목을 갖고 있지 않다. 본 논문에서는 주의집중 및 복사 작용을 가진 sequence-to-sequence 순환신경망을 사용한 제목 생성 모델을 제안한다. 제안 모델은 양방향 GRU(Gated Recurrent Unit) 네트워크에 기반 하여 입력 문장을 인코딩(encoding)하고, 입력 문장에서 자동 선별된 키워드와 함께 인코딩된 문장을 디코딩함으로써 제목 단어들을 생성한다. 93,631문서의 학습 데이터와 500문서의 평가 데이터를 가진 실험에서 주의집중 작용방법이 복사 작용방법보다 높은 어휘 일치율(ROUGE-1: 0.1935, ROUGE-2: 0.0364, ROUGE-L: 0.1555)을 보였고 사람이 정성평가한 지표는 복사 작용방법이 높은 성능을 보였다.

단어 임베딩 기법을 이용한 한글의 의미 변화 파악 (Understanding the semantic change of Hangeul using word embedding)

  • 선현석;이영섭;임창원
    • 응용통계연구
    • /
    • 제34권3호
    • /
    • pp.295-308
    • /
    • 2021
  • 최근 들어 많은 사람들이 자신의 관심사를 SNS에 게시하거나 인터넷과 컴퓨터의 기술 발달로 디지털 형태의 문서 저장이 가능하게 됨으로써 생성되는 텍스트 자료의 양이 폭발적으로 증가하게 되었다. 이에 따라 수많은 문서 자료로부터 가치 있는 정보를 창출하기 위한 기술의 요구 또한 증가하고 있다. 본 연구에서는 대통령 연설 기록문과 신문기사 공공데이터를 활용하여 한글 단어들이 시간에 따라 어떻게 의미가 변화되어 가는지를 통계적 기법을 통해 발굴하였다. 이를 이용하여 한글의 통시적 변화 연구에 활용할 수 있는 방안을 제시한다. 기존 언어학자나 원어민의 직관에 의해 연구되던 한글의 이론적 언어 현상 연구에서 벗어나 누구나 사용할 수 있는 공공문서를 통해 수치화된 값을 도출하고 단어의 의미변화 현상을 설명하고자 한다.

미디어 빅데이터를 통한 요가 관련 키워드 분석 (Analysis of Yoga Keywords with Media Big Data)

  • 지동철;임휴성;김종혁
    • 한국융합학회논문지
    • /
    • 제13권5호
    • /
    • pp.365-372
    • /
    • 2022
  • 한국은 고령화 사회에 접어들었으며, 노인의 일상생활에 직접적인 영향을 주는 근골격계는 근육운동과 유연성이 필수적이다. 특히 요가는 정신과 신체를 완화시키고 스트레스 대처 능력을 향상시킨다. 이에 요가와 관련된 키워드를 알아보기 위해 뉴스분석시스템인 빅카인즈(BIGKinds)에서 제공하는 신문기사를 활용하여 2019년 1월 1일부터 2021년 12월 31일까지의 기사를 수집하였으며, 월별 키워드 분석과 가중도에 따른 관계도 분석을 실시하였다. 결론적으로 첫째, 요가는 계절로 볼 때 봄과 가을에 관심이 높은 것으로 나타났다. 둘째, 최근 요가는 비대면 방식을 통해서 실시되고 있으며, 다양한 SNS를 활용하여 운영되고 있는 것으로 나타났다. 셋째, 요가를 지도하는 요가강사, 트레이너의 관련 기사가 높게 나타났으며, 이에 따라 온라인 지도의 중요성과 관심도를 알 수 있다. 향후 요가 관련 운동프로그램 개발과 국민 생활체육 발전을 위한 기초자료로 활용될 것을 기대한다.

YOLO-v4를 활용한 작업장의 위험 객체와 작업자 간 거리 예측 모델의 구현 (Implentation of a Model for Predicting the Distance between Hazardous Objects and Workers in the Workplace using YOLO-v4)

  • 이태준;조민우;김한길;김택천;정회경
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2021년도 추계학술대회
    • /
    • pp.332-334
    • /
    • 2021
  • 산업재해로 인한 사망사고와 함께 시민재해로 인한 사망사고 발생 등이 사회적 문제로 지적됨에 따라 작업장에서 발생하는 중대재해 처벌 등에 관한 법률이 제정되어 시민의 안전권 보장과 중대재해를 사전에 방지하기 위한 노력이 요구되는 실정이다. 본 논문에서는 지게차와 같은 중장비에 작업자가 치이는 경우와 관련해 거리 예측 모델을 제안한다. 데이터는 실제 지게차와 작업자가 배회하는 환경을 CCTV로 직접 촬영한 영상을 사용했으며 유클리디안 거리 기반으로 진행하였다. 산업 현장에서 데이터 셋을 직접 구축해 YOLO-v4를 학습하고 이를 통해 거리를 예측하여 위험한 상황인지 판정하는 모델을 구현하여 종합 위험 상황 판단 모델의 기초 자료로 활용할 수 있을 것으로 사료된다.

  • PDF

루씬을 이용한 빅데이터 인덱싱 및 검색시스템의 설계 및 구현 (A Design and Development of Big Data Indexing and Search System using Lucene)

  • 김동민;최진우;우종우
    • 인터넷정보학회논문지
    • /
    • 제15권6호
    • /
    • pp.107-115
    • /
    • 2014
  • 최근 소셜 미디어 사용의 증가, 산업간 융합의 확대, 다양한 스마트 기기의 보급을 통한 인터넷의 이용이 증가하면서 수많은 데이터를 발생시키고 있다. 이들 데이터들은 크기가 매우 크고, 형식이 다양하며, 순환속도가 매우 빨라 기존의 데이터 처리기술만으로는 관리와 분석이 어려운 실정이다. 즉, 수십 테라에 이르는 데이터의 폭증 및 데이터의 다양화에 따라 빠르게 분석하는 기술이 미흡하며, 이러한 문제점들을 해결하기 위한 새로운 기술적 방안이 절실히 요구되고 있다. 이러한 빅데이터의 처리기술에 대한 많은 연구가 최근 활성화 되고 있으며, 본 연구에서는 이러한 관점에서 빅데이터 플랫폼의 효과적인 인덱싱 엔진의 설계 및 구현에 관하여 기술한다. 즉, 기존의 데이터 처리기술의 범위를 초과하는 대규모의 데이터 집합을 효율적으로 관리하고, 인덱싱을 통한 검색속도의 향상으로 데이터 분석 시 소요되는 시간 단축을 연구목표로 한다. 본 연구의 실험을 위해서는 대규모 SNMP(Simple Network Management Prtocool) 로그 데이터를 사용하였으며, 효율적 데이터의 인덱싱을 통한 빠른 검색으로 데이터 분석시의 시간을 최대한 단축하고자 하였다. 또한 분석된 데이터의 표현의 가시화를 통하여 사용자의 데이터 분석에도 도움이 될 것으로 기대한다.

스마트폰을 활용한 항공사의 협업 사례 연구: 훈련 기간과 운영 기간의 차이 분석 (An Asian Airline Implementation of Smartphone Collaboration: From Training to Operations)

  • ;;김용영
    • 한국융합학회논문지
    • /
    • 제9권10호
    • /
    • pp.303-313
    • /
    • 2018
  • 공항에서 품질 높은 서비스를 제공하기 위해 항공사 직원들은 신속하고 효과적으로 지식을 개발하여 공유하여야 한다. 본 연구는 항공사에서 스마트폰을 이용한 협업의 효과를 검증하기 위하여 적응적 구조화 이론과 미디어 일치성 이론에 근거하여 사회적 상호작용, 미디어 일치성, 생산적 산출물로 이어지는 이론적 프레이워크를 개발하였다. 아시아에 거점을 둔 항공사A를 대상으로 훈련 및 운영 기간 동안 33명 인력으로부터 S사에서 제작한 10대의 스마트폰을 이용해 대화한 내용이 담긴 6개월간의 음성 파일을 수집하였다. 근거이론 방법에 기초하여 이론적 프레임워크에 따라 훈련 기간과 운영기간으로 나눠 이 음성 파일을 분류했다. 정성적 정량적 콘텐트 분석에 기반을 둔 훈련 기간과 운영 기간 간 차이 분석결과, 사회적 상호작용 단계에서는 갈등 관리에서 업무 관리로, 미디어 일치성 단계에서는 품질에서 양으로, 생산적 산출물 단계에서는 효율에서 몰입으로 주요한 전환이 발생하였다는 점을 발견하였다. 이러한 결과는 항공사 현업 인력들이 훈련기간 스마트폰 기능의 학습에 중점을 두는 반면, 운영 기간 스마트폰을 활용하여 지식 관리를 수행한다는 점을 시사한다.

보전문화체학 접근방식을 통한 생태계교란 생물인 담수 외래종의 대중인식 평가 (Assessment of Public Awareness on Invasive Alien Species of Freshwater Ecosystem Using Conservation Culturomics)

  • 박웅배;도윤호
    • 한국습지학회지
    • /
    • 제23권4호
    • /
    • pp.364-371
    • /
    • 2021
  • 담수 외래종에 대한 대중의 인식은 시대나 외래종과 관련된 특정 사건에 따라 달라진다. 인식차이는 관리계획을 수립하고 이해하는데 영향을 미쳐 외래종을 관리하는데 대중들의 인식을 이해하는 것이 중요하다. 본 연구에서는 보전문화체학 (Conservation culturomics)에서 사용하는 소셜 네트워크 플렛폼의 디지털 텍스트, 언론보도, 인터넷 검색량을 분석하여 담수 외래종에 대한 대중의 관심도와 감성을 파악하고자 하였다. 11종의 담수 외래종을 대상으로 트위터 게시글 수와, 언론보도량, 검색량을 추출하여 대중의 관심도를 파악하였다. 또한 이 자료들의 시간에 따른 추세와 계절 변동성여부, 자료의 반복 주기를 확인하였다. 수집된 자료를 텍스트마이닝 기법 기반의 감성분석을 통해 감성지수(sentiment score)로 산출해 각 종에 대한 대중들의 감성을 분석하였다. 연구결과 황소개구리와 뉴트리아, 파랑볼우럭, 큰입우럭은 다른 종들보다 상대적으로 많은 대중의 관심을 받는 것으로 확인되었다. 일부 종에서는 특정 시기에 따라 반복되고 변화하는 트윗량과, 언론보도량, 검색량을 나타냈다. 한편 텍스트마이닝 분석 결과, 대부분의 사람들이 담수 외래종에 대해 부정적인 감성을 가지고 있었다. 특히 생태계교란 생물이 지정된 이후 연도가 갈수록 부정적인 감성은 증가하였다. 하지만 과학적 근거가 없는 정보가 확산되거나 혐오를 증대시켜 담수 외래종을 관리하는 것은 한계가 있다. 따라서 외래종에 대한 대중들의 인식을 과학적으로 파악하여 관리방안이 수립되어야 한다.

공간지능화서비스 구현을 위한 공공데이터 분석 (An Analysis of the Public Data for Making the Ambient Intelligent Service)

  • 김미연;서동조
    • 디지털융복합연구
    • /
    • 제12권12호
    • /
    • pp.313-321
    • /
    • 2014
  • 현대 사회는 엄청난 양의 데이터를 만들어내는 디지털 시대에 접어들었고, 다변화되는 도시에서는 정보의 생성, 수집, 표현을 특징으로 하는 스마트 공간이 등장하고 있다. 2012년 이후 스마트기기의 확산과 초연결사회로 불리우는 소셜미디어 환경에서 공공데이터에 대한 관심이 더욱 고조되고, 보편화된 모바일 기기 사용 및 SNS 이용 확산에 따라 빅 데이터에 대한 이슈에 주목하고 있다. 초기에는 데이터의 플랫폼 구성에 연구개발이 집중되었으나 최근에는 공간지능화 서비스 구현을 위한 데이터의 분석과 활용방안에 대한 여러 분야의 아이디어가 제안되고 있다. 본 연구에서는 이러한 공공데이터의 활용성 측면에서 전문가보다는 일반인의 사용성 증대를 위한 시각화 과정에 집중하고자 기존의 공공데이터포털에서 제공하는 공개데이터 및 공공데이터 서비스 현황을 파악하여 그 활용가능성을 고찰하고자 한다. 연구의 결과로 일반 시민들에게 있어서 데이터의 분석 및 응용은 현재 종이문서의 이용을 감소시키고, 지능형 공간에서 공공정보서비스에 대한 개개인의 요구 및 행동에 맞추어 빠르고 신속한 대응할 수 있는 어플리케이션 개발에 도움이 될 것으로 기대한다.

이질성 학습을 통한 문서 분류의 정확성 향상 기법 (Improving the Accuracy of Document Classification by Learning Heterogeneity)

  • 윌리엄;현윤진;김남규
    • 지능정보연구
    • /
    • 제24권3호
    • /
    • pp.21-44
    • /
    • 2018
  • 최근 인터넷 기술의 발전과 함께 스마트 기기가 대중화됨에 따라 방대한 양의 텍스트 데이터가 쏟아져 나오고 있으며, 이러한 텍스트 데이터는 뉴스, 블로그, 소셜미디어 등 다양한 미디어 매체를 통해 생산 및 유통되고 있다. 이처럼 손쉽게 방대한 양의 정보를 획득할 수 있게 됨에 따라 보다 효율적으로 문서를 관리하기 위한 문서 분류의 필요성이 급증하였다. 문서 분류는 텍스트 문서를 둘 이상의 카테고리 혹은 클래스로 정의하여 분류하는 것을 의미하며, K-근접 이웃(K-Nearest Neighbor), 나이브 베이지안 알고리즘(Naïve Bayes Algorithm), SVM(Support Vector Machine), 의사결정나무(Decision Tree), 인공신경망(Artificial Neural Network) 등 다양한 기술들이 문서 분류에 활용되고 있다. 특히, 문서 분류는 문맥에 사용된 단어 및 문서 분류를 위해 추출된 형질에 따라 분류 모델의 성능이 달라질 뿐만 아니라, 문서 분류기 구축에 사용된 학습데이터의 질에 따라 문서 분류의 성능이 크게 좌우된다. 하지만 현실세계에서 사용되는 대부분의 데이터는 많은 노이즈(Noise)를 포함하고 있으며, 이러한 데이터의 학습을 통해 생성된 분류 모형은 노이즈의 정도에 따라 정확도 측면의 성능이 영향을 받게 된다. 이에 본 연구에서는 노이즈를 인위적으로 삽입하여 문서 분류기의 견고성을 강화하고 이를 통해 분류의 정확도를 향상시킬 수 있는 방안을 제안하고자 한다. 즉, 분류의 대상이 되는 원 문서와 전혀 다른 특징을 갖는 이질적인 데이터소스로부터 추출한 형질을 원 문서에 일종의 노이즈의 형태로 삽입하여 이질성 학습을 수행하고, 도출된 분류 규칙 중 문서 분류기의 정확도 향상에 기여하는 분류 규칙만을 추출하여 적용하는 방식의 규칙 선별 기반의 앙상블 준지도학습을 제안함으로써 문서 분류의 성능을 향상시키고자 한다.