• 제목/요약/키워드: 블로그 빅데이터

검색결과 66건 처리시간 0.03초

주의집중 및 복사 작용을 가진 Sequence-to-Sequence 순환신경망을 이용한 제목 생성 모델 (Title Generation Model for which Sequence-to-Sequence RNNs with Attention and Copying Mechanisms are used)

  • 이현구;김학수
    • 정보과학회 논문지
    • /
    • 제44권7호
    • /
    • pp.674-679
    • /
    • 2017
  • 대용량의 텍스트 문서가 매일 만들어지는 빅데이터 환경에서 제목은 문서의 핵심 아이디어를 빠르게 집어내는데 매우 중요한 단서가 된다. 그러나 블로그 기사나 소셜 미디어 메시지와 같은 많은 종류의 문서들은 제목을 갖고 있지 않다. 본 논문에서는 주의집중 및 복사 작용을 가진 sequence-to-sequence 순환신경망을 사용한 제목 생성 모델을 제안한다. 제안 모델은 양방향 GRU(Gated Recurrent Unit) 네트워크에 기반 하여 입력 문장을 인코딩(encoding)하고, 입력 문장에서 자동 선별된 키워드와 함께 인코딩된 문장을 디코딩함으로써 제목 단어들을 생성한다. 93,631문서의 학습 데이터와 500문서의 평가 데이터를 가진 실험에서 주의집중 작용방법이 복사 작용방법보다 높은 어휘 일치율(ROUGE-1: 0.1935, ROUGE-2: 0.0364, ROUGE-L: 0.1555)을 보였고 사람이 정성평가한 지표는 복사 작용방법이 높은 성능을 보였다.

빅데이터를 통한 내국인의 '한식' 인식 연구 : 텍스트마이닝과 의미연결망 중심으로 (A study on the Domestic Consumer's Perception of "Hansik" with Big Data Analysis : Using Text Mining and Semantic Network Analysis)

  • 박경원;윤희경
    • 한국융합학회논문지
    • /
    • 제11권6호
    • /
    • pp.145-151
    • /
    • 2020
  • 한국의 국가 브랜드 중 하나인 '한식'에 대한 내국인 소비자 인식 파악을 위해 검색어 '한식'으로 데이터 수집을 진행하였다. 분석 프로그램 텍스톰(Textom3.5)을 사용하여 2018년 11월 1일부터 2019년 10월 31일까지의 네이버 블로그와 뉴스 데이터를 수집하였다. 빈도 분석과 TF-IDF 분석 결과, 한식의 인식에서 '뷔페'가 가장 중요한 부분을 차지했다. 스타 셰프의 방송 콘텐츠가 한식의 인식에 영향을 미치고 있었으며, '퓨전화'와 '고급화' 등 한식에 대한 인식이 비단 전통성에 머무르고 있지만은 않음을 알 수 있었다. UCINET6와 NetDraw를 활용한 CONCOR 분석 결과, 다양한 식문화의 클러스터, 방송에 출연한 고급 레스토랑의 클러스터, 한식 브랜드 클러스터, 한식 뷔페의 클러스터가 형성되었다. 한식의 연상 이미지 강화를 위한 방안으로 뷔페 메뉴의 다양성을 차용한 한식 개발, 고급화된 한식 홍보를 위한 미디어 노출, 간편식 수요에 대한 마케팅적 시각과 콘텐츠 개발을 제안하는 바이다.

뉴스 빅데이터를 활용한 산림에 대한 사회적 인식 변화 분석 (An Analysis of Social Perception on Forest Using News Big Data)

  • 장윤선;이주은;나소연;이정희;서정원
    • 한국산림과학회지
    • /
    • 제110권3호
    • /
    • pp.462-477
    • /
    • 2021
  • 본 연구는 뉴스 기사와 사설의 빅데이터 분석을 통해 거시적 관점에서 국내 산림 정책의 변화와 산림에 대한 사회적 인식 변화를 고찰하는 것을 목적으로 하였다. 이를 위해 광복 이후인 1946년부터 2017년까지 7시기로 구분하여 중앙지와 경제지에 보도된 총 13,570건의 '산림' 관련 데이터를 수집하였고 키워드 및 구조등위성 분석(CONCOR: CONvergence of iterated CORrelations)을 실시하였다. 분석 결과, 첫째, '산림' 키워드의 기사 및 사설의 연도별 보도 건수 비율은 전반적으로 증가하였다. 둘째, 보도 분야에 있어서 '산림' 관련 뉴스 데이터는 1기(1946~1966년)에는 사회면에 집중되었다가 2기(1967~1972년)부터 5기(1988~1997년)에는 사회면과 경제면으로, 6기(1998~2007년)에는 문화면까지, 7기(2008~2017년) 이후에는 정치면까지 보도 비율이 높아지는 등 산림 관련 이슈가 다양한 분야로 확장되고 있는 것으로 나타났다. 셋째, 시기별로 정책적 패러다임의 변화가 사회적 인식 또한 크게 변화시키고 있음을 확인하였다. 1~2기에 사회적으로는 산림녹화, 보호에 관한 정책보다 생계에 직접적으로 체감되는 문제를 우선적으로 인식하였고 3~6기에 걸쳐서 경제성장을 이룩하면서 산림정책에 대한 계획적·과학적 조림의 필요성 인식(3기), 환경보호에 대한 인식(4기), 국토 보전에 대한 인식(5기), 환경·생태적 관점에서의 인식(6~7기)으로 확장되는 양상을 보였다. 본 연구는 산림에 관한 정책과 이에 대한 대중의 사회적 인식이 의미화되어 반영된 뉴스 빅데이터 자료를 활용하여 구명하였다는 데 의의가 있다. 향후 사회적 이슈를 도출하는 수단으로서 사설뿐 아니라 블로그, 유튜브 등 다양한 사회관계망 서비스(SNS;Social Network Service)의 텍스트 빅데이터와 GDP와 같은 시대별 경제지표를 더불어 활용한다면 대중의 담론, 인식 등을 좀 더 깊이있게 분석할 수 있으리라 판단된다.

빅데이터 분석기법을 통한 성주(星州) 세종대왕자태실(世宗大王子胎室)의 인식 및 활용방안 (A Recognition and Application Plan of Placenta Chamber of King Sejong's Princes by Big Data Analytical Technique)

  • 임진강;박지환
    • 한국전통조경학회지
    • /
    • 제36권1호
    • /
    • pp.78-88
    • /
    • 2018
  • 연구는 세종대왕자태실의 문화적 가치에 따른 활용방안을 수립하기 위한 것으로 대중이 가지는 다양한 인식과 의견을 종합 분석하고자 SNS를 통하여 데이터를 수집하고 분석에 활용하였다. 수집기간은 2007년 06월 01일-2017년 06월 30일까지(약 10년 동안)이며, '태실, 성주태실, 세종대왕자태실' 키워드를 포함하고 있는 블로그, 카페, 지식IN에서 자료를 수집하였다. 그리고 빅데이터 분석 기법인 텍스트 마이닝 기법을 활용하여 분석하였으며 주요 분석 결과에 따라 태실의 활용 방안을 도출하였다. 그 결과 세종대왕, 왕자, 성주, 풍수, 문화, 보존, 축복 등의 주요 키워드를 도출하였고, 키워드 '세계', '유산', '문화유산'의 연관성과 '태실', '경상북도', '문화재'의 연관성이 높아 세계문화유산으로서의 태실의 가치를 확인할 수 있었다. 그리고 태실 주변의 시설 재정비 및 환경개선을 통해 방문객들이 자극을 느끼거나 기분전환 할 수 있도록 유도할 수 있는 요인이 필요하다고 판단된다.

AI 키즈폰의 소비자리뷰 분석을 통한 제품개선 전략에 대한 연구 (Formulating Strategies from Consumer Opinion Analysis on AI Kids Phone using Text Mining)

  • 김도훈;차경진
    • 한국전자거래학회지
    • /
    • 제24권2호
    • /
    • pp.71-89
    • /
    • 2019
  • 기업은 소비자가 만족하는 제품을 개발하고 개선하기 위하여 설문조사와 같은 전통적인 마케팅리서치 방법을 이용하여, 소비자의 의견을 듣고, 분석하여 반영하는 노력을 한다. 최근에는 인터넷 사이트, 사회관계망(SNS) 등 소비자 커뮤니케이션 플랫폼에서 관련 자료를 수집하고 분석하는 방법이 주목을 받고 있다. 한편, 급속한 정보통신기술의 발달과 함께 이동통신사들이 아동을 위한 디지털상품을 출시하고 있는데, 특히 유해한 콘텐츠로부터 아동을 보호하고, 부모와 아동들에게 필요한 정보와 기능은 보완된 디지털 디바이스들이 등장하고 있다. 이 가운데 키즈폰은 불필요한 기능은 없애고 아동들에게 기본 안전 기능을 담은 웨어러블 디바이스로서 부모가 쉽게 자녀의 위치를 실시간으로 알게 해주는 유용한 도구이다. 키즈폰은 스마트폰에 비해 저렴하고 간편하지만 고장이 잦고, 안전 이외에 유용한 기능을 기대하기 힘들며, 부가적인 기능들 또한 유용하지 못하다는 점이 지적되고 있다. 본 연구는 국내 이동통신사의 키즈폰(Kids Phone)에 대한 리뷰를 분석하여, 제품들의 특성과 장단점을 파악하고, 디바이스와 서비스에 대한 개선방안을 제안함으로써, SNS 소비자 분석을 통한 제품 서비스 개선 전략수립 방법을 제시하고자 한다. 이를 위해 국내 쇼핑몰의 리뷰 섹션에서 자료를 수집하고, TF/IDF, 감성분석, 네트워크분석 등의 텍스트 마이닝 기법을 활용하여 소비자 감성분석을 실시하였다. 고객 리뷰는 온라인 쇼핑몰과 네이버 블로그에서 크롤링하여 수집 하였으며, 통계/데이터 마이닝 및 그래픽은 'R'과 빅데이터 분석 솔루션 'Textom', 그리고 오픈소스 프로그래밍 언어인 'Python'을 함께 사용하여 분석하고 시각화하였다. 본 연구를 통해 각 이동통신사의 현재 제품(키즈폰)에 대한 소비자가 느끼는 주요이슈와 제품의 장단점을 파악할 수 있었으며, 더 나아가 감성분석을 바탕으로 키즈폰 제품의 서비스 개선전략 방향을 제안할 수 있었다.

빅데이터를 활용한 뉴노멀(New normal)시대의 관광행태 변화에 관한 연구 (A Study on Tourism Behavior in the New normal Era Using Big Data)

  • 유경미;강종천;최연희
    • 문화기술의 융합
    • /
    • 제9권3호
    • /
    • pp.167-181
    • /
    • 2023
  • 본 연구는 코로나 19 발생 후 여행 제재가 완화된 현재의 관광행태 변화를 분석하기 위해 소셜네트워크 분석프로그램인 TEXTOM을 활용하였다. 네이버, 구글, 다음이 제공하는 블로그, 카페, 뉴스 등을 대상으로 '국내여행', '해외여행' 키워드에 대한 데이터를 수집하였다. 사회적 거리두기가 해제된 2022년 4월~12월로 수집 기간을 정하였고, 코로나19 발생 이전인 2019년과 코로나19의 영향이 가장 심각했던 2020년은 각각 1년으로 하여 2022년과 비교 분석하였다. 텍스트 마이닝을 통하여 각각 총 80개의 핵심어를 추출하고 NetDraw를 사용하여 중심성분석을 하였다. 마지막으로 CONCOR분석을 통하여 상관관계가 있는 핵심어들을 4개로 군집화하였다. 연구결과, 2022년도의 관광행태는 코로나 발생 이전으로의 관광 회복, 각자가 선호하는 테마를 중심으로 여행의 세분화, 나라별 코로나 완화정책을 우선적으로 검색해 본 후 관광지를 선택하는 관광행태를 보인다. 코로나19 이후에 새롭게 도래하는 관광생태계에 대한 관광마케팅 전략과 관광상품 개발을 위한 기초자료를 제공할 것으로 기대한다.

소셜 빅데이터를 활용한 한국관광 트렌드에 관한연구 -감성분석을 중심으로- (A study on Korean tourism trends using social big data -Focusing on sentiment analysis-)

  • 최연희;유경미
    • 문화기술의 융합
    • /
    • 제10권3호
    • /
    • pp.97-109
    • /
    • 2024
  • 국내관광 영역에서 관광 소비 주체인 외래관광객과 내국인에 대한 관광 트렌드 분석은 한국 관광시장 뿐 만 아니라 지역 및 정부의 관광정책을 수립하는 관계자에게도 필수적이라 할 수 있다. 이에 소셜미디어 상의 핵심키워드와 감성분석을 알아보고 향후 관광소비자의 커뮤니케이션과 정보를 통해 마케팅 전략 계획을 수립하고 국내 관광산업을 활성화시키고자 한다. 한국관광의 트렌드를 분석하기 위해 텍스톰(TEXTOM) 6.0을 활용하였다. 구글, 네이버, 다음이 제공하는 카페, 블로그, 뉴스 등을 대상으로 '한국관광', '국내관광'을 키워드로 하여 2022년 9월31일부터 2023년 8월31일까지 데이터를 수집하였다. 텍스트마이닝을 통하여 빈도순으로 핵심 키워드와 TF-IDF를 각각 100개씩 추출한 후, CONCOR 분석, 감성분석을 실시하였다. 한국관광 핵심 키워드는 관광지, 여행동반 및 행태, 관광동기 및 체험, 숙박형태, 관광정보, 감성 관련 등에 관한 단어들이 상위권에 노출되었다. CONCOR분석 결과는 관광지, 관광정보, 관광활동/체험, 관광동기/콘텐츠, 인바운드 관련 등과 관련된 5개의 클러스터로 구분되었다. 마지막으로 감성분석 결과 긍정에 대한 문서와 어휘가 높게 나타났다. 이 연구는 한국관광에 대한 텍스트 마이닝을 통하여 급변하는 한국관광 트렌드를 분석하여 내국인 뿐 만 아니라 방한 외국인에 대한 국내관광 활성화에 의미 있는 기초자료를 제공할 것으로 기대한다.

소셜미디어에 나타난 코로나 바이러스(COVID-19) 인식 분석 (Trend Analysis of Corona Virus(COVID-19) based on Social Media)

  • 윤상후;정상윤;김영아
    • 한국산학기술학회논문지
    • /
    • 제22권5호
    • /
    • pp.317-324
    • /
    • 2021
  • 본 연구는 국내 소셜미디어를 기반으로 코로나 확산 시기에 따른 코로나19 관심사 변화를 텍스트 기반으로 살펴 보았다. 연구자료는 2020년 1월 20일부터 8월 15일까지 네이버와 다음의 블로그와 카페에 올라온 글이다. 코로나 확산시기는 총 3단계로 분류하였다. 중국에서 발견된 코로나19가 한국에 확산되기 시작한 1월 20일부터 2월 17일을 '전조기', 대구를 중심으로 본격적 확산을 진행된 2월 18일부터 4월 20일을 '심각기', 그리고 일 확진자 수가 안정화되는 4월 21일부터 8월 15일을 '안정기'로 명명하였다. 코로나19와 연관된 상위 50개 단어를 추출하여 TF-IDF를 이용하여 군집 분석 하였다. 분석결과 전조기는 코로나 '상황'에 관련된 텍스트가 많았고, 심각기에는 '국가'와 '감염경로'에 관련된 텍스트가 많았다. 안정기에는 '치료'가 주로 언급되었다. 시기와 무관하게 공통적으로 언급이 많이 된 단어는 '감염', '마스크', '사람', '발생', '확진', '정보'이다. 시기별 감정의 변화를 살펴보면 시간이 지남에 따라 긍정의 비율이 높아지고 있다. 카페와 블로그는 글쓴이의 생각과 주관이 담긴 글을 인터넷을 통해 공유하므로 코로나19로 인한 비대면 시대의 주요 정보공유 공간이다. 그러나 정보전달의 선택성과 임의성이 존재하므로 소셜미디어에서 생산되는 정보를 비판적으로 바라보는 시각이 필요하다.

Efficient Keyword Extraction from Social Big Data Based on Cohesion Scoring

  • Kim, Hyeon Gyu
    • 한국컴퓨터정보학회논문지
    • /
    • 제25권10호
    • /
    • pp.87-94
    • /
    • 2020
  • 블로그나 SNS 피드 등의 소셜 리뷰는 고객 관점의 의견이나 불만 사항을 반영한 키워드를 추출하기 위한 목적으로 광범위하게 활용되고 있으며, 최근 트렌드를 반영한 신조어나 고유명사를 포함하는 경우가 많다. 이들 단어는 사전에 포함되어 있지 않아 기존 형태소 분석기가 잘 인지하지 못하는 경우가 많으며, 동시에 상당한 처리 시간이 소요되어 키워드 분석 결과를 실시간으로 제공하는데 어려움이 있다. 본 논문에서는 응집도 점수 개념을 기반으로 소셜 리뷰로부터 키워드를 효율적으로 추출하기 위한 방법을 제안한다. 응집도 점수는 단어의 빈도수를 기반으로 계산되어 별도의 사전이 필요없다는 장점이 있으나, 띄어쓰기가 되지 않은 입력 데이터에 대해서는 정확도가 떨어질 수 있다. 이와 관련하여 본 논문에서는 단어 트리 구조를 이용하여 기존의 응집도 점수 계산 방법을 개선한 알고리즘을 제시한다. 또한 실험을 통해 제안하는 방법이 15.5%의 오류율을 보이는 동시에, 1,000개의 리뷰를 처리하는데 0.008초 정도 소요됨을 확인하였다.

팬데믹 시대, 텍스트 마이닝을 통한 의학드라마의 시청자 반응 연구-<슬기로운 의사생활>을 중심으로- (Pandemics Era, A Study one the Viewers' Responses of Medical Drama through Text Mining. -Focused on -)

  • 안성훈;오세종;정달영
    • 문화기술의 융합
    • /
    • 제6권4호
    • /
    • pp.385-389
    • /
    • 2020
  • 의학드라마 <슬기로운 의사생활>은 '사람' 중심의 스토리로 전개되어 시청자의 공감대를 높였다. 드라마의 스토리는 의사, 환자, 가족들의 진정한 삶의 이야기이다. 또한 '평범한 우리들의 조금 특별한 매일'을 떠오르게 하는 이야기이다. 그리고 드라마 5명 캐릭터가 직접 연주하고 불렀던 노래는 향수를 자극하고, 몰입을 높이는 요소가 되었다. 최고시청률 14.1%를 달성했으며, 블로그만 51,584건이 등록되었다. 빅데이터 분석에 따르면, 연관어는 '슬기로운 OST', '앨범명', '아티스트명', '2시간 연속재생', '음원', '리메이크', 'OST 공개', '슬기의사생활 전곡방송본', '광고수익', '신청곡', '플레이리스트', '아로하', '조정석'이 추출되었다. 의학드라마의 상품화는 '드라마 OST 앨범 판매', '온라인 라이브 콘서트 주최(광고 PPL)', '피아노 악보 출간', '사람 중심의 사진전', '드라마 하이라이트를 편집한 뮤직 비디오 제작', '유튜브 업로드 수익', '마스크', '소독제'가 있다. <슬기로운 의사생활2>에서는 코로나19에 발생한 감동적인 사연과 매력적인 인간미가 있는 이야기가 펼쳐질 것으로 예측한다. 연구의 한계점은 장르별 다양한 작품의 분석과 업종에 따른 소비자 가치 분석 시도가 필요하겠다.