• 제목/요약/키워드: 뉴스빅데이터

검색결과 206건 처리시간 0.025초

공공이슈 추출을 위한 뉴스 빅데이터 분석 시스템 (News Big Data Analysis System for Public Issue Extraction)

  • 김승주;윤창근;이차헌;박동환;이해준;박혁주;이용규
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2018년도 추계학술발표대회
    • /
    • pp.17-20
    • /
    • 2018
  • 대중의 관심인 공공이슈를 파악하기 위하여 다양한 종류의 빅데이터를 분석하는 연구가 진행되고 있다. 그러나 기존의 연구에서는 키워드의 노출 횟수만 파악하여 결과로 반영한다. 본 논문은 포털 사이트로부터 얻은 언론사별 뉴스 빅데이터를 이용하여 키워드별 노출 빈도수, 댓글 수 및 추천 수를 반영한 분석 방법을 제안하였다. 공공이슈를 추출하여 얻어낸 키워드들을 워드클라우드, Sankey다이어그램과 같은 형태로 시각화하여 사용자에게 제공한다. 제안된 방법을 사용하면 대중의 반응을 반영한 분석 결과를 확인 할 수 있다.

뉴스 빅데이터를 활용한 재난문자 뉴스 게재 경향 분석 (A Big Data Analysis of the News Trends on Wireless Emergency Alert Service)

  • 이현지;변윤관;장석진;최성종;오승희;이용태
    • 방송공학회논문지
    • /
    • 제24권5호
    • /
    • pp.726-734
    • /
    • 2019
  • 이 연구에서는 재난문자에 대한 뉴스 건수와 연관어에 대해 알아보았다. 뉴스는 한국언론진흥재단 뉴스 빅데이터 시스템인 빅카인즈를 활용하여 수집하였고, 연간 게재 기사, 재난종류에 따른 뉴스 빈도, 지진과 비 지진 간 뉴스 빈도, 연관어에 대한 분석을 실시하였다. 조사 결과에 따르면, '재난문자'관련 뉴스가 2016년에 182건으로 전년대비 약 20배 증가하는 성장세를 보였다. 재난문자 뉴스는 2016년 이래로 꾸준히 높은 수치를 보였다. 2016년은 지진의 비중이 매우 높았지만 2017년과 2018년은 지진의 비중이 낮아지고 비지진의 비중이 높아지는 것으로 나타났다. '재난문자' 연관어는 행정안전부(국가안전처, 행안부 포함)가 가장 비중 있게 다루어졌고, 그 다음으로 기상청과 국민도 비중 있게 다루어진 용어로 나타났다.

국가 정책에 대한 언론과 SNS 반응의 감성 분석 연구 -아동 수당, 출산 장려금 정책을 중심으로- (A Study on Sentiment Analysis of Media and SNS response to National Policy: focusing on policy of Child allowance, Childbirth grant)

  • 윤혜민;최은정
    • 디지털융복합연구
    • /
    • 제17권2호
    • /
    • pp.195-200
    • /
    • 2019
  • 스마트폰, 태블릿 등의 이동 통신 기기와 PC 이용이 확장됨에 따라 인터넷 상에서 데이터가 기하급수적으로 수집되고 있다. 또한 SNS의 발전으로 인해 이용자 간의 자유로운 의사소통과 여러 분야의 정보를 공유할 수 있어 다양한 다량의 의견들이 빅데이터 형태로 쌓이고 있다. 이에 따라 빅데이터 분석 기법을 사용하여 일반 사람들의 반응과 언론사의 뉴스 기사 반응의 차이를 알아보는 기법이 대두되고 있다. 본 논문에서는 아동 수당과 출산 장려금에 대해 SNS에서 나타난 대중들의 반응과 언론사의 반응을 분석하였다. 이를 위해 일정 기간 동안 트위터에 올라온 이용자들의 글을 수집하고 뉴스 기사를 크롤링하여 감성 분석을 진행하였다. 이를 통해 SNS에 나타나는 대중의 의견과 언론사 뉴스의 반응을 비교하여 대중과 언론이 국가 정책에 대한 반응의 차이를 비교 분석하였다.

빅데이터 처리를 통한 연예 뉴스에서의 키워드 추출에 관한 연구 (A Study on Keywords Extraction from Entertainment News using Bigdata Processing)

  • 유상현;이상준
    • 한국IT정책경영학회 논문지
    • /
    • 제11권6호
    • /
    • pp.1503-1507
    • /
    • 2019
  • 온라인 연예 뉴스 기사의 연성화와 속보성 기사가 증가함에 따라 많은 사람들이 연예면 기사를 접하며, 연예인에 대한 평가를 내릴 수 있게 됐다. 연예인에 대한 평판은 소속된 연예인 자원을 최대한 활용해야 하는 연예기획사의 사업전략에 핵심적인 요소이나, 실시간적으로 대규모 기사가 올라오는 환경에서 어떤 뉴스 기사가 어떤 연예인에 관한 것인지 체계적으로 분석하는 것은 용이하지 않다. 본 논문은 연예 뉴스 데이터에서 언급되는 연예인의 언급량을 기준으로 해당 기사의 주제가 되는 연예인을 추출하고, 해당 연예인의 연예기획사로 연관짓는 연예 뉴스 키워드 분석 시스템을 제안한다. 본 논문에서 제안된 시스템을 통해 광고사 혹은 연예기획사 측에서 사업을 위한 참고 자료로 해당 연예인의 가치 판단을 할 수 있다. 이와 더불어 증권사나 투자자들에게 연예기획사의 전망을 예측하여, 투자 전략의 토대를 마련해줄 수 있다.

뉴스 빅데이터 분석을 활용한 가뭄지수 재생산 (Reproduction of drought index using news big data analysis)

  • 정진홍;박동혁;안재현
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2020년도 학술발표회
    • /
    • pp.386-386
    • /
    • 2020
  • 가뭄은 강수, 증발산, 대기온도, 토양수분 등 다양한 수문기상학적 인자들이 복합적으로 작용하여 발생되기 때문에 가뭄의 정확한 사상을 분석하는 것은 매우 어렵다. 또한 어떤 요인을 중심으로 고려하느냐에 따라 가뭄은 다양한 시각으로 정의되고 있다. 일정기간 평균 강수량보다 적은 강수로 인해 건조한 날이 지속되는 것, 즉 기상요소를 중심으로 가뭄을 정의하는 것을 기상학적 가뭄이라 하며, 작물의 생육에 필요한 수분을 중심으로 고려하는 것을 농업적 가뭄이라 한다. 또한 하천유량, 댐 저수량 등 전반적인 수자원 공급원의 부족을 수문학적 가뭄이라 한다. 이와 같이 다양하게 나타는 가뭄의 발생특성을 정량적으로 해석하기 위해 다양한 가뭄지수가 개발되어 왔다. 그러나 현재까지 개발된 가뭄지수들은 공통적으로 정형데이터를 활용하여 산정한다. 하지만 최근에는 비정형데이터를 활용하여 지수(Index)를 산정하거나, 재난관리에 적용하는 등 비정형 데이터의 활용이 급증하고 있다. 따라서 본 연구에서는 비정형 데이터(뉴스 데이터)를 활용하여 가뭄지수를 산정하고 기존의 가뭄지수들과의 상관성 분석을 실시 한 뒤, 지수결합을 통해 가뭄사상 분석의 새로운 방안을 제시하고자 하였다. 본 연구의 공간적범위는 2014~2015 충남서북부가뭄 지역 중 가장 큰 피해를 입었던 보령지역으로 선정하였으며 시간적범위는 2013~2016년으로 설정하였다. 비정형 데이터의 구축은 크롤링(Crawling)을 활용하여 네이버 뉴스의 기사를 수집하였으며 자료의 신뢰성을 위해 URL이 동일한 중복기사 및 '보령', '가뭄' 단어가 없는 기사는 제거하였다. 구축된 데이터를 기반으로 월별 빈도를 산출하고 표준점수(Z-score)로 환산하여 가뭄지수를 산정하였다. 산정된 가뭄지수가 어떤 가뭄의 유형(기상학적, 농업적, 수문학적)을 보이는지 확인하기 위해 기존의 가뭄지수들과 상관성분석을 실시하였으며, 가장 높은 상관성을 보이는 가뭄지수와 결합을 통해 새로운 가뭄 사상을 분석하였다. 본 연구에서 진행한 가뭄사상 분석은 향후 가뭄만이 아니라 다양한 재난분야에서 비정형 데이터를 활용한 분석의 기초로자료로 활용될 수 있을 것이다.

  • PDF

기계학습 기반 국내 뉴스 헤드라인의 정확성 검증 연구 (Objectivity in Korean News Reporting : Machine Learning-Based Verification of News Headline Accuracy)

  • 백지수;이승언;한지영;차미영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.281-286
    • /
    • 2021
  • 뉴스 헤드라인에 제3자의 발언을 직접 인용해 전언하는 이른바 '따옴표 저널리즘'이 언론 보도의 객관주의 원칙을 해치는지는 언론학 및 뉴스 구독자에게 중요한 문제이다. 이 연구는 온라인 포털사이트를 통해 실시간 유통되는 한국어 기사의 정확성을 판별하기 위한 기계학습(Machine Learning) 모델을 제안한다. 이 연구에서 제안하는 모델은 Edit Distance와 FastText 기법을 활용해 기사 제목과 본문 내 인용구의 유사성을 측정하고, XGBoost 모델을 활용해 최종 분류한다. 아울러 이 모델을 통해 229만 건의 뉴스 헤드라인에 대해 직접 인용구가 포함된 기사가 취재원의 발언을 주관적인 윤색없이 독자들에게 전하고 있는지를 판별했다. 이뿐만 아니라 딥러닝 기반의 KoELECTRA 모델을 활용해 기사의 제목 내 인용구에 대한 감성 분석을 진행했다. 분석 결과, 윤색이 가미되지 않은 직접 인용형 기사의 비율이 지난 20년 동안 10% 이상 증가했으며, 기사 제목의 인용구에 나타나는 감정은 부정 감성이 긍정 감성의 2.8배 정도로 우세했다. 이러한 시도는 앞으로 계산사회과학 방법론과 빅데이터에 기반한 언론 보도의 평가 및 개선에 도움을 주리라 기대한다.

  • PDF

빅데이터 토픽모델링과 감성분석을 활용한 물공급과정에서의 수질사고 기사 분석 (Analysis of articles on water quality accidents in the water distribution networks using big data topic modelling and sentiment analysis)

  • 홍성진;유도근
    • 한국수자원학회논문집
    • /
    • 제55권spc1호
    • /
    • pp.1235-1249
    • /
    • 2022
  • 본 연구에서는 웹 크롤링 방법을 이용한 자료수집, 텍스트 마이닝을 활용한 데이터 분석과 같은 빅데이터 분석기법을 이용하여 국내 상수도 수질사고에 대한 전개양상 분석을 수행하였다. 상수도 시스템의 수질사고 빅데이터 뉴스의 추출을 위한 웹크롤링 기법을 적용하고 정확한 수질사고 뉴스를 획득하고자 알고리즘을 절차화하여 제시하였다. 또한 대규모 수질사고의 경우 사고발생에 따른 사고인지, 사고확산, 사고대응, 사고해결 등과 같은 전개양상이 나타나므로, 각 단계에 따른 적절한 뉴스기사를 추출하고, 이에 따른 정보분석을 실시하였다. 즉, 각 단계 별 주요 키워드, 감성분석을 통한 수질사고 전개양상분석을 사례기반으로 상세히 실시하고 그 의미를 분석, 도출하였다. 제안된 방법론을 2020년 발생한 인천광역시 유충사고기간에 적용하여 분석하였다. 그 결과, 수질사고와 같은 소비자에게 직접적인 영향을 미치는 정보의 공개가 제한된 상황에서 사고발생시 장기간의 피해 지속성이 있는 수질사고에 대한 뉴스 기사 언론보도의 논조 및 소비자의 긍부정도가 시간에 따라 명확히 변화됨을 확인할 수 있었다. 이것은 공급자 입장에서의 수질사고의 전개양상은 시설물의 빠른 복구도 매우 중요하지만 소비자의 긍정도를 높이기 위한 소비자 중심의 정책마련의 필요성을 제시하고 있다.

정형 및 비정형 빅데이터를 이용한 양파 소비 예측 (Prediction of Onion Purchase Using Structured and Unstructured Big Data)

  • 나형철;오은화;유도일;조완섭;아지즈 나스리디노프;박성호;조용빈;류관희
    • 한국콘텐츠학회논문지
    • /
    • 제18권11호
    • /
    • pp.30-37
    • /
    • 2018
  • 인터넷 시대를 살아가는 현대인의 식품 소비는 다양한 대충 매체 및 소셜 미디어를 통해 신속하고 방대한 정보 전달에 영향을 받는 것으로 알려져 있다. 2018년 4월 국내 언론 보도에 따르면, 양파 재배 면적이 증가하고 양파 생산량이 증가할 것으로 예상되며, 이후에 양파 가격은 폭락할 것으로 예상되었다. 이러한 상황을 고려하여 SNS, 인터넷 정보 검색, 방송 프로그램에서 언급된 양파 관련 정보를 분석하여, 실제 가격폭락이 발생하기 전에, 양파 소비를 촉진할 수 있는 요인을 파악할 필요가 있다. 2018년 양파 생산량 증가에 따른 양파 가격 폭락이 예상되는 상황에, 가장 최근 양파 생산량 증가에 따라 가격 폭락을 경험하였던 2014년의 방송 프로그램 및 SNS가 양파 소비와 연계되었는지 파악하고자, 양파 소비 촉진과 관련된 정형 및 비정형 빅데이터를 수집하여, 양파 소비 촉진과 관련된 변수를 찾아 양파 가격 하락이 예상되는 2018년에 소비 촉진에 활용하고자 본 연구를 수행하였다. 연구 결과, 방송 뉴스의 양파 언급 기사 수(3~6주), 양파와 건강을 언급하는 방송 프로그램 수(11주), 양파의 효능을 언급하는 블로그의 댓글 빈도(5주)가 양파 구매금액 증가에 시차를 두고 양의 상관관계를 갖는 것을 확인한 본 연구 결과를 근거로, 양파 생산량 증가에 따른 양파 가격 폭락 시, 양파 소비 촉진을 위한 홍보에, 뉴스, 먹방, 쿡방 등의 방송 프로그램 및 블로그 등의 매체를 활용하는 소비촉진에 기여할 것으로 여겨진다.

헬스케어 분야 빅데이터 분석을 위한 개체명 사전구축에 새로운 역 N-Gram 적용 연구 (A Study on Applying Novel Reverse N-Gram for Construction of Natural Language Processing Dictionary for Healthcare Big Data Analysis)

  • 이경현;백락준;김우수
    • 문화기술의 융합
    • /
    • 제10권3호
    • /
    • pp.391-396
    • /
    • 2024
  • 본 연구에서는 헬스케어 분야에 특화된 개체명 사전을 구축하기 위해 기존 N-Gram 방식의 한계를 극복하고 성능을 향상하게 시키기 위해 새로운 역 N-Gram 방식을 제안하였다. 제안된 역 N-Gram 방식은 헬스케어 관련 빅데이터의 복잡한 언어적 특성을 더 정밀하게 분석하고 처리할 수 있다. 제안된 방식의 효율성 검증을 위해 매년 1월에 개최되는 소비자 가전 전시회(Consumer Electronics Show: CES) 기간 동안 발표된 헬스케어 및 디지털 헬스케어 관련 빅데이터를 수집하기 위하여 뉴스를 대상으로 2010년 1월 1일부터 31일, 그리고 2024년 1월 1일부터 31일까지 언급된 2,185건의 뉴스 제목 및 요약문을 파이썬 프로그래밍언어로 새로운 역 N-Gram 방식을 구현하여 전처리한 결과, 헬스케어 분야에서의 자연어 처리를 위한 사전이 안정적으로 구축되었음을 확인할 수 있었다.

빅데이터를 활용한 국내 보안솔루션 시장 동향 분석 (Analysis of Domestic Security Solution Market Trend using Big Data)

  • 박상천;박동수
    • 한국산학기술학회논문지
    • /
    • 제20권5호
    • /
    • pp.492-501
    • /
    • 2019
  • 사이버 공간에서 안전하게 시스템을 사용하기 위해서는 상황에 적합한 보안 솔루션을 사용해야 한다. 사이버 보안을 강화하기 위해 과거부터 현재까지 보안의 흐름을 정확히 파악하고 미래의 다양한 위협에 대비해야 한다. 본 연구에서는 텍스트마이닝을 이용하여 신뢰도가 높은 네이버 뉴스의 보안/해킹 뉴스의 정보보안 단어들을 수집 후 분석하였다. 첫 번째는 지난 7년의 연도별 보안 뉴스 기사수를 확인하고 추이를 분석하였다. 두 번째는 보안/해킹 관련 단어 순위를 확인 후 매년 주요 관심사를 확인하였다. 세 번째는 보안 솔루션별 단어를 분석하여 어느 보안 그룹의 관심도가 높은지 확인하였다. 네 번째는 보안 뉴스의 제목과 본문을 분리 후 보안 관련 단어를 추출 후 분석하였다. 다섯 번째는 세부 보안 솔루션별 추이 및 동향을 확인하였다. 마지막으로 연도별 매출액과 보안 단어 빈도수를 분석하였다. 이러한 빅데이터 뉴스 분석을 통해 보안 솔루션에 대한 전반적인 인식 조사를 수행하고 많은 비정형 데이터를 분석하여 현재 시장 추세를 분석하고 미래를 예측할 수 있는 정보를 제공하는 데 기여하고자 한다.