• 제목/요약/키워드: news text

검색결과 385건 처리시간 0.03초

Text Mining and Visualization of Papers Reviews Using R Language

  • Li, Jiapei;Shin, Seong Yoon;Lee, Hyun Chang
    • Journal of information and communication convergence engineering
    • /
    • 제15권3호
    • /
    • pp.170-174
    • /
    • 2017
  • Nowadays, people share and discuss scientific papers on social media such as the Web 2.0, big data, online forums, blogs, Twitter, Facebook and scholar community, etc. In addition to a variety of metrics such as numbers of citation, download, recommendation, etc., paper review text is also one of the effective resources for the study of scientific impact. The social media tools improve the research process: recording a series online scholarly behaviors. This paper aims to research the huge amount of paper reviews which have generated in the social media platforms to explore the implicit information about research papers. We implemented and shown the result of text mining on review texts using R language. And we found that Zika virus was the research hotspot and association research methods were widely used in 2016. We also mined the news review about one paper and derived the public opinion.

Word2Vec을 활용한 뉴스 기반 주가지수 방향성 예측용 감성 사전 구축 (News based Stock Market Sentiment Lexicon Acquisition Using Word2Vec)

  • 김다예;이영인
    • 한국빅데이터학회지
    • /
    • 제3권1호
    • /
    • pp.13-20
    • /
    • 2018
  • 주식 시장에 대한 예측은 오랜 기간 많은 이들의 꿈이었다. 하지만 수많은 노력에도 불구하고 주식 시장을 정확하게 예측하기란 쉬운 일이 아니었다. 본 연구는 주식 시장의 방향성에 주목하여 이 방향성을 예측할 수 있는 감성사전을 구축하는 새로운 방법을 제시한다. 이를 위해 2015년 1월 1일부터 2017년 12월 31일까지 3년간의 증시 뉴스 25,000여 건의 데이터를 수집하여, 문맥을 고려하기 위한 Word2Vec을 적용하였다. 이를 바탕으로 뉴스에 감성분석을 실시하여 KOSPI 종가 지수를 예측해 보았다.

정보 중립성 확보를 위한 인터넷 뉴스 댓글의 정치성향 분석 (Political Information Filtering on Online News Comment)

  • 최혜봉;김재홍;이지현;이민구
    • 문화기술의 융합
    • /
    • 제6권4호
    • /
    • pp.575-582
    • /
    • 2020
  • 본 연구는 인터넷 뉴스 댓글 빅데이터 분석을 통해 뉴스 댓글 사용자의 정치적 성향을 추정하는 방법을 제안한다. 인터넷 뉴스 댓글과 작성자의 정치 성향을 함께 제공하여 디지털 매체를 통한 정보 전달의 객관성과 중립성을 확보하고자 한다. 250만 건 이상의 인터넷 뉴스 댓글의 특성을 분석하고 사용자의 정치적 성향을 효과적으로 추정하기 위한 특징을 추출한다. 어휘사전 기반 알고리즘과 유사도 기반 알고리즘을 제안하고 실험을 통해 두 알고리즘을 비교하고 효과를 검증한다.

뉴스 데이터로부터 식품위해정보 자동 추출을 위한 인공지능 기술 (AI-based system for automatically detecting food risk information from news data)

  • 백유진;이지현;김남희;이헌주;주재걸
    • 식품과학과 산업
    • /
    • 제54권3호
    • /
    • pp.160-170
    • /
    • 2021
  • A recent advance in communication technologies accelerates the spread of food safety issues once presented by the news media. To respond to those safety issues and take steps in a timely manner, automatically detecting related information from the news data matters. This work presents an AI-based system that detects risk information within a food-related news article. Experts in food safety areas participated in labeling risk information from the food-related news articles; we acquired 43,527 articles in which food names and risk information are marked as labels. Based on the news document, our system automatically detects food names and risk information by analyzing similarities between words within a text by leveraging learned word embedding vectors. Our AI-based system shows higher detection accuracy scores over a non-AI rule-based system: achieving an absolute gain of +32.94% in F1 for the food name category and +41.53% for the risk information category.

How Content Affects Clicks: A Dynamic Model of Online Content Consumption

  • Inyoung Chae;Da Young Kim
    • Asia pacific journal of information systems
    • /
    • 제31권4호
    • /
    • pp.606-632
    • /
    • 2021
  • With many consumers being exposed to news via social media platforms, news organizations are challenged to attract visitors and generate revenue during visits to their websites. They therefore need detailed information on how to write articles and headlines to increase visitors' engagement with the content to drive advertising revenues. For those news organizations whose business model depends mainly on advertisements, rather than subscriptions, it is particularly crucial to understand what makes the website attractive to their visitors, what drives users to stay on the website, and what factors affect a user's exit decision. The current research examines individual news consumers' choices to find patterns of increase or decrease in user engagement relative to a variety of topics, as well as to the mood or tone of the content. Using clickstream data from a major news organization, the authors develop a user-level dynamic model of clickstream behavior that takes into account the content of both headlines and stories that visitors read. The authors find that readers appear to exhibit state dependence in the tone of the articles that they read. They also show how the topics expressed in headlines can affect the amount of content readers consume when visiting the news organization to a much larger degree than the topics expressed in the content of the article. Online publishers can make use of such findings to present visitors with content that is likely to maintain and/or increase their engagement and consequently drive advertising revenue.

Latent Dirichlet Allocation 기법을 활용한 해외건설시장 뉴스기사의 토픽 모델링(Topic Modeling) (Topic Modeling of News Article about International Construction Market Using Latent Dirichlet Allocation)

  • 문성현;정세환;지석호
    • 대한토목학회논문집
    • /
    • 제38권4호
    • /
    • pp.595-599
    • /
    • 2018
  • 해외건설 프로젝트를 기획하고 수행하는 과정에서 현지 시장의 상황을 신속하고 정확하게 파악하는 것은 수익성 창출에 매우 큰 영향을 미친다. 뉴스기사 데이터는 정치, 경제, 사회 등 다양한 관한 정보를 담고 있기 때문에 시장의 상황을 파악하는 데 사용할 수 있는 좋은 데이터이다. 텍스트의 형태로 존재하는 대량의 뉴스기사 데이터로부터 정보를 추출하고 내용을 요약하는 과정에서 인력, 비용, 시간의 소모를 줄이기 위해 텍스트마이닝 기술이 필요하다. 본 연구에서는 뉴스기사에 다양한 주제가 공존한다는 특성으로 인해 발생하는 정보 추출의 한계를 극복하기 위해 잠재 디리클레 할당(Latent Dirichlet Allocation) 방법론을 사용하여 토픽 모델링을 수행했다. 문서 집단에 존재하는 주제의 개수가 10개라고 가정했을 때, 이용자들의 편의 증진을 위한 프로젝트(2번 주제)와 아프리카 지역의 빈곤 문제를 해결하기 위한 민간 차원의 지원(4번 주제) 등의 주제 집단이 존재하는 것을 확인했다. 이와 같이 문서 집단의 주제를 구분함으로써 더욱 의미있는 정보를 추출하고, 요약 결과의 활용성을 높일 수 있다.

뉴스 데이터를 활용한 텍스트 감성분석에 따른 지역 산업생태계 위기 예측 - 광주 지역 자동차 산업을 중심으로 - (Crisis Prediction of Regional Industry Ecosystem based on Text Sentiment Analysis Using News Data - Focused on the Automobile Industry in Gwangju -)

  • 김현지;김성진;김한국
    • 한국콘텐츠학회논문지
    • /
    • 제20권8호
    • /
    • pp.1-9
    • /
    • 2020
  • 지역 산업생태계의 노후화 문제가 점차 심각해지면서, 지역 산업생태계의 쇠퇴를 측정하고 재생하기 위한 연구가 활발히 이루어지고 있다. 하지만 지역 산업생태계 위기 예측에 관한 연구는 거의 이루어지지 않고 있다. 위기는 단기간에 걸쳐 급진적으로 나타나는데, 사후대응으로는 역부족인 경우가 대다수이므로 위기가 발생하기 전에 대응해야 한다. 즉, 지역 산업생태계의 위기를 조기에 파악하여 선제적인 대응을 하는 것이 장기적인 관점으로 바라봤을 때 더욱 필요하고 요구된다는 것이다. 이에 본 연구는 대용량의 뉴스 데이터를 활용하여 뉴스의 감성 점수에 따른 지역 산업생태계의 위기 예측 가능성을 점검하였다. Google 감성분석 API를 사용하여 뉴스 감성 분석을 실행하였고 이를 월별로 정리하여 감성 분석 결과 실제 이벤트 간의 연관관계를 확인하였다.

뉴스기사 분석을 통한 사회이슈와 가격에 관한 연구 - 조류인플루엔자와 달걀가격 중심으로 - (Analysis of the Relations between Social Issues and Prices Using Text Mining - Avian Influenza and Egg Prices -)

  • 한무명초;;이충권
    • 스마트미디어저널
    • /
    • 제7권1호
    • /
    • pp.45-51
    • /
    • 2018
  • 조류인플루엔자는 전염 속도가 매우 빠르고 양계농장을 중심으로 생산자들과 소비자들에게 심각한 영향을 끼친다. 그중에서도 2016년 말에 전국적으로 발생한 조류인플루엔자는 좁은 공간에 밀집시켜 사육하는 산란계 농장에 큰 피해를 주었다. 이에 따라 달걀과 달걀을 재료로 하는 가공식품의 가격이 급등하였고 언론은 많은 속보성 뉴스기사를 게재하였다. 본 연구는 사회이슈를 반영한 온라인 뉴스기사의 키워드 변화와 달걀가격 변동과의 상관관계를 알아보고자 하였다. 이를 위하여 2016년 11월부터 14주 동안 한국에서 발생한 조류인플루엔자 관련 온라인 뉴스기사 682건과 같은 기간의 달걀가격 변화를 분석하였다. 본 연구의 결과는 사회이슈를 반영하는 뉴스기사의 키워드와 실물가격과의 관계를 이해하는 데 기여할 것으로 기대한다.

한중 자동 문서분류를 위한 최적 자질어 비교 (Comparison Between Optimal Features of Korean and Chinese for Text Classification)

  • 임미영;강신재
    • 한국지능시스템학회논문지
    • /
    • 제25권4호
    • /
    • pp.386-391
    • /
    • 2015
  • 본 논문에서는 한국어와 중국어의 언어학적인 특징을 고려하여 문서 자동분류 시스템의 성능을 높일 수 있는 최적의 자질어 단위를 제안한다. 언어 종속적 단위인 형태소 자질어와 언어 독립적 단위인 n-gram 자질어 그리고 이들을 조합한 복합 자질어 집합을 대상으로 각 언어의 인터넷 신문기사를 SVM으로 분류하는 실험을 수행하였다. 실험 결과, 한국어 문서분류에서는 bi-gram이 F1-measure 87.07%로 가장 좋은 분류 성능을 보였고, 중국어 문서분류에서는 'uni-gram 명사 동사 형용사 사자성어'의 복합 자질어 집합이 F1-measure 82.79%로 가장 좋은 성능을 보였다.

사회과학을 위한 양적 텍스트 마이닝: 이주, 이민 키워드 논문 및 언론기사 분석 (Quantitative Text Mining for Social Science: Analysis of Immigrant in the Articles)

  • 이수정;최두영
    • 한국콘텐츠학회논문지
    • /
    • 제20권5호
    • /
    • pp.118-127
    • /
    • 2020
  • 본 연구는 최근 사회과학에서 실시되고 있는 양적 텍스트 분석의 흐름과 분석을 실시함에 있어 주의해야 할 사례를 포함하여 기술 하였다. 특히, 2017년부터 2019년까지 3년간 학술지와 언론에서 사용된 "이주", "이민" 키워드를 기반으로 사례연구를 실시하였다. 이를 위해 최근 사회과학분야에서 주목 받는 자연어 처리 기술(NLP)를 이용한 양적 텍스트 분석 (Quantitate text analysis)을 사용하였다. 양적 텍스트 분석은 문서를 구조적 데이터로 변환하여, 가설의 발견 및 검증을 실시하는 데이터 과학의 영역으로, 데이터의 모델링 및 가시화 등이 가능하고, 특히 비구조화 된 데이터를 구조화할 수 있다는 점에서 사회과학 분야에 많이 도입하였다. 따라서 본 연구는 양적 텍스트 분석을 통해 "이주", "이민"을 키워드로 한 연구 및 언론 기사에 대한 통계 분석을 실시하고 도출된 결론에 대한 해석을 실시하였다.