• 제목/요약/키워드: news topic

검색결과 232건 처리시간 0.026초

Case-Related News Filtering via Topic-Enhanced Positive-Unlabeled Learning

  • Wang, Guanwen;Yu, Zhengtao;Xian, Yantuan;Zhang, Yu
    • Journal of Information Processing Systems
    • /
    • 제17권6호
    • /
    • pp.1057-1070
    • /
    • 2021
  • Case-related news filtering is crucial in legal text mining and divides news into case-related and case-unrelated categories. Because case-related news originates from various fields and has different writing styles, it is difficult to establish complete filtering rules or keywords for data collection. In addition, the labeled corpus for case-related news is sparse; therefore, to train a high-performance classification model, it is necessary to annotate the corpus. To address this challenge, we propose topic-enhanced positive-unlabeled learning, which selects positive and negative samples guided by topics. Specifically, a topic model based on a variational autoencoder (VAE) is trained to extract topics from unlabeled samples. By using these topics in the iterative process of positive-unlabeled (PU) learning, the accuracy of identifying case-related news can be improved. From the experimental results, it can be observed that the F1 value of our method on the test set is 1.8% higher than that of the PU learning baseline model. In addition, our method is more robust with low initial samples and high iterations, and compared with advanced PU learning baselines such as nnPU and I-PU, we obtain a 1.1% higher F1 value, which indicates that our method can effectively identify case-related news.

'좋아요'와 '싫어요'같은 간접적 사회적 정보의 방향과 강도는 온라인 뉴스 콘텐츠 댓글의 숙의의 질과 어떤 관련이 있는가? 토픽 모델링을 이용한 토픽 다양성 분석 (How Are the Direction and the Intensity of Indirect Social Information such as Likes and Dislikes Related to the Deliberative Quality of Online News Content Comments? A Topic Diversity Analysis Using Topic Modeling)

  • 민진영;이애리
    • 한국정보시스템학회지:정보시스템연구
    • /
    • 제30권4호
    • /
    • pp.303-327
    • /
    • 2021
  • Purpose The online comments on news content have become social information and are understood based on deliberative democracy. Although the related research has focused on the relationship between online comments and their deliberative quality, the social information provided by online comments consists of not only direct information such as comments themselves but also indirect information such as 'likes' and 'dislikes'. Therefore, the research on online comments and deliberative quality should study this direct and indirect information together, and the direction and the degree of the indirect information should be also considered with them. Design/methodology/approach This study distinguishes comments by the attached 'likes' and 'dislikes', identifies highly supported and highly unsupported comments by the intensity of 'likes' and 'dislikes', and investigates the relationship between their existence and the deliberative quality measured as the topic diversity. Then, we applied topic modeling to the 2,390 news articles and their 74,385 comments collected from five news sites. Findings The topic diversities of the supported and unsupported comments are related to the topic diversity of all comments but the degree of the relationship is higher in the case of supported comments. Furthermore, the existence of highly supported and unsupported comments is led to less diversity of all comments compared to the case where those comments are absent. Particularly, when only highly supported comments are present, topic diversity was lower than in the opposite case.

종편 출범 초기의 지상파와 종편 메인뉴스의 주제 구성 및 다양성 변화에 대한 연구 (Research on the Composition and Diversity Changes of the Main News Programs' News Topic at the Initial Introduction of General Programming Cable Channels)

  • 유수정
    • 한국콘텐츠학회논문지
    • /
    • 제18권10호
    • /
    • pp.53-64
    • /
    • 2018
  • 본 연구는 종편 도입으로 인한 방송 뉴스 콘텐츠의 주제 구성과 다양성의 변화를 살펴보기 위해 종편 도입 초기 4년 간 지상파 3개, 종편 4개 총 7개 채널의 메인 뉴스의 주제를 내용분석 하였다. 분석결과 지상파는 다양한 주제를 폭넓게 다뤘던 반면 종편 뉴스는 정치 뉴스에 집중하며 주제 구성에 있어서 지상파와 차별화를 꾀하였다. 뉴스 구성 순서나 주요 뉴스 포함 여부에 있어서 종편은 정치 뉴스와 북한 뉴스를 적극 활용하며 차별화된 구성을 보였던 반면, 지상파는 경제, 생활 정보 뉴스 등에 대해 주요 뉴스로 처리하며 차이를 나타내었다. 종편 개국 초기 4년간 방송 뉴스 전반의 다양성을 분석한 결과 종편은 지상파와 유사한 뉴스를 제공하는 전략으로 시장에 진입했으나 다양한 뉴스를 제공하는 지상파와 경쟁하기 위해 선택과 집중의 전략을 취하는 방향으로 변화했음을 확인하였다. 종편 개국 초기 방송 뉴스 시장에서 지상파는 다양성 전략을 유지하는 전략을 편 반면, 종편은 집중 전략을 활용했음을 확인할 수 있었다.

태권도 뉴스기사의 연도별 주제어 비교분석: 토픽모델링 적용 (Comparative Analysis of the Keywords in Taekwondo News Articles by Year: Applying Topic Modeling Method)

  • 전민수;임효성
    • 디지털융복합연구
    • /
    • 제19권11호
    • /
    • pp.575-583
    • /
    • 2021
  • 이 연구는 토픽모델링을 적용하여 뉴스기사에 따른 태권도 동향을 연도별로 분석하는 것에 목적이 있다. 언론보도를 통한 태권도 동향을 살펴보기 위해 한국언론재단의 빅카인즈를 통해 뉴스기사와 태권도 전문 언론에 대한 기사를 수집하였다. 검색기간은 2000년 이전, 2001년~2010년, 2011년~2020년 3개의 구간으로 구분하여 검색하여 총 12,124개를 연구자료로 선정하였다. 토픽분석을 위해 전처리 과정을 거쳤으며, LDA 알고리즘을 활용하여 토픽분석을 수행하였다. 이때 모든분석은 python 3을 적용하였다. 그 결과 첫째, 연도별에 따른 언론기사 주제를 분석한 결과 2000년이전 1위는 '세계'. 2위는 '남북', 3위는 '올림픽'으로 나타났으며, 2001년~2010년 1위는 '세계', 2위는 '협회', 3위는 '세계태권도연맹'으로 조사되었다. 2011년~2020년 1위는 '세계', 2위는 '시범', 3위는 '국기원'으로 나타났다. 둘째, 2000년이전 뉴스기사를 토픽모델링으로 분석한 결과 토픽은 2가지로 구분되었다. 구체적으로 Topic 1은 '남·북 체육교류', Topic 2는 '올림픽 시범종목 채택'으로 선정되었다. 셋째, 2001년~2010년 뉴스기사를 토픽모델링으로 분석한 결과 토픽은 3가지로 선정되었다. Topic 1은 '태권도 시범공연 및 비리', Topic 2는 '무주태권도공원 조성', Topic 3은 '세계태권도축제'로 선정되었다. 넷째, 2011년~2020년 뉴스기사를 토픽모델링으로 분석한 결과 토픽은 3가지로 선정되었다. Topic 1은 '2018 평창동계올림픽 성공 개최', Topic 2는 '남북 태권도 합동시범공연 ', Topic 3은 '2017 무주세계태권도선수권대회'로 선정되었다.

LDA 및 BERTopic 기반 해외건설시장 뉴스 기사 토픽모델링 성능평가 (Evaluation of Topic Modeling Performance for Overseas Construction Market Analysis Using LDA and BERTopic on News Articles)

  • 백준우;정세환;지석호
    • 대한토목학회논문집
    • /
    • 제43권6호
    • /
    • pp.811-819
    • /
    • 2023
  • 해외건설사업 시, 현지 상황을 정확하고 빠르게 파악하는 것은 프로젝트 성공을 위해 매우 중요한 요소이다. 이는 토픽모델링을 활용한 뉴스 기사 분석을 통해 실현될 수 있다. 본 연구는 Latent Dirichlet Allocation(LDA)과 BERTopic 두 토픽모델링 기법을 활용하여 뉴스 기사를 분석하고, 최적의 기법을 찾고자 하였다. 모델링 결과로 자동생성된 토픽과 실제 문서 주제와의 일치 여부를 확인하기 위해 BBC 뉴스 기사 6,273건 을 수집하여 ground truth를 생성하고, 이를 모델링된 토픽과 비교하였다. 그 결과 LDA의 F1 score는 0.011, BERTopic은 0.244로 나타났다. 이를 통해 BERTopic이 실제 뉴스 기사의 주제를 잘 파악하며, 해외건설시장의 주요 이슈를 자동으로 이해하는 데 더욱 용이하다는 것을 확인할 수 있었다

비정형 텍스트 기반의 토픽 모델링을 이용한 건설 안전사고 동향 분석 (A Study on the Trends of Construction Safety Accident in Unstructured Text Using Topic Modeling)

  • 이상규
    • 한국산학기술학회논문지
    • /
    • 제19권10호
    • /
    • pp.176-182
    • /
    • 2018
  • 본 연구는 건설 안전사고에 대한 트랜드 분석을 위해 LDA(Latent Dirichlet Allocation) 기반의 토픽모델링(Topic Modeling)을 제시하여 분석하고자 한다. 특히, 건설산업의 안전사고를 예방하기 위해 제시되고 있는 기존의 다양한 정형데이터 분석에서 벗어난 비정형 데이터 분석 기반의 토픽 모델링을 통해 건설 안전사고 주요 핵심 키워드의 흐름에 대해 파악이 가능하다. 본 방법론을 적용하기 위해 540개의 건설 안전사고 관련 뉴스데이터를 수집하였다. 이를 기반으로, 10가지 토픽과 각 토픽 내의 10가지 키워드를 통해 주요 이슈를 도출하였고 각 토픽에 대한 2017년 1월부터 2018년 2월까지의 뉴스 데이터를 월별 시계열 분석을 통해 향후 토픽에 관한 이슈를 예측한다. 본 연구를 바탕으로 향후 건설 안전사고의 다양한 이슈를 선제적으로 예측하고 이를 기반으로 건설 안전사고 정책과 연구에 좋은 방향을 제시할 것으로 판단한다.

Company Name Discrimination in Tweets using Topic Signatures Extracted from News Corpus

  • Hong, Beomseok;Kim, Yanggon;Lee, Sang Ho
    • Journal of Computing Science and Engineering
    • /
    • 제10권4호
    • /
    • pp.128-136
    • /
    • 2016
  • It is impossible for any human being to analyze the more than 500 million tweets that are generated per day. Lexical ambiguities on Twitter make it difficult to retrieve the desired data and relevant topics. Most of the solutions for the word sense disambiguation problem rely on knowledge base systems. Unfortunately, it is expensive and time-consuming to manually create a knowledge base system, resulting in a knowledge acquisition bottleneck. To solve the knowledge-acquisition bottleneck, a topic signature is used to disambiguate words. In this paper, we evaluate the effectiveness of various features of newspapers on the topic signature extraction for word sense discrimination in tweets. Based on our results, topic signatures obtained from a snippet feature exhibit higher accuracy in discriminating company names than those from the article body. We conclude that topic signatures extracted from news articles improve the accuracy of word sense discrimination in the automated analysis of tweets.

토픽모델링을 이용한 비대면 신문 기사 키워드 분석 (Non face-to-face News Articles Keyword Using Topic Modeling)

  • Shin, Ari;Hwangbo, Jun Kwon
    • 한국정보통신학회논문지
    • /
    • 제26권11호
    • /
    • pp.1751-1754
    • /
    • 2022
  • The news articles collected with keyword "non face-to-face" were analyzed through topic modeling applied with LDA algorithm. In this study, collected articles were divided into two periods, period 1(the beginning of COVID-19 spread) and period 2(the end of COVID-19 spread), according to issued date of the articles. The articles of period 1 showed support for non-face-to-face treatment, smart library, the beginning of the online financial era, non-face-to-face entrance exam and employment, stock investment for main topic words. And the articles of period 2 showed conversion to non face-to-face classes, increasing unmanned stores, online finance, education industry, home treatment for main topic words. Also, further issues were discussed through visualization of topic words. These results provide evidence that education and unmanned business in non-face-to-face industries are growing.

토픽모델링을 활용한 해운물류 뉴스 분석 (Analysis of Shipping and Logistics News Articles using Topic Modeling)

  • 윤희영;곽일엽
    • 무역학회지
    • /
    • 제46권4호
    • /
    • pp.61-76
    • /
    • 2021
  • This study focuses on three logistics-related news (Logistics Newspaper, Korea Shipping Gadget, and Korea Shipping Newspaper) in order to present changes in logistics issues, centering on Corona 19, which has recently had the greatest impact in the world. For data collection, two-year news articles in 2019 and 2020 (title, article, content, date, article classification, article URL) were collected through web crawling (using Python's BeautifulSoup, requests module) on the homepages of three representative logistics-related media companies. As for the data analysis methods, fundamental statistical analysis, Latent Dirichlet Allocation (LDA) for topic modeling, and Scattertext were performed. The analysis results were as follows. First, among the three news media related to logistics, the Korea Shipping Newspaper was carrying out the most active media activities. Second, through topic modeling with LDA, eight logistics-related topics were identified, and keywords and significant issues of each topic were presented. Third, the keywords were visually expressed through Scattertext. This is the first study to present changes in the logistics field, focusing on articles from representative logistics-related media in 2019 and 2020. In particular, 2019 and 2020 can be divided into before and after the outbreak of Corona 19, which has had a great impact not only on the logistics field but also on our lives as a whole. For future work, a multi-faceted approach is required, such as comparative studies of logistics issues between countries or presenting implications based on long-term time-series articles.

감성분석과 토픽모델링을 활용한 농촌태양광 관련 이슈 연구 : 언론 기사와 블로그 포스트 비교 (Application of Sentiment Analysis and Topic Modeling on Rural Solar PV Issues : Comparison of News Articles and Blog Posts)

  • 기재홍;안승혁
    • 디지털융복합연구
    • /
    • 제18권9호
    • /
    • pp.17-27
    • /
    • 2020
  • 사회적 의제 설정 영향력을 지닌 미디어인 언론 기사와 블로그 포스트에서 농촌태양광이 어떻게 다루어지고 있는지 분석하기 위해 텍스트 마이닝 방법을 활용하였다. 농촌태양광을 키워드로 웹스크래핑을 통해 기사와 블로그 포스트의 텍스트 자료를 수집하고, 이에 대해 감성분석과 토픽모델 기법을 적용하여 연구를 수행했다. 감성분석 결과 농촌태양광에 대한 텍스트에서 두 매체 모두 긍정적인 입장을 가지는 비율이 높았는데, 블로그의 경우 기사에 비해 부정적인 내용을 담은 텍스트의 비중이 훨씬 낮은 것을 확인할 수 있었다. 그리고 토픽모델링 결과로 긍정 기사는 정부의 보급계획 관련 토픽들의 비중이 컸고, 부정 기사는 다양한 토픽들의 비중이 고르게 분포하였다. 블로그는 긍정 포스트의 경우 농촌 지역 설치 관련 토픽들이, 부정 포스트는 환경 피해 관련 토픽들이 가장 큰 부분을 차지했다. 기존에 별개로 이루어지던 감성분석과 토픽모델링을 결합하는 연구 방식을 제시함으로써 농촌태양광에 대한 이슈를 효과적으로 파악할 수 있었다.