• 제목/요약/키워드: News Topic

검색결과 240건 처리시간 0.026초

TF-IDF의 변형을 이용한 전자뉴스에서의 키워드 추출 기법 (Keyword Extraction from News Corpus using Modified TF-IDF)

  • 이성직;김한준
    • 한국전자거래학회지
    • /
    • 제14권4호
    • /
    • pp.59-73
    • /
    • 2009
  • 키워드 추출은 정보검색, 문서 분류, 요약, 주제탐지 등의 텍스트 마이닝 분야에서 기반이 되는 기술이다. 대용량 전자문서로부터 추출된 키워드들은 텍스트 마이닝을 위한 중요 속성으로 활용되어 문서 브라우징, 주제탐지, 자동분류, 정보검색 시스템 등의 성능을 높이는데 기여한다. 본 논문에서는 인터넷 포털 사이트에 게재되는 대용량 뉴스문서집합을 대상으로 키워드 추출을 수행하여 분야별 주제를 제시할 수 있는 키워드를 추출하는 새로운 기법을 제안한다. 기본적으로 키워드 추출을 위해 기존 TF-IDF 모델을 고찰, 이것의 6가지 변형식을고안하여 이를 기반으로 각 분야별 후보 키워드를 추출한다. 또한 분야별로 추출된 단어들의 분야간 교차비교분석을 통해 불용어 수준의 의미 없는 단어를 제거함으로써 그 성능을 높인다. 제안 기법의 효용성을 입증하기 위해 한글 뉴스 기사 문서에서 추출한 키워드의 질을 비교하였으며, 또한 주제 변화를 탐지하기 위해 시간에 따른 키워드 집합의 변화를 보인다.

  • PDF

텍스트 마이닝을 이용한 청소년 문제 토픽 모델링 (Topic Modeling on the Adolescent Problem Using Text Mining)

  • 조주연;조경원
    • 한국정보통신학회논문지
    • /
    • 제22권12호
    • /
    • pp.1589-1595
    • /
    • 2018
  • 본 연구는 인터넷 뉴스 사이트에 실린 청소년 문제를 탐색하고 그 동향을 파악하는데 목적이 있다. 국내 인터넷 뉴스 사이트 중 2018년 기준으로 상위 3위의 '조선일보', '동아일보', '중앙일보' 뉴스 사이트를 대상으로, 1993년부터 2018년 상반기까지 총 8,110건의 청소년 문제 관련 기사가 분석에 활용되었다. 연구 결과 최근 26년간의 인터넷 뉴스 사이트에서 청소년 문제가 어떤 주제로 기사화되어 왔는지 파악하였으며, 기사 추이가 청소년 문제와 관련된 시대별 환경, 정책, 문화 등을 고려하여 변화되어 왔음을 파악할 수 있었다. 본 연구는 기존 청소년 문제의 사회적 동향을 살펴보기 위한 방법에서 시작하여 청소년 문제나 청소년 상담의 범위를 확장하고 다양성을 고려하는데 정량적인 분석 방법을 사용하고 새로운 정보를 제공하는 것에 의의가 있다.

An Exploratory Study on Issues Related to chatGPT and Generative AI through News Big Data Analysis

  • Jee Young Lee
    • International Journal of Advanced Culture Technology
    • /
    • 제11권4호
    • /
    • pp.378-384
    • /
    • 2023
  • In this study, we explore social awareness, interest, and acceptance of generative AI, including chatGPT, which has revolutionized web search, 30 years after web search was released. For this purpose, we performed a machine learning-based topic modeling analysis based on Korean news big data collected from November 30, 2022, when chatGPT was released, to August 31, 2023. As a result of our research, we have identified seven topics related to chatGPT and generative AI; (1)growth of the high-performance hardware market, (2)service contents using generative AI, (3)technology development competition, (4)human resource development, (5)instructions for use, (6)revitalizing the domestic ecosystem, (7)expectations and concerns. We also explored monthly frequency changes in topics to explore social interest related to chatGPT and Generative AI. Based on our exploration results, we discussed the high social interest and issues regarding generative AI. We expect that the results of this study can be used as a precursor to research that analyzes and predicts the diffusion of innovation in generative AI.

뉴스데이터의 LDA 토픽 분석을 통한 장수군 농촌지역 활성화 사업의 특징 - 관광·생활 키워드를 중심으로 - (Features of the Rural Revitalization Projects in Jang-su County Using LDA Topic Analysis of News Data - Focused on Keyword of Tourism and Livelihood -)

  • 김용진;손용훈
    • 농촌계획
    • /
    • 제24권4호
    • /
    • pp.69-80
    • /
    • 2018
  • In this study, we typified the project for revitalizing the rural area through text analysis using news data, and analyzed the main direction and characteristics of the project. In order to examine the factors emphasized among the issues related to the revitalization of rural areas, we used news data related to 'tourism' and 'livelihood', which are the main keyword of the project to promote rural areas. In the analysis, text mining techniques were used. Topic modeling was conducted on LDA techniques for major projects in 'tourism' and 'livelihood' keyword. Based on this, this study typified the projects that are carried out for the activation of rural areas by topic. As a result of the analysis, it was fount that the topics included in the project were distributed in 11 sub-types(Tourism Promotion, Regional Specialization, Local Festival, Development of Regional Scale, Urban and Rural Exchange, Agricultural Support, Community Forest Management, Improve the Settlement Environment, General Welfare Service, Low Class Support, Others). The characteristics of the rural revitalization projects were examined, and it was confirmed that domestic projects were carried out by tourism-oriented projects. To summarize, the government is making projects to revitalize rural areas through related ministries. Within the structure where the project is spreading to the region, a lot of projects are being carried out. It is understood that the tourism and welfare oriented projects are being carried out in the revitalization project of the domestic rural area. Therefore, in order to achieve the goal of rural revitalization, it is believed that it will be effective to carry out a balanced project to improve the settlement environment of the residents.

Algorithm Design to Judge Fake News based on Bigdata and Artificial Intelligence

  • Kang, Jangmook;Lee, Sangwon
    • International Journal of Internet, Broadcasting and Communication
    • /
    • 제11권2호
    • /
    • pp.50-58
    • /
    • 2019
  • The clear and specific objective of this study is to design a false news discriminator algorithm for news articles transmitted on a text-based basis and an architecture that builds it into a system (H/W configuration with Hadoop-based in-memory technology, Deep Learning S/W design for bigdata and SNS linkage). Based on learning data on actual news, the government will submit advanced "fake news" test data as a result and complete theoretical research based on it. The need for research proposed by this study is social cost paid by rumors (including malicious comments) and rumors (written false news) due to the flood of fake news, false reports, rumors and stabbings, among other social challenges. In addition, fake news can distort normal communication channels, undermine human mutual trust, and reduce social capital at the same time. The final purpose of the study is to upgrade the study to a topic that is difficult to distinguish between false and exaggerated, fake and hypocrisy, sincere and false, fraud and error, truth and false.

토픽모델링과 시계열 회귀분석을 활용한 헬스케어 분야의 뉴스 빅데이터 분석 연구 (Big Data News Analysis in Healthcare Using Topic Modeling and Time Series Regression Analysis)

  • 김은정;장석권;이상용
    • 경영정보학연구
    • /
    • 제25권3호
    • /
    • pp.163-177
    • /
    • 2023
  • 본 연구는 디지털 헬스케어 산업 활성화를 위한 정책적 접근으로서, 주요 의제 도출 및 정책적 시사점을 제시하는데 목적이 있다. 본 연구에서는 10년(2013년~2022년) 간의 헬스케어와 관련된 뉴스 빅데이터 총 91,873건을 수집하여 토픽모델링 분석, 다차원척도 분석 및 시계열 회귀분석을 수행하였다. 토픽모델링 분석 및 다차원척도법을 통해 총 20개의 토픽을 도출하여 2차원선상에 토픽들의 군집 형태를 파악하였고, 시계열 회귀분석을 통해, 상승 추세를 나타내는 4개의 Hot topic(건강관리, 바이오제약, 기업매출·전망, 정부·정책)과 하향 추세를 나타내는 3개의 Cold topic(스마트기기, 주식·투자, 도시·건설)을 도출되었다. 본 연구의 결과는 우리나라 정책을 수립하는 정부 기관에 중요한 기초 자료로 활용될 수 있을 것이다.

한국신문의 아시아와 서구에 대한 보도양상의 차이와 이유 연구: 뉴스주제, 보도량, 보도태도, 미디어 정보원을 중심으로 (Differences of news aspect about Asia and West in Korean newspapers and its reason: Focusing on news topic, amount of news, news tone and media sources)

  • 오대영
    • 한국언론정보학보
    • /
    • 제61권
    • /
    • pp.74-97
    • /
    • 2013
  • 21세기 들어 아시아가 빠르게 발전하고 있다. 한국과 아시아 국가 사이에 인적, 물적 교류도 크게 늘고, 한국이 다문화사회로 접어들면서 아시아에 대한 우리 국민들의 올바른 이해가 더욱 중요해졌다. 이를 위해서는 한국신문의 아시아에 대한 보도양상이 중요하다는 문제의식에서 조선일보, 동아일보, 한겨레신문, 경향신문 등 4개 신문이 2011년에 보도한 1786개의 국제뉴스 내용을 분석해서 아시아와 서구에 대한 보도양상의 차이와 이유를 알아봤다. 보도량에서는 아시아(45.7%)보다 서구(54.3%)뉴스가 많았다. 아시아 뉴스에서는 부정적인 뉴스가 가장 많았으나, 서구 뉴스에서는 부정적인 뉴스가 가장 적고 중립적 또는 긍정적인 뉴스가 가장 많아 한국신문은 아시아보다 서구에 대해 긍정적인 보도태도를 보였다. 국제뉴스를 도덕 정의, 정치, 경제 과학, 사회, 외교 국방, 인간적 흥미, 인물 등 7개의 주제로 분류했다. 주제별 보도량을 보면 아시아에 대해서는 외교 국방, 도덕 정의, 정치 등 경성기사를 많이 보도했다. 서구에 대해서는 경성기사 이외에 인간적 흥미, 인물 등 연성기사도 많이 보도해 아시아보다는 다양한 뉴스를 전달했다. 경성기사에서는 부정적인 태도가 가장 많았고, 연성기사에서는 긍정 또는 중립적인 태도가 가장 많았다. 그 결과 한국신문의 국제뉴스는 아시아에 대해 부정적이고, 서구에 대해 긍정적인 보도태도를 나타내게 됐다. 미디어, 정부, 민간조직, 개인, 자료 등 5개의 핵심 정보원 가운데 미디어만이 서구와 아시아에 대한 보도태도의 차이에 영향을 주고 있었다. 아시아 미디어 정보원은 서구 미디어보다 아시아에 대해 긍정적인 보도를 많이 했다. 서구 미디어 정보원은 아시아에 대해서는 부정적, 서구에 대해서는 중립적인 보도를 많이 했다. 그런데 한국신문은 동아시아를 제외한 지역의 뉴스에서는 전적으로 서구미디어를 핵심 정보원으로 활용했다. 이에 따라 한국신문의 국제뉴스는 서구중심적이 되고, 아시아에 더 부정적인 보도를 많이 하게 되었다. 한국신문의 서구와 아시아에 대한 보도양상은 많이 보도한 주제와 외국 미디어 정보원 의존 형태에 따라 달라졌다. 한국신문은 특파원 등을 활용한 직접 취재, 인터넷을 이용한 아시아 매체활용 확대 등으로 아시아에 대해 다양한 뉴스를 전달해야 한다는 개선방안을 제시했다.

  • PDF

R&D Perspective Social Issue Packaging using Text Analysis

  • Wong, William Xiu Shun;Kim, Namgyu
    • 한국IT서비스학회지
    • /
    • 제15권3호
    • /
    • pp.71-95
    • /
    • 2016
  • In recent years, text mining has been used to extract meaningful insights from the large volume of unstructured text data sets of various domains. As one of the most representative text mining applications, topic modeling has been widely used to extract main topics in the form of a set of keywords extracted from a large collection of documents. In general, topic modeling is performed according to the weighted frequency of words in a document corpus. However, general topic modeling cannot discover the relation between documents if the documents share only a few terms, although the documents are in fact strongly related from a particular perspective. For instance, a document about "sexual offense" and another document about "silver industry for aged persons" might not be classified into the same topic because they may not share many key terms. However, these two documents can be strongly related from the R&D perspective because some technologies, such as "RF Tag," "CCTV," and "Heart Rate Sensor," are core components of both "sexual offense" and "silver industry." Thus, in this study, we attempted to discover the differences between the results of general topic modeling and R&D perspective topic modeling. Furthermore, we package social issues from the R&D perspective and present a prototype system, which provides a package of news articles for each R&D issue. Finally, we analyze the quality of R&D perspective topic modeling and provide the results of inter- and intra-topic analysis.

의학교육에서 기계학습방법 교육: 석면 언론 프레임 연구사례를 중심으로 (Machine Learning Method in Medical Education: Focusing on Research Case of Press Frame on Asbestos)

  • 김준혁;허소윤;강신익;김건일;강동묵
    • 의학교육논단
    • /
    • 제19권3호
    • /
    • pp.158-168
    • /
    • 2017
  • There is a more urgent call for educational methods of machine learning in medical education, and therefore, new approaches of teaching and researching machine learning in medicine are needed. This paper presents a case using machine learning through text analysis. Topic modeling of news articles with the keyword 'asbestos' were examined. Two hypotheses were tested using this method, and the process of machine learning of texts is illustrated through this example. Using an automated text analysis method, all the news articles published from January 1, 1990 to November 15, 2016 in South Korea which included 'asbestos' in the title and the body were collected by web scraping. Differences in topics were analyzed by structured topic modelling (STM) and compared by press companies and periods. More articles were found in liberal media outlets. Differences were found in the number and types of topics in the articles according to the partisanship and period. STM showed that the conservative press views asbestos as a personal problem, while the progressive press views asbestos as a social problem. A divergence in the perspective for emphasizing the issues of asbestos between the conservative press and progressive press was also found. Social perspective influences the main topics of news stories. Thus, the patients' uneasiness and pain are not presented by both sources of media. In addition, topics differ between news media sources based on partisanship, and therefore cause divergence in readers' framing. The method of text analysis and its strengths and weaknesses are explained, and an application for the teaching and researching of machine learning in medical education using the methodology of text analysis is considered. An educational method of machine learning in medical education is urgent for future generations.