• Title/Summary/Keyword: 뉴스 데이터

Search Result 546, Processing Time 0.031 seconds

Correlation Analysis between News Articles and Music Charts using Big Data Technologies based on R (R 기반의 빅데이터 기술을 활용한 뉴스기사와 음원차트의 상관관계 분석)

  • Ha, Jung-chul;Kang, Dong-hoon;Park, Jae-mo;Gil, Joon-Min
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2016.10a
    • /
    • pp.636-639
    • /
    • 2016
  • 빅데이터의 일종인 뉴스기사 중에 아이돌 그룹관련 뉴스기사는 아이돌 그룹의 대중적 인기에 힘입어 전체 연예계 기사 중에 점점 큰 비중을 차지하고 있다. 아이돌 그룹의 소속사는 여러 홍보 방법 중 뉴스기사의 노출을 통해 비교적 저렴한 비용으로 홍보하여 음원차트 순위 향상을 위해 노력하고 있다. 본 논문에서는 뉴스기사와 음원차트 간의 상관관계를 분석하여 뉴스기사의 노출이 효율적 홍보 수단 인지를 알아보기 위해 먼저 감성분석을 통해 긍정기사와 부정기사가 음원차트 순위에 미치는 영향을 분석하고, 뉴스기사의 수가 많을수록 음원차트 순위가 상승하는지에 대해 알아보고자 한다. 이를 위해 본 논문에서는 R 언어를 이용하여 데이터 수집을 위한 웹 크롤러 설계, 회귀분석을 이용한 감성사전 구축 및 감성분석, 마지막으로 피어스만 상관계수를 이용한 상관관계 분석을 수행한다.

Implementation of Content-based News Video Retrieval System for Efficient Video Data Management (효율적인 데이터 관리를 위한 내용기반 뉴스 비디오 검색 시스템 구현)

  • Nam, Yun-Seong;Yang, Dong-Il;Bae, Jong-Sik;Choi, Hyung-Jin
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2005.11a
    • /
    • pp.755-758
    • /
    • 2005
  • 뉴스 데이터를 구조적으로 분할하고 의미적으로 분류하여 내용별로 세분화하여 검색하는 방법을 제안한다. 구조적 분할은 공간 밝기 분포와 명암도의 불연속성 그리고 시간적인 관계 등 프레임간의 상관 정보를 이용하여 장면을 분할한다. 의미적 분류는 키 프레임에서 추출된 특징 정보를 사전 지식 정보와 비교하여 뉴스 비디오의 세부 내용을 기사별로 분류한다. 뉴스의 진행이 앵커 프레임을 중심으로 주기적으로 반복된다는 특징을 이용하여 앵커 장면과 비 앵커 장면으로 기사를 분류한다. 비 앵커 장면은 연설장면, 인터뷰장면, 일반 장면으로 세분화하고 기사별로 분류하여 검색하도록 한다. 또한 뉴스 아이콘에 의한 요약 검색 기능 그리고 자막 통합 처리에 의한 자막 검색을 하여 뉴스 비디오를 내용별로 분류하고 인덱싱하여 신속하게 뉴스 비디오를 검색할 수 있도록 설계한다.

  • PDF

Article Analytic and Summarizing Algorithm by facilitating TF-IDF based on k-means (TF-IDF를 활용한 k-means 기반의 효율적인 대용량 기사 처리 및 요약 알고리즘)

  • Jang, Minseo;OH, Sujin;Kim, Ung-Mo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2018.05a
    • /
    • pp.271-274
    • /
    • 2018
  • 본 논문에서는 뉴스기사 데이터를 활용하여 대규모 뉴스기사를 소주제로 분류하는 군집 분석 방법을 제안한다. 또한, 분류된 뉴스기사를 사용자가 빠르게 이해하고 접할 수 있도록 핵심 문장을 추출하여 제공하는 방법을 제안한다. 분석 데이터는 포털 사이트 점유율 1위인 네이버의 경제 분야 뉴스기사를 크롤링하여 수집한다. 뉴스기사의 분석을 위해 전 처리를 통해 특수문자, 조사, 어미, 구두점 등의 불 용어 처리를 수행한다. 또한, k-means 알고리즘을 이용하여 대용량의 뉴스기사를 주제 별로 분류하는 것을 진행하며 그것을 토대로 핵심 문장을 추출한다. 추출된 핵심 문장은 분류된 뉴스기사의 주제를 나타내며 사용자에게 빠르게 정보를 전달하기 위해 활용한다. 본 논문의 연구 내용이 여러 언론사 사이트에 반영되면 사이트 품질과 사용자 만족도 향상에 기여할 수 있을 것으로 보인다.

An Anchor-frame Detection Algorithm in MPEG News Data using DC component extraction and Color Clustering (MPEG으로 압축된 뉴스 데이터에서의 DC성분 추출과 컬러 클러스터링을 이용한 앵커 프레임 검색 기법)

  • 정정훈;이근섭;오화종;최병욱
    • Proceedings of the IEEK Conference
    • /
    • 2000.09a
    • /
    • pp.729-732
    • /
    • 2000
  • 대용량 비디오 데이터의 이용에 있어 효과적인 비디오 검색을 위해서는 비디오 데이터의 색인 과정이 필요하다. 효과적인 비디오 데이터의 색인을 위해서는 의미적 단위인 씬(Scene)으로 이루어진 비디오 데이터를 물리적인 경계면인 컷(장면전환점)으로 검출하는 기법이 필수적이며 각 샷에서의 키 프레임 추출 또한 필수적이다. 본 논문에서는 뉴스 비디오데이터의 키 프레임인 앵커 프레임의 효과적인 검색을 위해 DC 성분 추출과 이진 검색기법, 그리고 컬러 클러스터링을 이용하고 있다. 본 논문에서 제하고 있는 방법을 검증하기 위해서 47분 10초 분량의 MPEG-2 로 압축된 뉴스 비디오 데이터에 적용한 결과 91.3%의 정확도와 84.0%의 재현율을 보여 제안한 방법의 우수성을 증명하고 있다.

  • PDF

News Clipping System Through Dynamic Data Extraction (동적 데이터 추출을 통한 뉴스 클리핑 시스템)

  • 전호철;신성혁
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 2003.11b
    • /
    • pp.727-730
    • /
    • 2003
  • 인터넷의 빠른 보급으로 많은 양의 정보가 유통되기 시작했다. 그러나 사용자들은 필요한 정보들을 취사 선택하기엔 정보들은 양이 너무 방대하다. 각종 사이트에 있는 뉴스들을 실시간으로 사용자들에게 필요한 정보를 제공할 수 있는 뉴스 클리핑은 이러한 사용자들의 요구를 충족할수 있다 하지만 기존의 뉴스 클리핑 시스템은 각 사이트에 접근 후, 수동적인 분석을 통해 뉴스 정보 및 뉴스 기사의 위치를 파악하고 이를 추출하도록 하는 시스템들이다. 본 논문에서 제안하고자 하는 시스템은 사이트의 구조를 파악하고, 뉴스 기사들을 동적으로 추출함으로써 기존 시스템의 단점을 극복하고, 내용 기반의 뉴스기사 검색이 가능하도록 한다.

  • PDF

Covid 19 News Data Analysis and Visualization

  • Hur, Tai-Sung;Hwang, In-Yong
    • Journal of the Korea Society of Computer and Information
    • /
    • v.27 no.4
    • /
    • pp.37-43
    • /
    • 2022
  • In this paper, we calculate the word frequency by date and region using news data related to COVID-19 distributed for about 8 months from December 2019 to July 2020, and visualized the correlation with the current state data of COVID-19 patients using the results. News data was collected from Big Kids, a news big data system operated by the Korea Press Promotion Foundation. The visualization system proposed in this paper shows the news frequency of the selected region compared to the overall region, the key keyword of the selected region, the region of the main keyword, and the date change of the selected region. Through this visualization, the main keywords and trends of COVID-19 confirmed and infected people can be identified for previous events.

Interactive Map-based Spatio-Temporal Visualization of Typhoon Situation using Web News BigData (웹 뉴스 빅데이터를 이용한 태풍 상황정보의 인터렉티브 지도 기반 시공간 시각화 방안)

  • Lee, Jiae;Kim, Junchul
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2020.11a
    • /
    • pp.773-776
    • /
    • 2020
  • 웹 뉴스 기사는 태풍과 같은 재해 발생상황에 대한 신속하고 정확한 정보를 포함하고 있다. 예를 들어, 태풍의 발생시점, 이동·예측경로, 피해·사고 현황 등 유용한 정보를 텍스트, 이미지, 동영상의 형태로 관련 상황정보를 전달한다. 그러나 대부분의 재해재난 관련 뉴스 기사는 특정 시점의 정보만을 웹페이지 형태로 제공하므로, 시계열 측면의 연결성을 지니는 기사들에 대한 정보를 전달하기 어렵다. 또한 시간적 변화에 따라 기사 내용에 포함된 장소, 지역, 건물 등의 지명에 대한 공간적 정보를 지도와 연계하여 정보를 전달하는데 한계가 있어, 시공간적 변화에 따른 특정 재해재난 상황정보에 대한 전체적인 현황파악이 어렵다. 따라서, 본 논문에서는 데이터 시각화 측면에서 이러한 한계를 극복하기 위해, 1) 웹크롤링을 통해 구축된 뉴스 빅데이터를 자연어 처리를 통해 태풍과 관련된 뉴스 기사들을 추출하였고, 2) 시공간적 관련 정보를 지식그래프로 구축하였고, 이를 통해 최근 발생한 태풍 사건들과 관련된 뉴스 정보를 시계열 특성을 고려하여 3) 인터렉티브 지도 기반의 태풍 상황정보를 시각화하는 방안을 연구하였다.

Translation Pre-processing Technique for Improving Analysis Performance of Korean News (한국어 뉴스 분석 성능 향상을 위한 번역 전처리 기법)

  • Lee, Ji-Min;Jeong, Da-Woon;Gu, Yeong-Hyeon;Yoo, Seong-Joon
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2020.07a
    • /
    • pp.619-623
    • /
    • 2020
  • 한국어는 교착어로 1개 이상의 형태소가 단어를 이루고 있기 때문에 텍스트 분석 시 형태소를 분리하는 작업이 필요하다. 자연어를 처리하는 대부분의 알고리즘은 영미권에서 만들어졌고 영어는 굴절어로 특정 경우를 제외하고 일반적으로 하나의 형태소가 단어를 구성하는 구조이다. 그리고 영문은 주로 띄어쓰기 위주로 토큰화가 진행되기 때문에 텍스트 분석이 한국어에 비해 복잡함이 떨어지는 편이다. 이러한 이유들로 인해 한국어 텍스트 분석은 영문 텍스트 분석에 비해 한계점이 있다고 알려져 있다. 한국어 텍스트 분석의 성능 향상을 위해 본 논문에서는 번역 전처리 기법을 제안한다. 번역 전처리 기법이란 원본인 한국어 텍스트를 영문으로 번역하고 전처리를 거친 뒤 분석된 결과를 재번역하는 것이다. 본 논문에서는 한국어 뉴스 기사 데이터와 번역 전처리 기법이 적용된 영문 뉴스 텍스트 데이터를 사용했다. 그리고 주제어 역할을 하는 키워드를 단어 간의 유사도를 계산하는 알고리즘인 Word2Vec(Word to Vector)을 통해 유사 단어를 추출했다. 이렇게 도출된 유사 단어를 텍스트 분석 전문가 대상으로 성능 비교 투표를 진행했을 때, 한국어 뉴스보다 번역 전처리 기법이 적용된 영문 뉴스가 약 3배의 득표 차이로 의미있는 결과를 도출했다.

  • PDF

Near Duplicate News Combining System to Prevent Information Loss Due to Deduplication of News (뉴스 중복 제거에 따른 정보 유실 방지하기 위한 중복 뉴스 결합 시스템)

  • Kim, Tae-Hwan;Choi, Won-Jae;Kim, Jung-Sun
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2020.07a
    • /
    • pp.391-392
    • /
    • 2020
  • 본 논문에서는 중복 데이터가 가장 많은 인터넷 뉴스 상에서 중복 뉴스를 제거하는 경우 중복 뉴스로 판단되는 유사 중복 문서를 제거할 때 정보의 유실이 발생한다. 본 논문에서는 인터넷 뉴스를 대상으로 유사 중복 뉴스를 제거할 때 발생하는 정보의 유실을 해결하기 위해 제거 된 뉴스와 결합하여 새로운 뉴스를 만드는 중복 뉴스 결합 시스템을 제안한다. 제안하는 방법은 뉴스의 기본 문장과 탐지된 중복 뉴스의 문장 간의 관계 유사도를 활용하여 유실 된 정보를 파악하고 파악된 결과를 기본 뉴스에 결합하여 정보의 유실을 최소화 시키는 것을 실험을 통해 보였다. 향후 뉴스분야뿐만 아니라 중복 문서 제거가 필요한 문서를 다루는 모든 분야에서 정보의 유실을 최소화하기 위한 방법으로 활용할 수 있을 것으로 기대 한다.

  • PDF

Sentimental Analysis of SW Education News Data (SW 교육 뉴스데이터의 감성분석)

  • Park, SunJu
    • Journal of The Korean Association of Information Education
    • /
    • v.21 no.1
    • /
    • pp.89-96
    • /
    • 2017
  • Recently, a number of researches actively focus on the contents and sensitivity of information distributed through SNS as smartphones and SNS gained its popularity. In this paper, we collected online news data about SW education, extracted words after morphological analysis, and analyzed emotions of collected news data by calculating sentimental score of each news datum. Also, the accuracy of the calculated sentimental score was examined. As a result, the number of news related to 'SW education' in the collection period was about 189 per month, and the average of sentimental score was 0.7, which signifies the news related to 'SW education' was emotionally positive. We were positive about the importance of SW education and the policy implementation, but there were negative views on the specific method for the realization. That is, a lack of SW education environment and its education method, a problem related to improvement of SW developers and improvement of their labor conditions, and increase of private education in coding were the factors for the negative viewers.