• 제목/요약/키워드: 뉴스 기사

검색결과 505건 처리시간 0.066초

웹크롤링을 활용한 뉴스 어뷰징 추론 모델 (News Abusing Inference Model Using Web Crawling)

  • 정경록;박구락;정영석;남기복
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2018년도 제58차 하계학술대회논문집 26권2호
    • /
    • pp.175-176
    • /
    • 2018
  • 기존 신문이나 티브이가 아닌 온라인과 모바일로 뉴스를 보는 사람이 더 많아지면서, 포털 사이트 뉴스난에 다른 언론사의 기사보다 더 많이 노출되기 위한 경쟁의 심화로 뉴스 어뷰징은 심각한 사회 문제로까지 대두되었다. 본 논문은 온라인상에서 생성, 유통되는 많은 뉴스 중에서 이용자의 시간을 낭비하고 양질의 정보를 찾기 힘들게 하는 뉴스 어뷰징을 판단하는 모델을 제안한다. 제안된 모델은 크롤링 기술을 사용하여 뉴스의 제목과 내용을 가져온 후 인공지능 기술을 이용한 유사도 검사로 기사의 어뷰징 여부를 판단하여 양질의 뉴스 정보를 사용자에게 제공될 수 있다.

  • PDF

합성곱신경망과 감성분석 기반의 가짜뉴스 탐지 (Fake News Detection based on Convolutional Neural Network and Sentiment Analysis)

  • 이태원;양영욱;박지수;손진곤
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 추계학술발표대회
    • /
    • pp.64-67
    • /
    • 2021
  • 가짜뉴스는 뉴스 기사 형식을 갖는 날조된 정보를 의미하며, 최근 모바일 인터넷 장치의 보급과 소셜 네트워크 서비스의 대중화로 온라인 확산이 가속화되고 있다. 기존 연구는 가짜뉴스의 탐지를 위해 뉴스의 주제목, 부제목, 리드, 본문 등 뉴스 기사를 이루는 구성요소를 비롯하여 언론사, 기자, 날짜, 확산 경로 등의 메타 데이터를 대상으로 분석하였다. 그러나 뉴스의 제목과 본문 및 메타 데이터 등은 내용 수정이 쉬워, 다량의 데이터를 학습한 모델이라 하더라도 높은 정확도를 장기간 유지하기 어려울 수 있다. 이러한 문제점을 해결하기 위하여 본 논문은 합성곱 신경망을 이용해 문맥 정보를 분석하고 장단기 메모리 기반의 감성분석을 추가로 수행한다. 문맥 정보와 가짜뉴스 유포자가 쉽게 수정할 수 없는 감성 변화 패턴을 활용하여 성능이 개선된 가짜뉴스 탐지 모델을 제안한다.

웹 검색과 문서 유사도를 활용한 2 단계 신문 기사 표절 탐지 시스템 (A Two Phases Plagiarism Detection System for the Newspaper Articles by using a Web Search and a Document Similarity Estimation)

  • 조정현;정현기;김유섭
    • 정보처리학회논문지B
    • /
    • 제16B권2호
    • /
    • pp.181-194
    • /
    • 2009
  • 최근 문서 저작권에 대한 관심과 중요도가 높아지고 있어 문서 표절에 관한 연구가 지속적으로 이루어지고 있다. 이러한 표절 문제는 신문기사의 경우에서도 큰 관심을 끌고 있는데, 이는 상업적 가치가 큰 기사의 표절 또는 무단도용 문제가 적지 않게 발생하고 있기 때문이다. 현재까지의 문서 표절 관련 연구는 실시간 특성이 매우 강한 신문 기사의 표절 문제에 적용하기 어려웠다. 따라서 현재는 이러한 표절 기사를 가려내기 위해 수백 개의 신문사에서 하루 수천 건씩 올라오는 기사들을 눈으로 일일이 가려내는 상황이다. 본 논문에서는 이러한 시간과 비용의 문제를 줄이기 위해 네이버와 다음에서 제공하는 웹 검색 OpenAPI를 활용해 표절 가능성이 있는 기사들을 1차적으로 선별한 다음, 선별된 기사들과 원본 기사와의 문서 유사도를 측정하여 선별된 기사들의 표절 여부를 자동으로 판정할 수 있도록 하였다. 본 연구에서는 실험을 위하여 연합뉴스에서 제공되는 기사를 원본 기사로 활용하였고, 표절 가능성이 있는 기사는 네이버 및 다음의 뉴스 서비스에서 제공되는 모든 기사 중에서 선별하도록 하였다.

'통합교육' 관련 중앙일간지 뉴스 기사의 변화과정 분석 -2000~2009년(10년간) vs 2010~2019년(10년간) 비교 중심으로- (Analysis of the Change Process of News Articles related to 'Inclusive Education' -2000~2009(10 years) vs. 2010~2019(10 years))

  • 박상희
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2020년도 제62차 하계학술대회논문집 28권2호
    • /
    • pp.171-172
    • /
    • 2020
  • 본 연구는 오늘날 특수교육의 가장 핵심적인 방법론인 '통합교육'을 다룬 중앙일간지 뉴스 기사의 변화과정을 분석하였다. 신문자료는 오늘날 빅데이터 시대의 하나의 가치 있는 분석대상으로 부각되고 있다. 또 언론사 뉴스 분석방법론은 관련 학문 연구자의 언어가 아닌 일반 시민들의 인식수준을 확인하는 데 도움을 준다. 본 연구의 결과는 2000년 이후 20년간의 시간대를 10년 단위로 분할하여, '통합교육'의 모습이 어떻게 전파되었는 지를 확인하였다. 본 연구는 분석대상 자료를 기초로 하여, 객관적인 연구방법론을 추가하여 보완해 나갈 것이다.

  • PDF

뉴스 기사의 정치적 성향 판단을 위한 지식 그래프 임베딩 기법의 효과 분석 (Knowledge Graph Embedding Methods for Political Stance Prediction: Performance Evaluation)

  • 류성은;고윤용;김상욱
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.519-521
    • /
    • 2023
  • 온라인 뉴스 플랫폼의 발전은 에코 챔버(echo chamber) 효과와 정치적 양극화를 심화시키며, 이를 완화하기 위한 선행 연구로 뉴스 기사의 정치적 성향을 판단하는 연구가 필요하다. 기존 연구는 외부 지식 그래프를 활용하여 뉴스 기사의 텍스트 정보를 더욱 풍부하게 표현한다. 그러나, 외부 지식을 임베딩하는 지식 그래프 임베딩(knowledge graph embedding, KGE) 방법은 다양하며, 각 KGE 방법이 정치적 성향 예측 정확도에 미치는 효과에 대해서 충분히 연구되지 않았다. 본 논문에서는 정치적 성향 예측에 외부 지식의 활용을 최대화하기 위한 다양한 KGE 방법들의 효과를 분석한다. 실험 결과, 외부 지식 그래프 내의 개체들 간 복잡한 관계를 간단하고 정확하게 표현 가능한 ModE 방법을 활용하는 것이 정치적 성향 예측에 가장 효과적이라는 것을 확인하였다.

국내 언론사 보건의료 뉴스의 Linked Open Data 구축 (Linked Open Data Construction for Korean Healthcare News)

  • 장종선;조완섭;이경희
    • 한국빅데이터학회지
    • /
    • 제1권2호
    • /
    • pp.79-89
    • /
    • 2016
  • 언론사들은 링크드 데이터(Linked Data) 기술을 활용하여 누적된 지적자산으로부터 새로운 가치를 찾는 노력을 하고 있다. 최근 들어 세계적인 언론 매체인 BBC에서는 링크드 데이터 모형을 이용해 자사의 뉴스 기사 가치를 지속해서 향상시키고 있다. 국내 인터넷 신문사들도 누적된 기사를 재활용하고, 이들로부터 새로운 가치를 찾아 뉴스 기사의 가치를 지속해서 향상시킬 필요성이 있다. 본 논문에서는 보건의료 관련 뉴스를 대상으로 링크드 데이터를 구축하는 연구를 소개한다. 기사문에서 보건의료와 관련된 개체명을 인식하여 데이터베이스화하고, 이를 공개된 다른 정보들과 연결하며, 구조화하여 링크드 데이터 서비스를 제공한다. 연구의 결과는 무분별하게 쌓여있는 뉴스데이터를 체계적으로 정리하고, 공개된 다른 정보들과 연결함으로써 기존에 발견하지 못했던 새로운 인사이트를 찾는 기회를 제공하고, 뉴스 데이터가 재활용될 수 있는데 기여할 수 있다. 마지막으로 SPARQL 질의 언어를 이용하여 뉴스 데이터를 대화식으로 탐색할 수 있는데 기여할 수 있다.

  • PDF

텍스트 마이닝을 이용한 기사 내 부적합 문단 검출 시스템 (Detecting Improper Sentences in a News Article Using Text Mining)

  • 김규완;신현주;김선진;이현아
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.294-297
    • /
    • 2017
  • SNS와 스마트기기의 발전으로 온라인을 통한 뉴스 배포가 용이해지면서 악의적으로 조작된 뉴스가 급속도로 생성되어 확산되고 있다. 뉴스 조작은 다양한 형태로 이루어지는데, 이 중에서 정상적인 기사 내에 광고나 낚시성 내용을 포함시켜 독자가 의도하지 않은 정보에 노출되게 하는 형태는 독자가 해당 내용을 진짜 뉴스로 받아들이기 쉽다. 본 논문에서는 뉴스 기사 내에 포함된 문단 중에서 부적합한 문단이 포함되었는지를 판정하기 위한 방법을 제안한다. 제안하는 방식에서는 자연어 처리에 유용한 Convolutional Neural Network(CNN)모델 중 Word2Vec과 tf-idf 알고리즘, 로지스틱 회귀를 함께 이용하여 뉴스 부적합 문단을 검출한다. 본 시스템에서는 로지스틱 회귀를 이용하여 문단의 카테고리를 분류하여 본문의 카테고리 분포도를 계산하고 Word2Vec을 이용하여 문단간의 유사도를 계산한 결과에 가중치를 부여하여 부적합 문단을 검출한다.

  • PDF

텍스트 마이닝을 이용한 기사 내 부적합 문단 검출 시스템 (Detecting Improper Sentences in a News Article Using Text Mining)

  • 김규완;신현주;김선진;이현아
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.294-297
    • /
    • 2017
  • SNS와 스마트기기의 발전으로 온라인을 통한 뉴스 배포가 용이해지면서 악의적으로 조작된 뉴스가 급속도로 생성되어 확산되고 있다. 뉴스 조작은 다양한 형태로 이루어지는데, 이 중에서 정상적인 기사 내에 광고나 낚시성 내용을 포함시켜 독자가 의도하지 않은 정보에 노출되게 하는 형태는 독자가 해당 내용을 진짜 뉴스로 받아들이기 쉽다. 본 논문에서는 뉴스 기사 내에 포함된 문단 중에서 부적합한 문단이 포함 되었는지를 판정하기 위한 방법을 제안한다. 제안하는 방식에서는 자연어 처리에 유용한 Convolutional Neural Network(CNN)모델 중 Word2Vec과 tf-idf 알고리즘, 로지스틱 회귀를 함께 이용하여 뉴스 부적합 문단을 검출한다. 본 시스템에서는 로지스틱 회귀를 이용하여 문단의 카테고리를 분류하여 본문의 카테고리 분포도를 계산하고 Word2Vec을 이용하여 문단간의 유사도를 계산한 결과에 가중치를 부여하여 부적합 문단을 검출한다.

  • PDF

뉴스 웹 페이지에서 기사 본문 추출에 관한 연구 (A Study on Extracting News Contents from News Web Pages)

  • 이용구
    • 정보관리학회지
    • /
    • 제26권1호
    • /
    • pp.305-320
    • /
    • 2009
  • 웹을 통해 제공되는 뉴스 페이지의 경우 필요한 정보 뿐 아니라 많은 불필요한 정보를 담고 있다. 이러한 불필요한 정보는 뉴스를 처리하는 시스템의 성능 저하와 비효율성을 가져온다. 이 연구에서는 웹 페이지로부터 뉴스 콘텐츠를 추출하기 위해 문장과 블록에 기반한 뉴스 기사 추출 방법을 제시하였다. 또한 이들을 결합하여 최적의 성능을 가져올 수 있는 방안을 모색하였다. 실험 결과, 웹 페이지에 대해 하이퍼링크 텍스트를 제거한 후 문장을 이용한 추출 방법을 적용하였을 때 효과적이었으며, 여기에 블록을 이용한 추출 방법과 결합하였을 때 더 좋은 결과를 가져왔다. 문장을 이용한 추출 방법은 추출 재현율을 높여주는 효과가 있는 것으로 나타났다.