통합 검색 | Korea Science

TF-IDF를 활용한 k-means 기반의 효율적인 대용량 기사 처리 및 요약 알고리즘 (Article Analytic and Summarizing Algorithm by facilitating TF-IDF based on k-means)

장민서;오수진;김응모
- 한국정보처리학회:학술대회논문집
- /
- 한국정보처리학회 2018년도 춘계학술발표대회
- /
- pp.271-274
- /
- 2018
본 논문에서는 뉴스기사 데이터를 활용하여 대규모 뉴스기사를 소주제로 분류하는 군집 분석 방법을 제안한다. 또한, 분류된 뉴스기사를 사용자가 빠르게 이해하고 접할 수 있도록 핵심 문장을 추출하여 제공하는 방법을 제안한다. 분석 데이터는 포털 사이트 점유율 1위인 네이버의 경제 분야 뉴스기사를 크롤링하여 수집한다. 뉴스기사의 분석을 위해 전 처리를 통해 특수문자, 조사, 어미, 구두점 등의 불 용어 처리를 수행한다. 또한, k-means 알고리즘을 이용하여 대용량의 뉴스기사를 주제 별로 분류하는 것을 진행하며 그것을 토대로 핵심 문장을 추출한다. 추출된 핵심 문장은 분류된 뉴스기사의 주제를 나타내며 사용자에게 빠르게 정보를 전달하기 위해 활용한다. 본 논문의 연구 내용이 여러 언론사 사이트에 반영되면 사이트 품질과 사용자 만족도 향상에 기여할 수 있을 것으로 보인다.
https://doi.org/10.3745/PKIPS.y2018m05a.271 인용 PDF

장애인 평생교육 관련 언론사 뉴스 빅데이터 분석 (News Big Data Analysis of Media Companies related to Lifelong Education for the Disabled)

권충훈
- 한국컴퓨터정보학회:학술대회논문집
- /
- 한국컴퓨터정보학회 2022년도 제65차 동계학술대회논문집 30권1호
- /
- pp.183-184
- /
- 2022
본 연구는 장애인 평생교육 관련 언론사 뉴스 빅데이터를 한국언론재단의 빅카인즈(BIGKinds) 시스템을 이용하여 분석하였다. 본 연구에서는 2000년 1월 1일부터 2020년 12월 31일까지 20년간, 총 54개 언론사에서 보도한 '장애인 평생교육' 관련 뉴스 기사들을 추출하였다. 그 분석대상 뉴스 빅데이터를 대상으로 키워드 트렌드 분석, 언어 네트워크 지도 구현, 연관어 분석(워드클라우드 제시) 등을 진행하였다. 본 연구 결과는 장애인 평생교육 관련 정책 입안 연구 및 실증적인 연구(평생교육 참여 요인 및 효과 등)의 기초자료로 활용될 수 있을 것으로 기대된다.
PDF

Prediction of Stock Returns from News Article's Recommended Stocks Using XGBoost and LightGBM Models

Yoo-jin Hwang;Seung-yeon Son;Zoon-ky Lee
- 한국컴퓨터정보학회논문지
- /
- 제29권2호
- /
- pp.51-59
- /
- 2024
투자자는 수익의 극대화를 위해 언론사의 기사를 포함한 다양한 정보를 활용하여 투자 전략을 수립한다. 이에 국내 언론사에서도 신뢰도 있는 투자정보를 제공하기 위해, 애널리스트의 종목분석 보고서에 기초한 종목 추천기사를 게재하고 있다. 본 연구에서는 종목 추천기사 게재를 하나의 사건(event)으로 간주하고, XGBoost와 LightGBM 모델을 활용하여 기사 게재 10일 이후 가격의 상승 또는 하락을 예측하는 분류 모델을 제시한다. 또한, 전체 추천종목을 유가증권시장과 코스닥 시장 및 기업규모(대형/소형)에 따라 4가지로 분류하고, 하위 그룹에 따라 모델의 예측 정확도에 차이가 있는지 파악하고자 한다. 학습 결과 전체 모델의 분류 정확도는 XGBoost 75%, LightGBM 71%로 나타났고, 예측 정확도는 유가증권 시장 예측력이 코스닥시장 주식 대비 높게 나타났으며, 대형주의 예측력이 소형주 보다 높게 나타났다. 마지막으로, SHAP(Shapley Additive exPlanations) 분석을 통해 개별 모델의 예측에 중요한 변수를 살펴보고 모델의 해석력을 제고하였다.
https://doi.org/10.9708/jksci.2024.29.02.051 인용 PDF HTML

빅카인즈(BIGKinds) 시스템을 활용한 '고교학점제' 관련 언론기사 분석 (Analysis of press articles related to 'high school credit system' using BIGKinds system)

권충훈
- 한국컴퓨터정보학회:학술대회논문집
- /
- 한국컴퓨터정보학회 2020년도 제61차 동계학술대회논문집 28권1호
- /
- pp.99-100
- /
- 2020
본 연구는 최근 우리나라 국민들의 주요 관심 교육정책인 '고교학점제' 관련 언론기사들을 한국언론재단의 빅카인즈(BIGKinds) 시스템을 활용하여 분석하였다. 본 연구에서는 2018년 1월 1일부터 2019년 11월 30일까지 기간을 설정한 후, 총 54개 언론사의 '고교학점제' 관련기사들을 추출하였다. 그 다음, 추출된 '고교학점제' 관련 기사들을 대상으로 뉴스트렌드 분석, 네트워크 지도 구현, 핵심어 추출 및 워드클라우드 제시 등의 연구과정을 거쳤다. 본 연구결과는 '고교학점제'의 정책 진행 과정성의 과제 및 쟁점들을 해결하는데 기초자료로 활용될 수 있을 것으로 기대된다.
PDF

단어 분별도에 기반한 뉴스 검색 문서 요약 (Search Resulted News Summarization using Word Discriminability)

이상건;이혜민;김기령;서덕호;이현아
- 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
- /
- 한국정보과학회언어공학연구회 2014년도 제26회 한글 및 한국어 정보처리 학술대회
- /
- pp.175-178
- /
- 2014
다양한 언론사로부터 기사를 제공받아 서비스하는 인터넷 포털의 뉴스에서는 수많은 중복 기사가 실시간으로 등록된다. 이로 인하여 인터넷 포털에서 관심 있는 주제의 기사를 검색하여 찾아보려는 경우 검색키워드를 포함한 기사의 수가 지나치게 많아 원하는 정보를 적절하게 얻기 어렵다. 본 논문에서는 이러한 문제점을 해결하기 위해서 검색 기사 중 유사한 문서를 군집화하고 군집에 대한 다중문서요약을 사용자에게 제시하여 검색된 기사를 효율적으로 활용할 수 있는 방법을 제시한다. 다중문서 요약에서는 뉴스 기사에 적합한 단어 가중치인 분별도(discriminability)를 제안하여 사용하여 군집화된 기사로부터 유사 문장을 군집한다. 시스템에서는 군집된 기사의 대표 문장 군집에서 대표 문장, 즉 키워드에 대한 주제별 기사의 요약문을 결과로 제시하여, 효율적인 뉴스 검색을 지원한다.
PDF

국내 언론사 보건의료 뉴스의 Linked Open Data 구축 (Linked Open Data Construction for Korean Healthcare News)

장종선;조완섭;이경희
- 한국빅데이터학회지
- /
- 제1권2호
- /
- pp.79-89
- /
- 2016
언론사들은 링크드 데이터(Linked Data) 기술을 활용하여 누적된 지적자산으로부터 새로운 가치를 찾는 노력을 하고 있다. 최근 들어 세계적인 언론 매체인 BBC에서는 링크드 데이터 모형을 이용해 자사의 뉴스 기사 가치를 지속해서 향상시키고 있다. 국내 인터넷 신문사들도 누적된 기사를 재활용하고, 이들로부터 새로운 가치를 찾아 뉴스 기사의 가치를 지속해서 향상시킬 필요성이 있다. 본 논문에서는 보건의료 관련 뉴스를 대상으로 링크드 데이터를 구축하는 연구를 소개한다. 기사문에서 보건의료와 관련된 개체명을 인식하여 데이터베이스화하고, 이를 공개된 다른 정보들과 연결하며, 구조화하여 링크드 데이터 서비스를 제공한다. 연구의 결과는 무분별하게 쌓여있는 뉴스데이터를 체계적으로 정리하고, 공개된 다른 정보들과 연결함으로써 기존에 발견하지 못했던 새로운 인사이트를 찾는 기회를 제공하고, 뉴스 데이터가 재활용될 수 있는데 기여할 수 있다. 마지막으로 SPARQL 질의 언어를 이용하여 뉴스 데이터를 대화식으로 탐색할 수 있는데 기여할 수 있다.
PDF

언어 네트워크 분석을 이용한 신종 감염병 보도 분석: 다제내성균 보도 사례를 중심으로 (A semantic network analysis of news reports on an emerging infectious disease by multidrug-resistant microorganism)

박기수;이귀옥;최명일
- 디지털융복합연구
- /
- 제12권2호
- /
- pp.343-351
- /
- 2014
이 연구는 여러 항생제에 내성을 지닌 다제내성균에 대해 미디어가 어떻게 보도하는지를 알아보기 위해, 기사 제목에 나타난 핵심어를 언어 네크워크 분석을 이용하여 살펴보았다. 이를 위해 한국언론진흥재단의 기사검색사이트인 카인즈(www.kinds.or.kr)와 언론사의 홈페이지를 통해 약 28개 언론사를 대상으로 2010년 6월 1일부터 2011년 12월 31일까지 229개의 다제내성균 관련 기사를 분석하였다. 먼저, 뉴스 제목에 나타난 핵심어를 분석한 결과, 기사 제목에서 '슈퍼박테리아'(155건)가 가장 많이 사용된 것으로 나타났으며, 불안감을 촉발시키는 '감염'(63건) 용어도 많은 것으로 나타났다. 신종 감염병 보도의 전체 네트워크 구조는 '국내', '다제내성균', '첫', '항생제', '슈퍼박테리아', '발생', '감염' 등의 핵심어를 중심으로 형성된 반면, '관련주', '의료진', '안전' 등은 네크워크 중심에서 크게 벗어나 있었다.
https://doi.org/10.14400/JDC.2014.12.2.343 인용 PDF KSCI

빅데이터 분석기법을 활용한 아파트 가격 관련 뉴스 기사의 극성 분석 (A Study on the Polarity of Apartment Price News Using Big Data Analysis Method)

조상연;홍은표
- 디지털융복합연구
- /
- 제17권9호
- /
- pp.47-54
- /
- 2019
본 연구는 빅데이터 분석 방법인 오피니언 마이닝을 사용하여 아파트 가격 관련 뉴스 기사의 극성을 확인하는 연구로 자료는 2012년, 2018년 2년간 네이버에 게시된 인터넷 뉴스 기사를 사용하였다. 감성분석 모형을 모델링하고 주제 지향형 감성사전 구축 방법을 제안하였다. 제안한 감성분석 모형을 통해 분석한 결과, 아파트 가격이 상승하는 시기에는 사회적 이슈 선정에 있어서 언론사의 성향에 따라 차이가 있는 것을 확인하였고 정부와 동일한 성향의 언론사에서 긍정 기사가 많은 것을 확인하였다. 부동산 분야에서 사용할 수 있는 감성분석 모형을 제시하고 부동산 관련 비정형 데이터의 극성을 분석하였다는 것에 의의가 있다. 향후 다양한 분야에 접목하기 위해서는 주제별 감성사전을 구축해야 하며 다양한 비정형 데이터를 수집하고 수집 기간을 확장하는 것이 필요하다.
https://doi.org/10.14400/JDC.2019.17.9.047 인용 PDF KSCI

블록체인 기술 기반의 가짜 뉴스 신뢰성 검증 플랫폼 (Fake News Reliability Verification Platform based on Blockhain Technology)

이세훈;문효재
- 한국컴퓨터정보학회:학술대회논문집
- /
- 한국컴퓨터정보학회 2018년도 제58차 하계학술대회논문집 26권2호
- /
- pp.78-79
- /
- 2018
최근 가짜뉴스가 무분별하게 확산되면서 가짜뉴스로 인한 경제적, 사회적 비용이 커지고 있다. 하루에 발생하는 가짜뉴스는 방대하며, 실제 뉴스기사를 악의적으로 재생산 또는 언론사를 사칭하는 방식으로 유포되고 있다. 이를 구분하기 위한 연구가 많으나, 공인된 뉴스 기사인지에 대한 신뢰성 입증과 관련된 연구 논문은 매우 적은 상황이다. 본 논문에서는 가짜뉴스 문제를 해결하기 위해 뉴스 플랫폼에 블록체인을 적용, 공인된 뉴스 제공자가 기사 내용에 대한 Fingerprint를 블록체인에 기록하여 공인된 기사 내용에 대한 신뢰성을 검증하는 방안에 대해 제안한다.
PDF

형태소 임베딩과 SVM을 이용한 뉴스 기사 정치적 편향성의 자동 분류 (Automatic Bias Classification of Political News Articles by using Morpheme Embedding and SVM)

조단비;이현영;박지훈;강승식
- 한국정보처리학회:학술대회논문집
- /
- 한국정보처리학회 2020년도 춘계학술발표대회
- /
- pp.451-454
- /
- 2020
딥러닝 기술을 이용한 정치적 성향의 편향성 분류를 위하여 신문 뉴스 기사를 수집하고, 머신러닝을 위한 학습 데이터를 구축하였다. 학습 데이터의 구축은 보수 성향과 진보 성향을 대표하는 6개 언론사의 뉴스에서 정치적 성향을 이진 분류 데이터로 구축하였다. 뉴스 기사의 수집 방법으로 최근 이슈들 중에서 정치적 성향과 밀접하게 관련이 있는 키워드 15개를 선정하고 이에 관한 뉴스 기사들을 수집하였다. 그 결과로 11,584개의 학습 및 실험용 데이터를 구축하였으며, 정치적 편향성 분류를 위한 머신러닝 모델을 설계하였다. 머신러닝 기법으로 학습 및 실험을 위해 형태소 단위의 임베딩을 이용하여 문장 및 문서 임베딩으로 확장하였으며, SVM(Support Vector Machine)을 이용하여 정치적 편향성 분류 실험을 수행한 결과로 75%의 정확도를 달성하였다.
https://doi.org/10.3745/PKIPS.y2020m05a.451 인용 PDF

검색결과 76건 처리시간 0.024초

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)