• 제목/요약/키워드: 뉴스빅데이터

검색결과 206건 처리시간 0.021초

비정형 텍스트 분석을 활용한 이슈의 동적 변이과정 고찰 (Investigating Dynamic Mutation Process of Issues Using Unstructured Text Analysis)

  • 임명수;김남규
    • 지능정보연구
    • /
    • 제22권1호
    • /
    • pp.1-18
    • /
    • 2016
  • 최근 가용한 텍스트 데이터 자원이 증가함에 따라 방대한 텍스트 분석을 통해 새로운 가치를 창출하고자 하는 수요가 증가하고 있다. 특히 뉴스, 민원, 블로그, SNS 등을 통해 유통되는 글로부터 다양한 이슈를 발굴해내고 이들 이슈의 추이를 분석하는 이슈 트래킹에 대한 연구가 활발하게 이루어지고 있다. 전통적인 이슈 트래킹은 토픽 모델링을 통해 오랜 기간에 걸쳐 지속된 주요 이슈를 발굴한 후, 각 이슈를 구성하는 문서 수의 세부 기간별 분포를 분석하는 방식으로 이루어진다. 하지만 전통적 이슈 트래킹은 각 이슈를 구성하는 내용이 전체 기간에 걸쳐 변화 없이 유지된다는 가정 하에 수행되기 때문에, 다양한 세부 이슈가 서로 영향을 주며 생성, 병합, 분화, 소멸하는 이슈의 동적 변이과정을 나타내지 못한다. 또한 전체 기간에 걸쳐 지속적으로 출현한 키워드만이 이슈 키워드로 도출되기 때문에, 핵실험, 이산가족 등 세부 기간의 분석에서는 매우 상이한 맥락으로 파악되는 구체적인 이슈가 오랜 기간의 분석에서는 북한이라는 큰 이슈에 함몰되어 가려지는 현상이 발생할 수 있다. 본 연구에서는 이러한 한계를 극복하기 위해 각 세부 기간의 문서에 대한 독립적인 분석을 통해 세부 기간별 주요 이슈를 도출한 후, 각 이슈의 유사도에 기반하여 이슈 흐름도를 도출하고자 한다. 또한 각 문서의 카테고리 정보를 활용하여 카테고리간의 이슈 전이 패턴을 분석하고자 한다. 본 논문에서는 총 53,739건의 신문 기사에 제안 방법론을 적용한 실험을 수행하였으며, 이를 통해 전통적인 이슈 트래킹을 통해 발굴한 주요 이슈의 세부 기간별 구성 내용을 살펴볼 수 있을 뿐 아니라, 특정 이슈의 선행 이슈와 후행 이슈를 파악할 수 있음을 확인하였다. 또한 카테고리간 분석을 통해 단방향 전이와 양방향 전이의 흥미로운 패턴을 발견하였다.

주경로 분석과 연관어 네트워크 분석을 통한 '구전(WoM)' 관련 연구동향 분석 (Analysis of Research Trends of 'Word of Mouth (WoM)' through Main Path and Word Co-occurrence Network)

  • 신현보;김혜진
    • 지능정보연구
    • /
    • 제25권3호
    • /
    • pp.179-200
    • /
    • 2019
  • 구전(Word-of-Mouth) 활동은 오래 전부터 기업의 마케팅 과정에서 중요성을 인식하고 특히 마케팅 분야에서 많은 주목을 받아왔다. 최근에는 인터넷의 발달에 따라 온라인 뉴스, 온라인 커뮤니티 등에서 사람들이 지식과 정보를 주고 받는 방식이 다양해지면서 구전은 후기, 평점, 좋아요 등으로 입소문의 양상이 다각화되고 있다. 이러한 현상에 따라 구전에 관한 다양한 연구들이 선행되어왔으나, 이들을 종합적으로 분석한 메타 분석 연구는 부재하다. 본 연구는 학술 빅데이터를 활용해 구전 관련 연구동향을 알아내기 위해서 텍스트 마이닝 기법을 적용하여 주요 연구들을 추출하고 시기별로 연구들의 주요 쟁점을 파악하는 기법을 제안하였다. 이를 위해서 1941년부터 2018년까지 인용 데이터베이스인 Scopus에서 'Word-of-Mouth'라는 키워드로 검색되는 총 4389건의 문헌을 수집하였고, 영어 형태소 분석과 불용어 제거 등 전처리 과정을 통해 데이터를 정제하였다. 본 연구는 학문 분야의 발전 궤적을 추적하는 데 활용되는 주경로 분석기법을 적용해 구전과 관련된 핵심 연구들을 추출하여 연구동향을 거시적 관점에서 제시하였고, 단어동시출현 정보를 추출하여 키워드 간 네트워크를 구축하여 시기별로 구전과 관련된 연관어들이 어떻게 변화되었는지 살펴봄으로써 연구동향을 미시적 관점에서 제시하였다. 수집된 문헌 데이터를 기반으로 인용 네트워크를 구축하고 SPC 가중치를 적용하여 키루트 주경로를 추출한 결과 30개의 문헌으로 구성된 주경로가 추출되었고, 연관어 네트워크 분석을 통해서는 시기별로 온라인 시대, 관광 산업 등 다양한 산업군 등 산업 변화가 반영돼 시대적 변화와 더불어 발전하고 있는 학술적 영역의 변화를 확인할 수 있었다.

텍스트마이닝 기법을 활용한 사용후핵연료 건식처리기술 관련 언론 동향 분석 (Analysis of media trends related to spent nuclear fuel treatment technology using text mining techniques)

  • 정지송;김호동
    • 지능정보연구
    • /
    • 제27권2호
    • /
    • pp.33-54
    • /
    • 2021
  • 최근 4차 산업혁명, 코로나로 인한 뉴노멀 시대의 도래 등을 계기로 인공지능, 빅데이터 연구와 같은 언택트 관련 기술의 중요성이 더욱 급상하고 있다. 각 종 연구 분야에서는 이러한 연구 트렌드를 따라가기 위한 융합적 연구가 본격적으로 시행되고 있으나 원자력 분야의 경우 자연어 처리, 텍스트마이닝 분석 등 인공지능 및 빅데이터 관련 기술을 적용한 연구가 많이 수행되지 않았다. 이에 원자력 연구 분야에 데이터 사이언스 분석기술의 적용 가능성을 확인해보고자 본 연구를 수행하였다. 원자로 연료로 사용된 뒤 배출되는 사용후핵연료 인식 동향 파악에 대한 연구는 원자력 산업 정책에 대한 방향을 결정하고 산업정책 변화를 사전에 대응할 수 있다는 측면에서 매우 중요하다. 사용후핵연료 처리기술은 크게 습식 재처리 방식과 건식 재처리 방식으로 나뉘는데, 이 중 환경 친화적이고 핵비확산성 및 경제성이 높은 건식재처리 기술인 '파이로프로세싱'과 그 연계 원자로 '소듐냉각고속로'의 연구개발에 대한 재평가가 현재 지속적으로 검토되고 있다. 따라서 위와 같은 이유로, 본 연구에서는 사용후핵연료 처리기술인 파이로프로세싱에 대한 언론 동향 분석을 진행하였다. 사용후핵연료 처리기술인 '파이로프로세싱' 키워드를 포함하는 네이버 웹 뉴스 기사 전문의 텍스트데이터를 수집하여 기간에 따라 인식변화를 분석하였다. 2016년 발생한 경주 지진, 2017년 새 정부의 에너지 전환정책 시행된 2010년대 중반 시기를 기준으로 전, 후의 동향 분석이 시행되었고, 빈도분석을 바탕으로 한 워드 클라우드 도출, TF-IDF(Term Frequency - Inverse Document Frequency) 도출, 연결정도 중심성 산출 등의 분석방법을 통해 텍스트데이터에 대한 세부적이고 다층적인 분석을 수행하였다. 연구 결과, 2010년대 이전에는 사용후핵연료 처리기술에 대한 사회 언론의 인식이 외교적이고 긍정적이었음을 알 수 있었다. 그러나 시간이 흐름에 따라 '안전(safety)', '재검토(reexamination)', '대책(countermeasure)', '처분(disposal)', '해체(disassemble)' 등의 키워드 출현빈도가 급증하며 사용후핵연료 처리기술 연구에 대한 지속 여부가 사회적으로 진지하게 고려되고 있음을 알 수 있었다. 정치 외교적 기술로 인식되던 사용후핵연료 처리기술이 국내 정책의 변화로 연구 지속 가능성이 모호해짐에 따라 언론 인식도 점차 변화했다는 것을 확인하였다. 이러한 연구 결과를 통해 원자력 분야에서의 사회과학 연구의 지속은 필수불가결함을 알 수 있었고 이에 대한 중요성이 부각되었다. 또한, 현 정부의 원전 감축과 같은 에너지 정책의 영향으로, 사용후핵연료 처리기술 연구개발에 대한 재평가가 시행되는 이 시점에서 해당 분야의 주요 키워드 분석은 향후 연구 방향 설정에 기여할 수 있을 것이라는 측면에서 실무적 의의를 갖는다. 더 나아가 원자력 공학 분야에 사회과학 분야를 폭넓게 적용할 필요가 있으며, 국가 정책적 변화를 고려해야 원자력 산업이 지속 가능할 것으로 사료된다.

집단지성을 이용한 한글 감성어 사전 구축 (Building a Korean Sentiment Lexicon Using Collective Intelligence)

  • 안정국;김희웅
    • 지능정보연구
    • /
    • 제21권2호
    • /
    • pp.49-67
    • /
    • 2015
  • 최근 다양한 분야에서 빅데이터의 활용과 분석에 대한 중요성이 대두됨에 따라, 뉴스기사와 댓글과 같은 비정형 데이터의 자연어 처리 기술에 기반한 감성 분석에 대한 관심이 높아지고 있다. 하지만, 한국어는 영어와는 달리 자연어 처리가 어려운 교착어로써 정보화나 정보시스템에의 활용이 미흡한 실정이다. 이에 본 연구는 감성 분석에 활용이 가능한 감성어 사전을 집단지성으로 구축하였고, 누구나 연구와 실무에 사용하도록 API서비스 플랫폼을 개방하였다(www.openhangul.com). 집단지성의 활용을 위해 국내 최대 대학생 소셜네트워크 사이트에서 대학생들을 대상으로 단어마다 긍정, 중립, 부정에 대한 투표를 진행하였다. 그리고 집단지성의 효율성을 높이기 위해 감성을 '정의'가 아닌 '분류'하는 방식인 폭소노미의 '사람들에 의한 분류법'이라는 개념을 적용하였다. 총 517,178(+)의 국어사전 단어 중 불용어 형태를 제외한 후 감성 표현이 가능한 명사, 형용사, 동사, 부사를 우선 순위로 하여, 현재까지 총 35,000(+)번의 단어에 대한 투표를 진행하였다. 본 연구의 감성어 사전은 집단지성의 참여자가 누적됨에 따라 신뢰도가 높아지도록 설계하여, 시간을 축으로 사람들이 단어에 대해 인지하는 감성의 변화도 섬세하게 반영하는 장점이 있다. 따라서 본 연구는 앞으로도 감성어 사전 구축을 위한 투표를 계속 진행할 예정이며, 현재 제공하고 있는 감성어 사전, 기본형 추출, 카테고리 추출 외에도 다양한 자연어 처리에 응용이 가능한 API들도 제공할 계획이다. 기존의 연구들이 감성 분석이나 감성어 사전의 구축과 활용에 대한 방안을 제안하는 것에만 한정되어 있는 것과는 달리, 본 연구는 집단지성을 실제로 활용하여 연구와 실무에 활용이 가능한 자원을 구축하여 개방하여 공유한다는 차별성을 가지고 있다. 더 나아가, 집단지성과 폭소노미의 특성을 결합하여 한글 감성어 사전을 구축한 새로운 시도가 향후 한글 자연어 처리의 발전에 있어 다양한 분야들의 융합적인 연구와 실무적인 참여를 이끌어 개방적 협업의 새로운 방향과 시사점을 제시 할 수 있을 것이라 기대한다.

기간별 이슈 매핑을 통한 이슈 생명주기 분석 방법론 (Analyzing the Issue Life Cycle by Mapping Inter-Period Issues)

  • 임명수;김남규
    • 지능정보연구
    • /
    • 제20권4호
    • /
    • pp.25-41
    • /
    • 2014
  • 최근 스마트 기기를 통해 소셜미디어에 참여하는 사용자가 급격히 증가하고 있다. 이에 따라 빅데이터 분석에 대한 관심이 높아지고 있으며 최근 포털 사이트에서 검색어로 자주 입력되거나 다양한 소셜미디어에서 자주 언급되는 단어에 대한 분석을 통해 사회적 이슈를 파악하기 위한 시도가 이루어 지고 있다. 이처럼 다량의 텍스트를 통해 도출된 사회적 이슈의 기간별 추이를 비교하는 분석을 이슈 트래킹이라 한다. 하지만 기존의 이슈 트래킹은 두 가지 한계를 가지고 있다. 첫째, 전통적 방식의 이슈 트래킹은 전체 기간의 문서에 대해 일괄 토픽 분석을 실시하고 각 토픽의 기간별 분포를 파악하는 방식으로 이루어지므로, 새로운 기간의 문서가 추가되었을 때 추가된 문서에 대해서만 분석을 추가 실시하는 것이 아니라 전체 기간의 문서에 대한 분석을 다시 실시해야 한다는 실용성 측면의 한계를 갖고 있다. 둘째, 이슈는 끊임 없이 생성되고 소멸될 뿐 아니라, 때로는 하나의 이슈가 둘 이상의 이슈로 분화하고 둘 이상의 이슈가 하나로 통합되기도 한다. 즉, 이슈는 생성, 변화(병합, 분화), 그리고 소멸의 생명주기를 갖게 되는데, 전통적 이슈 트래킹은 이러한 이슈의 가변성을 다루지 않았다는 한계를 갖는다. 본 연구에서는 이러한 한계를 극복하기 위해 대상 기간 전체의 문서를 한꺼번에 분석하는 방식이 아닌 세부 기간별 문서에 대해 독립적인 분석을 수행하고 이를 통합할 수 있는 방안을 제시하였으며, 이를 통해 새로운 이슈가 생성되고 변화하며 소멸되는 전체 과정을 규명하였다. 또한 실제 인터넷 뉴스에 대해 제안 방법론을 적용함으로써, 제안 방법론의 실무 적용 가능성을 분석하였다.

텍스트 마이닝을 활용한 융합인재교육정책 동향 분석 -2009년~2020년 교육부보도, 언론보도, 학술지 초록 비교분석- (Analysis of Trends in Education Policy of STEAM Using Text Mining: Comparative Analysis of Ministry of Education's Documents, Articles, and Abstract of Researches from 2009 to 2020)

  • 유정민;김성원
    • 한국과학교육학회지
    • /
    • 제41권6호
    • /
    • pp.455-470
    • /
    • 2021
  • 본 연구는 2009년부터 2020년까지 융합인재교육과 관련된 교육부 보도자료, 언론보도, 학술지 초록을 수집 및 비교 분석하여 키워드 및 주제의 변화 흐름을 정책단계별로 살피고 향후 융합인재교육의 발전 방향과 그 교육적 시사점을 도출하고자 하였다. 교육부 보도자료는 교육부 홈페이지의 뉴스홍보란, 언론보도는 한국언론재단의 빅카인즈, 학술지 초록은 학술연구정보서비스(RISS)에서 수집되었다. 수집된 자료 중 교육부 보도자료는 42건, 언론보도는 1,534건, 학술지 초록은 880건이 연구대상으로 선정하였다. 파이썬 프로그램을 통해 융합인재교육정책단계별로 키워드 빈도분석, 키워드 네트워크분석, 토픽모델링을 수행하였다. 분석 결과, 융합인재교육정책단계에 따라 매체별로 융합인재교육과 관련된 키워드의 빈도와 네트워크에 차이가 나타났다. 매체별로 주로 사용하거나 중요하게 사용되는 키워드와 토픽에 차이가 나타나 융합인재교육정책에 대한 관심의 차이가 존재한다는 것을 확인하였다. 끝으로 교육부 보도자료의 토픽 대부분은 언론보도에서 도출된 토픽과 대응되는 것으로 나타났다. 이 연구의 결과를 통해 도출된 융합인재교육정책에 대한 시사점은 다음과 같다. 정책의제설정 시기부터 지금까지 다양한 주제와 연계하고 대상을 확대하여 변화하고 있는 융합인재교육은 인문학을 포함한 다양한 주제를 연계하는 방안에 대해 고려할 필요가 있다. 또한 매체별로 융합인재교육정책에 관한 관심의 차이가 존재하므로 이에 대한 이해를 통해 정책의 협력적인 발전 방향이 모색될 필요가 있다. 그리고 융합인재교육의 목표인 미래인재 양성을 위한 핵심역량 강화와 융합 소양에 대한 교육부의 지원과 언론의 융합인재교육에 대한 대중의 이해도를 높이기 위한 노력이 요구된다. 끝으로 융합인재교육정책의 평가 및 변동 과정에서 나타날 주제들에 대해 지속해서 분석할 필요가 있다.