• 제목/요약/키워드: news topic

검색결과 239건 처리시간 0.026초

토픽 모델링을 이용한 트위터 이슈 트래킹 시스템 (Twitter Issue Tracking System by Topic Modeling Techniques)

  • 배정환;한남기;송민
    • 지능정보연구
    • /
    • 제20권2호
    • /
    • pp.109-122
    • /
    • 2014
  • 현재 우리는 소셜 네트워크 서비스(Social Network Service, 이하 SNS) 상에서 수많은 데이터를 만들어 내고 있다. 특히, 모바일 기기와 SNS의 결합은 과거와는 비교할 수 없는 대량의 데이터를 생성하면서 사회적으로도 큰 영향을 미치고 있다. 이렇게 방대한 SNS 데이터 안에서 사람들이 많이 이야기하는 이슈를 찾아낼 수 있다면 이 정보는 사회 전반에 걸쳐 새로운 가치 창출을 위한 중요한 원천으로 활용될 수 있다. 본 연구는 이러한 SNS 빅데이터 분석에 대한 요구에 부응하기 위해, 트위터 데이터를 활용하여 트위터 상에서 어떤 이슈가 있었는지 추출하고 이를 웹 상에서 시각화 하는 트위터이슈 트래킹 시스템 TITS(Twitter Issue Tracking System)를 설계하고 구축 하였다. TITS는 1) 일별 순위에 따른 토픽 키워드 집합 제공 2) 토픽의 한달 간 일별 시계열 그래프 시각화 3) 토픽으로서의 중요도를 점수와 빈도수에 따라 Treemap으로 제공 4) 키워드 검색을 통한 키워드의 한달 간 일별 시계열 그래프 시각화의 기능을 갖는다. 본 연구는 SNS 상에서 실시간으로 발생하는 빅데이터를 Open Source인 Hadoop과 MongoDB를 활용하여 분석하였고, 이는 빅데이터의 실시간 처리가 점점 중요해지고 있는 현재 매우 주요한 방법론을 제시한다. 둘째, 문헌정보학 분야뿐만 아니라 다양한 연구 영역에서 사용하고 있는 토픽 모델링 기법을 실제 트위터 데이터에 적용하여 스토리텔링과 시계열 분석 측면에서 유용성을 확인할 수 있었다. 셋째, 연구 실험을 바탕으로 시각화와 웹 시스템 구축을 통해 실제 사용 가능한 시스템으로 구현하였다. 이를 통해 소셜미디어에서 생성되는 사회적 트렌드를 마이닝하여 데이터 분석을 통한 의미 있는 정보를 제공하는 실제적인 방법을 제시할 수 있었다는 점에서 주요한 의의를 갖는다. 본 연구는 JSON(JavaScript Object Notation) 파일 포맷의 1억 5천만개 가량의 2013년 3월 한국어 트위터 데이터를 실험 대상으로 한다.

디렉터리 서비스 분류항목 및 정보자원의 계량적 분석 (A Quantitative Analysis of Classification Classes and Classified Information Resources of Directory)

  • 김성원
    • 정보관리연구
    • /
    • 제37권1호
    • /
    • pp.83-103
    • /
    • 2006
  • 본 연구에서는 키워드 검색의 단점을 보완하기 위해 다수의 웹 포털에서 제공중인 디렉터리 검색 서비스의 분류항목 및 정보자원에 대해 계량적으로 분석했다. 구체적으로는 Yahoo, Naver, Empas 등 3개 디렉터리 서비스의 주제별 분류항목, 주제별 정보자원, 그리고 분류항목 대비 정보자원의 계량적 분석을 시도했다. 이같은 분석결과, 각 디렉터리 서비스별로 차이를 파악해 볼 수 있다. 주제별 분류항목의 검토결과, 분야에 따라 순항목과 참조항목의 비율상 차이가 있고 형식구분의 성격인 주제분야에서 참조항목 전개비율이 높다는 것을 알 수 있다. 등록된 정보자원의 계량분석을 통해 규모의 관점에서는 야후의 등록자원이 가장 많으며, 디렉터리 서비스별로 주제별 정보자원의 다과를 파악할 수 있었다. 해당 분류항목에 분류된 정보자원의 수에 대한 계량적 분석은 뉴스, 미디어 분야를 중심으로 수행했으며, 이를 통해 엠파스나 네이버가 야후보다 등록자원에 비해 많은 분류항목을 전개하고 있다는 점을 알 수 있다. 또한 동일 정보자원이 분류된 깊이를 비교한 결과 야후가 한 단계 세분된 분류항목에 등록하고 있음을 알 수 있다.

사건 어휘의 특성을 반영한 다국어 사건 연결 탐색 (Multilingual Story Link Detection based on Properties of Event Terms)

  • 이경순
    • 정보처리학회논문지B
    • /
    • 제12B권1호
    • /
    • pp.81-90
    • /
    • 2005
  • 본 논문에서는 다국어 뉴스에 대해서 '시간' 요소와 '언어 공간' 요소를 사건 어휘의 가중치 계산에 반영하는 다국어 사건 연결 탐색하는 방법을 제안한다. 시간의 흐름과 다국어 공간상에서 어휘의 분포 특성을 어휘의 가중치로 반영하여 사건 중심 어휘에 변별력을 줌으로써 같은 사건을 다루는 문서를 탐색하도록 한다. 시간상에서 어휘가중치는 전체 시간의 모든 문서집합에서의 어휘 분포와 특정 시간의 문서집합에서의 어휘 분포를 비교함으로써 계산하고, 그 특정 시간의 어휘의 가중치로 표현한다. 두 개의 언어는 하나의 언어에서보다 더 많은 정보를 줄 수 있기 때문에, 각 언어공간에서 어휘의 중요도를 측정하고, 다국어 처리에서 다른 언어 공간에서의 정보를 참조함으로써 언어 공간에서의 참조 역할을 하도록 한다. 본 논문의 실험에서는 같은 기간의 한국어와 일본어 신문기사에 대해서 사건 연결 탐색 성능을 평가하였다. 일반적인 가중치 기법인 tfidf 가중치 기법과의 비교 평가에서, 제안 방법이 단일언어 문서쌍에 대한 사건 연결 탐색은 $14.3{\%}$, 다국어 문서쌍에 대한 사건 연결 탐색에서는 $16.7{\%}$의 성능 향상을 보였다. 제안한 가중치 요소에 대한 유효성을 검증하기 위해, 공간 밀집도를 측정하였는데, 같은 사건을 나타내는 문서들의 그룹에서는 높은 밀집도를 나타냈고, 서로 다른 사건을 나타내는 문서들의 그룹에서는 낮은 밀집도를 나타냈다. 이 결과를 통해서 시간과 공간 요소를 반영한 사건 어휘 가중치 방법이 단일언어 사건 연결 탐색뿐만 아니라 다국어 사건 연결 탐색에 효과적이라고 볼 수 있다.

자동 트렌드 탐지를 위한 속성의 정의 및 트렌드 순위 결정 방법 (Trend Properties and a Ranking Method for Automatic Trend Analysis)

  • 오흥선;최윤정;신욱현;정윤재;맹성현
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제36권3호
    • /
    • pp.236-243
    • /
    • 2009
  • 특허, 뉴스, 블로그와 같이 시간 정보가 있는 문서들로부터의 자동적인 트렌드 분석(trend analysis)은 토픽탐지 및 추적 기술(TDT: Topic Detection and Tracking)과 더불어 중요한 연구 분야로 대두되고 있다. 과거 연구들은 대부분 트렌드과 관련된 단어의 출현 빈도 정보를 이용하여 주어진 개념의 중요도를 측정하고 이 개념의 시간에 따른 트렌드 라인을 보여주는 것에 초점을 맞췄다. 신출 트렌드 (emerging trend)를 탐지하기 위해서는 주어진 개념의 출현 빈도수 변화와 같은 간단한 방법이나 학습 데이타와 비교하여 차이를 탐지하여 제시하는 방법이 사용되었다. 그러나 여러 트렌드 중에서 특징적인 트렌드를 찾아서 사용자에게 제공하기 위해서는 트렌드 순위 결정 함수가 필요하다. 본 논문은 트렌드의 다양한 측면을 정량화하기 위하여 출현 빈도로 구성된 트렌드 곡선으로부터 네 가지 속성 (변동성, 지속성, 안정성, 누적량) 을 정의하고 이를 활용한 트렌드 순위 결정 방법을 제안한다. 일련의 실험을 통하여 각 속성의 유용성을 검증하고 속성들의 조합이 순위 결정에 어떤 영향을 미치는지 분석하였다. 실험결과로부터 네 가지 속성을 모두 조합할 경우 특징적인 트렌드 탐지에 더욱 기여하는 것을 알 수 있다.

국가핵심기술 관계망 구축을 통한 연관정보 분석연구: 디스플레이 기술을 중심으로 (A Study on the Analysis of Related Information through the Establishment of the National Core Technology Network: Focused on Display Technology)

  • 박세희;윤원석;장항배
    • 한국전자거래학회지
    • /
    • 제26권2호
    • /
    • pp.123-141
    • /
    • 2021
  • 경제 구조의 기술 의존성이 강해져 국가핵심기술의 중요성은 더욱 대두되고 있다. 하지만 기술 자체적 특성으로 인해 연관 범위가 추상적이고 국가핵심기술 고유의 특성상 정보공개가 제한적이기 때문에 보호대상이 될 기술의 범위를 정하는 것에 어려움이 있다. 이를 해결하기 위해 국가핵심기술과 연관성이 높은 중요 기술을 판별하는 데에 최적화 된 문헌 종류와 분석 기법을 제안하였다. 디스플레이 분야 국가핵심기술 키워드로 수집한 네 개 문헌종류(뉴스, 논문, 보고서, 특허) 데이터에 빅데이터 분석의 텍스트 마이닝 분석기법인 TF-IDF와 LDA 토픽 모델링을 적용하는 파일럿 테스트를 진행하였다. 그 결과로 특허 데이터에 LDA 토픽 모델링을 적용한 결과가 국가핵심기술과 연관성이 높은 중요기술을 추출하였다. OLED, 마이크로LED를 포함하여 디스플레이 전후방산업에 관련된 중요 기술을 판별 할 수 있었으며 이 결과를 관계망으로 시각화하여 국가핵심기술과 연관된 중요 기술의 범위를 명확히 하였다. 본 연구를 통해 기술이 가지는 연관범위의 모호성을 보다 명확히 하였으며, 국가핵심기술이 가지는 제한적인 정보공개 특성을 극복할 수 있다.

텍스트마이닝을 활용한 해양스포츠에 대한 언론 보도기사 분석: 요트, 조정, 카누를 중심으로 (Text Mining Analysis of Media Coverage of Maritime Sports: Perceptions of Yachting, Rowing, and Canoeing)

  • 김지현;김보경
    • 해양환경안전학회지
    • /
    • 제29권6호
    • /
    • pp.609-619
    • /
    • 2023
  • 본 연구는 국내 해양스포츠의 사회적 인식이 어떻게 형성되었는지를 알아보고자 수행되었다. 이를 위해 해양스포츠의 대표적 종목인 요트, 조정, 카누와 관련된 최근 10년간 국내 언론 보도기사의 키워드 및 토픽을 활용하여 빅데이터 분석 방법 중 텍스트 마이닝 분석을 실시하였으며, 도출된 결과는 다음과 같다. 첫째, TF 분석과 워드 클라우드 분석 결과 해양, 대회, 체험, 관광, 세계, 요트, 카누, 레저, 참여등이 상위 키워드로 나타났다. 둘째, 의미연결망 분석 결과 요트는 해양, 산업, 대회, 레저, 관광, 보트, 시설, 사업 등과 상관관계가 나타났고, 조정은 대회, 충주 등과, 카누는 해양, 대회, 체험, 레저, 관광 등과 상관관계가 나타났다. 셋째, 토픽모델링 분석 결과 요트, 조정, 카누가 엘리트 체육과 해양레저스포츠로서 인식이 형성된 것을 알 수 있었으나 시간의 변화에 따라 사회전반적인 쟁점과 의견의 흐름 및 사회적 변화는 미미한 것으로 나타났다. 이상의 결과를 종합하면 요트와 카누는 엘리트 체육이라는 인식에서 해양레저스포츠로 점차 인식이 형성되어 해양레저산업에 중요한 요소로 활용되고 있다는 것을 알 수 있었으며, 조정은 엘리트 체육 중심의 사회적 인식이 크게 변하지 않아 해양레저스포츠로서 대중화가 아직은 미미한 것으로 사료된다.

부산항 항만안전 주요 이슈 동향에 관한 연구 (A Study on Trends of Key Issues in Port Safety at Busan Port)

  • 이정민;하도연;김주혜
    • 한국항해항만학회지
    • /
    • 제48권1호
    • /
    • pp.34-48
    • /
    • 2024
  • 글로벌 공급망에 예측 불가능한 위험성이 확산되면서 세계의존도가 높은 항만물류산업의 위험부담이 높아지고 있다. 이에 본 연구에서는 기초적인 연구로 국내 항만의 안전성에 위험을 주는 다양한 이슈들을 알아보고자 하였다. 이를 위해 부산항의 항만안전과 관련된 뉴스 기사 데이터를 활용하여 LDA토픽모델링 분석과 시계열 선형회귀분석을 진행하였고 부산항 항만안전 주요 이슈들의 변화와 그 동향을 파악하였다. 본 연구의 분석 결과는 다음과 같다. 지난 30년동안 부산항 항만안전과 관련된 주요 이슈는 총 9개이며 이들을 5년 주기의 시기별로 살펴본 결과, 지난 30년 동안 해상안전 이슈, 수입화물 검역 안전 이슈, 노조파업 관련 이슈, 자연재해 관련 이슈가 지속해서 등장했다. 부산항 항만안전 주요 이슈는 주로 예측 불가능한 성격이 큰 사회환경적 유형과 자연현상적 유형으로 글로벌 불확실성의 영향을 많이 받고 있음을 알 수 있었다. 따라서 분석 결과로 도출된 항만안전 주요 이슈들을 위주로 부산항 항만안전 강화를 위한 정책을 체계적으로 수립할 필요가 있으며 예측 불가능한 위험상황을 대비한 부산항 항만안전 회복탄력성을 강화할 필요가 있다. 끝으로 다양하게 변화하는 사회적 여건에 맞춰 항만안전 강화를 도모할 수 있는 선진적인 연구 활동이 필요할 것이다.

북한주민 생활 실태에 관한 국내 신문보도 프레임연구: 조선일보, 동아일보, 한겨레, 경향신문을 중심으로 (A News Frame Analysis by the South Korean Press on the Livelihoods of a North Koreans)

  • 하승희;이민규
    • 한국언론정보학보
    • /
    • 제58권
    • /
    • pp.222-241
    • /
    • 2012
  • 본 연구는 "조선일보", "동아일보", "한겨레", "경향신문"을 대상으로 김대중, 노무현, 이명박 정부시절에 나타난 북한주민들의 생활관련 신문 보도 프레임과 정보원을 분석하여 북한보도의 실태를 살펴보고 대안을 모색하는 데 있다. 연구결과 1, 2차 프레임 분석에서는 일명 '진보신문'과 '보수신문'으로 대변되는 4개 신문들의 보도행태가 신문의 이념적 성향에 따라 각기 다른 프레임을 보여주는 것을 발견 할 수 있었다. 또한 정권시기별로 분석한 1, 2차 프레임은 신문의 이념과 관계없이 각 정권의 대북정책 기조와 연관되어 있다는 점이 발견되었다. 정보원 분석에서는 진보지에 비해 보수지가 익명의 정보원을 많이 활용하여 보도한다는 결과를 보여주고 있다. 국제사회와 북한과의 관계가 냉전으로 지속되는 상황에서 북한생활과 관련해 익명 정보원을 활용한 부정적 논조의 보도는 남한 국민들에게 북한에 대한 왜곡된 인식을 심어줄 가능성이 있고, 이러한 국내 신문의 보도태도가 전반적인 국내 언론의 북한보도에 대한 신뢰도에 영향을 미칠 수 있다.

  • PDF

인과관계문형 기반 사회이슈 발생원인 도출 방법 연구 (A study on the method of deriving the cause of social issues based on causal sentences)

  • 이남연;이재형
    • 디지털융복합연구
    • /
    • 제19권3호
    • /
    • pp.167-176
    • /
    • 2021
  • 최근 빅데이터 분석 기술이 발전하면서 사회 이슈를 분석하기 위해 그 동안 많은 텍스트 마이닝 기법을 활용한 연구들이 진행되어왔다. 사회이슈를 도출하기 위한 기존의 연구들을 살펴보면 다량의 텍스트 데이터를 뉴스, SNS 등으로부터 수집하여 토픽 모델링, 네트워크 분석 등의 기법을 이용하여 데이터로부터 이슈를 추출하고 분석하는 방식으로 연구들이 이루어져왔다. 사회 이슈는 다양한 사회현상들이 누적되어 나타나는 결과물이다. 하지만 기존 연구들이 가지는 한계점은 사회적으로 나타나는 이슈, 즉 결과에 대한 분석에 초점이 맞춰져 있어 해당 이슈의 발생 원인을 밝히는 것에는 한계를 가진다는 것이다. 사회이슈에 적절하게 대응하기 위해서는 어떠한 사회이슈가 존재하는지를 확인하는 것뿐만 아니라 사회이슈의 발생 원인을 파악하는 것이 필요하다. 이러한 한계점을 극복하기 위해서 본 연구에서는 사회 이슈와 관련한 텍스트로부터 사회이슈의 원인이 되는 요인을 도출하는 방법을 국어학의 품사이론을 기반으로 제안하였다. 이를 위해서 2017년 1월부터 2019년 12월까지의 3년 동안의 사회이슈와 관련한 뉴스데이터를 수집하여 수집된 텍스트 내 단어들의 인과관계를 인과문형을 찾아 분석한 후 기존 텍스트마이닝 기법 접목하여 사회이슈의 원인 단어들을 찾는 방법론을 제안하였다.

텍스트 마이닝을 이용한 2012년 한국대선 관련 트위터 분석 (Analysis of Twitter for 2012 South Korea Presidential Election by Text Mining Techniques)

  • 배정환;손지은;송민
    • 지능정보연구
    • /
    • 제19권3호
    • /
    • pp.141-156
    • /
    • 2013
  • 최근 소셜미디어는 전세계적 커뮤니케이션 도구로서 사용에 전문적인 지식이나 기술이 필요하지 않기 때문에 이용자들로 하여금 콘텐츠의 실시간 생산과 공유를 가능하게 하여 기존의 커뮤니케이션 양식을 새롭게 변화시키고 있다. 특히 새로운 소통매체로서 국내외의 사회적 이슈를 실시간으로 전파하면서 이용자들이 자신의 의견을 지인 및 대중과 소통하게 하여 크게는 사회적 변화의 가능성까지 야기하고 있다. 소셜미디어를 통한 정보주체의 변화로 인해 데이터는 더욱 방대해지고 '빅데이터'라 불리는 정보의 '초(超)범람'을 야기하였으며, 이러한 빅데이터는 사회적 실제를 이해하기 위한 새로운 기회이자 의미 있는 정보를 발굴해 내기 위한 새로운 연구분야로 각광받게 되었다. 빅데이터를 효율적으로 분석하기 위해 다양한 연구가 활발히 이루어지고 있다. 그러나 지금까지 소셜미디어를 대상으로 한 연구는 개괄적인 접근으로 제한된 분석에 국한되고 있다. 이를 적절히 해결하기 위해 본 연구에서는 트위터 상에서 실시간으로 방대하게 생성되는 빅스트림 데이터의 효율적 수집과 수집된 문헌의 다양한 분석을 통한 새로운 정보와 지식의 마이닝을 목표로 사회적 이슈를 포착하기 위한 실시간 트위터 트렌드 마이닝 시스템을 개발 하였다. 본 시스템은 단어의 동시출현 검색, 질의어에 의한 트위터 이용자 시각화, 두 이용자 사이의 유사도 계산, 트렌드 변화에 관한 토픽 모델링 그리고 멘션 기반 이용자 네트워크 분석의 기능들을 제공하고, 이를 통해 2012년 한국 대선을 대상으로 사례연구를 수행하였다. 본 연구를 위한 실험문헌은 2012년 10월 1일부터 2012년 10월 31일까지 약 3주간 1,737,969건의 트윗을 수집하여 구축되었다. 이 사례연구는 최신 기법을 사용하여 트위터에서 생성되는 사회적 트렌드를 마이닝 할 수 있게 했다는 점에서 주요한 의의가 있고, 이를 통해 트위터가 사회적 이슈의 변화를 효율적으로 추적하고 예측하기에 유용한 도구이며, 멘션 기반 네트워크는 트위터에서 발견할 수 있는 고유의 비가시적 네트워크로 이용자 네트워크의 또 다른 양상을 보여준다.