• 제목/요약/키워드: Morpheme Analysis

검색결과 122건 처리시간 0.017초

TV 시청률과 마이크로블로그 내용어와의 시간대별 관계 분석 (Analysis of the Time-dependent Relation between TV Ratings and the Content of Microblogs)

  • 최준연;백혜득;최진호
    • 지능정보연구
    • /
    • 제20권1호
    • /
    • pp.163-176
    • /
    • 2014
  • 소셜미디어 확산으로 많은 사용자들이 SNS를 통해 자신의 생각과 의견을 표출하며 다른 사용자들과 상호작용하고 있다. 특히 트위터와 같은 마이크로블로그는 짧은 문장을 통해 영화, TV, 사회 현상 등과 같은 공통의 주제에 대해 많은 사람이 즉각적으로 의견을 표출하고 교환하는 플랫폼의 역할을 수행하고 있다. TV방송 프로그램에 대해서도 의견과 감정을 마이크로블로그를 통해 표출하고 있는데, 본 연구에서는 마이크로블로그의 내용과 시청률과의 관계를 살펴보기 위해, 지난 공중파 방송 프로그램에 대한 트윗을 수집하고 부적절한 트윗들을 제거한 후 형태소 분석을 수행하였다. 추출된 형태소뿐 아니라 이모티콘, 신조어 등 사용자가 입력한 모든 단어들을 후보 자질로 삼아 시청률과의 상관관계를 분석하였다. 실험을 위해 2013년 1월부터 10개월간의 예능프로그램 트윗의 데이터를 수집하여 전국 시청률 데이터와 비교 분석을 수행하였다. 트윗의 발생량은 일주일 중 방송된 요일에 가장 많았으며, 특히 방송시간 부근에서 급격히 증가하는 모습을 보였다. 이것은 전국에 동시간에 방송되는 공중파 프로그램의 특성상 공통된 관심 주제를 제공하기 때문에 나타나는 현상으로 여겨진다. 횟수 기반 자질로 방송 일의 총 트윗 수와 리트윗 수, 방송시간 중의 트윗 수와 리트윗 수와 시청률과의 상관 관계를 분석하였으나 모두 낮은 상관 계수를 나타냈다. 이것은 단순한 트윗 발생 빈도는 방송 프로그램의 만족도 또는 시청률을 제대로 반영하고 있지 못함을 의미한다. 내용 기반 자질로 추출한 단어들 중에는 높은 상관관계를 보여주는 단어들이 발견되었으며, 표준어가 아닌 이모티콘과 신조어 중에도 높은 상관관계를 보여주는 자질이 나타났다. 또한 방송시작 전과 후에 따라 상관계수가 높은 단어가 상이함을 발견하였다. 매주 같은 시간에 방송되는 TV 프로그램의 특성상, 방송을 기다리고 기대하는 내용의 트윗과 방송 후 소감을 표현하는 트윗의 내용에 차이가 존재하였다. 이러한 분석결과는 단어에 따라 시청률과 연관성이 높은 시간대가 달라짐을 의미하며, 시청률을 측정하고자 할 때 각 단어들의 시간대를 고려해서 사용해야 함을 의미한다. 본 연구에서 제안한 방법은 기존의 표본 추출을 통해 이루어지는 TV 시청률 측정을 보완할 수 있는 방법에 활용할 수 있으리라 기대된다.

지식베이스 확장을 위한 멀티소스 비정형 문서에서의 정보 추출 시스템의 개발 (Development of Information Extraction System from Multi Source Unstructured Documents for Knowledge Base Expansion)

  • 최현승;김민태;김우주;신동욱;이용훈
    • 지능정보연구
    • /
    • 제24권4호
    • /
    • pp.111-136
    • /
    • 2018
  • 지식베이스를 구축하는 작업은 도메인 전문가가 온톨로지 스키마를 이해한 뒤, 직접 지식을 정제하는 수작업이 요구되는 만큼 비용이 많이 드는 활동이다. 이에, 도메인 전문가 없이 다양한 웹 환경으로부터 질의에 대한 답변 정보를 추출하기 위한 자동화된 시스템의 연구개발의 필요성이 제기되고 있다. 기존의 정보 추출 관련 연구들은 웹에 존재하는 다양한 형태의 문서 중 학습데이터와 상이한 형태의 문서에서는 정보를 효과적으로 추출하기 어렵다는 한계점이 존재한다. 또한, 기계 독해와 관련된 연구들은 문서에 정답이 있는 경우를 가정하고 질의에 대한 답변정보를 추출하는 경우로서, 문서의 정답포함 여부를 보장할 수 없는 실제 웹의 비정형 문서로부터의 정보추출에서는 낮은 성능을 보인다는 한계점이 존재한다. 본 연구에서는 지식베이스 확장을 위하여 웹에 존재하는 멀티소스 비정형 문서로부터 질의에 대한 정보를 추출하기 위한 시스템의 개발 방법론을 제안하고자 한다. 본 연구에서 제안한 방법론은 "주어(Subject)-서술어(Predicate)"로 구분된 질의에 대하여 위키피디아, 네이버 백과사전, 네이버 뉴스 3개 웹 소스로부터 수집된 비정형 문서로부터 관련 정보를 추출하며, 제안된 방법론을 적용한 시스템의 성능평가를 위하여, Wu and Weld(2007)의 모델을 베이스라인 모델로 선정하여 성능을 비교분석 하였다. 연구결과 제안된 모델이 베이스라인 모델에 비해, 위키피디아, 네이버 백과사전, 네이버 뉴스 등 다양한 형태의 문서에서 정보를 효과적으로 추출하는 강건한 모델임을 입증하였다. 본 연구의 결과는 현업 지식베이스 관리자에게 지식베이스 확장을 위한 웹에서 질의에 대한 답변정보를 추출하기 위한 시스템 개발의 지침서로서 실무적인 시사점을 제공함과 동시에, 추후 다양한 형태의 질의응답 시스템 및 정보추출 연구로의 확장에 기여할 수 있을 것으로 기대한다.