• 제목/요약/키워드: Co-word Occurrence

검색결과 104건 처리시간 0.024초

텍스트 마이닝 기법을 적용한 뉴스 데이터에서의 사건 네트워크 구축 (Construction of Event Networks from Large News Data Using Text Mining Techniques)

  • 이민철;김혜진
    • 지능정보연구
    • /
    • 제24권1호
    • /
    • pp.183-203
    • /
    • 2018
  • 전통적으로 신문 매체는 국내외에서 발생하는 사건들을 살피는 데에 가장 적합한 매체이다. 최근에는 정보통신 기술의 발달로 온라인 뉴스 매체가 다양하게 등장하면서 주변에서 일어나는 사건들에 대한 보도가 크게 증가하였고, 이것은 독자들에게 많은 양의 정보를 보다 빠르고 편리하게 접할 기회를 제공함과 동시에 감당할 수 없는 많은 양의 정보소비라는 문제점도 제공하고 있다. 본 연구에서는 방대한 양의 뉴스기사로부터 데이터를 추출하여 주요 사건을 감지하고, 사건들 간의 관련성을 판단하여 사건 네트워크를 구축함으로써 독자들에게 현시적이고 요약적인 사건정보를 제공하는 기법을 제안하는 것을 목적으로 한다. 이를 위해 2016년 3월에서 2017년 3월까지의 한국 정치 및 사회 기사를 수집하였고, 전처리과정에서 NPMI와 Word2Vec 기법을 활용하여 고유명사 및 합성명사와 이형동의어 추출의 정확성을 높였다. 그리고 LDA 토픽 모델링을 실시하여 날짜별로 주제 분포를 계산하고 주제 분포의 최고점을 찾아 사건을 탐지하는 데 사용하였다. 또한 사건 네트워크를 구축하기 위해 탐지된 사건들 간의 관련성을 측정을 위하여 두 사건이 같은 뉴스 기사에 동시에 등장할수록 서로 더 연관이 있을 것이라는 가정을 바탕으로 코사인 유사도를 확장하여 관련성 점수를 계산하는데 사용하였다. 최종적으로 각 사건은 각의 정점으로, 그리고 사건 간의 관련성 점수는 정점들을 잇는 간선으로 설정하여 사건 네트워크를 구축하였다. 본 연구에서 제시한 사건 네트워크는 1년간 한국에서 발생했던 정치 및 사회 분야의 주요 사건들이 시간 순으로 정렬되었고, 이와 동시에 특정 사건이 어떤 사건과 관련이 있는지 파악하는데 도움을 주었다. 또한 일련의 사건들의 시발점이 되는 사건이 무엇이었는가도 확인이 가능하였다. 본 연구는 텍스트 전처리 과정에서 다양한 텍스트 마이닝 기법과 새로이 주목받고 있는 Word2vec 기법을 적용하여 봄으로써 기존의 한글 텍스트 분석에서 어려움을 겪고 있었던 고유명사 및 합성명사 추출과 이형동의어의 정확도를 높였다는 것에서 학문적 의의를 찾을 수 있다. 그리고, LDA 토픽 모델링을 활용하기에 방대한 양의 데이터를 쉽게 분석 가능하다는 것과 기존의 사건 탐지에서는 파악하기 어려웠던 사건 간 관련성을 주제 동시출현을 통해 파악할 수 있다는 점에서 기존의 사건 탐지 방법과 차별화된다.

A Method for Information Source Selection using Teasaurus for Distributed Information Retrieval

  • Goto, Shoji;Ozono, Tadachika;Shintani, Toramatsu
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2001년도 The Pacific Aisan Confrence On Intelligent Systems 2001
    • /
    • pp.272-277
    • /
    • 2001
  • In this paper, we describe a new method for selecting information sources in a distributed environment. Recently, there has been much research on distributed information retrieval, that is information retrieval (IR) based on a multi-database model in which the existence of multiple sources is modeled explicitly. In distributed IR, a method is needed that would enable selecting appropriate sources for users\` queries. Most existing methods use statistical data such as document frequency. These methods may select inappropriate ate sources if a query contains polysemous words. In this paper, we describe an information-source selection method using two types of thesaurus. One is a thesaurus automatically constructed from documents in a source. The other is a hand-crafted general-purpose thesaurus(e.g. WordNet). Terms used in documents in a source differ from one another and the meanings of a term differ depending on th situation in which the term is used. The difference is a characteristic of the source. In our method, the meanings of a term are distinguished between by the relationship between the term and other terms, and the relationship appear in the co-occurrence-based thesaurus. In this paper, we describe an algorithm for evaluating a usefulness of a source for a query based on a thesaurus. For a practical application of our method, we have developed Papits, a multi-agent-based in formation sharing system. An experiment of selection shows that our method is effective for selecting appropriate sources.

  • PDF

Bayes 정리에 기반한 개선된 동형이의어 분별 모텔 (An Improved Homonym Disambiguation Model based on Bayes Theory)

  • 김창환;이왕우
    • 한국컴퓨터산업학회논문지
    • /
    • 제2권12호
    • /
    • pp.1581-1590
    • /
    • 2001
  • 본 연구에서는 동형이의어 분별을 위하여 허정(2000)이 제시한 "사전 뜻풀이말에서 추출한 의미정보에 기반한 동형이의어 중의성 해결 시스템"이 가지는 문제점과 향후 연구과제로 제시한 문제들을 개선하기 위하여 Bayes 정리에 기반한 동형이의어 분별 모델을 제안한다. 의미 분별된 사전 뜻풀이말 코퍼스에서 동형이의어를 포함하고 있는 뜻풀이말을 구성하는 체언류(보통 명사), 용언류(형용사, 동사) 및 부사류(부사)를 의미 정보로 추출한다. 동형이의어의 의미별 사전 출현 빈도수가 비교적 균등한 기존 9개의 동형이의어 명사를 대상으로 실험하여 비교하였고, 새로 7개의 동형이의어 용언(형용사, 동사)을 추가하여 실험하였다. 9개의 동형이의어 명사를 대상으로 한 내부 실험에서 평균 99.37% 정확률을 보였으며 7개의 동형이의어 용언을 대상으로 한 내부 실험에서 평균 99.53% 정확률을 보였다. 외부 실험은 국어 정보베이스와 ETRI 코퍼스를 이용하여 9개의 동형이의어 명사를 대상으로 평균 84.42% 정확률과 세종계획의 350만 어절 규모의 외부 코퍼스를 이용하여 7개의 동형이의 어 용언을 대상으로 평균 70.81%의 정확률을 보였다. 정확률을 보였다.

  • PDF

빅 데이터 환경에서 계층적 문서 유형 분류를 위한 클러스터링 기반 다중 SVM 모델 (Multi-class Support Vector Machines Model Based Clustering for Hierarchical Document Categorization in Big Data Environment)

  • 김영수;이병엽
    • 한국콘텐츠학회논문지
    • /
    • 제17권11호
    • /
    • pp.600-608
    • /
    • 2017
  • 최근 인터넷의 급격한 확장에 따른 정보의 양이 기하급수적으로 증가하고 있다. 그러나 실제 사용자에게 필요한 정보는 극히 일부분으로 사용자가 원하는 정보를 찾는데 까지는 부가적인 시간과 노력이 요구된다. 따라서 검색어로 검색된 문서에 대한 유사도 평가를 통한 계층적 유사 정보와 검색 우선순위에 대한 정보를 제공할 필요성이 있다. 이를 위해서 검색어를 구성하고 있는 키워드의 동시 발생 빈도를 고려한 검색 문서에 대한 유사도를 기반으로 문서 클러스터를 구성하고 SVM을 적용한 빅 데이터 기반 계층적 유형 분류 모델을 제안한다. 계층적 분류방법과 SVM 분류기의 결합은 문서의 계층이 기하급수적으로 늘어나는 웹 문서의 경우에 높은 성능을 얻을 수 있다. 제안된 모델은 정확하고 신속한 검색을 제공하는 정보검색시스템의 응용 모델로 활용될 수 있다.

R을 활용한 SW교육 텍스트데이터 토픽분석 (A Topic Analysis of SW Education Textdata Using R)

  • 박선주
    • 정보교육학회논문지
    • /
    • 제19권4호
    • /
    • pp.517-524
    • /
    • 2015
  • 본 논문에서는 사람들의 SW 교육과 관련된 관심방향을 알아보기 위해 SW 교육 관련 뉴스데이터를 수집하여 그 내용을 분석하였다. 이를 위해 2013년 7월 23일~2015년 10월 19일의 SW 교육관련 뉴스데이터의 토픽분석을 실시하였다. R을 사용하여 웹크롤링 후 가장 자주 언급된 상위 20개 단어들 간의 관련성을 분석한 결과, SW 교육 단어를 중심으로 20개 단어의 노드 크기와 연결선의 두께가 비교적 균형을 이루고 있어 서로의 관련성이 밀접하게 유지되는 데이터임을 알 수 있었다, 또한, 분석대상 데이터는 주로 SW 인재양성, SW 지원 프로그램, SW 교육 의무화, SW 캠프, SW 산업, 일자리 창출과 관련된 토픽들임을 알 수 있었다. 이는 SW 교육에 관한 사람들의 생각 및 관심분야 등을 알아보는 빅데이터 분석 자료에 활용될 수 있을 것이다.

디지털 보존 관련 학술연구 및 교과 주제분석 (Analysis on Topics of Digital Preservation Researches and Courses)

  • 정의연;최상희
    • 한국문헌정보학회지
    • /
    • 제53권3호
    • /
    • pp.25-43
    • /
    • 2019
  • 디지털 자원의 급속한 증가에 따라 디지털 보존 및 디지털 큐레이션에 대한 관심이 높아지고 있다. 이 연구는 디지털 보존과 디지털 큐레이션과 관련된 국외논문과 미국, 영국, 아일랜드, 캐나다, 뉴질랜드의 대학 기록관리 과정의 교과를 대상으로 제목 키워드 프로파일링 기법 및 네트워크 분석을 통해 논문 및 교과의 핵심 주제영역을 도출하고 논문 및 교과의 내용을 살펴보고자 하였다. 분석결과 논문 및 교과의 핵심 주제영역은 논문은 아카이브 시스템 영역, 교과는 큐레이션 교육 및 업무 영역이 주요 영역으로 나타났다. 논문 및 교과 내용분석에 있어서는 논문에서는 전략설계, 교과에서는 기록관리업무가 주요 내용으로 나타났으며 공통적으로 디지털 자원의 포맷이 중요한 이슈로 출현하였다.

텍스트 마이닝을 이용한 스마트 도시계획 수립을 위한 전략분야 도출연구: 부산 사례를 바탕으로 (Identification of Strategic Fields for Developing Smart City in Busan Using Text Mining)

  • 채윤식;이상훈
    • 디지털융복합연구
    • /
    • 제16권11호
    • /
    • pp.1-15
    • /
    • 2018
  • 본 연구의 목적은 텍스트 마이닝 기법을 활용하여 부산 및 기타 지자체의 도시계획 보고서에 포함되어 있는 서지정보를 분석하고 새로운 스마트도시계획의 수립을 위한 전략 분야를 도출하는 것이다. 텍스트 마이닝 분석은 구조화되어 있지 않은 문서로부터 키워드를 추출하고 획득한 정보의 특성과 패턴을 발견하는 기법으로 최근 지식관리 측면에서 많이 사용되고 있다. 본 분석을 통해 초기의 부산 도시계획은 개별 산업분야 고도화에 초점이 맞춰져 있을 뿐 각 분야별 정보시스템의 연계에 대한 논의가 적은 것으로 나타났지만 최근 계획에서는 도시통합운영관리와 관련한 물리적 인프라와 ICT시스템과 관련한 내용이 다수 포함되어있는 것으로 나타났다. 특히, 타 지자체에 비해 항만/물류, 문화, 전시 분야가 특유의 서비스영역으로 도출되었지만 도시안전, 데이터공유, 신재생에너지 분야에 대한 계획은 부족한 것으로 나타났다. 본 연구는 향후 새로운 스마트 도시계획 수립을 위한 정책적 시사점을 제공할 것으로 기대한다.

사회과학 중독연구 분야의 지적구조에 관한 네트워크 분석 : 2019년도 KCI 등재 논문을 기반으로 (Network Analysis of the Intellectual Structure of Addiction Research in Social Sciences: Based on the KCI Articles Published in 2019)

  • 이세림;전종설
    • 한국콘텐츠학회논문지
    • /
    • 제21권10호
    • /
    • pp.21-37
    • /
    • 2021
  • 본 연구는 동시출현단어 네트워크 분석을 활용하여 사회과학 중독 분야의 국내 최신 연구 경향을 반영하는 지적구조를 규명하고자 했다. KCI 데이터베이스에서 연구시작일 기준 최신 1년인 2019년에 발간된 중독 주제의 논문 총 172건을 수집하여 총 432개의 키워드를 추출하였다. 이후 Bibexcel, COOC, WNET, NodeXL 프로그램을 통해 네트워크 분석을 실시했다. 연구 결과, 중독 유형, 연구대상, 연구방법, 연구변수 관련 키워드가 나타났으며 20개 군집을 파악했다. 또한 세부적으로 전역중심, 지역, 매개 중심 네트워크 분석을 통해 각 키워드 간 관계를 살펴보고 논의했다. 이를 통해 스마트폰 중독을 중심으로 하는 최신 이슈를 분석하고, 향후 보완되어야 할 관계 중독, 음식 중독, 일 중독 주제영역의 연구와 실천에 대한 기초자료 및 시사점을 제공했다. 그리고 마약 중독의 범죄와의 관련성, 알코올 중독에서의 가족의 관련성, 도박 중독에서의 동기의 관련성 및 질적연구의 필요성 등에 대해 논의하였다.

백화점 서비스 회복과정의 지각된 공정성에 점포 애호도에 미치는 영향 (The Effects of Perceived Justice on Store Loyalty in the Department Stores Service Recovery)

  • 김용한;배무언
    • 한국유통학회지:유통연구
    • /
    • 제10권3호
    • /
    • pp.59-86
    • /
    • 2005
  • 본 연구는 백화점에서 서비스 실패가 발생한 경우, 백화점의 서비스 회복노력을 고객의 입장에서 공정하게 지각하느냐와, 지각된 공정성이 만족과 신뢰의 수준을 높였는가, 이와같은 만족과 신뢰가 점포 애호도에 긍정적인 영향을 미치는가를 연구하고자 하였다. 이를 위하여 문헌연구와 연구문제 해결을 위한 가설 설정, 그리고 이에 대한 실증분석을 실시하였다. 실증 분석은 국내 주요 백화점에서 최근 1년 이내 서비스 회복을 경험한 204명의 고객들을 대상으로 진행하였다. 연구가설 검증을 위한 실증분석은 SPSS 10,0. AMCS 4.0 통계프로그램을 이용하여 설문 문항에 대한 신뢰성과 타당성들 결정한 후, 구조방정식 모형분석에 통하여 가설을 검증하였다. 연구결과 백화점의 서비스 실패에 대합 적극적인 서비스 회복노력이 고객만족과 백화점에 대한 신뢰를 가져오고, 이러한 만족과 신뢰가 점포 애호도를 증가시킨다는 것을 확인하였다. 본 연구의 시사점은 백화점에서 서비스 실패가 발생하였다. 하더라도 서비스 회복과정에서 고객이 지각하는 긍정성의 수준을 향상시킴으로써, 고객만족과 신뢰, 점포 애호도의 증가로 고객의 지속적인 재구매, 긍정적인 구전, 백화점 이용 추천을 유발하여 백화점의 경쟁력 향상에 기여할 수 있다는 점을 실증연구를 통하여 확인하였다는 점이다.

  • PDF

텍스트 마이닝을 활용한 저출산 정책과 대중인식 비교 (Comparative Analysis of Low Fertility Policy and the Public Perceptions using Text-Mining Methodology)

  • 배기련;문현정;이재일;박미나;박아름
    • 디지털융복합연구
    • /
    • 제19권12호
    • /
    • pp.29-42
    • /
    • 2021
  • 한국의 저출산 심화에 따라 본 연구는 정부의 저출산 대응정책과 그에 대한 대중인식을 비교하여 근본적인 차이점을 밝히고자 했다. 이를 위해 네 차례의 '저출산·고령사회 기본계획'과 제3·4차 기본계획 발표 직후 2주간의 뉴스 댓글을 분석대상으로 선정하여, 빈도분석, 동시출현단어 분석, 구조적 등위성 분석을 실시하였다. 정책문서 빈도분석결과 제1·2차 시기는 직접적인 보육지원이, 제3·4차 시기부터는 사회구조적인 접근이 눈에 띄었다. 동시출현단어 분석에서는 정책과 댓글 모두 '육아'에서 일과 가정의 양립을 지향하였다. '결혼'과 '출산'의 경우 댓글은 연속성, 정책은 단절성이 두드러지며 특히 주거와 고용문제에서 큰 차이가 있었다. 댓글의 구조적 등위성 분석 결과에서는 대중들의 자녀 양육환경에 대한 관심, 정책 실효성에 대한 문제의식을 확인할 수 있었다. 본 연구는 빅데이터를 활용해 대중들의 인식을 확인하였다는 점에서 의의를 가지므로, 이에 근거한 정책 개선 등 향후 저출산 대응이 나아가야 할 방향을 수립하는 데 도움을 줄 수 있을 것이다.