• 제목/요약/키워드: Co-occurrence Relation Graph

검색결과 4건 처리시간 0.02초

웹 뉴스의 기사 추출과 요약 (Text Extraction and Summarization from Web News)

  • 한광록;선복근;유형선
    • 한국컴퓨터정보학회논문지
    • /
    • 제12권5호
    • /
    • pp.1-10
    • /
    • 2007
  • 뉴스 콘텐츠 등 웹을 통해 제공되는 많은 정보들은 불필요한 클러터를 많이 포함하고 있다. 이러한 클러터들은 문서의 요약, 추출, 검색과 같은 자동화된 정보처리 시스템의 구축을 어렵게 한다. 본 논문에서는 웹 뉴스 콘텐츠를 추출하고 이를 요약하는 시스템을 구축하고자 한다. 추출 시스템은 HTML로 된 뉴스 콘텐츠를 입력받아 DOM 트리와 유사한 요소 트리를 구축하며, 이 요소 트리에서 HTML 태그의 하이퍼링크 속성을 갖는 클러터를 제외하면서 본문을 추출한다. 추출 시스템을 통해 추출된 본문은 요약시스템으로 전달되어 핵심 문장이 추출된다. 요약 시스템은 공기관계 그래프를 이용하여 구성한다. 본 논문에서 구현한 시스템을 통해 추출된 요약 문장은 SMS와 같은 메시지 서비스를 통하여 PDA이나 모바일 폰 등에 전송될 수 있을 것으로 기대된다.

  • PDF

그래프 분할을 이용한 문장 클러스터링 기반 문서요약 (Document Summarization Based on Sentence Clustering Using Graph Division)

  • 이일주;김민구
    • 정보처리학회논문지B
    • /
    • 제13B권2호
    • /
    • pp.149-154
    • /
    • 2006
  • 문서요약은 여러 개의 하위 주제로 구성되어 있는 문서에 대해 문서의 복잡도를 줄이면서 하위 주제를 모두 포함하는 요약문을 생성하는 것이 목적이다. 본 논문은 그래프 분할을 이용하여 하위 주제별로 중요 문장을 추출하는 요약시스템을 제안한다. 문장별 공기정보에 의한 단어의 연관성 분석을 통해 선정된 대표어를 이용하여 문서를 그래프로 표현한다. 그래프는 연결정보에 의해 하위 주제를 의미하는 부분 그래프로 분할되며 부분 그래프는 긴밀한 관계를 갖는 문장들이 클러스터링된 형태이다. 부분 그래프별로 중요 문장을 추출하면 하위 주제별 핵심 내용들로만 요약문을 구성하게 되어 요약 성능이 향상된다.

연관 규칙을 이용한 적응적 고객 관계 관리 전략 (Adaptive Customer Relation Management Strategies using Association Rules)

  • 한기태;정경용;백준호;김종훈;류중경;이정현
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2008년도 춘계 종합학술대회 논문집
    • /
    • pp.84-86
    • /
    • 2008
  • 회사들이 정보를 효율적으로 이용할 수 있도록 제어하고 필터링하는 일을 도와주는 고객 관계 마케팅이 등장하였으며, 더 나아가 고객이 원하는 제품을 예측하고 추천해 주기 위해 데이터 마이닝을 적용하고 있다. 본 논문에서는 데이터 마이닝의 연관 규칙을 이용한 적응적 고객 관계 관리 전략을 제안하였다. 제안된 방법으로는 연관 규칙을 이용하여 후보 고객 집합으로 빈발 고객을 구성하고 연관 고객들의 규칙을 생성한다. 생성된 연관 규칙의 향상도에 따라서 하이퍼 그래프 분할을 이용하여 구매 고객들의 효율적인 특성을 분석한다. 따라서 고객들에 대한 교차 판매와 격상 판매의 전략들을 도출하게 된다.

  • PDF

텍스트 마이닝과 의미 네트워크 분석을 활용한 뉴스 의제 분석: 코로나 19 관련 감정을 중심으로 (Analysis of News Agenda Using Text mining and Semantic Network Analysis: Focused on COVID-19 Emotions)

  • 유소연;임규건
    • 지능정보연구
    • /
    • 제27권1호
    • /
    • pp.47-64
    • /
    • 2021
  • 전 세계적으로 퍼진 코로나 19 상황은 우리의 일상생활의 많은 부분에 영향을 끼쳤을 뿐만 아니라, 경제·사회 등 많은 부분에 걸쳐 막대한 영향력을 미치고 있다. 확진자와 사망자 수가 증가함에 따라 의료진과 대중은 불안, 우울, 스트레스 등 심리적인 문제를 겪고 있다고 한다. 장기적인 부정적인 감정은 사람들의 면역력을 감소시키고 신체적인 균형을 파괴할 수도 있으므로 코로나 19로 인한 심리적인 상태를 이해하는 것이 필수적인 상황이다. 본 연구에서는 코로나 19 감정과 관련된 뉴스 데이터를 수집하여, 텍스트 마이닝을 통해 키워드를 분류하고, 키워드 사이의 의미 네트워크 분석을 통해 단어들의 관계를 시각화하였다. 코로나 감정과 관련된 기사의 키워드에 나타난 단어들의 빈도수를 확인하고 이를 워드 클라우드로 분석하였다. 키워드 빈도 분석 결과 코로나 19 감정과 관련하여 '중국', '불안', '상황', '마음', '사회', '건강'과 같은 단어의 빈도가 높게 나타난 것을 확인할 수 있었다. 각 데이터 간 연결 중심성을 분석한 결과 키워드 중심성 네트워크에서 가장 중심적인 핵심어는 '심리'와 '코로나 19', '블루', '불안'이라는 단어가 높은 연결 중심성을 가지는 것을 확인할 수 있었다. 기사의 헤드라인에 나타난 주요 핵심어 사이의 동시 출현 빈도 네트워크를 그래프로 시각화한 결과, '코로나-블루' 쌍이 가장 굵게 표시되었고, '코로나-감정', '코로나-불안' 쌍이 비교적 굵은 선으로 표시된 것을 알 수 있었다. 코로나와 관련된 '블루'는 우울증을 의미하는 단어로, 코로나와 우울증은 이제 관심을 가져야 할 키워드임을 확인할 수 있었다. 본 연구에서는 장기화한 코로나 19 상황에서 신체적인 방역뿐만 아니라 심리적인 방역에도 힘써야 할 이 시기에 보건 정책담당자가 빠르고 복잡한 의사결정 과정에 도움이 되고자 미디어 뉴스를 모니터링 함으로써, 더욱더 쉬운 소셜 미디어 네트워크 분석 방법을 제시하고자 한다.