• 제목/요약/키워드: 토픽 일관성

검색결과 13건 처리시간 0.012초

트윗의 타임 시퀀스를 활용한 DTM 분석 : 2019 남북미정상회동 이벤트를 중심으로 (Tweets analysis using a Dynamic Topic Modeling : Focusing on the 2019 Koreas-US DMZ Summit)

  • 고은지;최선영
    • 한국정보통신학회논문지
    • /
    • 제25권2호
    • /
    • pp.308-313
    • /
    • 2021
  • 이 연구는 2019년 판문점 남북미 정상 회동 트윗을 타임 시퀀스와 함께 수집하여 시퀀셜 토픽모델링인 DTM으로 분석하였다. 트위터와 같은 마이크로 블로깅 서비스는 단일 이벤트에 뉴스와 오피니언이 혼재된 비정형 데이터가 대규모로 동시에 발생하고, 정보와 반응이 동일 메시지 형식으로 생산된다. 때문에 토픽 트렌드를 파악하려면 시퀀셜 데이터의 특성을 반영하여 패턴 분석을 해야 맥락적 의미를 알 수 있다. 토픽 일관성 점수를 구해 LDA를 평가한 후 DTM을 계산한 결과, 뉴스 보도와 오피니언 관련 토픽 30개가 도출되었고, 각 토픽과 키워드는 시간에 따라 발생 확률이 역동적으로 진화하고 있었다. 결론적으로 DTM은 특정 이벤트에 대한 사회 전반에 나타난 통합적 토픽 추이를 시간에 따라 분석하는데 적합한 모델임을 밝혔다.

무한 사전 온라인 LDA 토픽 모델에서 의미적 연관성을 사용한 토픽 확장 (Topic Expansion based on Infinite Vocabulary Online LDA Topic Model using Semantic Correlation Information)

  • 곽창욱;김선중;박성배;김권양
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제22권9호
    • /
    • pp.461-466
    • /
    • 2016
  • 토픽 확장은 학습된 토픽의 질을 향상시키기 위해 추가적인 외부 데이터를 반영하여 점진적으로 토픽을 확장하는 방법이다. 기존의 온라인 학습 토픽 모델에서는 외부 데이터를 확장에 사용될 경우, 새로운 단어가 기존의 학습된 모델에 반영되지 않는다는 문제가 있었다. 본 논문에서는 무한 사전 온라인 LDA 토픽 모델을 이용하여 외부 데이터를 반영한 토픽 모델 확장 방법을 연구하였다. 토픽 확장 학습에서는 기존에 형성된 토픽과 추가된 외부 데이터의 단어와 유사도를 반영하여 토픽을 확장한다. 실험에서는 기존의 토픽 확장 모델들과 비교하였다. 비교 결과, 제안한 방법에서 외부 연관 문서 단어를 토픽 모델에 반영하기 때문에 대본 토픽이 다루지 못한 정보들을 토픽에 포함할 수 있었다. 또한, 일관성 평가에서도 비교 모델보다 뛰어난 성능을 나타냈다.

토픽모델의 성능 향상을 위한 불용어 자동 생성 기법 (Automatic Generating Stopword Methods for Improving Topic Model)

  • 이정빈;인호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 춘계학술발표대회
    • /
    • pp.869-872
    • /
    • 2017
  • 정보검색(Information retrieval) 및 텍스트 분석을 위해 수집하는 비정형 데이터 즉, 자연어를 전처리하는 과정 중 하나인 불용어(Stopword) 제거는 모델의 품질을 높일 수 있는 쉽고, 효과적인 방법 중에 하나이다. 특히 다양한 텍스트 문서에 잠재된 주제를 추출하는 기법인 토픽모델링의 경우, 너무 오래되거나, 수집된 문서의 도메인이나 성격과 무관한 불용어의 제거로 인해, 해당 토픽 모델에서 학습되어 생성된 주제 관련 단어들의 일관성이 떨어지게 된다. 따라서 분석가가 분류된 주제를 올바르게 해석하는데 있어 많은 어려움이 따르게 된다. 본 논문에서는 이러한 문제점을 해결하기 위해 일반적으로 사용되는 표준 불용어 대신 관련 도메인 문서로부터 추출되는 점별 상호정보량(PMI: Pointwise Mutual Information)을 이용하여 불용어를 자동으로 생성해주는 기법을 제안한다. 생성된 불용어와 표준 불용어를 통해 토픽 모델의 품질을 혼잡도(Perplexity)로써 측정한 결과, 본 논문에서 제안한 기법으로 생성한 30개의 불용어가 421개의 표준 불용어보다 더 높은 모델 성능을 보였다.

질의어의 종류와 의미 관계를 고려한 서브토픽 마이닝 평가 방법 제안 (Proposal of the Evaluation Method Based on Query Types and Semantic Relations in Subtopic Mining)

  • 김세종;이종혁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(B)
    • /
    • pp.285-287
    • /
    • 2012
  • 서브토픽 마이닝(subtopic mining)이란 사용자 의도를 반영하는 서브토픽을 찾아내고 순위화하는 연구분야이다. 본 논문은 서브토픽 마이닝의 결과를 평가하는 기존 방법의 한계점을 제시하고, 이를 해결하기 위해 질의어의 종류를 고려하여 보다 명확한 의도 항목(intent)의 나열을 유도하고, 질의어와 의도 항목 사이에 'is-a' 및 'part-of' 관계를 적용하여 보다 일관성 있고 의도 항목의 의미적 중복을 최소화하는 평가 방법을 제안하였으며, 평가 대상을 3종류로 구분하여 평가 결과의 활용도를 높였다.

적응적 사용자 및 토픽 모델링 기반의 자동 TV 프로그램 추천 (Adaptive User and Topic Modeling based Automatic TV Recommendation)

  • 김은희;표신지;김문철
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2012년도 하계학술대회
    • /
    • pp.431-434
    • /
    • 2012
  • 시간 흐름에 따라 TV 프로그램 스케줄은 변화하고 스케줄의 변화는 사용자 선호에 영향을 미친다. 이러한 스케줄 변화에 따른 토픽의 흐름이 사용자 선호도에 미치는 영향 외에도, 개성에 따른 선호도의 변화는 개인별 차이가 크다. 본 논문은 사용자 선호도 변화에 적응적으로 대응하면서 시간 변화에도 일정한 관심을 보이는 사용자의 선호도에는 가중치를 더한 모델을 목표로 한다. 따라서 제안 모델은 현재의 시청 데이터를 기준으로 한 사용자별 선호도의 선행 정보(prior)로 이전 시청선호를 두었고, 선호도 변화와 일관성을 고려하여 하나의 시청길이에 대한 선호도뿐만 아니라 여러 시청 길이의 선호도를 결합한 선호도를 구성할 수 있는 확장성 있는 모델을 제시한다. 선호도의 일관성에 대한 가중치 연산에 있어 전체 확률모델의 확률을 향상시키는 연산을 통해 정교성을 더한 모델을 제시한다. 실제 사용자들이 시청한 데이터인 2011 TNMS데이터를 기준으로 제안 모델의 성능을 확인한 결과, 기존의 LDA, MDTM모델 보다 나은 성능을 보임을 확인할 수 있었으며, 1주일 단위 추천결과, 5개 추천 시, 최대 67.9%의 추천 정확도를 확인할 수 있었다.

  • PDF

RDBMS 기반의 토픽맵 무결성 검사 기법 (RDBMS based Topic Map Constraint Checking Mechanism)

  • 이한준;민경섭;김형주
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제34권6호
    • /
    • pp.493-502
    • /
    • 2007
  • 지식을 효과적으로 표현하고 검색하는 방법에 대한 관심이 증가함에 따라, 토픽맵을 비롯한 지식 표현 기법들이 점점 중요해지고 있다. 토픽맵은 지식을 구조화하여 표현하게 되는데 지식은 매우 복잡한 의미적 관계를 포함하고 있기 때문에 이를 의미적으로 일관성 있게 유지, 관리하는 것은 매우 중요한 문제가 된다. 현재 토픽맵 무결성 검사를 위하여 TMCL을 비롯한 여러 토픽맵 제약 조건 언어와 시스템들이 제안되었다. 그러나 이들은 단순한 의미적 제약들에 대해 지원하고 있지만, 의존성과 같은 복잡한 제약들에 대한 것들은 다루고 있지 못하다. 또한, 단순히 응용 레벨에서 제약들을 검사함으로써 좋지 않은 성능을 보인다. 이에 본 논문에서는 기존의 정보 시스템 분야 및 관련 분야에서 제공하고 있는 제약 언어들의 특성을 기반으로 TMCL을 확장하였다. 또한 이를 효율적으로 지원하기 위한 관계형 데이타베이스기반의 토픽맵 무결성 검사 기법을 제안하고 구현하였다. 구현한 시스템에서는 TMCL에서 제공하고 있는 기본적인 토픽맵 제약 조건들뿐만 아니라 의존성과 같은 복잡한 형태의 제약도 다루고 있다. 그리고 각각의 제약 조건을 검사할 때 템플릿을 이용하여 질의를 생성시켜 효율적인 무결성 검사가 가능하게 함으로써 기존 시스템들의 검사 방식에 비해 높은 성능을 보임을 확인하였다.

K-Box: 토픽맵 기반의 온톨로지 관리 시스템 (K-Box: Ontology Management System based on Topic Maps)

  • 김정민;박철만;정준원;이한준;민경섭;김형주
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제10권1호
    • /
    • pp.1-13
    • /
    • 2004
  • 시맨틱 웹은 지능적인 서비스를 제공하기 위한 새로운 웹 환경이다. 시맨틱 웹을 구현하기 위해 많은 새로운 노력들이 진행되어 왔다. 이 중에서 가장 기본적이고 중요한 것은 의미 정보를 표현, 저장, 질의, 관리해 주는 온톨로지 관리 시스템이다. 우리는 이와 같은 기능을 제공하기 위한 새로운 시스템으로서, 토픽맵 모델을 기반으로 한 효율적인 온톨로지 관리 시스템인 K-Box를 구현하였다. K-Box는 온톨로지 관리를 위한 기본적인 기능들을 제공하며, 이질적인 저장소들을 일관된 인터페이스로 접근할 수 있도록 함으로써 저장 장치 독립성을 제공하였다. 또한, 저장 관리되는 모든 온톨로지들의 무결성을 보장하기 위한 새로운 기법과 사용자 관심을 중심으로 한 온톨로지 검색 지원을 위한 방법을 제안하였다. 마지막으로, 우리는 여러 온톨로지들을 적용해 봄으로써 K-Box 시스템이 효율적으로 사용 가능함을 확인하였다.

토픽모델링을 활용한 교통경찰 민원 분석 (An Analysis of Civil Complaints about Traffic Policing Using the LDA Model)

  • 이상엽
    • 한국ITS학회 논문지
    • /
    • 제20권4호
    • /
    • pp.57-70
    • /
    • 2021
  • 본 연구는 민원데이터를 분석함으로써 교통경찰에 대한 국민의 치안 수요를 탐색하고자 하였다. 이를 위해 교통경찰 관련 국민신문고 민원데이터 2,062건을 대상으로, 토픽모델링 방법 중 하나인 잠재 디리클레 할당(Latent Dirichlet Allocation)을 통해 주요 토픽을 추출하고 높은 비중을 차지한 위반신고에 대해 추가분석을 시도하였다. 이 과정에서 키워드와 대표문서의 일관성과 합치성을 함께 고려하였다. 분석 결과 교통경찰 관련 민원은 시설개선, 신호에 따른 교차로통행방법, 번호판 영치, 개인형 이동장치 등 41개의 토픽으로 분류할 수 있었다. 교차로내 위반과 이륜자동차의 위반에 대한 단속을 강화하고 무인교통단속장비, 횡단보도, 신호등의 설치 및 운영에 대한 선제적인 조치, 최근 개정된 법령과 시행된 정책, 경찰교통민원 사이트, 단속 사후 절차에 대한 더욱 활발한 홍보가 필요한 것으로 판단된다.

온톨로지 기반의 지식맵 서비스 시스템의 설계 및 구현

  • 김정민;박철만;정준원;이한준;정호영;민경섭;김형주
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (A)
    • /
    • pp.527-529
    • /
    • 2003
  • 지식관리시스템의 지식 분류 체계가 지식맵이며 이 지식맵을 이용하여 지식 서비스가 제공된다. 그러나 현재의 지식맵은 비표준적인 지식 네트웍 구조와 정적인 분류체계라는 문제를 가진다. 문제 해결 방법은 지식맵에 온틀로지를 적용해서 표준성, 의미 기반의 지식 네트웍 구조. 동적인 지식분류, 자동화된 지식서비스를 제공하는 새로운 개념의 지식맵을 구현하는 것이다. 본 논문에서는 토픽맵 모델을 기반으로 온톨로지를 생성, 저장, 검색하는 효율적인 온톨로지 관리 시스템인 K-Box를 구현하였다. K-Box는 온톨로지 관리를 위한 기본적인 기능들을 제공하며, 이질적인 저장소들을 일관된 인터페이스로 접근할 수 있도록 함으로써 저장 장치 독립성을 제공하였다. 또한, 저장 관리되는 모든 온톨로지들의 무결성을 보장하기 위한 새로운 기법과 사용자 관심을 중심으로 한 온톨로지 검색 지원을 위한 방법을 제안하였다. 마지막으로, 우리는 여러 온톨로지들을 적용해 봄으로써 K-Box 시스템이 효율적으로 사용 가능함을 확인하였다.

  • PDF

XTM을 이용한 MDR기반 콘텐츠 메타파일 관리 시스템 설계 (Design of a MDR based Contents Metafile Management System using the XTM)

  • 유우종;임희영;임정은
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2004년도 춘계학술발표대회
    • /
    • pp.109-112
    • /
    • 2004
  • 콘텐츠 관리 시스템(CMS:Contents Management System)은 '자료 수집, 등록, 검색, 배포'의 기본 흐름을 가진다. 콘텐츠의 등록 및 검색/배포를 위하여 각 시스템은 콘텐츠에 대한 별도의 메타 파일들을 가지고 있으나, 이러한 메타파일들은 데이터 요소의 중의성이나 모호함 때문에 일관되고 객관화 된 스키마를 가지지 못하여 체계적 분류 및 최신 업데이트를 위한 메타데이터 자체의 효율적 관리 및 연관 검색 기능을 가지고 있지 않았다. 본 논문에서는 기존 연구되고 있는 MDR과 토픽맵을 자체 개발 중인 콘텐츠 메타파일 관리 시스템(CMMS:Contents Metafile Management System)에 적용하여 메타파일의 체계적이고 효율적인 관리를 통해 기준요소로서의 메타파일 역할을 극대화하고 향후 타 체계와의 연동 및 확장성의 향상을 도모한다.

  • PDF