• Title/Summary/Keyword: 토픽모델

Search Result 176, Processing Time 0.043 seconds

Sentiment Analysis Model with Semantic Topic Classification of Reviews (리뷰의 의미적 토픽 분류를 적용한 감성 분석 모델)

  • Lim, Myung Jin;Kim, Pankoo;Shin, Ju Hyun
    • Smart Media Journal
    • /
    • v.9 no.2
    • /
    • pp.69-77
    • /
    • 2020
  • Unlike the past, which was limited to terrestrial broadcasts, many dramas are currently being broadcast on cable channels and the Internet web. After watching the drama, viewers actively express their opinions through reviews and studies related to the analysis of these reviews are actively being conducted. Due to the nature of the drama, the genre is not clear, and due to the various age groups of viewers, reviews and ratings from other viewers help to decide which drama to watch. However, since it is difficult for viewers to check and analyze many reviews individually, a data analysis technique is required to automatically analyze them. Accordingly, this paper classifies the topics of reviews that have an important influence on drama selection and reclassifies them into semantic topics according to the similarity of words. In addition, we propose a model that classifies reviews into sentences according to semantic topics and sentiment analysis through sentiment words.

Multiple Cause Model-based Topic Extraction and Semantic Kernel Construction from Text Documents (다중요인모델에 기반한 텍스트 문서에서의 토픽 추출 및 의미 커널 구축)

  • 장정호;장병탁
    • Journal of KIISE:Software and Applications
    • /
    • v.31 no.5
    • /
    • pp.595-604
    • /
    • 2004
  • Automatic analysis of concepts or semantic relations from text documents enables not only an efficient acquisition of relevant information, but also a comparison of documents in the concept level. We present a multiple cause model-based approach to text analysis, where latent topics are automatically extracted from document sets and similarity between documents is measured by semantic kernels constructed from the extracted topics. In our approach, a document is assumed to be generated by various combinations of underlying topics. A topic is defined by a set of words that are related to the same topic or cooccur frequently within a document. In a network representing a multiple-cause model, each topic is identified by a group of words having high connection weights from a latent node. In order to facilitate teaming and inferences in multiple-cause models, some approximation methods are required and we utilize an approximation by Helmholtz machines. In an experiment on TDT-2 data set, we extract sets of meaningful words where each set contains some theme-specific terms. Using semantic kernels constructed from latent topics extracted by multiple cause models, we also achieve significant improvements over the basic vector space model in terms of retrieval effectiveness.

소셜 데이터에서 재난 사건 추출을 위한 사용자 행동 및 시간 분석을 반영한 토픽 모델

  • ;Lee, Gyeong-Sun
    • Information and Communications Magazine
    • /
    • v.34 no.6
    • /
    • pp.43-50
    • /
    • 2017
  • 본고에서는 소셜 빅데이터에서 공공안전에 위협되고 사회적으로 이슈가 되는 재난사건을 추출하기 위한 방법으로 소셜 네트워크상에서 사용자 행동 분석과 시간분석을 반영한 토픽 모델링 기법을 알아본다. 소셜 사용자의 글 수, 리트윗 반응, 활동주기, 팔로워 수, 팔로잉 수 등 사용자의 행동 분석을 통하여 활동적이고 신뢰성 있는 사용자를 분류함으로써 트윗에서 스팸성과 광고성을 제외하고 이슈에 대해 신뢰성 높은 사용자가 쓴 트윗을 중요하게 반영한다. 또한, 트위터 데이터에서 새로운 이슈가 발생한 것을 탐지하기 위해 시간별 핵심어휘 빈도의 분포 변화를 측정하고, 이슈 트윗에 대해 감성 표현 분석을 통해 핵심이슈에 대해 사건 어휘를 추출한다. 소셜 빅데이터의 특성상 같은 날짜에 여러 이슈에 대한 트윗이 많이 생성될 수 있기 때문에, 트윗들을 토픽별로 그룹핑하는 것이 필요하므로, 최근 많이 사용되고 있는 LDA 토픽모델링 기법에 시간 특성과 사용자 특성을 분석한 시간상에서의 중요한 사건 어휘를 반영하고, 해당이슈에 대한 신뢰성 있는 사용자가 쓴 트윗을 중요시 반영하도록 토픽모델링 기법을 개선한 소셜 사건 탐지 방법에 대해 알아본다.

Analyzing Students' Non-face-to-face Course Evaluation by Topic Modeling and Developing Deep Learning-based Classification Model (토픽 모델링 기반 비대면 강의평 분석 및 딥러닝 분류 모델 개발)

  • Han, Ji Yeong;Heo, Go Eun
    • Journal of the Korean Society for Library and Information Science
    • /
    • v.55 no.4
    • /
    • pp.267-291
    • /
    • 2021
  • Due to the global pandemic caused by COVID-19 in 2020, there have been major changes in the education sites. Universities have fully introduced remote learning, which was considered as an auxiliary education, and non-face-to-face classes have become commonplace, and professors and students are making great efforts to adapt to the new educational environment. In order to improve the quality of non-face-to-face lectures amid these changes, it is necessary to study the factors affecting lecture satisfaction. Therefore, This paper presents a new methodology using big data to identify the factors affecting university lecture satisfaction changed before and after COVID-19. We use Topic Modeling method to analyze lecture reviews before and after COVID-19, and identify factors affecting lecture satisfaction. Through this, we suggest the direction for university education to move forward. In addition, we can identify the factors of satisfaction and dissatisfaction of lectures from multiangle by establishing a topic classification model with an F1-score of 0.84 based on KoBERT, a deep learning language model, and further contribute to continuous qualitative improvement of lecture satisfaction.

Application of Sentiment Analysis and Topic Modeling on Rural Solar PV Issues : Comparison of News Articles and Blog Posts (감성분석과 토픽모델링을 활용한 농촌태양광 관련 이슈 연구 : 언론 기사와 블로그 포스트 비교)

  • Ki, Jaehong;Ahn, Seunghyeok
    • Journal of Digital Convergence
    • /
    • v.18 no.9
    • /
    • pp.17-27
    • /
    • 2020
  • News articles and blog posts have influence on social agenda setting and this study applied text mining on the subject of solar PV in rural area appeared in those media. Texts are gained from online news articles and blog posts with rural solar PV as a keyword by web scrapping, and these are analysed by sentiment analysis and topic modeling technique. Sentiment analysis shows that the proportion of negative texts are significantly lower in blog posts compared to news articles. Result of topic modeling shows that topics related to government policy have the largest loading in positive articles whereas various topics are relatively evenly distributed in negative articles. For blog posts, topics related to rural area installation and environmental damage are have the largest loading in positive and negative texts, respectively. This research reveals issues related to rural solar PV by combining sentiment analysis and topic modeling that were separately applied in previous studies.

Text Classification using Cloze Question based on KorBERT (KorBERT 기반 빈칸채우기 문제를 이용한 텍스트 분류)

  • Heo, Jeong;Lee, Hyung-Jik;Lim, Joon-Ho
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.486-489
    • /
    • 2021
  • 본 논문에서는 KorBERT 한국어 언어모델에 기반하여 텍스트 분류문제를 빈칸채우기 문제로 변환하고 빈칸에 적합한 어휘를 예측하는 방식의 프롬프트기반 분류모델에 대해서 소개한다. [CLS] 토큰을 이용한 헤드기반 분류와 프롬프트기반 분류는 사전학습의 NSP모델과 MLM모델의 특성을 반영한 것으로, 텍스트의 의미/구조적 분석과 의미적 추론으로 구분되는 텍스트 분류 태스크에서의 성능을 비교 평가하였다. 의미/구조적 분석 실험을 위해 KLUE의 의미유사도와 토픽분류 데이터셋을 이용하였고, 의미적 추론 실험을 위해서 KLUE의 자연어추론 데이터셋을 이용하였다. 실험을 통해, MLM모델의 특성을 반영한 프롬프트기반 텍스트 분류에서는 의미유사도와 토픽분류 태스크에서 우수한 성능을 보였고, NSP모델의 특성을 반영한 헤드기반 텍스트 분류에서는 자연어추론 태스크에서 우수한 성능을 보였다.

  • PDF

Mobile Content Curation Service Based on Real-Time Request/Response Model (실시간 요청/응답 모델에 기반한 모바일 콘텐츠 큐레이션 서비스)

  • Kim, Namyun
    • The Journal of the Institute of Internet, Broadcasting and Communication
    • /
    • v.14 no.4
    • /
    • pp.1-6
    • /
    • 2014
  • This paper proposes a mobile content curation service to collect various online/offline publications. The company publishes one-time topic information to a broker server in advance and customer curates topic information on a mobile device by requesting it. The main characteristics of the proposed service are: it is based on request/response model rather than existing publish/subscribe model, can easily specify topic information by input string without QR code or audio recognition, and retrieves all of topic information anywhere anytime by storing it on mobile device. This service can be used for second screen campaign for TV and various online/offline events.

Comments Classification System using Topic Signature (Topic Signature를 이용한 댓글 분류 시스템)

  • Bae, Min-Young;Cha, Jeong-Won
    • Journal of KIISE:Software and Applications
    • /
    • v.35 no.12
    • /
    • pp.774-779
    • /
    • 2008
  • In this work, we describe comments classification system using topic signature. Topic signature is widely used for selecting feature in document classification and summarization. Comments are short and have so many word spacing errors, special characters. We firstly convert comments into 7-gram. We consider the 7-gram as sentence. We convert the 7-gram into 3-gram. We consider the 3-gram as word. We select key feature using topic signature and classify new inputs by the Naive Bayesian method. From the result of experiments, we can see that the proposed method is outstanding over the previous methods.

Extracting Korean-English Parallel Sentences based on Measure of Sentences Similarity Using Sequential Matching of Heterogeneous Language Resources (이질적인 언어 자원의 순차적 매칭을 이용한 문장 유사도 계산 기반의 위키피디아 한국어-영어 병렬 문장 추출 방법)

  • Cheon, Juryong;Ko, Youngjoong
    • Annual Conference on Human and Language Technology
    • /
    • 2014.10a
    • /
    • pp.127-132
    • /
    • 2014
  • 본 논문은 위키피디아로부터 한국어-영어 간 병렬 문장을 추출하기 위해 이질적 언어 자원의 순차적 매칭을 적용한 유사도 계산 방법을 제안한다. 선행 연구에서는 병렬 문장 추출을 위해 언어 자원별로 유사도를 계산하여 선형 결합하였고, 토픽모델을 이용해 추정한 단어의 토픽 분포를 유사도 계산에 추가로 이용함으로써 병렬 문장 추출 성능을 향상시켰다. 하지만, 이는 언어 자원들이 독립적으로 사용되어 각 언어자원이 가지는 오류가 문장 간 유사도 계산에 반영되는 문제와 관련이 적은 단어 간의 분포가 유사도 계산에 반영되는 문제가 있다. 본 논문에서는 이질적인 언어 자원들을 이용해 순차적으로 단어를 매칭함으로써 언어 자원들의 독립적인 사용으로 각 자원의 오류가 유사도에 반영되는 문제를 해결하였고, 관련이 높은 단어의 분포만을 유사도 계산에 이용함으로써 관련이 적은 단어의 분포가 반영되는 문제를 해결하였다. 실험을 통해, 언어 자원들을 이용해 순차적으로 매칭한 유사도 계산 방법은 선행 연구에 비해 F1-score 48.4%에서 51.3%로 향상된 성능을 보였고, 관련이 높은 단어의 분포만을 유사도 계산에 이용한 방법은 약 10%에서 34.1%로 향상된 성능을 얻었다. 마지막으로, 제안한 유사도 방법들을 결합함으로써 선행연구의 51.6%에서 2.7%가 향상된 54.3%의 성능을 얻었다.

  • PDF

Geometry and Topology Data Model on OpenGIS Component (개방형 GIS 컴포넌트에서의 기하 및 위상공간데이터 모델)

  • 민경욱;최혜옥;이종훈
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10a
    • /
    • pp.154-156
    • /
    • 2001
  • 공간정보 및 속성정보를 저장 및 관리하여 서비스하는 지리정보시스템은 최근 네트워크 및 분산환경의 기술개발과 더불어 급격히 변화하고 있다. 이러한 지리 정보시스템은 기존의 패키지, 지역적 클라이언트/서버환경의 기술에서 컴포넌트 기반 기술로 자리메김하고 있는 실정이다. 이러한 컴포넌트 GIS의 기술발전을 위해서 OGC(OpenGIS Consortium)에서는 다양한 설계 및 구현 사양과 토픽을 제시하고 있으며, 대부분의 GIS 기술개발시장에서는 이러한 사양과 토픽에 맞게끔 시스템을 설계 및 구현하고 있다. 지리정보시스템에서 다루는 공간데이터는 크게 기하정보(Geometry)와 위상정보(Topology)로 나뉜다. 지리정보시스템에서 기본석인 질의나 분석에 있어서 기하정보 뿐만 아니라 위상정보도 시스템 전체의 성능에 큰 영향을 미치며, 이러한 위상 정보의 저장, 관리는 필수적이다. 본 논문에서는 개방형 컴포넌트 GIS에서의 기본 기하 데이터 모델인 OGC Simple Feature Geometry 모델과 위상정보 (Topolygy Information)를 나타내는 위상 데이터 모델의 통합 및 연동방법에 대해서 살펴보고, 이러한 데이터모델을 포함하고 있는, OGC 구현사항에 맞게 설계 및 구현된 전체시스템 아키텍쳐를 살펴 볼 것이다.

  • PDF