• 제목/요약/키워드: Topic Clustering

검색결과 99건 처리시간 0.032초

과학기술이슈에 대한 일반인의 인식분석: 토픽모델링을 활용한 원자력발전 사례 (How does the General Public Understand Science and Technology Issues?: A Case on the Nuclear Power Issue Using Topic Modeling Approach)

  • 최현도;안종욱
    • 기술혁신연구
    • /
    • 제23권4호
    • /
    • pp.151-175
    • /
    • 2015
  • 과학기술 수용자는 과학기술 변화과정을 결정하는 중요한 이해관계자이다. 하지만 이들이 과학기술이슈에 대해 어떤 생각을 가지고 있는지 확인하는 기존의 방법들은 많은 노력과 시간이 필요한 것으로 알려져 왔다. 본 연구에서는 빅데이터 분석에 널리 사용되는 토픽모델링을 활용해 온라인 토론장에 게시된 글을 분석하여 한국인의 원자력발전에 대한 인식을 알아보고자 한다. 이것은 거시이슈들이 일반 과학기술 수용자 인식구조에 어떤 영향을 미치며, 변화된 인식구조의 지속성을 이해하는데 도움을 줄 수 있다. 빅데이터를 이용해 실시간으로 특정 과학기술이슈에 대한 일반인의 인식을 파악한다면, 과학기술 수용자(일반인)와 공급자(전문가) 집단 사이의 인식간극을 줄이는데 도움을 줄 수 있을 것으로 기대한다.

WV-BTM: SNS 단문의 주제 분석을 위한 토픽 모델 정확도 개선 기법 (WV-BTM: A Technique on Improving Accuracy of Topic Model for Short Texts in SNS)

  • 송애린;박영호
    • 디지털콘텐츠학회 논문지
    • /
    • 제19권1호
    • /
    • pp.51-58
    • /
    • 2018
  • SNS의 사용자와 데이터량이 폭발적으로 증가함에 따라, SNS 빅 데이터를 기반으로 한 연구들이 활발히 진행되고 있다. 특히 소셜 마이닝 분야에서는 비 분류된 대용량 SNS 텍스트 데이터로부터 각 텍스트 별 유사성을 파악하고, 그로부터 트렌드를 추출하기 위해 대표적인 토픽 모델 기법인 LDA를 사용한다. 그러나 LDA는 단문 데이터에 대하여 비 빈발 단어 출현으로 인한 의미 희박성(semantic sparsity)으로 인해 양질의 주제 추론이 어렵다는 한계를 가진다. BTM 연구는 이와 같은 LDA의 한계점을 두 단어의 조합을 통해 개선하였으나, BTM 또한 조합된 단어 중 높은 빈도수의 단어에 더 큰 영향을 받아 각 주제와의 연관성을 고려한 가중치 계산이 불가능하다는 한계점을 지닌다. 본 논문은 단어 간의 의미적 연관성을 반영함으로써 기존 연구 BTM의 정확도를 개선하는 방안을 모색한다.

개인화 검색시스템에 관한 연구 - 과학기술학회마을을 중심으로 - (A Study of Personalized Retrieval System through Society of Korean Journal Articles of Science and Technology)

  • 김광영;곽승진
    • 한국도서관정보학회지
    • /
    • 제41권1호
    • /
    • pp.149-165
    • /
    • 2010
  • 이 연구에서는 기존의 과학기술학회마을에서 제공하고 있는 일반 검색서비스에 대해서 분석하고 이를 기반으로 과학기술학회마을 논문 서비스에 적합한 개인화 검색서비스들을 개발하였다. 즉, 질의어 기반의 개인화 검색시스템, 논문의 공동 저자 기반의 내비게이션 시스템, 논문의 저자 키워드 기반 주제어 자동 추천 시스템과 유사한 사용자 자동 추천 시스템들이 있다. 이 연구에서는 설문 조사를 통해서 KISTI 과학기술학회마을 논문 서비스에 적합한 개인화 서비스를 모색하였다.

  • PDF

Dynamic Text Categorizing Method using Text Mining and Association Rule

  • Kim, Young-Wook;Kim, Ki-Hyun;Lee, Hong-Chul
    • 한국컴퓨터정보학회논문지
    • /
    • 제23권10호
    • /
    • pp.103-109
    • /
    • 2018
  • In this paper, we propose a dynamic document classification method which breaks away from existing document classification method with artificial categorization rules focusing on suppliers and has changing categorization rules according to users' needs or social trends. The core of this dynamic document classification method lies in the fact that it creates classification criteria real-time by using topic modeling techniques without standardized category rules, which does not force users to use unnecessary frames. In addition, it can also search the details through the relevance analysis by calculating the relationship between the words that is difficult to grasp by word frequency alone. Rather than for logical and systematic documents, this method proposed can be used more effectively for situation analysis and retrieving information of unstructured data which do not fit the category of existing classification such as VOC (Voice Of Customer), SNS and customer reviews of Internet shopping malls and it can react to users' needs flexibly. In addition, it has no process of selecting the classification rules by the suppliers and in case there is a misclassification, it requires no manual work, which reduces unnecessary workload.

서지통계학적 분석을 이용한 동형 암호의 연구경향 분석 (Analysis of Research Trends in Homomorphic Encryption Using Bibliometric Analysis)

  • 야마다 아키히코;이은상
    • 정보보호학회논문지
    • /
    • 제33권4호
    • /
    • pp.601-608
    • /
    • 2023
  • 동형 암호 기술은 최근 널리 연구되고 있는 유망한 기술로서, 데이터를 암호화한 상태에서도 연산이 가능하게 하는 기술이다. 본 논문에서는 서지통계학적 분석을 통해 6,047개의 동형 암호 논문을 대상으로 연구 동향을 체계적으로 분석한다. 구체적으로 연도별 논문 수 분석, 키워드 상관관계, 주제 군집 분석, 동형 암호 관련 키워드의 연도별 변화 분석, 그리고 동형 암호 연구 수행 기관의 국가 분석을 통해 동형 암호 기술의 연구 동향을 객관적이고 정량적으로 분석한다. 이러한 분석 결과는 동형 암호를 연구하고 활용하는데 필요한 전략적인 방향성을 제공하며, 이는 후속 연구, 산업 응용 등에 큰 도움이 될 것이다.

차량 Ad-hoc에서 효율적인 메시지 전달을 위한 지향성 MAC 프로토콜 (An Efficient Directional MAC Protocol for Vehicular Ad-hoc Networks)

  • 지순배;김정현;유철우
    • 전자공학회논문지
    • /
    • 제52권4호
    • /
    • pp.9-16
    • /
    • 2015
  • VANET에서 신속하고 안전한 메시지 전달은 중요한 연구 주제이다. 대부분의 연구가 운전자의 안전성을 높이기 위해 차량 간 주기적인 비콘(Beacon) 브로드캐스트를 가정하고 있다. 본 논문에서는 차량 간 통신에서 이러한 문제점을 해결하고 신뢰성 있는 데이터 전송을 지원하기 위하여 고속으로 이동하는 차량의 주행 환경에 적합한 위치기반 클러스터링을 통한 매체접속제어 프로토콜을 설계하였다. 클러스터 헤드를 통해 각 노드들의 access를 관리하고 자원을 할당함으로써 기존 싱글 채널을 사용하여 경쟁 기반의 MAC 프로토콜에서 발생하는 패킷 충돌 및 통신 지연을 줄이는 것을 시뮬레이션을 통해 확인 하였다.

Empirical Comparison of Word Similarity Measures Based on Co-Occurrence, Context, and a Vector Space Model

  • Kadowaki, Natsuki;Kishida, Kazuaki
    • Journal of Information Science Theory and Practice
    • /
    • 제8권2호
    • /
    • pp.6-17
    • /
    • 2020
  • Word similarity is often measured to enhance system performance in the information retrieval field and other related areas. This paper reports on an experimental comparison of values for word similarity measures that were computed based on 50 intentionally selected words from a Reuters corpus. There were three targets, including (1) co-occurrence-based similarity measures (for which a co-occurrence frequency is counted as the number of documents or sentences), (2) context-based distributional similarity measures obtained from a latent Dirichlet allocation (LDA), nonnegative matrix factorization (NMF), and Word2Vec algorithm, and (3) similarity measures computed from the tf-idf weights of each word according to a vector space model (VSM). Here, a Pearson correlation coefficient for a pair of VSM-based similarity measures and co-occurrence-based similarity measures according to the number of documents was highest. Group-average agglomerative hierarchical clustering was also applied to similarity matrices computed by individual measures. An evaluation of the cluster sets according to an answer set revealed that VSM- and LDA-based similarity measures performed best.

A Sentiment Classification Approach of Sentences Clustering in Webcast Barrages

  • Li, Jun;Huang, Guimin;Zhou, Ya
    • Journal of Information Processing Systems
    • /
    • 제16권3호
    • /
    • pp.718-732
    • /
    • 2020
  • Conducting sentiment analysis and opinion mining are challenging tasks in natural language processing. Many of the sentiment analysis and opinion mining applications focus on product reviews, social media reviews, forums and microblogs whose reviews are topic-similar and opinion-rich. In this paper, we try to analyze the sentiments of sentences from online webcast reviews that scroll across the screen, which we call live barrages. Contrary to social media comments or product reviews, the topics in live barrages are more fragmented, and there are plenty of invalid comments that we must remove in the preprocessing phase. To extract evaluative sentiment sentences, we proposed a novel approach that clusters the barrages from the same commenter to solve the problem of scattering the information for each barrage. The method developed in this paper contains two subtasks: in the data preprocessing phase, we cluster the sentences from the same commenter and remove unavailable sentences; and we use a semi-supervised machine learning approach, the naïve Bayes algorithm, to analyze the sentiment of the barrage. According to our experimental results, this method shows that it performs well in analyzing the sentiment of online webcast barrages.

토픽 분석을 활용한 관심 기반 고객 세분화 방법론 (Interest-based Customer Segmentation Methodology Using Topic Modeling)

  • 현윤진;김남규;조윤호
    • Journal of Information Technology Applications and Management
    • /
    • 제22권1호
    • /
    • pp.77-93
    • /
    • 2015
  • As the range of the customer choice becomes more diverse, the average life span of companies' products and services is becoming shorter. Most companies are striving to maximize the revenue by understanding the customer's needs and providing customized products and services. However, companies had to bear a significant burden, in terms of the time and cost involved in the process of determining each individual customer's needs. Therefore, an alternative method is employed that involves grouping the customers into different categories based on certain criteria and establishing a marketing strategy tailored for each group. In this way, customer segmentation and customer clustering are performed using demographic information and behavioral information. Demographic information included sex, age, income level, and etc., while behavioral information was usually identified indirectly through customers' purchase history and search history. However, there is a limitation regarding companies' customer behavioral information, because the information is usually obtained through the limited data provided by a customer on a company's website. This is because the pattern indicated when a customer accesses a particular site might not be representative of the general tendency of that customer. Therefore, in this study, rather than the pattern indicated through a particular site, a customer's interest is identified using that customer's access record pertaining to external news. Hence, by utilizing this method, we proposed a methodology to perform customer segmentation. In addition, by extracting the main issues through a topic analysis covering approximately 3,000 Internet news articles, the actual experiment applying customer segmentation is performed and the applicability of the proposed methodology is analyzed.

신문기사를 이용한 미세먼지 이슈의 토픽 분석 (A Topic Analysis of Fine Particle Matter by Using Newspaper Articles)

  • 양지연
    • 한국콘텐츠학회논문지
    • /
    • 제22권6호
    • /
    • pp.1-14
    • /
    • 2022
  • 본 연구는 미세먼지 관련 기사의 토픽을 추출하고 토픽별 특징 및 시계열 추이를 검토한다. 1990~2021년 중앙지의 기사를 빅카인즈에서 추출하였고, 잠재디리슐레할당 모델링을 이용하여 총 18개의 토픽을 발견하였다. 추가적으로 군집분석을 통해 유사한 토픽들을 병합하여 11개의 클러스터를 도출하였다. 최근 상승하는 토픽들로는 미세먼지 관련 제품/거주지, 국외 요인(중국), 국내 요인 중 발전소 관련 이슈, 전국의 비상조감조치, 국제협력, 관련 정치적 이슈, 세계 각국의 현황 및 대응, 관련 제품의 소비경향 논의로 나타났다. 반면 최근 하락하는 토픽들은 오염농도 기준, 실내 공기질 개선과 관련된 토픽으로 나타났다. 사회적으로 큰 관심사인 미세먼지의 언론보도 양상을 검토함으로써, 미세먼지와 관련한 정책방향과 대응전략을 추론하거나 파악하는 데 유용할 것이다. 미세먼지 관련 제품들의 시장규모가 확대됨에 따라 향후 실효적인 소비자보호정책을 확대하고, 근본적인 문제 해결을 위해 정치적 논쟁보다 국민의 건강과 안전을 목적으로 하는 정책 수립이 요구된다. 또한 국민 공감대와 국제사회 협력을 확대할 수 있는 정책수립이 필요한 것으로 판단된다.