• 제목/요약/키워드: Topic Clustering

검색결과 100건 처리시간 0.027초

KOREAN TOPIC MODELING USING MATRIX DECOMPOSITION

  • June-Ho Lee;Hyun-Min Kim
    • East Asian mathematical journal
    • /
    • 제40권3호
    • /
    • pp.307-318
    • /
    • 2024
  • This paper explores the application of matrix factorization, specifically CUR decomposition, in the clustering of Korean language documents by topic. It addresses the unique challenges of Natural Language Processing (NLP) in dealing with the Korean language's distinctive features, such as agglutinative words and morphological ambiguity. The study compares the effectiveness of Latent Semantic Analysis (LSA) using CUR decomposition with the classical Singular Value Decomposition (SVD) method in the context of Korean text. Experiments are conducted using Korean Wikipedia documents and newspaper data, providing insight into the accuracy and efficiency of these techniques. The findings demonstrate the potential of CUR decomposition to improve the accuracy of document clustering in Korean, offering a valuable approach to text mining and information retrieval in agglutinative languages.

국민청원 주제 분석 및 딥러닝 기반 답변 가능 청원 예측 (Topic Analysis of the National Petition Site and Prediction of Answerable Petitions Based on Deep Learning)

  • 우윤희;김현희
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제9권2호
    • /
    • pp.45-52
    • /
    • 2020
  • 청와대 국민 청원 사이트가 개설된 이래로 많은 관심을 받고 있다. 본 논문에서는 국민 청원의 주제를 분석하고 딥러닝을 활용하여 답변 가능한 청원을 예측하는 모델을 제안하였다. 먼저, 추천순으로 1,500개의 청원글을 수집하였고, K-means 클러스터링을 적용하여 청원글을 군집하여 대주제를 정의하고, 보다 구체적인 세부 주제를 정의하기 위히여 토픽 모델링을 실시하였다. 다음으로는 LSTM을 활용한 답변 가능한 청원 예측 모델을 생성하여, 20만의 청원동의를 얻는 청원을 예측하기 위한 모델을 개발하였다. 이를 위해 글의 주제와 본문뿐만 아니라 글의 길이, 카테고리, 특정 품사의 비율이 영향을 미칠 수 있는지를 살펴보았다. 그 결과, 본문과 함께 글의 길이, 카테고리, 체언, 용언, 독립언, 수식언의 품사의 비율을 변수로 추가한 모델의 f1-score가 0.9 이상으로 글의 제목과 본문을 변수로 하는 모델보다 예측력이 높음을 알 수 있었다.

당뇨병 모바일 앱 관련 연구동향: 텍스트 네트워크 분석 및 토픽 모델링 (Research Trend on Diabetes Mobile Applications: Text Network Analysis and Topic Modeling)

  • 박승미;곽은주;김영지
    • Journal of Korean Biological Nursing Science
    • /
    • 제23권3호
    • /
    • pp.170-179
    • /
    • 2021
  • Purpose: The aim of this study was to identify core keywords and topic groups in the 'Diabetes mellitus and mobile applications' field of research for better understanding research trends in the past 20 years. Methods: This study was a text-mining and topic modeling study including four steps such as 'collecting abstracts', 'extracting and cleaning semantic morphemes', 'building a co-occurrence matrix', and 'analyzing network features and clustering topic groups'. Results: A total of 789 papers published between 2002 and 2021 were found in databases (Springer). Among them, 435 words were extracted from 118 articles selected according to the conditions: 'analyzed by text network analysis and topic modeling'. The core keywords were 'self-management', 'intervention', 'health', 'support', 'technique' and 'system'. Through the topic modeling analysis, four themes were derived: 'intervention', 'blood glucose level control', 'self-management' and 'mobile health'. The main topic of this study was 'self-management'. Conclusion: While more recent work has investigated mobile applications, the highest feature was related to self-management in the diabetes care and prevention. Nursing interventions utilizing mobile application are expected to not only effective and powerful glycemic control and self-management tools, but can be also used for patient-driven lifestyle modification.

특허 데이터 기반 비즈니스 모델 분야 융합 트렌드 파악 (Identification of Convergence Trend in the Field of Business Model Based on Patents)

  • 이선호;송지훈
    • 한국산업융합학회 논문집
    • /
    • 제27권3호
    • /
    • pp.635-644
    • /
    • 2024
  • Although the business model(BM) patents act as a creative bridge between technology and the marketplace, limited scholarly attention has been paid to the content analysis of BM patents. This study aims to contextualize converging BM patents by employing topic modeling technique and clustering highly marketable topics, which are expressed through a topic-market impact matrix. We relied on BM patent data filed between 2010 and 2022 to derive empirical insights into the commercial potential of emerging business models. Subsequently, nine topics were identified, including but not limited to "Data Analytics and Predictive Modeling" and "Mobile-Based Digital Services and Advertising." The 2x2 matrix allows to position topics based on the variables of topic growth rate and market impact, which is useful for prioritizing areas that require attention or are promising. This study differentiates itself by going beyond simple topic classification based on topic modeling, reorganizing the findings into a matrix format. T he results of this study are expected to serve as a valuable reference for companies seeking to innovate their business models and enhance their competitive positioning.

군집과 위키피디아를 이용한 문서군집 (Document Clustering using Clustering and Wikipedi)

  • 박선;이성호;박희만;김원주;김동진;산드라 아벨;이성로
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2012년도 추계학술대회
    • /
    • pp.392-393
    • /
    • 2012
  • 본 논문은 군집과 위키피디아(Wikipedia)를 이용하여 문서를 군집하는 새로운 방법을 제안한다. 제안된 방법은 비음수행렬분해를 이용하여 군집을 대표할 수 있는 군집 주제(topic)의 개념을 잘 표현할 수 있으며, 위키피디아의 동음이의어를 사용함으로써 문서와 군집 간의 의미관계를 고려하지 않는 용어집합(bag-of-words) 문제를 해결할 수 있다. 실험결과 제안방법을 적용한 문서군집방법이 다른 문서군집 방법에 비하여 좋은 성능을 보인다.

  • PDF

단어 유사도를 이용한 뉴스 토픽 추출 (News Topic Extraction based on Word Similarity)

  • 김동욱;이수원
    • 정보과학회 논문지
    • /
    • 제44권11호
    • /
    • pp.1138-1148
    • /
    • 2017
  • 토픽 추출은 문서 집합으로부터 그 문서 집합을 대표하는 토픽을 자동 추출하는 기술이며 자연어 처리의 중요한 연구 분야이다. 대표적인 토픽 추출 방법으로는 잠재 디리클레 할당과 단어 군집화 기반 토픽 추출방법이 있다. 그러나 이러한 방법의 문제점으로는 토픽 중복 문제와 토픽 혼재 문제가 있다. 토픽 중복 문제는 특정 토픽이 여러 개의 토픽으로 추출되는 문제이며, 토픽 혼재 문제는 추출된 하나의 토픽 내에 여러 토픽이 혼재되어 있는 문제이다. 이러한 문제를 해결하기 위하여 본 연구에서는 토픽 중복 문제에 대해 강건한 잠재 디리클레 할당으로 토픽을 추출하고 단어 간 유사도를 이용하여 토픽 분리 및 토픽 병합의 단계를 거쳐 최종적으로 토픽을 보정하는 방법을 제안한다. 실험 결과 제안 방법이 잠재 디리클레 할당 방법에 비해 좋은 성능을 보였다.

토픽모델링 기법을 활용한 연구개발과제의 클러스터링과 평가에 관한 연구 (A Study on Clustering and Assessment of R&D Projects by Topic Modeling)

  • 박창걸
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2019년도 춘계종합학술대회
    • /
    • pp.105-106
    • /
    • 2019
  • 본 연구는 토픽모델링 기법을 국가의 연구개발 프로젝트에 적용하여 클러스터링하고 네트워크 분석을 통해 개별 클러스터와 R&D프로젝트를 평가하는 것에 관한 것이다.

  • PDF

NFC 태그 정보를 이용한 검색 정보의 군집 시스템 모델 (Clustering System Model of Intormation Retrieval using NFC Tag Information)

  • 박선;김형균;심수정
    • 스마트미디어저널
    • /
    • 제2권3호
    • /
    • pp.17-22
    • /
    • 2013
  • NFC 스마트폰의 보급 증가는 앱과 연계하여 다양한 서비스를 제공하고 있으며, 단순한 인터넷 서비스를 개인화 서비스로 변화 시킬 것으로 예상되고 있다. 본 논문은 정보 접근을 위한 NFC 태그의 정보를 이용하여 유사정보를 활용할 수 있도록 검색 정보를 군집하는 시스템 모델을 제안한다. 제안된 모델을 NFC 태그에서 제공하는 정보를 이용하여 유사 정보를 검색할 수 있다. 또한 검색된 유사정보를 사용자가 활용할 수 있도록 주제별 군집할 수 있다.

  • PDF

자아 중심 네트워크 분석과 동적 인용 네트워크를 활용한 토픽모델링 기반 연구동향 분석에 관한 연구 (Combining Ego-centric Network Analysis and Dynamic Citation Network Analysis to Topic Modeling for Characterizing Research Trends)

  • 유소영
    • 정보관리학회지
    • /
    • 제32권1호
    • /
    • pp.153-169
    • /
    • 2015
  • 이 연구에서는 토픽 모델링 결과 해석의 용이성을 위하여, 동적 인용 네트워크를 활용하여 LDA 기반 토픽 모델링의 토픽 수를 설정하고 중복 배치된 주요 키워드를 자아 중심 네트워크 분석을 통해 재배치하여 제시하는 방법을 제안하였다. 'White LED' 두 분야의 논문 데이터를 이용하여 분석한 결과, 동적 인용 네트워크 분석을 통해 형성된 분석대상 문헌집단에 혼잡도에 따른 토픽수를 사용하고 중복 분류된 토픽 내 주요 키워드를 자아중심 네트워크 분석 기법을 적용하여 재배치한 결과가 토픽 간의 중복도가 가장 낮은 것으로 나타났다. 따라서 동적 인용 네트워크 및 자아 중심 네트워크 분석을 적용함으로써 토픽모델링에 의한 분석 결과를 보완하는 다면적인 연구 동향 분석이 가능할 것으로 보인다.

지식 맵을 위한 캐슁 기법 (A Caching Mechanism for Knowledge Maps)

  • 정준원;민경섭;김형주
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제10권3호
    • /
    • pp.282-291
    • /
    • 2004
  • 데이타를 효과적으로 다루기 위한 방법으로 데이타에 부가정보를 추가하는 TopicMap이나 RDF같은 지식맵에 대한 연구가 늘고 있다. 하지만 기존의 연구는 정보표현과 기술, 응용방안에 대한 연구가 주를 이루고 있으며 구현과 서비스에 대한 연구는 부족한 상태이다. 본 논문에서는 TopicMap 시스템에서의 캐쉬 관리 기능의 구현을 통해 실질적인 지식맵 서비스를 지원하기 위해 고려해야 할 부분 중에서 지식맵의 효과적인 접근을 지원하기 위한 방법을 제안하였다. 먼저 기존 탐색방법의 장점을 최대한 수용하는 탐색 기법을 제안하고 이러한 환경하에서 지식맵 전송 효율을 향상시키고자 지식맵이 가지는 정보를 이용하는 캐쉬기법을 제안하였다. 본 논문에서 제안한 캐쉬기법은 어플리케이션의 접근 형태에 따른 물리, 논리적 단위로 정보를 캐쉬하는 기존의 방식과 달리 사용자가 지식을 접근하는 관점에서 효율을 높이고자 하였다. 즉 지식맵이 이미 자신에 대한 부가 정보뿐만 아니라 다른 지식간의 연관관계와 같은 정보를 가지고 있으므로 이러한 정보를 클러스터링 요소로 이용, 실제 사용 자가 지식맵을 탐색하는데 있어 접근확률이 높도록 캐쉬집합을 생성하도록 하였다. 또한 캐쉬집합을 교체 하는 방법에 있어서도 지식맵의 그래프 관계와 같은 정보의 연관성을 이용, 필요한 부분만을 전송함으로써 효율을 높이는 방법을 제안하였다.