• 제목/요약/키워드: topic model

검색결과 865건 처리시간 0.024초

토픽맵의 다중역할 토픽 보존을 위한 관계형 데이터베이스 구조 (Relational Database Structure for Preserving Multi-role Topics in Topic Map)

  • 정윤수;이춘열;김남규
    • 한국정보시스템학회지:정보시스템연구
    • /
    • 제18권3호
    • /
    • pp.327-349
    • /
    • 2009
  • Traditional keyword-based searching methods suffer from low accuracy and high complexity due to the rapid growth in the amount of information. Accordingly, many researchers attempt to implement a so-called semantic search which is based on the semantics of the user's query. Semantic information can be described using a semantic modeling language, such as Topic Map. In this paper, we propose a new method to map a topic map to a traditional Relational Database (RDB) without any information loss. Although there have been a few attempts to map topic maps to RDB, they have paid scant attention to handling multi-role topics. In this paper, we propose a new storage structure to map multi-role topics to traditional RDB. The proposed structure consists of a mapping table, role tables, and content tables. Additionally, we devise a query translator to convert a user's query to one appropriate to the proposed structure.

  • PDF

귀납적 사회과학연구 방법론을 위한 토픽모델링의 확장 및 사례분석 (Extension and Case Analysis of Topic Modeling for Inductive Social Science Research Methodology)

  • 김근형
    • 한국정보시스템학회지:정보시스템연구
    • /
    • 제31권4호
    • /
    • pp.25-45
    • /
    • 2022
  • Purpose In this paper, we propose the method to extend topic modeling techniques in order to derive data-based research hypotheses when establishing research hypotheses for social sciences, As a concept in contrast to the existing deductive hypothesis establishment methodology for the social science research, the topic modeling technique was expanded to enable the so-called inductive hypothesis establishment methodology, and an analysis case of the Seongsan Ilchulbong online review based on the proposed methodology was presented. Design/methodology/approach In this paper, an extension architecture and extension algorithm in the form of extending the existing topic modeling were proposed. The extended architecture and algorithm include data processing method based on topic ratio in document, correlation analysis and regression analysis of processed data for topics derived by existing topic modeling. In addition, in this paper, an analysis case of the online review of Seongsan Ilchulbong Peak was presented by applying the extended topic modeling algorithm. An exploratory analysis was performed on the Seongsan Ilchulbong online reviews through the basic text analysis. The data was transformed into 5-point scale to enable correlation and regression analysis based on the topic ratio in each online review. A regression analysis was performed using the derived topics as the independent variable and the review rating as the dependent variable, and hypotheses could be derived based on this, which enable the so-called inductive hypothesis establishment. Findings This paper is meaningful in that it confirmed the possibility of deriving a causal model and setting an inductive hypothesis through an extended analysis of topic modeling.

Spark 프레임워크 기반 비정형 빅데이터 토픽 추출 시스템 설계 (A Design on Informal Big Data Topic Extraction System Based on Spark Framework)

  • 박기진
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제5권11호
    • /
    • pp.521-526
    • /
    • 2016
  • 온라인상에서 다루어지는 비정형 텍스트 데이터는 대용량이면서 비구조적 형태의 특성을 가지고 있기 때문에, 기존 관계형 데이터 모델의 저장 방식과 분석 방법만으로는 한계가 있다. 더군다나, 동적으로 발생하는 대량의 소셜 데이터를 활용하여 이용자의 반응을 실시간으로 분석하기란 어려운 상황이다. 이에 본 논문에서는 대용량 비정형 데이터(문서)의 의미를 빠르고, 용이하게 파악하기 위하여 데이터 셋에 대한 사전학습 없이, 문서 내 단어 비중에 따라 자동으로 토픽(주제)이 추출되는 시스템을 설계 및 구현하였다. 제안된 시스템의 토픽 모델링에 사용될 입력 단어는 N-gram 알고리즘에 의하여 도출되어 복수 개의 단어도 묶음 처리할 수 있게 했으며, 또한, 대용량 비정형 데이터 저장 및 연산을 위하여 Hadoop과 분산 인메모리 처리 프레임워크인 Spark 기반 클러스터를 구성하여, 토픽 모델 연산을 수행하였다. 성능 실험에서는 TB급의 소셜 댓글 데이터를 읽어 들여, 전체 데이터에 대한 전처리 과정과 특정 항목의 토픽 추출 작업을 수행하였으며, 대용량 데이터를 클러스터의 디스크가 아닌 메모리에 바로 적재 후, 처리함으로써 토픽 추출 성능의 우수성을 확인할 수 있었다.

토픽 모델링 기반 비대면 강의평 분석 및 딥러닝 분류 모델 개발 (Analyzing Students' Non-face-to-face Course Evaluation by Topic Modeling and Developing Deep Learning-based Classification Model)

  • 한지영;허고은
    • 한국문헌정보학회지
    • /
    • 제55권4호
    • /
    • pp.267-291
    • /
    • 2021
  • 2020년 신종 코로나바이러스 감염증(코로나19)으로 인한 전 세계적인 팬데믹으로 교육 현장에도 큰 변화가 있었다. 대학에서는 보조 교육 수단으로 생각했던 원격수업을 전면 도입하였고 비대면 수업이 일상화되어 교수자와 학생들은 새로운 교육환경에 적응하기 위해 큰 노력을 기울이고 있다. 이러한 변화 속에서 비대면 강의의 질적 향상을 위하여 강의 만족도 영향요인에 관한 연구가 필요하다. 본 연구는 코로나 전과 후로 변화된 대학 강의 만족도 영향요인을 파악하기 위해 빅데이터를 활용한 새로운 방법론을 제시하고자 한다. 토픽 모델링을 활용하여 코로나 전과 후의 강의평을 분석하고 이를 통해 강의 만족도 영향요인을 파악하여 대학교육이 나아가야 할 방향성을 제언하였다. 또한, 딥러닝 언어 모델인 KoBERT를 기반으로 0.84의 F1-score를 보이는 토픽 분류 모델을 구축함으로써 강의의 만족, 불만족 요인을 다각도로 파악할 수 있으며 이를 통해 강의 만족도의 지속적인 질적 향상에 기여할 수 있다.

사용자 리뷰 토픽분석을 활용한 모바일 쇼핑 앱 고객만족도에 관한 연구 (A Study on Customer Satisfaction of Mobile Shopping Apps Using Topic Analysis of User Reviews)

  • 김광국;김용환;김자희
    • 한국전자거래학회지
    • /
    • 제23권4호
    • /
    • pp.41-62
    • /
    • 2018
  • 현재 모바일 쇼핑 시장의 빠른 성장에도 불구하고 주요 사업자들은 심한 경쟁 속에서 지속적인 영업적자를 기록하고 있다. 이 문제를 해결하기 위해서는 모바일 쇼핑 시장은 과도한 경쟁보다는 고객만족도와 고객충성도를 높이기 위한 연구들이 요구된다. 그러나 기존의 연구들은 기술수용 모형과 문헌연구를 기반으로 요인을 추출하고 있어 고객의 직접적인 요구를 반영하는 데 한계가 있다. 본 연구는 모바일 쇼핑 앱 사용자들의 직접적인 요구사항을 도출하기 위하여 사용자 리뷰 토픽분석을 시행하여 고객만족도에 영향을 미치는 구체적이고 다양한 요인들을 도출하였다. 그리고 미국 고객만족도 지표 모형을 참조한 구조방정식 연구모형을 수립하여 도출된 요인들이 고객만족도에 미치는 중요도를 평가하고 고객만족도가 고객 불평과 고객충성도에 주는 영향을 실증 분석하였다. 본 연구에서 제안한 토픽분석과 구조방정식을 연계한 연구 프레임워크는 다른 모바일 서비스의 고객만족도 연구에도 적용될 수 있을 것으로 기대된다.

LDA2Vec 항목 모델을 기반으로 한 협업 필터링 권장 알고리즘 (Collaborative Filtering Recommendation Algorithm Based on LDA2Vec Topic Model)

  • 장흠
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2020년도 제62차 하계학술대회논문집 28권2호
    • /
    • pp.385-386
    • /
    • 2020
  • In this paper, we propose a collaborative filtering recommendation algorithm based on the LDA2Vec topic model. By extracting and analyzing the article's content, calculate their semantic similarity then combine the traditional collaborative filtering algorithm to recommend. This approach may promote the system's recommend accuracy.

  • PDF

Language Model Adaptation Based on Topic Probability of Latent Dirichlet Allocation

  • Jeon, Hyung-Bae;Lee, Soo-Young
    • ETRI Journal
    • /
    • 제38권3호
    • /
    • pp.487-493
    • /
    • 2016
  • Two new methods are proposed for an unsupervised adaptation of a language model (LM) with a single sentence for automatic transcription tasks. At the training phase, training documents are clustered by a method known as Latent Dirichlet allocation (LDA), and then a domain-specific LM is trained for each cluster. At the test phase, an adapted LM is presented as a linear mixture of the now trained domain-specific LMs. Unlike previous adaptation methods, the proposed methods fully utilize a trained LDA model for the estimation of weight values, which are then to be assigned to the now trained domain-specific LMs; therefore, the clustering and weight-estimation algorithms of the trained LDA model are reliable. For the continuous speech recognition benchmark tests, the proposed methods outperform other unsupervised LM adaptation methods based on latent semantic analysis, non-negative matrix factorization, and LDA with n-gram counting.

MeSH 기반의 LDA 토픽 모델을 이용한 검색어 확장 (The MeSH-Term Query Expansion Models using LDA Topic Models in Health Information Retrieval)

  • 유석진
    • 한국도서관정보학회지
    • /
    • 제52권1호
    • /
    • pp.79-108
    • /
    • 2021
  • 헬스 분야에서 정보 검색의 어려움 중의 하나는 일반 사용자들이 전문적인 용어들을 이해하기가 어렵다는 점이다. 헬스와 관련된 전문 용어들은 일반 사용자들이 검색어로 사용하기 어렵기 때문에 이러한 전문 용어들이 자동적으로 검색어에 더해질 수 있다면 좀 더 검색의 효과를 높일 수 있을 것이다. 제안된 검색어 확장 모델은 전문 용어를 포함하는 MeSH(Medical Subject Headings)를 검색어 확장을 위한 단어 후보 군으로 이용하였다. 문서들은 MeSH용어들로 표현이 되고 이렇게 표현된 문서들의 집합에 대해서 LDA(Latent Dirichlet Analysis) 토픽들이 생성된 후, (검색어+초기 검색어에 의해 검색된 상위 k개 문서들)에 연관된 토픽 단어들이 원래의 검색어를 확장하는 데 쓰여졌다. MeSH로 구성된 토픽 단어들은 임의로 정해진 토픽 확률 임계값과 토픽을 구성하는 단어의 확률 임계값보다 높았을 때 초기의 검색어에 포함되었다. 특정수의 토픽을 갖는 LDA 모델에서 이러한 적절한 임계값의 설정을 통해 선택된 토픽 단어들은 검색어 확장에 이용되어 검색시에 infAP(inferred Average Precision)와 infNDCG(inferred Normalized Discounted Cumulative Gain)를 높이는데 효과적으로 작용하였다. 또한 토픽 확률값과 토픽 단어의 확률값을 곱하여 계산된 토픽 단어의 스코어가 높은 상위 k개의 단어를 검색어를 확장하는 데 이용하였을 때에도 검색의 성능이 향상될 수 있음을 확인하였다.

잠재 디리클레 할당(LDA)을 이용한 항공안전 의무보고 토픽 예측 모형 (Aviation Safety Mandatory Report Topic Prediction Model using Latent Dirichlet Allocation (LDA))

  • 김준환;백현진;전성진;최영재
    • 한국항공운항학회지
    • /
    • 제31권3호
    • /
    • pp.42-49
    • /
    • 2023
  • Not only in aviation industry but also in other industries, safety data plays a key role to improve the level of safety performance. By analyzing safety data such as aviation safety report (text data), hazard can be identified and removed before it leads to a tragic accident. However, pre-processing of raw data (or natural language data) collected from each site should be carried out first to utilize proactive or predictive safety management system. As air traffic volume increases, the amount of data accumulated is also on the rise. Accordingly, there are clear limitation in analyzing data directly by manpower. In this paper, a topic prediction model for aviation safety mandatory report is proposed. In addition, the prediction accuracy of the proposed model was also verified using actual aviation safety mandatory report data. This research model is meaningful in that it not only effectively supports the current aviation safety mandatory report analysis work, but also can be applied to various data produced in the aviation safety field in the future.

Customer Service Evaluation based on Online Text Analytics: Sentiment Analysis and Structural Topic Modeling

  • 박경배;하성호
    • 한국정보시스템학회지:정보시스템연구
    • /
    • 제26권4호
    • /
    • pp.327-353
    • /
    • 2017
  • Purpose Social media such as social network services, online forums, and customer reviews have produced a plethora amount of information online. Yet, the information deluge has created both opportunities and challenges at the same time. This research particularly focuses on the challenges in order to discover and track the service defects over time derived by mining publicly available online customer reviews. Design/methodology/approach Synthesizing the streams of research from text analytics, we apply two stages of methods of sentiment analysis and structural topic model incorporating meta-information buried in review texts into the topics. Findings As a result, our study reveals that the research framework effectively leverages textual information to detect, prioritize, and categorize service defects by considering the moving trend over time. Our approach also highlights several implications theoretically and practically of how methods in computational linguistics can offer enriched insights by leveraging the online medium.