• 제목/요약/키워드: Topic Data

검색결과 1,572건 처리시간 0.025초

클라우드 환경에서 데이터 통합 관리를 위한 TMDM (TMDM for Data Integration Management in Cloud Environment)

  • 문석재;신효영;정계동
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2012년도 추계학술대회
    • /
    • pp.970-973
    • /
    • 2012
  • 클라우드 환경에서 기업들은 상호 연결되지 않은 여러 개의 시스템과 데이터베이스에 각각 마스터 정보를 분산 저장하여 사용하고 있다. 관리되지 않은 마스터 정보는 부정확하고, 상호 불일치하기에 비즈니스 프로세스의 효율성을 저하시키고, 최적의 의사결정을 할 수가 없게된다. 효율적이고 오류 없는 비즈니스 프로세스 운용을 위해서는 고품질의 마스터 정보의 관리가 필요하다. 본 논문은 클라우드 환경에서 상호 연계되는 마스터 정보 간의 발생하는 이질적인 문제를 해결하고, 비즈니스 프로세스를 효율적으로 운용하기 위한 방안으로 TMDM(Topic Maps Master Data Management)을 제안한다. TMDM는 데이터 간의 연관성을 고려한 Topic Maps를 이용하여 마스터 정보 간의 상호 불일치 문제를 해결하기 위해 제안된 지식 저장소이다. Topic Maps는 하나의 토픽을 통해 토픽이 표현하는 주제에 관련된 모든 지식 정보를 접근할 수 있도록 토픽간의 association을 통해 연결할 수 있다. 이러한 점은 클라우드 내에서 레거시 시스템 간 마스터 정보에도 적용할 수 있다.

  • PDF

토픽모델링을 활용한 한국산업경영시스템학회지의 최근 연구주제 분석 (Recent Research Trend Analysis for the Journal of Society of Korea Industrial and Systems Engineering Using Topic Modeling)

  • 박동준;구평회;오형술;윤 민
    • 산업경영시스템학회지
    • /
    • 제46권3호
    • /
    • pp.170-185
    • /
    • 2023
  • The advent of big data has brought about the need for analytics. Natural language processing (NLP), a field of big data, has received a lot of attention. Topic modeling among NLP is widely applied to identify key topics in various academic journals. The Korean Society of Industrial and Systems Engineering (KSIE) has published academic journals since 1978. To enhance its status, it is imperative to recognize the diversity of research domains. We have already discovered eight major research topics for papers published by KSIE from 1978 to 1999. As a follow-up study, we aim to identify major topics of research papers published in KSIE from 2000 to 2022. We performed topic modeling on 1,742 research papers during this period by using LDA and BERTopic which has recently attracted attention. BERTopic outperformed LDA by providing a set of coherent topic keywords that can effectively distinguish 36 topics found out this study. In terms of visualization techniques, pyLDAvis presented better two-dimensional scatter plots for the intertopic distance map than BERTopic. However, BERTopic provided much more diverse visualization methods to explore the relevance of 36 topics. BERTopic was also able to classify hot and cold topics by presenting 'topic over time' graphs that can identify topic trends over time.

토픽 모델링을 이용한 지속가능패션 연구 동향 분석 (Analysis of sustainable fashion research trends using topic modeling)

  • 이하나
    • 복식문화연구
    • /
    • 제29권4호
    • /
    • pp.538-553
    • /
    • 2021
  • As interest in the sustainable fashion industry continues to increase along with climate issues, it is necessary to identify research trends in sustainable fashion and seek new development directions. Therefore, this study aims to analyze research trends on sustainable fashion. For this purpose, related papers were collected from the KCI (Korean Citation Index) and Scopus, and 340 articles were used for the study. The collected data went through data transformation, data preprocessing, topic modeling analysis, core topic derivation, and visualization through a Python algorithm. A total of eight topics were obtained from the comprehensive analysis: consumer clothing consumption behavior and environment, upcycle product development, product types by environmental approach, ESG business activities, materials and material development, process-based approach, lifestyle and consumer experience, and brand strategy. Topics were related to consumption, production, and education of sustainable fashion, respectively. KCI analysis results and Scopus analysis results derived eight topics but showed differences from the comprehensive analysis results. This study provides primary data for exploring various themes of sustainable fashion. It is significant in that the data were analyzed based on probability using a research method that excluded the subjective value of the researcher. It is recommended that follow-up studies be conducted to examine social trends.

토픽모델링과 시계열 회귀분석을 활용한 헬스케어 분야의 뉴스 빅데이터 분석 연구 (Big Data News Analysis in Healthcare Using Topic Modeling and Time Series Regression Analysis)

  • 김은정;장석권;이상용
    • 경영정보학연구
    • /
    • 제25권3호
    • /
    • pp.163-177
    • /
    • 2023
  • 본 연구는 디지털 헬스케어 산업 활성화를 위한 정책적 접근으로서, 주요 의제 도출 및 정책적 시사점을 제시하는데 목적이 있다. 본 연구에서는 10년(2013년~2022년) 간의 헬스케어와 관련된 뉴스 빅데이터 총 91,873건을 수집하여 토픽모델링 분석, 다차원척도 분석 및 시계열 회귀분석을 수행하였다. 토픽모델링 분석 및 다차원척도법을 통해 총 20개의 토픽을 도출하여 2차원선상에 토픽들의 군집 형태를 파악하였고, 시계열 회귀분석을 통해, 상승 추세를 나타내는 4개의 Hot topic(건강관리, 바이오제약, 기업매출·전망, 정부·정책)과 하향 추세를 나타내는 3개의 Cold topic(스마트기기, 주식·투자, 도시·건설)을 도출되었다. 본 연구의 결과는 우리나라 정책을 수립하는 정부 기관에 중요한 기초 자료로 활용될 수 있을 것이다.

단서표현 기반의 인물관련 질의-응답문 문장 주제 분류 시스템 (A Topic Classification System Based on Clue Expressions for Person-Related Questions and Passages)

  • 이경호;이공주
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제4권12호
    • /
    • pp.577-584
    • /
    • 2015
  • 일반적으로 질의응답 시스템은 입력된 질문에 대한 정답을 찾기 위해 질문과 관련된 문서 또는 단락 단위의 검색을 수행한다. 그렇지만 단어 기반의 검색만으로는 정답을 포함하는 단락을 찾기 어려운 경우가 있다. 본 논문에서는 이러한 문제를 각 문장이 가지고 있는 주제를 통해 해결할 수 있다고 판단하고 이를 위한 질의-응답문의 주제 분류 시스템에 대해 연구하였다. 이러한 시스템을 위해 필요한 인물과 관련한 주제 유형을 소개하고, 주제를 찾기 위한 단서표현을 정의하였다. 또한 단서표현기반으로 문장의 주제를 파악하는 시스템의 구성에 대해 소개하고, 이 시스템의 구성요소들에 대한 성능 평가를 수행하였다.

텍스트 마이닝을 활용한 건설안전사고 빅데이터 분석 (Big Data Analytics of Construction Safety Incidents Using Text Mining)

  • 서정욱;송지훈
    • 한국산업융합학회 논문집
    • /
    • 제27권3호
    • /
    • pp.581-590
    • /
    • 2024
  • This study aims to extract key topics through text mining of incident records (incident history, post-incident measures, preventive measures) from construction safety accident case data available on the public data portal. It also seeks to provide fundamental insights contributing to the establishment of manuals for disaster prevention by identifying correlations between these topics. After pre-processing the input data, we used the LDA-based topic modeling technique to derive the main topics. Consequently, we obtained five topics related to incident history, and four topics each related to post-incident measures and preventive measures. Although no dominant patterns emerged from the topic pattern analysis, the study holds significance as it provides quantitative information on the follow-up actions related to the incident history, thereby suggesting practical implications for the establishment of a preventive decision-making system through the linkage between accident history and subsequent measures for reccurrence prevention.

KOSPI index prediction using topic modeling and LSTM

  • Jin-Hyeon Joo;Geun-Duk Park
    • 한국컴퓨터정보학회논문지
    • /
    • 제29권7호
    • /
    • pp.73-80
    • /
    • 2024
  • 본 연구는 토픽 모델링과 장단기 기억(LSTM) 신경망을 결합하여 한국 종합주가지수(KOSPI) 예측의 정확도를 향상하는 방법을 제안한다. 본 논문에서는 LDA(Latent Dirichlet Allocation) 기법을 이용해 금융 뉴스 데이터에서 금리 인상 및 인하와 관련된 10개의 주요 주제를 추출하고, 추출된 주제를 과거 KOSPI 지수와 함께 LSTM 모델에 입력하여 KOSPI 지수를 예측하는 모델을 제안한다. 제안된 모델은 과거 KOSPI 지수를 LSTM 모델에 입력하여 시계열 예측 방법과 뉴스 데이터를 입력하여 토픽 모델링하는 방법을 결합하여 KOSPI 지수를 예측하는 특성을 가진다. 제안된 모델의 성능을 검증하기 위해, 본 논문에서는 LSTM의 입력 데이터의 종류에 따라 4개의 모델(LSTM_K 모델, LSTM_KNS 모델, LDA_K 모델, LDA_KNS 모델)을 설계하고 각 모델의 예측 성능을 제시하였다. 예측 성능을 비교한 결과, 금융 뉴스 주제 데이터와 과거 KOSPI 지수 데이터를 입력으로 하는 LSTM 모델(LDA_K 모델)이 가장 낮은 RMSE(Root Mean Square Error)를 기록하여 가장 좋은 예측 성능을 보였다.

LDA기반 토픽모델링을 활용한 공공데이터 기반의 교육용 데이터마이닝 연구 (A Study on Educational Data Mining for Public Data Portal through Topic Modeling Method with Latent Dirichlet Allocation)

  • 신승기
    • 정보교육학회논문지
    • /
    • 제26권5호
    • /
    • pp.439-448
    • /
    • 2022
  • 본 연구에서는 공공데이터포털에서 제공하는 교육관련 데이터를 검색하고 토픽모델링 기법을 활용한 분류를 통해 어떠한 데이터의 종류가 구축되어 있으며 활용이 가능한지를 살펴보고자 하였다. 공공데이터포털의 데이터에 대하여 분류체계를 기준으로 교육분야의 파일데이터는 3,072건이 수집되었으며, 검색어를 활용하여 '교육'을 검색하여 나타난 파일데이터 2,361건으로 나타났다. 각각의 데이터셋에 대하여 불용어처리를 실시하고 데이터 전처리를 수행하여 LDA기반 토픽모델링을 활용하여 텍스트마이닝 분석을 실시하였다. 사전에 교육으로 분류된 데이터셋에서는 현재 재학중인 학교급별 학생을 대상으로 지원하는 프로그램과 정보에 대한 내용이 제공되고 있었다. 한편, 교육으로 검색하여 수집된 데이터셋에서는 장애인, 학부모, 노인, 아동 등 평생교육의 관점으로 제공되는 교육 프로그램 및 지원현황이라는 특징이 나타났다. 데이터과학기반의 의사결정 및 문제해결력을 기르기 위해 공공데이터포털이 제공하는 데이터에서 교육과정 및 내용이 충분히 제공되는 것도 좋은 기회가 될 것이다.

Company Name Discrimination in Tweets using Topic Signatures Extracted from News Corpus

  • Hong, Beomseok;Kim, Yanggon;Lee, Sang Ho
    • Journal of Computing Science and Engineering
    • /
    • 제10권4호
    • /
    • pp.128-136
    • /
    • 2016
  • It is impossible for any human being to analyze the more than 500 million tweets that are generated per day. Lexical ambiguities on Twitter make it difficult to retrieve the desired data and relevant topics. Most of the solutions for the word sense disambiguation problem rely on knowledge base systems. Unfortunately, it is expensive and time-consuming to manually create a knowledge base system, resulting in a knowledge acquisition bottleneck. To solve the knowledge-acquisition bottleneck, a topic signature is used to disambiguate words. In this paper, we evaluate the effectiveness of various features of newspapers on the topic signature extraction for word sense discrimination in tweets. Based on our results, topic signatures obtained from a snippet feature exhibit higher accuracy in discriminating company names than those from the article body. We conclude that topic signatures extracted from news articles improve the accuracy of word sense discrimination in the automated analysis of tweets.

감정 딥러닝 필터를 활용한 토픽 모델링 방법론 (Topic Modeling with Deep Learning-based Sentiment Filters)

  • 최병설;김남규
    • 한국정보시스템학회지:정보시스템연구
    • /
    • 제28권4호
    • /
    • pp.271-291
    • /
    • 2019
  • Purpose The purpose of this study is to propose a methodology to derive positive keywords and negative keywords through deep learning to classify reviews into positive reviews and negative ones, and then refine the results of topic modeling using these keywords. Design/methodology/approach In this study, we extracted topic keywords by performing LDA-based topic modeling. At the same time, we performed attention-based deep learning to identify positive and negative keywords. Finally, we refined the topic keywords using these keywords as filters. Findings We collected and analyzed about 6,000 English reviews of Gyeongbokgung, a representative tourist attraction in Korea, from Tripadvisor, a representative travel site. Experimental results show that the proposed methodology properly identifies positive and negative keywords describing major topics.