• 제목/요약/키워드: Latent topic model

검색결과 79건 처리시간 0.026초

Crowd Activity Classification Using Category Constrained Correlated Topic Model

  • Huang, Xianping;Wang, Wanliang;Shen, Guojiang;Feng, Xiaoqing;Kong, Xiangjie
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제10권11호
    • /
    • pp.5530-5546
    • /
    • 2016
  • Automatic analysis and understanding of human activities is a challenging task in computer vision, especially for the surveillance scenarios which typically contains crowds, complex motions and occlusions. To address these issues, a Bag-of-words representation of videos is developed by leveraging information including crowd positions, motion directions and velocities. We infer the crowd activity in a motion field using Category Constrained Correlated Topic Model (CC-CTM) with latent topics. We represent each video by a mixture of learned motion patterns, and predict the associated activity by training a SVM classifier. The experiment dataset we constructed are from Crowd_PETS09 bench dataset and UCF_Crowds dataset, including 2000 documents. Experimental results demonstrate that accuracy reaches 90%, and the proposed approach outperforms the state-of-the-arts by a large margin.

관리도를 활용한 국민청원 토픽 모니터링 연구 (Topic change monitoring study based on Blue House national petition using a control chart)

  • 이희연;최지은;이성임;손원
    • 응용통계연구
    • /
    • 제34권5호
    • /
    • pp.795-806
    • /
    • 2021
  • 최근 온라인 채널을 통한 텍스트 자료가 방대해 지면서 이를 요약하고 분석하는 연구에 관한 관심이 커지고 있는 추세이다. 먼저 텍스트 자료에 대한 기본적인 분석 중 하나는 어떤 주제나 내용을 포함하고 있는지 잠재된 토픽을 추출하는 것이다. 연구자가 일일이 모든 자료를 읽고 내용을 요약할 수도 있겠지만, 대용량 데이터를 다루는 경우에는 결코 쉽지 않기 때문에, 통계적 모형을 사용하여 토픽을 추출하는 토픽모형 방법들이 제안되어 왔다 (Blei와 Lafferty, 2007; Blei 등, 2003). 시간에 따라 수집된 텍스트 데이터로부터 토픽의 변화를 모니터링하기 위하여, 본 연구에서는 잠재적 디리슈레 할당(latent Dirichlet allocation) 모형을 통해 토픽을 분류하고 그 결과를 바탕으로 한 토픽 지수를 제안하였다. 또한, 이를 통계적 공정관리의 대표적 도구인 관리도에 적용하여 시간 경과에 따른 토픽의 변화를 모니터링하는 데 적용해 보았다. 실제 데이터로 2018년 3월 5일부터 2020년 3월 5일 사이에 청와대 국민청원 온라인 게시판에 접수된 텍스트 데이터를 사용하였으며, 토픽 지수를 모니터링함으로써 토픽에 대한 이상변화를 탐지할 수 있음을 살펴 보았다.

신문기사 빅데이터를 활용한 친환경 섬유의 추이에 관한 연구 (The Trends of Eco-Friendly Textiles Using Big Data from Newspaper Articles)

  • 조남범;이충권
    • 스마트미디어저널
    • /
    • 제13권2호
    • /
    • pp.95-107
    • /
    • 2024
  • 환경에 친화적인 제품과 서비스의 개발은 시대적인 트렌드가 되었고, 경제적 가치를 가진 친환경 섬유의 개발과 활용은 새로운 비즈니스 모델로서 주목받고 있다. 친환경 섬유에 대한 동향을 분석하고 추이를 파악하는 것은 기업, 정부, 소비자 등 다양한 이해관계자들에게 중요한 정보와 인사이트를 제공하여 지속가능한 성장에 도움을 줄 수 있다. 이에 본 연구는 2000년부터 2023년 6월까지 섬유패션 분야를 주로 다루는 신문의 기사데이터를 수집하여 분석을 진행하였다. '친환경 섬유'라는 키워드가 포함된 기사 총 12,331건을 수집하였고, 추출된 데이터에서 형태소 분석을 진행 후 연도별 토픽을 알아보기 위해 잠재 디리클레 할당과 동적 토픽 모델링 분석을 수행하였다. 연구 결과는 섬유산업의 지속 가능한 발전을 위한 전략적 지침과 인사이트를 제공함으로써, 친환경 섬유의 연구와 개발, 그리고 상용화를 촉진함에 있어서 도움이 될 것으로 기대된다.

동적 토픽 모델링과 감성 분석을 이용한 COVID-19 구간별 비대면 근무 부정요인 검출에 관한 연구 (Detection of Complaints of Non-Face-to-Face Work before and during COVID-19 by Using Topic Modeling and Sentiment Analysis)

  • 이선민;천세진;박상언;이태욱;김우주
    • 한국정보시스템학회지:정보시스템연구
    • /
    • 제30권4호
    • /
    • pp.277-301
    • /
    • 2021
  • Purpose The purpose of this study is to analyze the sentiment responses of the general public to non-face-to-face work using text mining methodology. As the number of non-face-to-face complaints is increasing over time, it is difficult to review and analyze in traditional methods such as surveys, and there is a limit to reflect real-time issues. Approach This study has proposed a method of the research model, first by collecting and cleansing the data related to non-face-to-face work among tweets posted on Twitter. Second, topics and keywords are extracted from tweets using LDA(Latent Dirichlet Allocation), a topic modeling technique, and changes for each section are analyzed through DTM(Dynamic Topic Modeling). Third, the complaints of non-face-to-face work are analyzed through the classification of positive and negative polarity in the COVID-19 section. Findings As a result of analyzing 1.54 million tweets related to non-face-to-face work, the number of IDs using non-face-to-face work-related words increased 7.2 times and the number of tweets increased 4.8 times after COVID-19. The top frequently used words related to non-face-to-face work appeared in the order of remote jobs, cybersecurity, technical jobs, productivity, and software. The words that have increased after the COVID-19 were concerned about lockdown and dismissal, and business transformation and also mentioned as to secure business continuity and virtual workplace. New Normal was newly mentioned as a new standard. Negative opinions found to be increased in the early stages of COVID-19 from 34% to 43%, and then stabilized again to 36% through non-face-to-face work sentiment analysis. The complaints were, policies such as strengthening cybersecurity, activating communication to improve work productivity, and diversifying work spaces.

텍스트마이닝을 활용한 도로분야 ITS 정책이슈 탐색기법 정립 (Establishment of ITS Policy Issues Investigation Method in the Road Section applied Textmining)

  • 오창석;이용택;고민수
    • 한국ITS학회 논문지
    • /
    • 제15권6호
    • /
    • pp.10-23
    • /
    • 2016
  • 본 연구는 빅데이터를 활용하여 감사 시 유의해서 살펴보아야 할 ITS 관련 정책이슈 탐색방법 개발 및 적용을 목적으로 한다. 이를 위해 본 연구에서는 William Dunn이 제안한 경계분석을 이론적 토대로 하여, 여기에 감사원 감사실무 프로세스를 접목한 감사이슈 분석 틀을 제안했다. 그리고 이 분석 틀을 전산으로 구현하기 위해 메타문제를 추정하는 개념이 경계분석과 유사한 텍스트마이닝 기법을 응용했다. 텍스트마이닝의 구체적 모형은 David Blei가 제안한 Latent Dirichlet Allocation(LDA) 모형을 기반으로 하는 비대칭-대칭 혼합 어휘소 기반 LDA를 응용했다. 사례분석 결과, 경찰청에서 운영하는 도시교통정보시스템의 교통정보 수집률 저조와 국토교통부의 첨단교통관리시스템과의 중복 문제, 디지털 운행기록계의 주행거리 조작 등이 주요 이슈로 도출됐다.

토픽모델링을 활용한 교통경찰 민원 분석 (An Analysis of Civil Complaints about Traffic Policing Using the LDA Model)

  • 이상엽
    • 한국ITS학회 논문지
    • /
    • 제20권4호
    • /
    • pp.57-70
    • /
    • 2021
  • 본 연구는 민원데이터를 분석함으로써 교통경찰에 대한 국민의 치안 수요를 탐색하고자 하였다. 이를 위해 교통경찰 관련 국민신문고 민원데이터 2,062건을 대상으로, 토픽모델링 방법 중 하나인 잠재 디리클레 할당(Latent Dirichlet Allocation)을 통해 주요 토픽을 추출하고 높은 비중을 차지한 위반신고에 대해 추가분석을 시도하였다. 이 과정에서 키워드와 대표문서의 일관성과 합치성을 함께 고려하였다. 분석 결과 교통경찰 관련 민원은 시설개선, 신호에 따른 교차로통행방법, 번호판 영치, 개인형 이동장치 등 41개의 토픽으로 분류할 수 있었다. 교차로내 위반과 이륜자동차의 위반에 대한 단속을 강화하고 무인교통단속장비, 횡단보도, 신호등의 설치 및 운영에 대한 선제적인 조치, 최근 개정된 법령과 시행된 정책, 경찰교통민원 사이트, 단속 사후 절차에 대한 더욱 활발한 홍보가 필요한 것으로 판단된다.

웹 애플리케이션 기반의 텍스트 데이터 분석 모델 (Text Data Analysis Model Based on Web Application)

  • 진고환
    • 한국콘텐츠학회논문지
    • /
    • 제21권11호
    • /
    • pp.785-792
    • /
    • 2021
  • 4차 산업혁명 이후 인공지능, 빅 데이터와 같은 기술들의 발전으로 사회 전반에 다양한 변화가 일어나고 있으며, 핵심적인 기술 적용 과정에서 수집할 수 있는 데이터의 양도 급속하게 증가하고 있는 추세이다. 특히 학계에서는 연구 동향을 파악하기 위하여 기존에 생성된 문헌 데이터에 대한 분석이 이루어지고 있으며, 이러한 문헌 분석은 연구의 흐름을 정리하고, 어떤 연구 방법론이나 주제, 또는 현재 학계에서 화두가 되고 있는 대상에 대한 파악을 통하여 향후 연구 방향 설정에 많은 기여를 하고 있는 상황이다. 그러나 문서 데이터의 분석을 위하여 데이터 수집이 필요하나, 일반적으로 프로그램에 대한 전문 지식이 없는 경우 접근하기 어렵다. 본 논문에서는 텍스트 마이닝 기반의 토픽 모델링 웹 애플리케이션 모델을 제안한다. 제안 모델을 통하여 데이터 분석 기법에 대한 전문적인 지식이 부족하더라도, 연구 논문의 수집, 저장, 텍스트 분석과 같은 다양한 작업을 진행할 수 있으며, 연구자들이 선행 연구 분석과 연구 동향을 파악하기 위하여 데이터 분석에 투입되는 시간 및 노력을 단축시킬 수 있을 것으로 기대된다.

Classifying Temporal Topics with Similar Patterns on Twitter

  • Yun, Hong-Won
    • Journal of information and communication convergence engineering
    • /
    • 제9권3호
    • /
    • pp.295-300
    • /
    • 2011
  • Twitter is a popular microblogging service that enables the users to send and read short text messages. These messages are becoming source to analyze topic trends and identify relations among temporal topics. In this paper, we propose a method to classify the temporal topics on Twitter as a problem of grouping the similar patterns. To provide a starting point for a classification under the same topics, we identify the content word weighting scheme based on Latent Dirichlet Allocation (LDA). And we formulate how the temporal topics in the time window can be classified like peaky topics, constant topics, and periodic topics. We provide different real case studies which show the validity of the proposed method. Evaluations show that the proposed method is useful as a classifying model in the analysis of the temporal topics.

Critical Factors Affecting Consumer Acceptance of Online Health Communication: An Application of Service Quality Models

  • Lee, Jung Wan
    • The Journal of Asian Finance, Economics and Business
    • /
    • 제4권3호
    • /
    • pp.85-94
    • /
    • 2017
  • The paper examines critical factors affecting consumer behavioral intentions in accepting online health communication through social networking sites. Unlike recent research under this topic, the paper assimilates some components of service quality dimensions and consumer behavior theories. The paper employs factor analysis and structural equation modelling analysis with latent variables to identify critical factors from the survey data collected from Korean consumers. The results of the study identifies three major constructs: consumer needs for health information, the perceived value of tangible attributes of health information providers, and the perceived value of intangible attributes of health information providers. The results show that consumer needs for health information and the tangible and intangible attributes of health information providers should be considered as important antecedents of accepting online health communication through social networking sites. The findings suggest that the success of online health communication via social networking sites largely depends on the tangible and intangible attributes of health information providers.

소셜 빅데이터로 알아본 코로나19와 가족생활: 토픽모델 접근 (COVID-19 and Korean Family Life on Social Media: A Topic Model Approach)

  • 박선영;이재림
    • 한국콘텐츠학회논문지
    • /
    • 제21권3호
    • /
    • pp.282-300
    • /
    • 2021
  • 본 연구의 목적은 코로나19 확산으로 가족생활에서 급격한 변화가 일어난 1차 확산기에 블로그와 온라인 카페에 게시된 소셜 빅데이터를 분석하여 키워드를 파악하고, 게시글에 잠재된 주요 토픽을 발견하는 것이다. 강화된 사회적 거리두기가 처음 시행되었던 2020년 2월 23일부터 4월 19일까지 네이버와 다음의 블로그 및 카페에 게시된 글 중 '코로나'와 '가족' 또는 '코로나'와 '가정'이 함께 언급된 문서 총 351,734건을 분석하였다. 수집된 데이터는 전처리를 거쳐 텍스트 마이닝 기법으로 분석하였다. TF-IDF 가중치 값을 바탕으로 상위 100개 단어를 살펴보았으며, 잠재디리클레할당 방식의 토픽모델 분석을 통해 총 22개 토픽을 도출하고 토픽명을 부여하였다. 연구결과, 코로나19가 가족의 일상생활에 미친 전방위적 영향이 나타났으며, 특히 식생활, 주거생활, 여가생활, 종교생활, 자녀돌봄, 자녀교육, 가족관계, 가족의례 등에서 변화가 두드러졌다. 더불어, 가족 관련 국내 문헌에서는 잘 논의되지 않던 건강공동체로서의 가족을 시사하는 토픽도 등장하였다.