• 제목/요약/키워드: LDA 토픽 모델링

검색결과 231건 처리시간 0.027초

텍스트 마이닝 기법을 적용한 뉴스 데이터에서의 사건 네트워크 구축 (Construction of Event Networks from Large News Data Using Text Mining Techniques)

  • 이민철;김혜진
    • 지능정보연구
    • /
    • 제24권1호
    • /
    • pp.183-203
    • /
    • 2018
  • 전통적으로 신문 매체는 국내외에서 발생하는 사건들을 살피는 데에 가장 적합한 매체이다. 최근에는 정보통신 기술의 발달로 온라인 뉴스 매체가 다양하게 등장하면서 주변에서 일어나는 사건들에 대한 보도가 크게 증가하였고, 이것은 독자들에게 많은 양의 정보를 보다 빠르고 편리하게 접할 기회를 제공함과 동시에 감당할 수 없는 많은 양의 정보소비라는 문제점도 제공하고 있다. 본 연구에서는 방대한 양의 뉴스기사로부터 데이터를 추출하여 주요 사건을 감지하고, 사건들 간의 관련성을 판단하여 사건 네트워크를 구축함으로써 독자들에게 현시적이고 요약적인 사건정보를 제공하는 기법을 제안하는 것을 목적으로 한다. 이를 위해 2016년 3월에서 2017년 3월까지의 한국 정치 및 사회 기사를 수집하였고, 전처리과정에서 NPMI와 Word2Vec 기법을 활용하여 고유명사 및 합성명사와 이형동의어 추출의 정확성을 높였다. 그리고 LDA 토픽 모델링을 실시하여 날짜별로 주제 분포를 계산하고 주제 분포의 최고점을 찾아 사건을 탐지하는 데 사용하였다. 또한 사건 네트워크를 구축하기 위해 탐지된 사건들 간의 관련성을 측정을 위하여 두 사건이 같은 뉴스 기사에 동시에 등장할수록 서로 더 연관이 있을 것이라는 가정을 바탕으로 코사인 유사도를 확장하여 관련성 점수를 계산하는데 사용하였다. 최종적으로 각 사건은 각의 정점으로, 그리고 사건 간의 관련성 점수는 정점들을 잇는 간선으로 설정하여 사건 네트워크를 구축하였다. 본 연구에서 제시한 사건 네트워크는 1년간 한국에서 발생했던 정치 및 사회 분야의 주요 사건들이 시간 순으로 정렬되었고, 이와 동시에 특정 사건이 어떤 사건과 관련이 있는지 파악하는데 도움을 주었다. 또한 일련의 사건들의 시발점이 되는 사건이 무엇이었는가도 확인이 가능하였다. 본 연구는 텍스트 전처리 과정에서 다양한 텍스트 마이닝 기법과 새로이 주목받고 있는 Word2vec 기법을 적용하여 봄으로써 기존의 한글 텍스트 분석에서 어려움을 겪고 있었던 고유명사 및 합성명사 추출과 이형동의어의 정확도를 높였다는 것에서 학문적 의의를 찾을 수 있다. 그리고, LDA 토픽 모델링을 활용하기에 방대한 양의 데이터를 쉽게 분석 가능하다는 것과 기존의 사건 탐지에서는 파악하기 어려웠던 사건 간 관련성을 주제 동시출현을 통해 파악할 수 있다는 점에서 기존의 사건 탐지 방법과 차별화된다.

LDA 기법을 이용한 버스 승객의 잠재적 이동패턴 분석 (Latent mobility pattern analysis of bus passengers with LDA)

  • 조아;이경희;조완섭
    • Journal of the Korean Data and Information Science Society
    • /
    • 제26권5호
    • /
    • pp.1061-1069
    • /
    • 2015
  • 최근 교통 분야에서 발생하는 교통 빅데이터 (교통카드 데이터, ATMS 데이터 등)의 분석결과를 교통 정책에 활용하는 사례가 늘어나고 있는 추세이다. 또한 교통 데이터 분석 기법을 기존의 단순 빈도 분석 기법에서 다양한 데이터 마이닝 기법으로 확장하여 교통 데이터 속에 숨어있는 의미를 파악하려는 연구도 진행되고 있다. 본 연구에서는 교통카드 데이터에 대하여 토픽모델링 기법 중의 하나인 LDA (Latent Dirichlet Allocation) 기법을 적용하여 청주시 버스 승객들의 이동패턴을 분석한다. 이를 위해 교통카드 데이터의 하차 결측치를 추정하고, LDA 기법을 적용하여 이동패턴을 추출하였다. 또한 LDA 분석으로 도출된 값을 측정값으로 하여 다차원적 분석을 함으로써 청주시 버스 승객들의 이동패턴 특징을 파악할 수 있다. 분석 결과, 청주시의 경우 크게 1) 시외지역에서 터미널을 이용해 청주시에서 유입되는 패턴, 2) 주거지역에서 상업지역으로 이동하는 패턴, 3) 청주 인근 학교에서 상업 지역 (청주 중심가)로 이동하는 패턴을 발견할 수 있었다. 이동패턴은 도시 계획, 대중교통서비스 향상, 버스 노선 신설 등 다양한 교통정책의 수립에 활용될 수 있을 것으로 기대된다.

희소 부호화 기법과 토픽 모델링을 통한 이미지 분류 모델

  • 전진;김문철
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2015년도 하계학술대회
    • /
    • pp.49-50
    • /
    • 2015
  • 본 논문에서는 이미지를 시각적 단어로 표현하여 분석하는 기법인 bag-of-visual words (BoW) 모델을 기반으로 latent dirichlet allocation (LDA) 모델을 결합하여 시각적 단어의 구조를 파악하여 이미지를 분류할 수 있는 모델을 제안한다. 우선 이미지를 시각적 단어로 기존의 방법보다 정확하게 표현하기 위해서 희소 부호화(sparse coding) 기법을 적용한다. 기존의 BoW 모델은 하나의 이미지 패치를 하나의 단어로 표현하였지만, 희소 부호화 기법을 통해 하나의 이미지 패치를 여러 개의 단어로 표현할 수 있다. 제안하는 모델을 이용하여 이미지를 분류하기 위해서 분류 성능 측정에 많이 쓰이는 multi-class SVM 기법을 이용한다. UIUC 스포츠 데이터를 이용한 성능 측정을 통해 제안한 기법의 클래스 분류 성능을 검증하였다.

  • PDF

감정 딥러닝 필터를 활용한 토픽 모델링 방법론 (Topic Modeling with Deep Learning-based Sentiment Filters)

  • 최병설;김남규
    • 한국정보시스템학회지:정보시스템연구
    • /
    • 제28권4호
    • /
    • pp.271-291
    • /
    • 2019
  • Purpose The purpose of this study is to propose a methodology to derive positive keywords and negative keywords through deep learning to classify reviews into positive reviews and negative ones, and then refine the results of topic modeling using these keywords. Design/methodology/approach In this study, we extracted topic keywords by performing LDA-based topic modeling. At the same time, we performed attention-based deep learning to identify positive and negative keywords. Finally, we refined the topic keywords using these keywords as filters. Findings We collected and analyzed about 6,000 English reviews of Gyeongbokgung, a representative tourist attraction in Korea, from Tripadvisor, a representative travel site. Experimental results show that the proposed methodology properly identifies positive and negative keywords describing major topics.

AI 챗봇 '이루다' 논란의 이슈 변화와 시사점 (Identifying Issue Changes of AI Chatbot 'Iruda' Case and Its Implications)

  • 최새솔;홍아름
    • 전자통신동향분석
    • /
    • 제36권2호
    • /
    • pp.93-101
    • /
    • 2021
  • The controversy over Artificial Intelligence (AI) chatbot "Iruda," which suspended its service 20 days after its launch, can be seen as the first case to inform the public of AI ethics issues. Based on this context, this study examines the controversy and social semantic formation of "Iruda" service cases using news topic modeling techniques. 963-news articles were used for the analysis, and the event's duration was analyzed based on major events, such as service start, controversy, and suspension, to understand the progress. From the analyses results, we obtain major keywords and a total of 16 topics (5, 4, 7) from the period. Finally, the implications for the development and utilization of AI services obtained through this controversy were discussed based on the analysis results.

한국산업경영시스템학회지 연구 주제의 토픽모델링 분석 비교: 1978년~99년 논문을 중심으로 (Topic Modeling Analysis Comparison for Research Topic in Korean Society of Industrial and Systems Engineering: Concentrated on Research Papers from 1978~1999)

  • 박동준;오형술;김호균;윤민
    • 산업경영시스템학회지
    • /
    • 제44권4호
    • /
    • pp.113-127
    • /
    • 2021
  • Topic modeling has been receiving much attention in academic disciplines in recent years. Topic modeling is one of the applications in machine learning and natural language processing. It is a statistical modeling procedure to discover topics in the collection of documents. Recently, there have been many attempts to find out topics in diverse fields of academic research. Although the first Department of Industrial Engineering (I.E.) was established in Hanyang university in 1958, Korean Institute of Industrial Engineers (KIIE) which is truly the most academic society was first founded to contribute to research for I.E. and promote industrial techniques in 1974. Korean Society of Industrial and Systems Engineering (KSIE) was established four years later. However, the research topics for KSIE journal have not been deeply examined up until now. Using topic modeling algorithms, we cautiously aim to detect the research topics of KSIE journal for the first half of the society history, from 1978 to 1999. We made use of titles and abstracts in research papers to find out topics in KSIE journal by conducting four algorithms, LSA, HDP, LDA, and LDA Mallet. Topic analysis results obtained by the algorithms were compared. We tried to show the whole procedure of topic analysis in detail for further practical use in future. We employed visualization techniques by using analysis result obtained from LDA. As a result of thorough analysis of topic modeling, eight major research topics were discovered including Production/Logistics/Inventory, Reliability, Quality, Probability/Statistics, Management Engineering/Industry, Engineering Economy, Human Factor/Safety/Computer/Information Technology, and Heuristics/Optimization.

토픽 모델링을 활용한 한의원 리뷰 분석과 마케팅 제언 (Reviews Analysis of Korean Clinics Using LDA Topic Modeling)

  • 김초명;조아람;김양균
    • 대한한의학회지
    • /
    • 제43권1호
    • /
    • pp.73-86
    • /
    • 2022
  • Objectives: In the health care industry, the influence of online reviews is growing. As medical services are provided mainly by providers, those services have been managed by hospitals and clinics. However, direct promotions of medical services by providers are legally forbidden. Due to this reason, consumers, like patients and clients, search a lot of reviews on the Internet to get any information about hospitals, treatments, prices, etc. It can be determined that online reviews indicate the quality of hospitals, and that analysis should be done for sustainable hospital marketing. Method: Using a Python-based crawler, we collected reviews, written by real patients, who had experienced Korean medicine, about more than 14,000 reviews. To extract the most representative words, reviews were divided by positive and negative; after that reviews were pre-processed to get only nouns and adjectives to get TF(Term Frequency), DF(Document Frequency), and TF-IDF(Term Frequency - Inverse Document Frequency). Finally, to get some topics about reviews, aggregations of extracted words were analyzed by using LDA(Latent Dirichlet Allocation) methods. To avoid overlap, the number of topics is set by Davis visualization. Results and Conclusions: 6 and 3 topics extracted in each positive/negative review, analyzed by LDA Topic Model. The main factors, consisting of topics were 1) Response to patients and customers. 2) Customized treatment (consultation) and management. 3) Hospital/Clinic's environments.

디스플레이 분야 국가핵심기술인 AMOLED 관련 특허의 판별 기준 연구 (A Study on the Discrimination Criteria of AMOLED-related Patents, a National Core Technology of Display Industry)

  • 박세희;장항배
    • 융합보안논문지
    • /
    • 제24권2호
    • /
    • pp.105-121
    • /
    • 2024
  • 우리나라는 국가 차원으로 중요한 기술을 보호하기 위해 국가핵심기술 제도를 운영하고 있다. 국가핵심기술의 행정 절차에서는 관련 산업 전문가들의 정성적인 평가로 이루어지는 심의 과정이 중요하다. 시의적절한 기술 보호의 필요성이 커지자, 국가핵심기술 지정 및 해제와 관련된 행정 절차에 소요되는 시간을 단축할 필요성이 제기되었다. 이에 본 연구는, 국가핵심기술관련 특허를 판별하는 기준을 연구하였다. 디스플레이 분야 국가핵심기술인 AMOLED를 대상으로, 관련 뉴스와 논문에 LDA 토픽 모델링을 적용하여 핵심 기술과 기술의 개발 방향을 도출한 뒤, 산업발전법 제5조에 따른 AMOLED 첨단기술공정과 매핑하여 판별 기준을 마련하였다. 이후 기존에 알려진 AMOLED 국가핵심기술 특허를 통해 객관적인 검증을 수행하였다. 본 연구를 통해서 AMOLED 국가핵심기술 관련 특허를 판별할 수 있고, 관련 행정 절차의 시간을 단축할 수 있다.

멸종위기 야생생물 민원 텍스트 마이닝 연구 - LDA 토픽 모델링과 네트워크 분석을 통한 주요 이슈 발굴 - (A Text Mining Study on Endangered Wildlife Complaints - Discovery of Key Issues through LDA Topic Modeling and Network Analysis -)

  • 김나영;남희정;박용수
    • 한국환경복원기술학회지
    • /
    • 제26권6호
    • /
    • pp.205-220
    • /
    • 2023
  • This study aimed to analyze the needs and interests of the public on endangered wildlife using complaint big data. We collected 1,203 complaints and their corresponding text data on endangered wildlife, pre-processed them, and constructed a document-term matrix for 1,739 text data. We performed LDA (Latent Dirichlet Allocation) topic modeling and network analysis. The results revealed that the complaints on endangered wildlife peaked in June-August, and the interest shifted from insects to various endangered wildlife in the living area, such as mammals, birds, and amphibians. In addition, the complaints on endangered wildlife could be categorized into 8 topics and 5 clusters, such as discovery report, habitat protection and response request, information inquiry, investigation and action request, and consultation request. The co-occurrence network analysis for each topic showed that the keywords reflecting the call center reporting procedure, such as photo, send, and take, had high centrality in common, and other keywords such as dung beetle, know, absence and think played an important role in the network. Through this analysis, we identified the main keywords and their relationships within each topic and derived the main issues for each topic. This study confirmed the increasing and diversifying public interest and complaints on endangered wildlife and highlighted the need for professional response. We also suggested developing and extending participatory conservation plans that align with the public's preferences and demands. This study demonstrated the feasibility of using complaint big data on endangered wildlife and its implications for policy decision-making and public promotion on endangered wildlife.

AI 스피커!, 감정을 담아 말해봐 - SNS 댓글 분석을 중심으로 (AI speakers!, Speak with feelings - Focusing on Analysis of SNS Comments)

  • 김준환;이남연
    • 디지털융복합연구
    • /
    • 제18권7호
    • /
    • pp.101-110
    • /
    • 2020
  • AI 스피커를 비롯한 관련 디바이스에 감정 맞춤형 서비스나 다양한 기능들이 부가된 기기들이 등장하고 있다. 이에 본 연구는 AI 스피커 사용자들이 작성한 구매 후기 텍스트들의 주제를 확인하고, 실제 설문조사를 통한 실증분석 결과와 비교하기 위해서 LDA(Latent Dirichlet Allocation) 기반의 토픽모델링 분석을 수행하였다. 더 나아가 AI 스피커 사용 경험이 있는 이용자 600명을 대상으로 사용자가 지각한 스피커의 감성지능과 관계품질을 조사하고 서로 유의한 관계가 있는지 구조방정식모형을 통해 검증하였다. 본 연구결과는 첫째, 토픽모델링 분석결과는 대부분의 글에서 주로 AI 스피커의 기능적인 측면에 대해 언급하고 있는 것으로 나타났다. 둘째, 소비자가 인식하는 AI 스피커의 감성지능은 관계품질에 영향을 미치며, 관계품질은 고객만족에 긍정적인 영향을 미쳤다. 따라서 본 연구는 AI 관련 기존 연구를 확장시켜 감성지능 및 관계품질의 개념을 새롭게 접목하여 분석함으로써 이론적 및 실무적으로 시사점을 제공하고 있다.