• 제목/요약/키워드: structured topic Modeling

검색결과 16건 처리시간 0.027초

비정형 텍스트 기반의 토픽 모델링을 이용한 건설 안전사고 동향 분석 (A Study on the Trends of Construction Safety Accident in Unstructured Text Using Topic Modeling)

  • 이상규
    • 한국산학기술학회논문지
    • /
    • 제19권10호
    • /
    • pp.176-182
    • /
    • 2018
  • 본 연구는 건설 안전사고에 대한 트랜드 분석을 위해 LDA(Latent Dirichlet Allocation) 기반의 토픽모델링(Topic Modeling)을 제시하여 분석하고자 한다. 특히, 건설산업의 안전사고를 예방하기 위해 제시되고 있는 기존의 다양한 정형데이터 분석에서 벗어난 비정형 데이터 분석 기반의 토픽 모델링을 통해 건설 안전사고 주요 핵심 키워드의 흐름에 대해 파악이 가능하다. 본 방법론을 적용하기 위해 540개의 건설 안전사고 관련 뉴스데이터를 수집하였다. 이를 기반으로, 10가지 토픽과 각 토픽 내의 10가지 키워드를 통해 주요 이슈를 도출하였고 각 토픽에 대한 2017년 1월부터 2018년 2월까지의 뉴스 데이터를 월별 시계열 분석을 통해 향후 토픽에 관한 이슈를 예측한다. 본 연구를 바탕으로 향후 건설 안전사고의 다양한 이슈를 선제적으로 예측하고 이를 기반으로 건설 안전사고 정책과 연구에 좋은 방향을 제시할 것으로 판단한다.

A Study on the News Frame of COVID-19 Vaccine through Structural Topic Modeling and Semantic Network Analysis

  • Eun-Ji Yun;Bo-Young Kang
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권5호
    • /
    • pp.129-153
    • /
    • 2023
  • 본 연구는 코로나19 팬데믹 상황이 심각하였을 때, 대중들의 관심도가 높은 코로나19 백신과 관련한 대량의 언론 보도 프레임을 분석하여, 위기커뮤니케이션의 핵심 요소로서 바람직한 언론의 역할과 방향성을 모색하기 위해 수행되었다. 본 연구의 기간은 코로나19 백신 개발이 가시화되기 시작한 2020년 11월부터 2021년 6월까지 8개월이며, 연구 대상은 대중 신뢰도 및 이용도 순위에 따라 조선일보, 중앙일보, 동아일보, 한겨레로 설정하였다. 결과의 정확성 및 효율성을 제고하기 위해 최신 빅데이터 연구 기법인 구조적 토픽 모델링(STM) 및 의미연결망 분석 기법을 활용하였다. 연구결과, 구성 단어들의 명확한 군집도 및 중심성 분석값을 기반으로 각 언론사 당 16개 프레임, 총 64개의 유의미한 프레임이 도출되었다. 또한 프레임의 구성 정도 및 내용에 대한 차이를 확인하기 위해 4개 언론사를 비교 분석하였으며, 모든 언론사마다 유의미한 차이가 없음을 확인하였다.

텍스트 분석 기술 및 활용 동향 (Investigations on Techniques and Applications of Text Analytics)

  • 김남규;이동훈;최호창
    • 한국통신학회논문지
    • /
    • 제42권2호
    • /
    • pp.471-492
    • /
    • 2017
  • 최근 데이터의 양 자체가 해결해야 할 문제의 일부분이 되는 빅데이터(Big Data) 분석에 대한 수요와 관심이 급증하고 있다. 빅데이터는 기존의 정형 데이터 뿐 아니라 이미지, 동영상, 로그 등 다양한 형태의 비정형 데이터 또한 포함하는 개념으로 사용되고 있으며, 다양한 유형의 데이터 중 특히 정보의 표현 및 전달을 위한 대표적 수단인 텍스트(Text) 분석에 대한 연구가 활발하게 이루어지고 있다. 텍스트 분석은 일반적으로 문서 수집, 파싱(Parsing) 및 필터링(Filtering), 구조화, 빈도 분석 및 유사도 분석의 순서로 수행되며, 분석의 결과는 워드 클라우드(Word Cloud), 워드 네트워크(Word Network), 토픽 모델링(Topic Modeling), 문서 분류, 감성 분석 등의 형태로 나타나게 된다. 특히 최근 다양한 소셜미디어(Social Media)를 통해 급증하고 있는 텍스트 데이터로부터 주요 토픽을 파악하기 위한 수요가 증가함에 따라, 방대한 양의 비정형 텍스트 문서로부터 주요 토픽을 추출하고 각 토픽별 해당 문서를 묶어서 제공하는 토픽 모델링에 대한 연구 및 적용 사례가 다양한 분야에서 생성되고 있다. 이에 본 논문에서는 텍스트 분석 관련 주요 기술 및 연구 동향을 살펴보고, 토픽 모델링을 활용하여 다양한 분야의 문제를 해결한 연구 사례를 소개한다.

의학교육에서 기계학습방법 교육: 석면 언론 프레임 연구사례를 중심으로 (Machine Learning Method in Medical Education: Focusing on Research Case of Press Frame on Asbestos)

  • 김준혁;허소윤;강신익;김건일;강동묵
    • 의학교육논단
    • /
    • 제19권3호
    • /
    • pp.158-168
    • /
    • 2017
  • There is a more urgent call for educational methods of machine learning in medical education, and therefore, new approaches of teaching and researching machine learning in medicine are needed. This paper presents a case using machine learning through text analysis. Topic modeling of news articles with the keyword 'asbestos' were examined. Two hypotheses were tested using this method, and the process of machine learning of texts is illustrated through this example. Using an automated text analysis method, all the news articles published from January 1, 1990 to November 15, 2016 in South Korea which included 'asbestos' in the title and the body were collected by web scraping. Differences in topics were analyzed by structured topic modelling (STM) and compared by press companies and periods. More articles were found in liberal media outlets. Differences were found in the number and types of topics in the articles according to the partisanship and period. STM showed that the conservative press views asbestos as a personal problem, while the progressive press views asbestos as a social problem. A divergence in the perspective for emphasizing the issues of asbestos between the conservative press and progressive press was also found. Social perspective influences the main topics of news stories. Thus, the patients' uneasiness and pain are not presented by both sources of media. In addition, topics differ between news media sources based on partisanship, and therefore cause divergence in readers' framing. The method of text analysis and its strengths and weaknesses are explained, and an application for the teaching and researching of machine learning in medical education using the methodology of text analysis is considered. An educational method of machine learning in medical education is urgent for future generations.

비정형 보안 인텔리전스 보고서 기반 토픽 자동 추출 모델 (Topic Automatic Extraction Model based on Unstructured Security Intelligence Report)

  • 허윤아;이찬희;김경민;임희석
    • 한국융합학회논문지
    • /
    • 제10권6호
    • /
    • pp.33-39
    • /
    • 2019
  • 지능형 사이버 공격 기법이 다양화됨에 따라 보안 침해 사건, 글로벌 범죄 등의 사건 발생이 증가하고 있다. 지능형 공격을 예측하고 대응하기 위해서는 공격 기법의 특성, 수법, 유형을 파악해야 한다. 이를 위해 수많은 보안 기업 회사에서는 다양한 공격 기법을 빠르게 파악하고 더 큰 피해를 막기 위해 보안 인텔리전스 보고서를 배포한다. 하지만 각 기업에서 배포하는 보고서에 대한 형식이 맞춰져 있지 않으며, 대량의 비정형 보안 인텔리전스 보고서가 배포되고 있다. 본 논문은 비정형한 보안 인텔리전스 보고서에 대한 문제점을 고려하여 정형화된 데이터로 추출하는 방안을 제안한다. 또한, 대량의 보안 인텔리전스 보고서를 파악하기 위해 소요되는 시간을 줄이고자 대량의 보고서를 주제별로 분류할 수 있는 보안 인텔리전스 보고서 토픽 자동 추출 모델을 제안한다.

홍보동영상 제작 서비스를 위한 전략메타정보 기반 장면템플릿 분류 및 추천 (Classification and Recommendation of Scene Templates for PR Video Making Service based on Strategic Meta Information)

  • 박종빈;이한덕;김경원;정종진;임태범
    • 방송공학회논문지
    • /
    • 제20권6호
    • /
    • pp.848-861
    • /
    • 2015
  • 본 논문에서는 메타정보로 표현된 마케팅 및 홍보전략·의도 등을 이용하여 홍보동영상을 쉽게 제작하는 웹기반 서비스 시스템을 소개한다. 홍보영상제작 시스템은 홍보물을 제작하려는 사용자가 사진이나 동영상을 제공하면 업종정보와 잠재고객정보 등을 이용해서 관련된 홍보동영상을 자동으로 생성하는 시스템이며 IT기술에 어려움을 느끼는 사용자들을 배려한다. 이와 관련된 기존 서비스들은 사전 정의되거나 새로 추가한 테마나 범주에 맞춰 템플릿들을 제작하고, 이를 갤러리 형식의 인터페이스로 제시하면 사용자가 원하는 템플릿을 직접 선택하여 홍보영상을 완성하는 방식이었다. 통상적으로 이를 실현하기 위해서는 템플릿 등에 해당 파일을 설명할 수 있는 태그를 붙여서 분류하고 검색하는 방식을 사용하는데 정형화되지 않은 메타정보들을 포함하는 템플릿 등이 새롭게 추가될 경우 관리 및 분석을 위해 별도의 정형화 과정이 필요하다. 이 작업은 서비스 규모가 커지고 시간당 처리수가 증가할수록 부담이 된다. 이를 해결하고자 본 논문에서는 장면템플릿 관련 비정형 메타정보를 주제모델링 방법을 사용해서 자동 분류한다. 또한 홍보전략 및 홍보의도를 표현하는 정형화 되지 않은 전략메타정보를 이용해서 적절한 장면템플릿을 추천하는 방법을 제안한다.

선박가치 변화요인에 관한 중요도 평가 연구 (A Study on the Evaluation of Importance of Factors Affecting the Vessel Value)

  • 최정석;남궁호
    • 해양환경안전학회지
    • /
    • 제28권1호
    • /
    • pp.91-99
    • /
    • 2022
  • 해운산업은 선박이라는 재화를 이용하여 화물을 운송하고 운임을 수취하여 사업을 영위하는 서비스산업이다. 따라서 선박운영을 위해 대규모 자본투자가 필요한 환경 속에서 선박의 가치가 불확실하다면 해운경영상의 리스크는 클 수 밖에 없다. 본 연구는 선박가치 변화에 영향을 미치는 변화요인을 파악하고 각 변화요인에 대한 중요도를 분석하고자 하였다. 이를 위해 텍스트마이닝과 토픽모델링 기법을 활용하여 선박가치 변화요인을 추출하고 구조화하여 3개의 주요인과 12개의 보조요인으로 계층적 구조를 설정하였다. 이를 대상으로 AHP분석을 통해 연구를 진행하여 각 요인별 상대적 중요도를 분석하였다. 분석 결과 선박가치 변화에 가장 큰 영향을 미치는 주요요인은 Shipping Factor였으며, 그 뒤를 Investment Factor와 Environment Factor가 차지하였다. 보조요인 가운데는 Volatility of Shipping Market와 Volatility of Shipping Freight 등 해운시장의 변동성과 관련된 요인들이 가장 큰 영향을 미치는 것으로 분석되었다.

공식안전평가시스템에 의한 선박 충돌사고 위험성 평가에 관한 연구( I ) (Risk Assessment of the Ship′s Collision using Formal Safety Assessment Methodology)

  • 양원재;전승환;금종수
    • 해양환경안전학회지
    • /
    • 제7권3호
    • /
    • pp.61-74
    • /
    • 2001
  • The prevention of marine accidents has been a major topic in marine society and various policies and countermeasures has been developed, applied to the industries. Formal Safety Assessment is a structured and systematic methodology, aimed at enhancing maritime safety, including protection of life, health, the marine environment and property, by using risk and cost-benefit assessments. In addition, it provides a means of being proactive, enabling potential hazards to be considered before a serious accident occurs. In this paper, we has been screening and ranking of hazards using fuzzy structural modeling method and quantitative risk assessment for the ship's collision in the last 10 years marine accidents.

  • PDF

토픽모델링을 활용한 COVID-19 학술 연구 기반 연구 주제 분류에 관한 연구 (A study on the classification of research topics based on COVID-19 academic research using Topic modeling)

  • 유소연;임규건
    • 지능정보연구
    • /
    • 제28권1호
    • /
    • pp.155-174
    • /
    • 2022
  • 2020년 1월부터 2021년 10월 현재까지 COVID-19(치명적인 호흡기 증후군인 코로나바이러스-2)와 관련된 학술 연구가 500,000편 이상 발표되었다. COVID-19와 관련된 논문의 수가 급격하게 증가함에 따라 의료 전문가와 정책 담당자들이 중요한 연구를 신속하게 찾는 것에 시간적·기술적 제약이 따르고 있다. 따라서 본 연구에서는 LDA와 Word2vec 알고리즘을 사용하여 방대한 문헌의 텍스트 자료로부터 유용한 정보를 추출하는 방안을 제시한다. COVID-19와 관련된 논문에서 검색하고자 하는 키워드와 관련된 논문을 추출하고, 이를 대상으로 세부 주제를 파악하였다. 자료는 Kaggle에 있는 CORD-19 데이터 세트를 활용하였는데, COVID-19 전염병에 대응하기 위해 주요 연구 그룹과 백악관이 준비한 무료 학술 자료로서 매주 자료가 업데이트되고 있다. 연구 방법은 크게 두 가지로 나뉜다. 먼저, 47,110편의 학술 논문의 초록을 대상으로 LDA 토픽 모델링과 Word2vec 연관어 분석을 수행한 후, 도출된 토픽 중 'vaccine'과 관련된 논문 4,555편, 'treatment'와 관련된 논문 5,791편을 추출한다. 두 번째로 추출된 논문을 대상으로 LDA, PCA 차원 축소 후 t-SNE 기법을 사용하여 비슷한 주제를 가진 논문을 군집화하고 산점도로 시각화하였다. 전체 논문을 대상으로 찾을 수 없었던 숨겨진 주제를 키워드에 따라 문헌을 분류하여 토픽 모델링을 수행한 결과 세부 주제를 찾을 수 있었다. 본 연구의 목표는 대량의 문헌에서 키워드를 입력하여 특정 정보에 대한 문헌을 분류할 수 있는 방안을 제시하는 것이다. 본 연구의 목표는 의료 전문가와 정책 담당자들의 소중한 시간과 노력을 줄이고, 신속하게 정보를 얻을 수 있는 방법을 제안하는 것이다. 학술 논문의 초록에서 COVID-19와 관련된 토픽을 발견하고, COVID-19에 대한 새로운 연구 방향을 탐구하도록 도움을 주는 기초자료로 활용될 것으로 기대한다.

사용자 관심 이슈 분석을 통한 추천시스템 성능 향상 방안 (Improving Performance of Recommendation Systems Using Topic Modeling)

  • 최성이;현윤진;김남규
    • 지능정보연구
    • /
    • 제21권3호
    • /
    • pp.101-116
    • /
    • 2015
  • 많은 기관들이 데이터에 기반을 둔 의사결정을 수행해 왔으며, 특히 수치자료를 비롯한 정형 데이터가 이러한 목적으로 널리 활용되어 왔다. 하지만 최근에는 스마트기기와 소셜미디어의 발달로 인해 다양한 형태를 가진 방대한 양의 정보가 생성, 공유, 저장되면서, 전통적인 정형 데이터 기반 의사결정으로부터 비정형 빅데이터 기반 의사결정으로 관심의 전환이 이루어지고 있다. 데이터 기반 의사결정의 대표적 분야인 추천시스템 분야에서도 성능 향상을 위해 비정형 데이터를 활용해야 한다는 필요성이 최근 꾸준히 제기되고 있다. 특히 사용자의 성향이나 선호도는 고객의 니즈와 직결되기 때문에, 비정형 데이터 분석을 통해 사용자의 성향을 파악하고 이를 통해 상품 추천 및 구매 예측의 정확도를 향상시키기 위한 노력이 매우 시급하게 이루어질 필요가 있다. 따라서 본 연구에서는 사용자의 성향을 측정하여 재구매 예측 정확도, 특히 카테고리별 재구매 예측 정확도를 높임으로써, 궁극적으로 추천시스템의 성능을 향상시킬 수 있는 방안을 제시한다. 구체적으로는 사용자의 일상적인 인터넷 사용 기록을 분석하여 고객이 조회하는 뉴스 기사의 이슈를 식별하고 다양한 이슈에 대한 고객의 관심을 계량화한 후, 이를 활용하여 고객의 카테고리별 재구매 여부를 예측하는 모델을 제안하고자 한다. 실제 웹 트랜잭션으로부터 도출된 인터넷 뉴스 조회 기록 및 쇼핑몰 구매 기록을 대상으로 실험을 수행한 결과, 고객의 과거 구매이력만을 활용한 카테고리 재구매 예측 모형에 비해 본 연구에서 제안한 모형, 즉 고객의 과거 구매이력과 관심 이슈를 모두 활용한 예측 모형의 정확도가 다소 우수한 것으로 나타났다.