• 제목/요약/키워드: 구조적 토픽모델링

검색결과 48건 처리시간 0.028초

Spark 프레임워크 기반 비정형 빅데이터 토픽 추출 시스템 설계 (A Design on Informal Big Data Topic Extraction System Based on Spark Framework)

  • 박기진
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제5권11호
    • /
    • pp.521-526
    • /
    • 2016
  • 온라인상에서 다루어지는 비정형 텍스트 데이터는 대용량이면서 비구조적 형태의 특성을 가지고 있기 때문에, 기존 관계형 데이터 모델의 저장 방식과 분석 방법만으로는 한계가 있다. 더군다나, 동적으로 발생하는 대량의 소셜 데이터를 활용하여 이용자의 반응을 실시간으로 분석하기란 어려운 상황이다. 이에 본 논문에서는 대용량 비정형 데이터(문서)의 의미를 빠르고, 용이하게 파악하기 위하여 데이터 셋에 대한 사전학습 없이, 문서 내 단어 비중에 따라 자동으로 토픽(주제)이 추출되는 시스템을 설계 및 구현하였다. 제안된 시스템의 토픽 모델링에 사용될 입력 단어는 N-gram 알고리즘에 의하여 도출되어 복수 개의 단어도 묶음 처리할 수 있게 했으며, 또한, 대용량 비정형 데이터 저장 및 연산을 위하여 Hadoop과 분산 인메모리 처리 프레임워크인 Spark 기반 클러스터를 구성하여, 토픽 모델 연산을 수행하였다. 성능 실험에서는 TB급의 소셜 댓글 데이터를 읽어 들여, 전체 데이터에 대한 전처리 과정과 특정 항목의 토픽 추출 작업을 수행하였으며, 대용량 데이터를 클러스터의 디스크가 아닌 메모리에 바로 적재 후, 처리함으로써 토픽 추출 성능의 우수성을 확인할 수 있었다.

텍스트 분석 기술 및 활용 동향 (Investigations on Techniques and Applications of Text Analytics)

  • 김남규;이동훈;최호창
    • 한국통신학회논문지
    • /
    • 제42권2호
    • /
    • pp.471-492
    • /
    • 2017
  • 최근 데이터의 양 자체가 해결해야 할 문제의 일부분이 되는 빅데이터(Big Data) 분석에 대한 수요와 관심이 급증하고 있다. 빅데이터는 기존의 정형 데이터 뿐 아니라 이미지, 동영상, 로그 등 다양한 형태의 비정형 데이터 또한 포함하는 개념으로 사용되고 있으며, 다양한 유형의 데이터 중 특히 정보의 표현 및 전달을 위한 대표적 수단인 텍스트(Text) 분석에 대한 연구가 활발하게 이루어지고 있다. 텍스트 분석은 일반적으로 문서 수집, 파싱(Parsing) 및 필터링(Filtering), 구조화, 빈도 분석 및 유사도 분석의 순서로 수행되며, 분석의 결과는 워드 클라우드(Word Cloud), 워드 네트워크(Word Network), 토픽 모델링(Topic Modeling), 문서 분류, 감성 분석 등의 형태로 나타나게 된다. 특히 최근 다양한 소셜미디어(Social Media)를 통해 급증하고 있는 텍스트 데이터로부터 주요 토픽을 파악하기 위한 수요가 증가함에 따라, 방대한 양의 비정형 텍스트 문서로부터 주요 토픽을 추출하고 각 토픽별 해당 문서를 묶어서 제공하는 토픽 모델링에 대한 연구 및 적용 사례가 다양한 분야에서 생성되고 있다. 이에 본 논문에서는 텍스트 분석 관련 주요 기술 및 연구 동향을 살펴보고, 토픽 모델링을 활용하여 다양한 분야의 문제를 해결한 연구 사례를 소개한다.

토픽 모델링을 활용한 상담 성과 연구동향 분석 - 「상담학연구」 학술지를 중심으로 (Counseling Outcomes Research Trend Analysis Using Topic Modeling - Focus on 「Korean Journal of Counseling」)

  • 박귀화;이은영;윤소정
    • 디지털융복합연구
    • /
    • 제19권11호
    • /
    • pp.517-523
    • /
    • 2021
  • 상담의 성과는 상담자와 연구자 모두에게 중요하다. 지금까지 진행되어온 상담의 성과에 대한 연구의 동향을 분석하는 것은 상담의 성과를 종합적으로 구조화하는데 도움을 준다. 본 연구의 목적은 2011~2021년에 국내 상담분야의 저명 학회지 중 하나인 「상담학연구」에 게재된 상담 성과 관련 연구를 중심으로 연구 동향을 분석하여, 국내 상담성과 연구의 지식 구조를 탐색하고 향후 연구방향을 모색하는 것이다. 텍스트 마이닝 기법 중 중심성분석과 토픽 모델링을 활용하였다. 분석에 활용된 연구는 197개로 노드 추출 과정을 거쳐 최종 339개의 키워드가 분석에 활용되었다. LDA 알고리즘을 활용하여 잠재 토픽을 추출한 결과 '상담 성과의 측정과 평가', '대인관계에 영향을 주는 정서와 매개요인', '진로에 대한 스트레스와 대처'가 주요 토픽으로 나타났다. 상담학 연구에 게재된 상담성과 연구의 동향 분석을 통해 주요 토픽을 밝힌 것은 상담성과 연구를 보다 구조화하는 데 기여하였으며, 이후에도 이러한 주제들에 대한 심층적 연구가 지속되어야 할 필요가 있다.

A Study on the News Frame of COVID-19 Vaccine through Structural Topic Modeling and Semantic Network Analysis

  • Eun-Ji Yun;Bo-Young Kang
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권5호
    • /
    • pp.129-153
    • /
    • 2023
  • 본 연구는 코로나19 팬데믹 상황이 심각하였을 때, 대중들의 관심도가 높은 코로나19 백신과 관련한 대량의 언론 보도 프레임을 분석하여, 위기커뮤니케이션의 핵심 요소로서 바람직한 언론의 역할과 방향성을 모색하기 위해 수행되었다. 본 연구의 기간은 코로나19 백신 개발이 가시화되기 시작한 2020년 11월부터 2021년 6월까지 8개월이며, 연구 대상은 대중 신뢰도 및 이용도 순위에 따라 조선일보, 중앙일보, 동아일보, 한겨레로 설정하였다. 결과의 정확성 및 효율성을 제고하기 위해 최신 빅데이터 연구 기법인 구조적 토픽 모델링(STM) 및 의미연결망 분석 기법을 활용하였다. 연구결과, 구성 단어들의 명확한 군집도 및 중심성 분석값을 기반으로 각 언론사 당 16개 프레임, 총 64개의 유의미한 프레임이 도출되었다. 또한 프레임의 구성 정도 및 내용에 대한 차이를 확인하기 위해 4개 언론사를 비교 분석하였으며, 모든 언론사마다 유의미한 차이가 없음을 확인하였다.

국가핵심기술 관계망 구축을 통한 연관정보 분석연구: 디스플레이 기술을 중심으로 (A Study on the Analysis of Related Information through the Establishment of the National Core Technology Network: Focused on Display Technology)

  • 박세희;윤원석;장항배
    • 한국전자거래학회지
    • /
    • 제26권2호
    • /
    • pp.123-141
    • /
    • 2021
  • 경제 구조의 기술 의존성이 강해져 국가핵심기술의 중요성은 더욱 대두되고 있다. 하지만 기술 자체적 특성으로 인해 연관 범위가 추상적이고 국가핵심기술 고유의 특성상 정보공개가 제한적이기 때문에 보호대상이 될 기술의 범위를 정하는 것에 어려움이 있다. 이를 해결하기 위해 국가핵심기술과 연관성이 높은 중요 기술을 판별하는 데에 최적화 된 문헌 종류와 분석 기법을 제안하였다. 디스플레이 분야 국가핵심기술 키워드로 수집한 네 개 문헌종류(뉴스, 논문, 보고서, 특허) 데이터에 빅데이터 분석의 텍스트 마이닝 분석기법인 TF-IDF와 LDA 토픽 모델링을 적용하는 파일럿 테스트를 진행하였다. 그 결과로 특허 데이터에 LDA 토픽 모델링을 적용한 결과가 국가핵심기술과 연관성이 높은 중요기술을 추출하였다. OLED, 마이크로LED를 포함하여 디스플레이 전후방산업에 관련된 중요 기술을 판별 할 수 있었으며 이 결과를 관계망으로 시각화하여 국가핵심기술과 연관된 중요 기술의 범위를 명확히 하였다. 본 연구를 통해 기술이 가지는 연관범위의 모호성을 보다 명확히 하였으며, 국가핵심기술이 가지는 제한적인 정보공개 특성을 극복할 수 있다.

텍스트마이닝 기법을 활용한 미국산업응용수학 학회지의 연구 현황 및 동향 분석 (Analysis on Status and Trends of SIAM Journal Papers using Text Mining)

  • 김성연
    • 한국콘텐츠학회논문지
    • /
    • 제20권7호
    • /
    • pp.212-222
    • /
    • 2020
  • 본 연구의 목적은 전 세계 산업수학의 흐름을 주도하는 미국산업응용수학 학회에서 출판하는 논문들의 연구현황 및 동향을 거시적으로 파악하는 데 있다. 이를 위해 2016년부터 2019년까지 6,255편의 논문 제목 및 초록을 수집하였으며, LDA 기법을 활용한 토픽모델링과 시계열회귀모형 분석을 수행하였다. 분석 결과 첫째, 산업수학 분야는 해석학을 중심으로 기하학, 대수학, 위상수학, 이산수학, 확률 및 통계 등 다양한 분야에서 연구가 진행되었다. 둘째, 시간이 흐름에 따라 상승하는 연구 주제는 수리유체역학, 그래프이론, 확률미분방정식이었으며, 하강하는 연구 주제는 계산이론과 고전기하로 나타났다. 연구 결과는 산업수학 분야의 지적 구조에 대한 전체적인 흐름 및 변화에 대한 이해를 바탕으로 연구자들에게는 향후 연구 방향에 대해서, 그리고 교육 현장에는 시대 변화를 반영한 산업수학 교육과정을 수립하는데 시사점을 제공할 것이다.

구조적 토픽모델링을 활용한 무료형 대규모 다중이용자 온라인 롤플레잉 게임의 소액결제에 대한 이용자 리뷰 분석 (User Review Analysis of Microtransactions in Freemium Massively Multiplayer Online Role-Playing Games Using Structural Topic Modeling)

  • 이철;정재은
    • Human Ecology Research
    • /
    • 제61권3호
    • /
    • pp.475-492
    • /
    • 2023
  • This study investigated player responses to microtransactions in freemium Massively multiplayer online roleplaying games (MMORPG), specifically focusing on the game LostArk using English language review data. To this end, structural topic modeling was employed and the following six microtransaction-relevant topics were identified: microtransactions, developer issues, real money trade (RMT), random number generator (RNG) upgrade system, game content, and collectibles & adventure. The first four topics were classified as being "not recommended". However, the proportions of microtransaction-related topics were relatively lower than the other topics. Additionally, this study did not extract keywords related to unfairness and unethical issues in previous microtransaction research. The last two topics, game content, and collectibles & adventure were "recommended" topics, indicating positive functions of microtransactions such as enhancing the game experience by purchasing virtual items. Moreover, it was found that players who do not engage in microtransactions can still be satisfied through continuous game content updates. Additionally, an examination of the interaction effect between time and recommendation status revealed that while the frequency with which the six microtransaction-related topics were mentioned increased over time in the reviews, the ratio of recommendations to non-recommendations varied differently. This study contributes to game-related research by revealing players' authentic opinions on microtransactions in freemium MMORPGs, thereby providing practical implications for game companies.

텍스트마이닝과 ChatGPT 분석을 활용한 기업과 대중의 ESG 인식 비교: 지속가능경영보고서와 소셜미디어를 기반으로 (Comparing Corporate and Public ESG Perceptions Using Text Mining and ChatGPT Analysis: Based on Sustainability Reports and Social Media)

  • 최재훈;양성병;윤상혁
    • 지능정보연구
    • /
    • 제29권4호
    • /
    • pp.347-373
    • /
    • 2023
  • 최근 기업의 지속가능한 성장을 이끄는 ESG(Environmental, Social, and Governance) 관리의 중요성이 강조되고 있다. 이에, 본 연구는 기업과 일반 대중 간의 ESG에 대한 인식 차이를 실증적으로 밝히고, ESG 정책의 시행을 방해하는 부정적인 여론과 그 배경을 규명하는 것을 목표로 한다. 이를 위해, LDA(Latent Dirichlet Allocation) 토픽모델링, JST(Joint Sentiment Topic Modeling) 및 의미연결망분석 기법을 사용하여 지속가능경영보고서와 소셜미디어에서의 주요 키워드와 토픽, 그리고 그 연결관계를 분석하였다. 또한, ChatGPT를 활용하여, 텍스트마이닝 분석의 결과를 보완하였다. 분석 결과, 기업과 일반 대중 간 ESG에 대한 인식과 중요도에 상당한 차이가 있음을 확인하였다. 구체적으로, 기업들은 위기 관리, 투명한 지배구조, 윤리적 경영 등에 집중하여 신뢰를 구축하려 했으나, '그린워싱', '중대재해', '불매운동' 등과 같은 부정적 키워드가 자주 소셜네트워크에서 등장하여, 많은 대중들이 기업의 ESG 이슈 처리에 대해 의심하고 있음을 확인하였다. 본 연구는 기업, 정부 기관, 고객 및 투자자를 위한 ESG 전략수립에 도움이 될 수 있는 가이드라인을 제공한다는 점에서 의의가 있다.

YouTube 동영상 의견분석을 통한 사용과 충족 이론 측정 : 트로트 가수 조명섭 동영상을 중심으로 (Analyzing Comments of YouTube Video to Measure Use and Gratification Theory Using Videos of Trot Singer, Cho Myung-sub)

  • 홍한국;임병학;김삼문
    • 한국콘텐츠학회논문지
    • /
    • 제20권9호
    • /
    • pp.29-42
    • /
    • 2020
  • 본 연구의 목적은 소셜미디어 중 하나인 YouTube 동영상 사용자들이 남긴 의견을 추출하여 분석하는 질적연구방법을 제시한다. 이를 위해서 YouTube 동영상 사용자의견을 사용하여 사용과 충족 이론의 쾌락적 충족, 사회적 충족, 그리고 실용적 충족을 빈도분석과 토픽모델링을 통해 측정하였다. 측정결과, YouTube KBS 한국방송 채널 중 트로트 가수 조명섭 동영상을 사용자들이 시청하는 이유는 첫 번째로 높은 빈도를 보이는 것이 쾌락적 충족을 위해서였다. 다음 순으로 사회적 충족과 실용적 충족으로 나타났다. 단어-문서 네트워크 분석에서 연결정도중심성은 '응원', '감사', '화이팅', '최고' 등이 높게 나타났고, 매개중심은'감사', '응원', '화이팅'등의 단어가 높게 나타나 연결정도 중심성과 유사함을 보였다. 아이겐벡터중심성은 '사랑', '마음', '감사' 등의 단어가 높게 나타나 사용자들의 의견들에 가장 영향력이 높은 단어들임을 알 수 있다. 이는 YouTube의 트로트 가수 조명섭 동영상 시청자들 중 대다수가 동영상에 대해 사랑과 감사의 마음을 보이고 있음을 알 수 있다. 위의 세 가지 중심성 분석결과는 동영상을 시청하는 동기로 사용충족 이론의 쾌락적 충족과 사회적 충족 관련 단어들이 높은 값을 보이고 있다. 본 연구는 설문조사 기반의 구조방정식 모형을 따르지 않고, 질적분석연구를 자동화한 텍스트마이닝 기법을 사용하여 YouTube동영상을 사용하는 동기를 사용 및 충족 이론에 의해 밝혀냈다는 것에서 연구 함의를 찾을 수 있다.

텍스트네트워크분석을 활용한 신규간호사가 경험하는 현실충격 관련 연구의 지식구조 분석 (Analysis of the Knowledge Structure of Research related to Reality Shock Experienced by New Graduate Nurses using Text Network Analysis)

  • 윤희장
    • 문화기술의 융합
    • /
    • 제9권1호
    • /
    • pp.463-469
    • /
    • 2023
  • 본 연구의 목적은 신규간호사가 경험하는 현실충격 관련 연구를 텍스트 네트워크 분석을 통해 분석함으로써 신규간호사의 성공적인 임상적응과 이직률 감소에 기여할 수 있는 기초자료를 제공하기 위함이다. 2002년 1월부터 2021년 12월까지 국내외 학술지에 게재된 115편의 논문에서 신규간호사가 경험한 현실충격에 관한 토픽을 추출하였다. 6개의 데이터베이스(국내: DBpia, KISS, RISS / 해외: Web of science, Springer, Scopus)에서 문헌을 검색하였다. 키워드는 문헌의 초록에서 추출되었고 의미론적 형태소를 사용하여 정리되었다. 네트워크분석 및 토픽모델링은 NetMiner 4.5 프로그램을 사용하여 수행되었다. 핵심 키워드는 '신규간호사', '현실충격', '전환', '학생간호사', '경험', '실습', '근무환경', '역할', '돌봄', '교육' 등으로 확인되었다. 최근 신규간호사의 현실충격에 관한 연구에서 잠재적 디리클레 할당(LDA) 기법으로 '이직', '근무환경', '전환 경험'의 세 가지 주요 주제를 추출하였다. 본 연구결과를 바탕으로 신규호사가 경험하는 현실충격을 효과적으로 감소시키고 성공적으로 임상적응을 도울 수 있는 중재 연구의 필요성을 제언한다.