• 제목/요약/키워드: 구조적 토픽모델링

검색결과 48건 처리시간 0.027초

빅 데이터 처리를 위한 적응적 사용자 및 토픽 모델링 기반 자동 TV 프로그램 추천시스템 (Adaptive User and Topic Modeling based Automatic TV Recommender System for Big Data Processing)

  • 김은희;김문철
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2015년도 하계학술대회
    • /
    • pp.195-198
    • /
    • 2015
  • 최근 TV 서비스의 가입자 및 TV 프로그램 콘텐츠의 급격한 증가에 따라 빅데이터 처리에 적합한 추천 시스템의 필요성이 증가하고 있다. 본 논문은 사용자들의 간접 평가 데이터 기반의 추천 시스템 디자인 시, 누적된 사용자의 과거 이용내역 데이터를 저장하지 않고 새로 생성된 사용자 이용내역 데이터를 학습하는 효율적인 알고리즘이면서, 시간 흐름에 따라 사용자들의 선호도 변화 및 TV 프로그램 스케줄 변화의 추적이 가능한 토픽 모델링 기반의 알고리즘을 제안한다. 빅데이터 처리를 위해서는 분산처리 형태의 알고리즘을 피할 수 없는데, 기존의 연구들 중 토픽 모델링 기반의 추론 알고리즘의 병렬분산처리 과정 중에 핵심이 되는 부분은 많은 데이터를 여러 대의 기계에 나누어 병렬분산 학습하면서 전역변수 데이터를 동기화하는 부분이다. 그런데, 이러한 전역데이터 동기화 기술에 있어, 여러 대의 컴퓨터를 병렬분산처리하기위한 하둡 기반의 시스템 및 서버-클라이언트간의 중재, 고장 감내 시스템 등을 모두 고려한 알고리즘들이 제안되어 왔으나, 네트워크 대역폭 한계로 인해 데이터 증가에 따른 동기화 시간 지연은 피할 수 없는 부분이다. 이에, 본 논문에서는 빅데이터 처리를 위해 사용자들을 클러스터링하고, 클러스터별 제안 알고리즘으로 전역데이터 동기화를 수행한 것과 지역 데이터를 활용하여 추론 연산한 결과, 클러스터별 지역별 TV프로그램 시청 토큰 별 은닉토픽 할당 테이블을 유지할 때 추천 성능이 더욱 향상되어 나오는 결과를 확인하여, 제안된 구조의 추천 시스템 디자인의 효율성과 합리성을 확인할 수 있었다.

  • PDF

텍스트 분석을 이용한 코로나19 관련 국내 논문의 주제 및 감성에 관한 융합 연구 (A Convergence Study on the Topic and Sentiment of COVID19 Research in Korea Using Text Analysis)

  • 허성민;양지연
    • 한국융합학회논문지
    • /
    • 제12권4호
    • /
    • pp.31-42
    • /
    • 2021
  • 본 연구에서는 코로나19 관련 연구논문의 연구주제를 탐색하고 동향을 검토하고 있다. 또한 감성분석을 통해 부정적인 어조가 강한 경고가 되는 주제들을 알아본다. 잠재 디리슐레 할당(LDA)를 이용하여 총 8개의 토픽을 발견하였고, 이를 구조적 토픽 모델링(STM)과 비교하여 비교적 안정적인 결과임을 확인하였다. 또한 k-means 군집 알고리즘을 통해 각 토픽별로 세부 연구주제를 발견하였고 주성분 분석을 이용하여 이를 시각적으로 표현하였다. 감성분석을 통해 각 토픽별 긍정적, 부정적인 단어들을 살펴보고 감성점수를 계산하여 연구논문의 주된 어조를 파악하였는데, 특히 생물 의학 관련, 국제적 역학관계, 심리적 영향과 관련된 연구에서 부정적인 어조가 강한 것으로 나타나 해당 부문에 대해서 주의와 관심이 요구된다. 향후 연구자들이 연구의 방향성을 탐색하고 정책결정자들이 연구지원 사업을 결정하는데 기초자료로 활용될 수 있을 것이다.

토픽 모델링을 이용한 댓글 그래프 기반 소셜 마이닝 기법 (A Reply Graph-based Social Mining Method with Topic Modeling)

  • 이상연;이건명
    • 한국지능시스템학회논문지
    • /
    • 제24권6호
    • /
    • pp.640-645
    • /
    • 2014
  • 인터넷 상에서 많은 사람들은 사용자 간의 의사소통과 정보 공유, 사회적 관계를 생성하기 위한 방법으로 소셜 네트워크 서비스를 이용한다. 그 중 대표적인 트위터는 하루에 수백만 건의 소셜 데이터가 발생하기 때문에 수집되고 있는 데이터의 양이 엄청나다. 이 방대한 양의 데이터로부터 의미 있는 정보를 추출하는 소셜 마이닝이 집중적으로 연구되고 있다. 트위터는 일반적으로 유용한 정보 혹은 공유하고자 하는 내용을 팔로잉-팔로워 관계를 이용해 쉽게 전달하고 리트윗할 수 있다. 소셜 미디어에서 트윗 데이터에 대한 토픽 모델링은 이슈를 추적하기 위한 좋은 도구이다. 짧은 텍스트 기반인 트윗 데이터의 제한점을 극복하기 위해, 사용자를 노드로 사용자간 댓글과 리트윗 메시지의 여부를 간선으로 하는 그래프 구조를 갖는 댓글 그래프의 개념을 소개한다. 토픽 모델링의 대표적인 방법인 LDA 토픽 모델이 짧은 텍스트 데이터에 대해 비효율적인 것을 보완하기 위한 방법으로, 이 논문에서는 짧은 문서의 수를 줄이고 마이닝 결과의 질을 향상시키기 위한 댓글 그래프를 사용하는 토픽 모델링 방법을 소개한다. 제안한 모델은 토픽 모델링 방법으로 LDA 모델을 사용하였으며, 7일간 수집한 트윗 데이터에 대한 실험 결과를 보인다.

유튜브에서 다루어지는 갈등은 무엇인가?: 갈등 관련 유튜브 콘텐츠에 대한 토픽모델링 (What are the Conflicts Covered on YouTube?: Topic Modeling of Conflict-related YouTube Contents)

  • 임연수
    • 한국인터넷방송통신학회논문지
    • /
    • 제23권1호
    • /
    • pp.23-28
    • /
    • 2023
  • 이 연구는 갈등 관련 유튜브 콘텐츠를 중심으로 유튜브 공간의 특성을 규명하는 데 목적이 있다. 2012년부터 2022년까지 유튜브에 게재된 갈등 관련 콘텐츠를 수집하고 토픽모델링 분석을 통해 주요 내용과 특성을 파악했다. 분석 결과, 갈등 관련 유튜브 콘텐츠는 사회 구조적 갈등에 대한 뉴스 보도와 가족 내 갈등을 다룬 방송 프로그램 위주로 구성되어 있었다. 이러한 결과는 유튜브 공간이 갈등 관련 문제에 대한 공론장으로 활용될 수 있다는 기대보다는 기존 방송 콘텐츠의 수익 창출 수단으로 기능하리라는 우려를 하게 만든다. 앞으로 우리 사회가 유튜브를 어떻게 활용할지에 대한 깊이 있는 논의가 필요한 시점이다.

토픽맵을 이용한 이 기종 상품분류체계 온톨로지 통합에 관한 연구 (A Study of Integrating Ontologies of Heterogeneous Product Classification Schemes Using XML Topic Maps(XTM))

  • 고세영;김성혁
    • 한국전자거래학회지
    • /
    • 제8권4호
    • /
    • pp.151-166
    • /
    • 2003
  • 상품분류체계 중 가장 많이 사용하는 UNSPSC와 HS를 선정하여 각 상품분류체계의 구성 및 구조와 그 특징을 파악하고 분류명에 대한 온톨로지를 분석하였다. 상품분류체계의 번호체계 및 각 자릿수에 대한 이해를 충분히 하고 UML을 이용하여 모델링을 하였다. 상품분류체계 중 대상 범위에 대한 토픽맵을 개발한 뒤 그래프로 표현하고 최종적으로 개별 상품분류체계에 대한 토픽맵을 통합하여 상품분류체계의 온톨로지를 통합함으로써 계층 및 구조가상이한 상품분류체계 간의 정보교환을 용이하게 할 수 있게 하였다.

  • PDF

주제어 토픽모델링을 통한 IT 인문학 개념의 정립 (Conceptualization of IT Humanities through Keyword Topic Modeling)

  • 최영미;박남제
    • 정보교육학회논문지
    • /
    • 제26권5호
    • /
    • pp.467-480
    • /
    • 2022
  • 이 논문은 IT 인문학 관련 연구의 동향을 탐색함으로써 IT 인문학이 어떤 개념으로 활용되고 있는지 알아보고자 하였다. 디지털 과학기술 IT과 인문학 조합의 가능성에 주목하여 꾸준히 수행되어온 국내외의 문헌을 통해, IT 인문학의 기원과 배경, 유사 개념을 바탕으로 연구 동향을 알아보고 IT 인문학의 의미에 대해서 고찰하였다. 그리고 'IT 인문학' 및 'IT humanities' 검색어를 활용하여, 2001년 이후 발간 된 학술논문 중 주제어 정보를 제공하는 KCI급 1,566편, SCI급 64편을 대상으로 주제어의 네트워크 토픽 분석을 실시하였다. IT 인문학이라는 용어가 등장한 논문에서의 IT 인문학의 의미는 다양한 분야의 IT 정보기술이 인문학의 관점에서 생각할 수 있는 역량과 관련이 있었다. 토픽모델링 결과는 IT 인문학과 융합하는 분야 대상, 적용되는 형태, 문학·문화와의 연관, IT 인문학의 창출의 네 가지 군집으로 형성되었다. IT와 인문학의 융합은 한 쪽이 다른 한쪽을 도구화하거나 일방적으로 수렴하는 구조가 아닌, 상호 존중에 기초한 협업의 자세로 새로운 사유를 창출하도록 해야할 것이다.

공유숙박업에서 고객 충성도에 영향을 미치는 요인: 구조 방정식 모형과 토픽 모델링 분석 (Antecedents of Customer Loyalty in the Context of Sharing Accommodation: Analysis of Structural Equation Modelling and Topic Modelling)

  • 김선주;김병수
    • 지식경영연구
    • /
    • 제22권3호
    • /
    • pp.55-73
    • /
    • 2021
  • 공유 경제는 쓰지 않은 자원을 다른 사람들과 나누어 쓰는 협력적 소비로 인식되고 있다. 본 연구에서는 공유 숙박업 이용 고객들의 충성도에 영향을 미치는 요인들을 살펴보고자 하였다. 고객들이 공유 숙박업 경험에서 느낀 감정과 자아 이미지 일치성, 인지된 가치를 고객 충성도에 영향을 주는 선행요인으로 고려하였다. 그리고 진정한 경험, 숙소 시설, 가격 공정성을 공유 숙박업의 선택속성으로 고려하였다. Airbnb가 공유 숙박업에서 가장 큰 업체이기 때문에 설문 대상으로 선정하였다. 294명의 Airbnb 이용 고객 데이터를 바탕으로 구조 방정식 모형을 활용하여 요인들 간 관계를 분석하였다. 또한, Airbnb를 이용한 고객이 작성한 리뷰를 통해 고객이 어떤 사항을 중요하게 고려하였는지 살펴보았다. 이를 위해 네이버 블로그에서 Airbnb 리뷰를 수집하여 LDA기반 토픽모델링을 실시하였다. 본 연구 결과를 통해 공유 숙박업에 대한 고객들의 충성도에 영향을 미치는 요인들에 대한 이해를 바탕으로, 효과적인 마케팅 전략과 운영 관리 전략을 수립하는데 도움을 줄 수 있을 것으로 기대된다.

토픽모델링과 언어네트워크분석을 활용한 스마트팜 연구 동향 분석 (A Study on Research Trends in the Smart Farm Field using Topic Modeling and Semantic Network Analysis)

  • 오주연;이준명;홍의기
    • 디지털융복합연구
    • /
    • 제20권2호
    • /
    • pp.203-215
    • /
    • 2022
  • 본 연구의 목적은 토픽모델링과 언어네트워크분석을 활용하여 한국의 스마트팜 분야 연구 동향과 지식구조를 파악하는 것이다. 연구목적을 달성하기 위하여 KCI(Korea Citation Index)의 스마트팜 관련 국내 학술지 104편을 대상으로 핵심어와 핵심어들의 연결 관계를 분석하고, LDA 토픽모델링 기법을 이용하여 연구주제와 관련된 토픽들을 분석하였다. 언어네트워크분석 결과, 국내 스마트팜 관련 연구 분야의 주요핵심어는 '환경', '시스템', '사용', '기술', '재배' 등이 나타났으며, 연결중심성, 매개중심성, 위세중심성 결과도 제시하였다. 토픽모델링분석결과, Topic 1은 '스마트팜 도입 분석', Topic 2는 '친환경 스마트팜과 스마트팜의 경제적 효율성', Topic 3은 '스마트팜 플랫폼 설계', Topic 4는 '스마트팜 생산 최적화', Topic 5는 '스마트팜 생태계', Topic 6은 '스마트팜 시스템 구현', Topic 7은 '스마트팜 관련 정부 정책'으로 나타났다. 본 연구는 국내 스마트팜 관련 연구 동향을 살펴봄으로써, 향후 국내의 스마트팜을 발전시키는 데 필요한 정책개발과 연구 방향성을 설정하는데 기초자료가 될 것으로 기대한다.

토픽 모델링을 이용한 사운드스케이프 연구 주제어 분석 (Analysis on Topics in Soundscape Research based on Topic Modeling)

  • 최수환
    • 한국콘텐츠학회논문지
    • /
    • 제19권7호
    • /
    • pp.427-435
    • /
    • 2019
  • 사운드스케이프(soundscape)는 소리를 통해 문화와 환경, 사회적 변화를 이해하는데 중요한 역할을 하는 자료이지만, 자료의 기록, 보존, 분류, 분석을 위한 체계적인 연구 프레임워크의 구축은 아직 초기 단계에 있다. 토픽 모델링(topic modeling)은 문서에 숨겨져 있는 테마 구조를 드러내주는 알고리즘으로 연구 동향 분석과 같이 대량의 문서에 내재된 주제어를 찾아내기에 적합한 기법이다. 본 연구에서는 사운드스케이프 연구 분야의 대표적 학술지인 의 논문을 토픽 모델링 기법으로 분석하여 사운드스케이프 연구 동향을 파악할 수 있는 주제어를 도출해 보고, 이를 사운드스케이프 온톨로지(Soundscape Ontology) 및 사운드 아카이브의 메타데이터 설계 시 활용할 수 있는 방안에 대해 살펴보고자 한다. 이는 향후 시맨틱 웹 기술인 링크드 데이터(Linked Data) 기반의 사운드스케이프 아카이브 구축을 위한 메타데이터 설계의 기초 연구가 될 것이다.

대선 관련 인터넷 뉴스의 댓글과 대댓글 간 비교를 통해 살펴본 온라인 토론의 진행 가능성 (The Comparison Between the Comments and the Replies on Korean President Election News: using Topic Modeling)

  • 이정
    • 지능정보연구
    • /
    • 제28권2호
    • /
    • pp.33-55
    • /
    • 2022
  • 본 연구는 온라인에서 토론이 제대로 이루어지는 지 알아보기 위해 대선 관련 인터넷 뉴스에 달린 댓글과 대댓글을 비교 분석하였다. 하버마스의 공론장 이론에 따르면 토론이란 참여자들이 자유로운 의사소통을 통해 숙의 과정을 거쳐 사회적 합의를 이루고자 하는 노력이다. 만약 인터넷 공간에서 댓글을 작성하는 행위를 통해 서로 상호작용과 토론이 일어난다면 댓글과 대댓글은 토론의 진행과정에 따라 구조적, 내용적 측면에서 일정한 차이를 보일 것이다. 본 연구는 그 차이를 가설로 설정하고 검증을 위해 다음뉴스 포털에서 4만여개의 댓글을 수집하였다. 관련 뉴스의 주제는 대통령 선거로 하였는데 이는 전국민이 관심을 갖고 있고 따라서 댓글이 활발하게 달리는 주제이기 때문이다. t검정과 토픽모델링을 이용하여 분석한 결과, 가설은 모두 채택되었으며 댓글을 통해 온라인 토론이 진행된다는 것을 보여주었다. 본 연구는 온라인 댓글이 사람들의 스트레스 해소를 위한 서로 연결성 없는 무질서한 발언들이 아니라, 일정한 방향성을 가지고 사회적 합의를 향해 나아가는 숙의과정이라는 것을 이론적, 실질적으로 보여주었다.