• 제목/요약/키워드: Dirichlet distribution

검색결과 75건 처리시간 0.019초

빅데이터 LDA 토픽 모델링을 활용한 국내 코로나19 대유행 기간 마스크 관련 언론 보도 및 태도 변화 분석 (An analysis of the change in media's reports and attitudes about face masks during the COVID-19 pandemic in South Korea: a study using Big Data latent dirichlet allocation (LDA) topic modelling)

  • 서예령;고금석;이재우
    • 한국정보통신학회논문지
    • /
    • 제25권5호
    • /
    • pp.731-740
    • /
    • 2021
  • 본 연구는 LDA 토픽모델링 분석을 적용하여 한국 내 세 번의 코로나19 대유행 시기를 기준으로 마스크와 관련된 뉴스 빅데이터를 수집, 분석하였다. 분석 결과 각 시기별 마스크라는 단어를 중심으로 언론보도가 마스크 정책과 관련된 주제에서 사건사고 위주로 바뀌어가는 것을 실증적으로 살펴볼 수 있었다. 즉 제1차 시기의 경우 마스크 생산과 공급이, 제2차 시기에서는 마스크 착용 의무화 및 관련 사건사고가, 마지막인 제 3차 시기에는 주로 사건사고 위주로 토픽이 다뤄진 것을 확인 할 수 있었다. 해당 연구를 통해 마스크 공급, 확보, 착용 외 다른 보건정보에는 상대적으로 소홀했을 가능성을 확인할 수 있었으며, 제2,3차 시기 보도가 사건사고에 치우친 부분은 향후 언론보도의 접근성 및 태도에 대한 개선점이 있음을 시사한다. 따라서 코로나19에 보다 효과적으로 대응하기 위해서는 보다 거시적이고 사회 전체적인 논의가 진행될 수 있도록 언론보도가 변화해야 할 것이다.

토픽모델링을 이용한 국내 방사선 학술연구 트렌드 분석 (A Trend Analysis of Radiological Research in Korea using Topic Modeling)

  • 홍동희
    • 한국방사선학회논문지
    • /
    • 제16권3호
    • /
    • pp.343-349
    • /
    • 2022
  • 토픽 모델링을 활용하여 1989년부터 2022년까지 출판된 방사선을 주제로 한 논문을 파악하고 주제들 간의 관련성과 비중을 분석하고자 한다. 본 연구는 방사선 분야의 연구 활성화에 기여하기 위하여 2022년 최근까지 출판된 논문 717편을 대상으로 국문제목에서 도출된 토픽들을 분석하였다. 텍스트마이닝을 통해 연구의 주제 분포에 대한 전반적 연구 동향을 분석하였으며, 토픽모델링을 통해 5가지 주제를 도출해냈다. 첫째, 분석 대상 논문 중 키워드 중심으로 총 논문 717편의 연구에서 핵심어를 전처리 과정을 거쳐 최종적으로 선정된 단어는 총 1675개의 단어를 빈도 분석하였다. 둘째, 5개 토픽에 대하여 구성단어의 연관성을 중심으로 토픽을 분석한 결과 방사선, 영상, CT 임상분야에서 영상의 화질을 떨어뜨리지 않는 범위에서 선량을 최소화 하는데 연구가 주를 이루고 있음을 알 수 있었다. 또한, MRI 분야는 다양한 연구가 주를 이루었고 초음파는 다양한 부위의 질환 분석이 연구가 활발하게 시도되고 있음을 알 수 있었다.

텍스트 마이닝을 이용한 공군 부사관 지원자 자기소개서의 차별적 특성 분석 (Analyzing the discriminative characteristic of cover letters using text mining focused on Air Force applicants)

  • 권혁;김우주
    • 지능정보연구
    • /
    • 제27권3호
    • /
    • pp.75-94
    • /
    • 2021
  • 저출산 문제로 인한 병역자원 감소와 병 복무기간 단축에 따른 군 간부 대비 병 복무 선호 현상은 우수한 군 간부확보정책에 대한 추가적인 고찰을 필요로 한다. 이와 관련된 연구들은 대부분 사회과학에서 주로 사용되는 방법론으로 분석하였으나, 본 연구는 대량의 문헌조사에 적합한 텍스트 마이닝의 방법론으로 접근한다. 이를 위해, 본 연구는 공군 부사관 지원자 자기소개서에서 차별적인 특성의 단어들을 추출하고 합격 및 불합격의 극성을 분석한다. 본 연구는 총 3단계로 이루어졌다. 첫번째, 지원분야를 일반분야와 기술분야로 나누고, 자기소개서에서 특성을 가지는 단어들을 분야별 빈도수 비율의 차이대로 순서화 한다. 각 지원분야별 비율의 차이가 클수록 해당 지원분야의 특성을 나타내는 것으로 정의하였다. 두번째, 이 특성을 나타내는 단어들을 LDA를 통해 단어들의 Topic을 군집화하고 이를 바탕으로 Label을 정의하였다. 세번째, 이 군집화 된 지원분야별 단어들을 L-LDA를 통해 합격과 불합격의 극성을 분석하였다. L-LDA값의 차이가 합격에 가까울수록 합격자들이 많이 사용하는 단어로 정의하였다. 본 연구를 통해, 공군 부사관 자기소개서의 차별적 특성을 추출하기에는 LDA보다 L-LDA가 더 적합함을 알 수 있다. 또한, 이러한 방법론은 별도의 서면 또는 대면 설문 방식이 아니라, 대량 문서에 대한 텍스트 마이닝 기법을 적용하여 분석시간을 단축하고, 전체 모집단에 대한 신뢰성을 높일 수 있다. 따라서 본 연구인 공군 부사관 선발결과 분석을 통해, 선발제도 및 홍보제도에 활용 가능한 정보를 제공하고, 군 인력획득 분야 연구에 있어 활용 가능한 방법론을 제안하고자 한다.

빅데이터 기반 소비자 유형별 농식품 추천시스템 구축 사례 (Case Study of Big Data-Based Agri-food Recommendation System According to Types of Customers)

  • 문정훈;장익훈;최영찬;김진교;박진
    • 한국통신학회논문지
    • /
    • 제40권5호
    • /
    • pp.903-913
    • /
    • 2015
  • 농림수산식품교육문화정보원에서는 2015년 1월부터 공공데이터 포털 서비스를 시작하였으며 포털 내에 구축된 빅데이터 기반 농식품 추천 시스템을 이용한 맞춤소비정보를 제공하고 있다. 추천시스템의 특징은 첫째, SNS오피니언마이닝, 소비자패널의 모든 구매내역 정보, 기후데이터, 도매가격 데이터와 같은 빅데이터의 성격을 가진 농식품분야의 다양한 데이터들을 이용하기 때문에 데이터 양의 관점에서 추천의 정확도를 높일 수 있다. 둘째, 추천시스템 구축 초기에는 사용자 정보 기반 추천이 어려운 한계를 극복할 수 있는 방법으로 식생활 라이프스타일과 메가트렌드 요인을 이용한 소비자 세분화방법을 사용한다. 이는 사용자 개인정보가 없는 상황에서도 다양한 식품 선호를 반영할 수 있도록 하여 추천실패율을 낯춘다. 셋째, 디리슐레-다항분포를 이용하는 추천 알고리즘을 적용하여 다양한 상황적 요인들의 선호가 반영된 농식품 추천이 가능하도록 하였다. 이 외에도 추천 농식품에 대한 SNS 맛집정보와 버즈량, 관련 식재료를 판매하는 주변 소매점 위치 및 가격정보 등 다양한 정보를 제공하여 농식품 분야 정보에 관심을 높일 수 있도록 시스템을 구현하였다.

텍스트 마이닝을 이용한 2012년 한국대선 관련 트위터 분석 (Analysis of Twitter for 2012 South Korea Presidential Election by Text Mining Techniques)

  • 배정환;손지은;송민
    • 지능정보연구
    • /
    • 제19권3호
    • /
    • pp.141-156
    • /
    • 2013
  • 최근 소셜미디어는 전세계적 커뮤니케이션 도구로서 사용에 전문적인 지식이나 기술이 필요하지 않기 때문에 이용자들로 하여금 콘텐츠의 실시간 생산과 공유를 가능하게 하여 기존의 커뮤니케이션 양식을 새롭게 변화시키고 있다. 특히 새로운 소통매체로서 국내외의 사회적 이슈를 실시간으로 전파하면서 이용자들이 자신의 의견을 지인 및 대중과 소통하게 하여 크게는 사회적 변화의 가능성까지 야기하고 있다. 소셜미디어를 통한 정보주체의 변화로 인해 데이터는 더욱 방대해지고 '빅데이터'라 불리는 정보의 '초(超)범람'을 야기하였으며, 이러한 빅데이터는 사회적 실제를 이해하기 위한 새로운 기회이자 의미 있는 정보를 발굴해 내기 위한 새로운 연구분야로 각광받게 되었다. 빅데이터를 효율적으로 분석하기 위해 다양한 연구가 활발히 이루어지고 있다. 그러나 지금까지 소셜미디어를 대상으로 한 연구는 개괄적인 접근으로 제한된 분석에 국한되고 있다. 이를 적절히 해결하기 위해 본 연구에서는 트위터 상에서 실시간으로 방대하게 생성되는 빅스트림 데이터의 효율적 수집과 수집된 문헌의 다양한 분석을 통한 새로운 정보와 지식의 마이닝을 목표로 사회적 이슈를 포착하기 위한 실시간 트위터 트렌드 마이닝 시스템을 개발 하였다. 본 시스템은 단어의 동시출현 검색, 질의어에 의한 트위터 이용자 시각화, 두 이용자 사이의 유사도 계산, 트렌드 변화에 관한 토픽 모델링 그리고 멘션 기반 이용자 네트워크 분석의 기능들을 제공하고, 이를 통해 2012년 한국 대선을 대상으로 사례연구를 수행하였다. 본 연구를 위한 실험문헌은 2012년 10월 1일부터 2012년 10월 31일까지 약 3주간 1,737,969건의 트윗을 수집하여 구축되었다. 이 사례연구는 최신 기법을 사용하여 트위터에서 생성되는 사회적 트렌드를 마이닝 할 수 있게 했다는 점에서 주요한 의의가 있고, 이를 통해 트위터가 사회적 이슈의 변화를 효율적으로 추적하고 예측하기에 유용한 도구이며, 멘션 기반 네트워크는 트위터에서 발견할 수 있는 고유의 비가시적 네트워크로 이용자 네트워크의 또 다른 양상을 보여준다.