• 제목/요약/키워드: 토픽 추출

검색결과 209건 처리시간 0.03초

단어 유사도를 이용한 뉴스 토픽 추출 (News Topic Extraction based on Word Similarity)

  • 김동욱;이수원
    • 정보과학회 논문지
    • /
    • 제44권11호
    • /
    • pp.1138-1148
    • /
    • 2017
  • 토픽 추출은 문서 집합으로부터 그 문서 집합을 대표하는 토픽을 자동 추출하는 기술이며 자연어 처리의 중요한 연구 분야이다. 대표적인 토픽 추출 방법으로는 잠재 디리클레 할당과 단어 군집화 기반 토픽 추출방법이 있다. 그러나 이러한 방법의 문제점으로는 토픽 중복 문제와 토픽 혼재 문제가 있다. 토픽 중복 문제는 특정 토픽이 여러 개의 토픽으로 추출되는 문제이며, 토픽 혼재 문제는 추출된 하나의 토픽 내에 여러 토픽이 혼재되어 있는 문제이다. 이러한 문제를 해결하기 위하여 본 연구에서는 토픽 중복 문제에 대해 강건한 잠재 디리클레 할당으로 토픽을 추출하고 단어 간 유사도를 이용하여 토픽 분리 및 토픽 병합의 단계를 거쳐 최종적으로 토픽을 보정하는 방법을 제안한다. 실험 결과 제안 방법이 잠재 디리클레 할당 방법에 비해 좋은 성능을 보였다.

잠재 토픽을 이용한 문서 요약문 추출 (Document Summarization Using Latent Topics)

  • 정영섭;최호진
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2011년도 한국컴퓨터종합학술대회논문집 Vol.38 No.1(C)
    • /
    • pp.240-243
    • /
    • 2011
  • 웹 문서를 비롯한 여러 가지 문서의 양이 급증함에 따라, 문서로부터 주요정보를 얻거나 자동으로 요약하는 연구들이 진행되어왔다. 특히, 문서를 요약하는 연구들은 문서에 존재하는 문장을 추출하는 방법과 요약문을 새롭게 생성하는 방법, 이렇게 크게 두 가지 방법으로 진행되었다. 이 연구에서는, 잠재 토픽 모델을 통하여 얻어낸 각 문장의 토픽 순열을 이용하여 문서를 대표하는 문장, 즉 요약문으로서 적합한 문장들을 추출하는 새로운 기법을 소개한다. 특히, 잠재 토픽 모델이 일반적으로 가지고 있는 속성인 토픽 순열의 교환성(exchangeability)을 배제하고 토픽의 순열을 이용하여 요약문을 추출해내므로 이 기법을 통하여 문서 혹은 문장의 구조를 반영한 요약문을 만들 수 있다.

토론 대화에서의 토픽 분석을 위한 키워드 추출 및 키워드 기반 감성분석 시스템 (A System for Keyword Extraction and Keyword-based Sentiment Analysis for Topic Analysis in Discussion)

  • 정용빈;오유진;박재완;장새미;함영균
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.164-169
    • /
    • 2022
  • 토픽 모델링은 비즈니스 분석이나 기술 동향 파악 등 다방면에서 많이 사용되고 있는 기술이다. 하지만 대표적인 방법인 LDA와 같은 비지도학습의 경우, 그 알고리즘 구조상 문서의 수가 많을 때 토픽 모델링이 가능하다. 본 논문에서는 문서의 수가 적은 경우도, 키워드 및 키프레이즈를 이용한 군집화를 통해 토픽 모델링을 하고 감성분석을 통해 토픽에 대한 분석도 제시하였다. 이에 필요한 데이터 제작 및 키워드 추출, 키워드 기반 감성분석, 키워드 임베딩 및 군집화를 구현하였고, 결과를 정성적으로 보았을 때 유의미한 분석이 되는 것을 확인하였다.

  • PDF

토픽모델링을 활용한 인공지능 관련 이슈 분석 (Analysis of Issues Related to Artificial Intelligence Based on Topic Modeling)

  • 노설현
    • 디지털융복합연구
    • /
    • 제18권5호
    • /
    • pp.75-87
    • /
    • 2020
  • 본 연구는 국내의 인공지능과 관련된 기사들을 LDA 알고리즘에 기반한 토픽모델링 기법으로 분석하여 인공지능 관련 주요 이슈들을 도출하고 세부적으로 분석함으로써 인공지능 기술이 전(全) 산업 분야와 융합을 통해 창출할 수 있는 새로운 가치를 통찰하고, 인공지능 기술을 지식 경영에 적용할 수 있는 분야를 도출하는데 유용한 정보를 생산하고자 하였다. 본 연구에서는 '인공지능'을 검색어로 하여 추출된 11개의 중앙지와 8개의 경제지, 주요 방송사의 2016년부터 2019년까지 3,889건의 기사를 대상으로 오픈 소프트웨어인 R을 활용한 토픽모델링 기법을 사용하여 토픽 별 키워드들을 추출하였다. 각 토픽의 키워드 간 연관성을 나타내는 PMI(Pointwise Mutual Information) 측도를 높이도록 relevance 파라미터 λ를 최적화하여 토픽 별 키워드를 추출하였으며, 키워드들로부터 타당한 근거를 바탕으로 토픽명을 추론하였다. 추출된 토픽들은 인공지능 기술의 응용 분야와 사회, 경제, 산업, 문화 전반에서 일어나고 있는 변화 및 정부의 지원 정책과 비전을 폭 넓게 나타냈다.

소셜 데이터에서 재난 사건 추출을 위한 사용자 행동 및 시간 분석을 반영한 토픽 모델

  • 촐몽 바야르;이경순
    • 정보와 통신
    • /
    • 제34권6호
    • /
    • pp.43-50
    • /
    • 2017
  • 본고에서는 소셜 빅데이터에서 공공안전에 위협되고 사회적으로 이슈가 되는 재난사건을 추출하기 위한 방법으로 소셜 네트워크상에서 사용자 행동 분석과 시간분석을 반영한 토픽 모델링 기법을 알아본다. 소셜 사용자의 글 수, 리트윗 반응, 활동주기, 팔로워 수, 팔로잉 수 등 사용자의 행동 분석을 통하여 활동적이고 신뢰성 있는 사용자를 분류함으로써 트윗에서 스팸성과 광고성을 제외하고 이슈에 대해 신뢰성 높은 사용자가 쓴 트윗을 중요하게 반영한다. 또한, 트위터 데이터에서 새로운 이슈가 발생한 것을 탐지하기 위해 시간별 핵심어휘 빈도의 분포 변화를 측정하고, 이슈 트윗에 대해 감성 표현 분석을 통해 핵심이슈에 대해 사건 어휘를 추출한다. 소셜 빅데이터의 특성상 같은 날짜에 여러 이슈에 대한 트윗이 많이 생성될 수 있기 때문에, 트윗들을 토픽별로 그룹핑하는 것이 필요하므로, 최근 많이 사용되고 있는 LDA 토픽모델링 기법에 시간 특성과 사용자 특성을 분석한 시간상에서의 중요한 사건 어휘를 반영하고, 해당이슈에 대한 신뢰성 있는 사용자가 쓴 트윗을 중요시 반영하도록 토픽모델링 기법을 개선한 소셜 사건 탐지 방법에 대해 알아본다.

빅데이터 기반 문서 토픽 추출 시스템 연구 (A Study on the Document Topic Extraction System Based on Big Data)

  • 황승연;안윤빈;신동진;오재곤;문진용;김정준
    • 한국인터넷방송통신학회논문지
    • /
    • 제20권5호
    • /
    • pp.207-214
    • /
    • 2020
  • 요즘 스마트폰, 각종 전자기기 등의 사용이 늘고, 인터넷과 SNS가 활성화되며 우리는 정보의 홍수 속에 살고 있다. 정보의 양이 기하급수적으로 증가하며 많은 정보를 다 살펴보는 것이 어려워졌고, 문서에서 핵심 키워드만 보기를 원하는 사람이 늘어나며 정보의 핵심이 되는 토픽을 추출하는 연구의 중요성이 증가하고 있다. 또한, 토픽을 추출하여 과거와 비교 분석하여 현재의 트렌드를 유추해내는 것도 최근 중요한 이슈이다. 토픽 모델링 기법을 이용하여 대량의 문서에서 토픽을 추출해낼 수 있으며, 이렇게 추출된 토픽은 트렌드 예측, 데이터 분석 등 다양한 분야에서 쓰일 수 있다. 본 논문에서는 빠르게 변하는 트렌드를 분석하여 시대의 흐름에 맞춰가기 위해 확률적 토픽 모델 기법의 하나인 LDA 알고리즘을 활용하였으며, 문서에서 컴퓨팅 분야의 2016, 2017, 2018년도 3개년 논문의 주제를 알아보고, 연구의 동향과 흐름을 분석한다.

Spark 프레임워크 기반 비정형 빅데이터 토픽 추출 시스템 설계 (A Design on Informal Big Data Topic Extraction System Based on Spark Framework)

  • 박기진
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제5권11호
    • /
    • pp.521-526
    • /
    • 2016
  • 온라인상에서 다루어지는 비정형 텍스트 데이터는 대용량이면서 비구조적 형태의 특성을 가지고 있기 때문에, 기존 관계형 데이터 모델의 저장 방식과 분석 방법만으로는 한계가 있다. 더군다나, 동적으로 발생하는 대량의 소셜 데이터를 활용하여 이용자의 반응을 실시간으로 분석하기란 어려운 상황이다. 이에 본 논문에서는 대용량 비정형 데이터(문서)의 의미를 빠르고, 용이하게 파악하기 위하여 데이터 셋에 대한 사전학습 없이, 문서 내 단어 비중에 따라 자동으로 토픽(주제)이 추출되는 시스템을 설계 및 구현하였다. 제안된 시스템의 토픽 모델링에 사용될 입력 단어는 N-gram 알고리즘에 의하여 도출되어 복수 개의 단어도 묶음 처리할 수 있게 했으며, 또한, 대용량 비정형 데이터 저장 및 연산을 위하여 Hadoop과 분산 인메모리 처리 프레임워크인 Spark 기반 클러스터를 구성하여, 토픽 모델 연산을 수행하였다. 성능 실험에서는 TB급의 소셜 댓글 데이터를 읽어 들여, 전체 데이터에 대한 전처리 과정과 특정 항목의 토픽 추출 작업을 수행하였으며, 대용량 데이터를 클러스터의 디스크가 아닌 메모리에 바로 적재 후, 처리함으로써 토픽 추출 성능의 우수성을 확인할 수 있었다.

Analysis of trends in deep learning and reinforcement learning

  • Dong-In Choi;Chungsoo Lim
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권10호
    • /
    • pp.55-65
    • /
    • 2023
  • 본 논문에서는 딥러닝 및 강화학습 연구에 대해 KeyBERT(Keyword extraction with Bidirectional Encoder Representations of Transformers) 알고리즘 기반의 토픽 추출 및 토픽 출현 빈도 분석으로 급변하는 딥러닝 관련 연구 동향 분석을 파악하고자 한다. 딥러닝 알고리즘과 강화학습에 대한 논문초록을 크롤링하여 전반기와 후반기로 나누고, 전처리를 진행한 후 KeyBERT를 사용해 토픽을 추출한다. 그 후 토픽 출현 빈도로 동향 변화에 대해 분석한다. 분석된 알고리즘 모두 전반기와 후반기에 대한 뚜렷한 동향 변화가 나타났으며, 전반기에 비해 후반기에 들어 어느 주제에 대한 연구가 활발한지 확인할 수 있었다. 이는 KeyBERT를 활용한 토픽 추출 후 출현 빈도 분석으로 연구 동향변화 분석이 가능함을 보였으며, 타 분야의 연구 동향 분석에도 활용 가능할 것으로 예상한다. 또한 딥러닝의 동향을 제공함으로써 향후 딥러닝의 발전 방향에 대한 통찰력을 제공하며, 최근 주목 받는 연구 주제를 알 수 있게 하여 연구 주제 및 방법 선정에 직접적인 도움을 준다.

소셜 네트워크 환경에서 변형된 TF-IDF를 이용한 핫 토픽 예측 기법 (Hot Topic Prediction Scheme Using Modified TF-IDF in Social Network Environments)

  • 노연우;임종태;복경수;유재수
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제23권4호
    • /
    • pp.217-225
    • /
    • 2017
  • 최근 실시간으로 생성되는 대용량의 SNS 데이터로부터 유의미한 정보를 찾아내고 분석하는 것이 중요해지면서 핫 토픽 예측에 대한 관심도 크게 증가하고 있다. 기존 핫 토픽 검출 기법은 시간적 속성을 고려하지 않기 때문에 빠르게 변화하는 사회에서 이슈화되는 핫 토픽을 예측하기에는 부적합하다. 본 논문에서는 소셜 네트워크 환경에서 변형된 TF-IDF를 통한 핫 토픽 예측 기법을 제안한다. 변형된 TF-IDF을 이용하여 과거의 IDF 값에 대한 현재의 IDF값의 비율로 순간적으로 이슈화되는 후보 키워드 집합을 추출한다. 추출된 후보 키워드에 사용자의 영향력과 전문성을 고려한 가중치를 부여하여 핫 토픽예측 지수를 계산한다. 제안하는 기법의 우수성을 보이기 위해 기존의 핫 토픽 검출 기법과의 성능평가를 수행한다. 또한 제안하는 기법이 핫 토픽을 정확히 예측하는지를 보이기 위해 네이버 한글 뉴스 기사를 통한 핫 토픽 예측 기법의 질을 평가한다.

신문기사를 이용한 미세먼지 이슈의 토픽 분석 (A Topic Analysis of Fine Particle Matter by Using Newspaper Articles)

  • 양지연
    • 한국콘텐츠학회논문지
    • /
    • 제22권6호
    • /
    • pp.1-14
    • /
    • 2022
  • 본 연구는 미세먼지 관련 기사의 토픽을 추출하고 토픽별 특징 및 시계열 추이를 검토한다. 1990~2021년 중앙지의 기사를 빅카인즈에서 추출하였고, 잠재디리슐레할당 모델링을 이용하여 총 18개의 토픽을 발견하였다. 추가적으로 군집분석을 통해 유사한 토픽들을 병합하여 11개의 클러스터를 도출하였다. 최근 상승하는 토픽들로는 미세먼지 관련 제품/거주지, 국외 요인(중국), 국내 요인 중 발전소 관련 이슈, 전국의 비상조감조치, 국제협력, 관련 정치적 이슈, 세계 각국의 현황 및 대응, 관련 제품의 소비경향 논의로 나타났다. 반면 최근 하락하는 토픽들은 오염농도 기준, 실내 공기질 개선과 관련된 토픽으로 나타났다. 사회적으로 큰 관심사인 미세먼지의 언론보도 양상을 검토함으로써, 미세먼지와 관련한 정책방향과 대응전략을 추론하거나 파악하는 데 유용할 것이다. 미세먼지 관련 제품들의 시장규모가 확대됨에 따라 향후 실효적인 소비자보호정책을 확대하고, 근본적인 문제 해결을 위해 정치적 논쟁보다 국민의 건강과 안전을 목적으로 하는 정책 수립이 요구된다. 또한 국민 공감대와 국제사회 협력을 확대할 수 있는 정책수립이 필요한 것으로 판단된다.