• 제목/요약/키워드: 토픽 추출

검색결과 208건 처리시간 0.05초

학회 웹사이트의 토픽 정보추출을 이용한 주제에 따른 학회 자동분류 기법 (Academic Conference Categorization According to Subjects Using Topical Information Extraction from Conference Websites)

  • 이수경;김관호
    • 한국전자거래학회지
    • /
    • 제22권2호
    • /
    • pp.61-77
    • /
    • 2017
  • 최근 온라인상에 게시된 학회정보가 급증함으로써 주제에 따른 학회정보의 자동분류는 연구자들에게 효율적인 관련 학회 탐색을 가능하게 한다. 그러나 대부분의 학회 목록 제공 서비스에서는 학회명칭, 날짜, 위치, URL 등의 정보만 제공하기 때문에 학회 주제를 파악할 수 있는 정보는 학회명칭에 국한된다. 따라서 본 연구에서는 URL을 통한 학회 웹사이트의 토픽정보를 추출함으로써 학회정보량의 부족문제를 해결하고, 동시에 양질의 정보로 학습의 성능을 향상시키는 기법을 제안한다. 구체적으로는 웹사이트 URL을 통해 수집한 HTML 문서로부터 주요 콘텐츠를 추출하고, 학회명칭과 유사한 토픽 키워드 정보를 선정하여 추가 가중치를 부여한다. 실 데이터를 활용한 실험 결과, 제안된 방법인 추가적인 웹 콘텐츠 정보의 사용은 주제에 따른 학회 분류의 성능을 성공적으로 향상시킬 수 있음을 확인하였다. 추후 연구에서는 웹 사이트의 구조를 고려한 토픽 정보추출을 통해 분류의 정확성을 더욱 향상시킬 계획이다.

계층적 검색 의도와 웹 자원을 활용한 2계층 구조의 서브토픽 마이닝 (Subtopic Mining of Two-level Hierarchy Based on Hierarchical Search Intentions and Web Resources)

  • 김세종;이종혁
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제22권2호
    • /
    • pp.83-88
    • /
    • 2016
  • 서브토픽 마이닝은 입력 질의에서 나타날 수 있는 검색 의도들의 중의성 해소 및 보다 명확한 의도 전달을 위해 관련 서브토픽들을 연관성, 선호도, 다양성을 고려하여 추출 및 순위화하는 것을 말한다. 본 논문은 웹 자원의 활용에 대한 기존 연구의 한계점을 명시하고, 이를 극복하기 위해 계층적 검색 의도와 웹 자원을 기반으로 한 2계층 구조의 서브토픽 마이닝 방법론을 제안한다. 우리는 서브토픽 마이닝 평가 대회에서 제공한 웹 문서 및 각 자원의 특성을 고려하여 제 2계층 서브토픽들을 추출, 확장 및 재순위화하고, 넓은 검색 의도를 가진 서브토픽 내의 단어들은 제 1계층 서브토픽들을 구성하는데 활용하였다. 본 방법론은 관련 평가 대회에서 최고 성능을 보인 기존 연구들의 결과들과 비교했을 때, 대부분의 평가 척도에서 높은 성능을 보였다.

LDA 토픽 모델링을 활용한 SNS 분석 (SNS Analysis Using LDA Topic Modeling)

  • 장민수;임선영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.402-403
    • /
    • 2023
  • 본 연구의 목적은 LDA 토픽 모델링을 활용하여 한국어 SNS데이터에 분석을 통해 우리나라의 여가활동, 일과 직업, 주거와 생활의 동향을 살펴보는 것이다. AI Hub에서 제공하는 한국어 SNS데이터를 수집하고 형태소 분석, 전처리 과정을 거친 후 coherence score을 토대로 최적의 토픽 수를 결정하여 토픽을 추출하였다. 도출한 트렌드를 바탕으로 경영, 마케팅 분야에 미치는 영향을 예측할 수 있을 것으로 기대한다.

토픽모델의 성능 향상을 위한 불용어 자동 생성 기법 (Automatic Generating Stopword Methods for Improving Topic Model)

  • 이정빈;인호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 춘계학술발표대회
    • /
    • pp.869-872
    • /
    • 2017
  • 정보검색(Information retrieval) 및 텍스트 분석을 위해 수집하는 비정형 데이터 즉, 자연어를 전처리하는 과정 중 하나인 불용어(Stopword) 제거는 모델의 품질을 높일 수 있는 쉽고, 효과적인 방법 중에 하나이다. 특히 다양한 텍스트 문서에 잠재된 주제를 추출하는 기법인 토픽모델링의 경우, 너무 오래되거나, 수집된 문서의 도메인이나 성격과 무관한 불용어의 제거로 인해, 해당 토픽 모델에서 학습되어 생성된 주제 관련 단어들의 일관성이 떨어지게 된다. 따라서 분석가가 분류된 주제를 올바르게 해석하는데 있어 많은 어려움이 따르게 된다. 본 논문에서는 이러한 문제점을 해결하기 위해 일반적으로 사용되는 표준 불용어 대신 관련 도메인 문서로부터 추출되는 점별 상호정보량(PMI: Pointwise Mutual Information)을 이용하여 불용어를 자동으로 생성해주는 기법을 제안한다. 생성된 불용어와 표준 불용어를 통해 토픽 모델의 품질을 혼잡도(Perplexity)로써 측정한 결과, 본 논문에서 제안한 기법으로 생성한 30개의 불용어가 421개의 표준 불용어보다 더 높은 모델 성능을 보였다.

뉴스 빅데이터를 통해 검토한 대학교육의 토픽 분석 (A Topic Analysis of College Education Using Big Data of News Articles)

  • 양지연;구정호
    • 디지털융복합연구
    • /
    • 제19권12호
    • /
    • pp.11-20
    • /
    • 2021
  • 본 연구는 신문기사 빅데이터를 통해 대학교육 관련 보도의 토픽을 추출하고, 토픽별 특징 및 신문사별 보도양상을 분석한다. 2016년-2021년 상반기 주요 중앙지와 지역지의 기사를 빅카인즈를 통해 추출하였고, 잠재디리슐레할당을 이용하여 총 9개의 토픽을 발견하였다. 토픽1과 토픽3은 교육에 대한 대학지원사업에 관련된 것이나 토픽3은 지역대학에 초점이 맞추어져 있다. 토픽2는 코로나19 이후 대학교육, 토픽4는 교수-학습법, 토픽5는 정부정책, 토픽6은 고교교육기여대학 지원사업, 토픽7은 대학교육 비전, 토픽8은 국제화, 토픽9는 입시 등을 논하고 있다. 조선일보, 경향신문, 한겨레는 코로나19 이후 강의, 정부정책 관련, 대학교육에 대한 기사와 논평을 많이 보도한 반면 동아일보, 중앙일보, 한라일보, 부산일보, 대전일보, 경인일보는 대학지원사업, 고교교육기여대학 지원사업 등 광고·홍보성 기사가 상대적으로 많았다. 2016년부터의 관련기사를 신문사별 뿐 아니라, COVID-19 발생 전후로도 분석하여 관련 보도의 토픽 차이를 살펴볼 수 있었다. 사회적으로 주요 관심 사항인 대학교육이 언론에 어떻게 보도되고 있는지 확인함으로써 미래의 대학교육 정책 방향과 미디어의 순기능과 역기능 등 언론의 역할에 대해 고찰할 필요가 있음을 시사한다.

토픽모델을 이용한 전력반도체 패키징 기술 동향 연구 (A Study on Technology Trend of Power Semiconductor Packaging using Topic model)

  • 박근서;최경현
    • 마이크로전자및패키징학회지
    • /
    • 제27권2호
    • /
    • pp.53-58
    • /
    • 2020
  • 전기자동차용 전력반도체 패키징 기술에 대한 분석을 수행하였다. 비정형 데이터인 특허들을 수집하여 유효특허를 도출하여 LDA 기법을 적용한 토픽모델링을 수행하였다. 20개의 토픽으로 분류하였고 각 토픽별 추출된 단어를 통해 기술에 대한 정의를 내렸다. 각 토픽의 대한 동향분석을 위해 연도별 빈도수에 대한 회귀분석을 통해 토픽별 Hot토픽과 Cold 토픽을 도출하여 전력반도체 패키징 기술의 동향을 분석하였다. Hot 토픽의 기술로는 내전압에 따른 패키지 구조 기술과 입출력 관련 제어 기술, 방열기술을 도출하였고 Cold 토픽 기술로는 인덕턴스 저감기술이 도출되었다.

신문기사로부터 추출한 최근동향에 대한 트위터 감성분석 (Twitter Sentiment Analysis for the Recent Trend Extracted from the Newspaper Article)

  • 이경호;이공주
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제2권10호
    • /
    • pp.731-738
    • /
    • 2013
  • 본 논문은 사회의 최근 동향에 대한 여론의 반응을 관찰하기 위한 방법을 나타낸다. 최근 동향을 나타내는 키워드를 신문기사로부터 추출하고, 추출된 키워드를 이용하여 수집된 트윗의 감성 분석을 통해 최근 동향에 대한 여론을 분석한다. 수집된 신문기사를 k-means알고리즘을 이용하여 군집화하고, 군집내의 단어의 출현 빈도를 이용하여 토픽 키워드를 선정하였다. 각 토픽에 대하여 수집된 트윗은 그 토픽 대한 트윗이라는 가정하에 기계학습 방법을 이용하여 긍/부정을 판별하여 감성을 판단하게 하였다. 그리고 이와 같은 가정에 대한 타당성을 검증해 보았다.

토픽 모델 기반의 국가 별 SNS 관심 이슈 분석 시스템 (Analysis System for SNS Issues per Country based on Topic Model)

  • 김성훈;윤지원
    • 정보과학회 논문지
    • /
    • 제43권11호
    • /
    • pp.1201-1209
    • /
    • 2016
  • 전 세계적으로 SNS의 이용이 활발해짐에 따라, 그와 관련한 다양한 연구가 활발히 진행 중에 있다. 특히 기존의 문서 내 주제 추출에 활용되던 토픽 모델이 SNS 분석에 효과가 있음이 밝혀짐에 따라, 토픽 모델 기반의 이슈 분석과 관련한 연구들이 대거 등장하였다. 이에 본 연구에서는 기존 토픽 모델 기반의 SNS 이슈 분석 기술에 전 세계 지도 시각화 및 이슈 매칭 기술을 결합하여, 전 세계의 각 국가 별 특정 주제와 관련한 관심 이슈와 그 분포의 변화 추이를 분석할 수 있는 시스템을 제안한다. 시스템 구성 요소는 트윗 수집 및 국가 별 분류 모듈, 토픽 모델 기반의 국가 별 토픽 및 분포 추출 모듈, Google geochart 기반의 토픽 및 분포 시각화 모듈이 있다. 미국과 UK 두 국가에서 발생한 5월 한 달간의 ISIS 관련 트윗을 대상으로 실험한 결과, 두 국가의 ISIS 관련 관심 이슈와 그 변화 추이를 확인할 수 있었다.

토픽 모형 및 사회연결망 분석을 이용한 한국데이터정보과학회지 영문초록 분석 (Analysis of English abstracts in Journal of the Korean Data & Information Science Society using topic models and social network analysis)

  • 김규하;박철용
    • Journal of the Korean Data and Information Science Society
    • /
    • 제26권1호
    • /
    • pp.151-159
    • /
    • 2015
  • 이 논문에서는 텍스트마이닝 (text mining) 기법을 이용하여 한국데이터정보과학회지에 게재된 논문의 영어초록을 분석하였다. 먼저 다양한 방법을 통해 단어-문서 행렬 (term-document matrix)을 생성하고 이를 사회연결망 분석 (social network analysis)을 통해 시각화하였다. 또한 토픽을 추출하기 위한 방법으로 LDA (latent Dirichlet allocation)와 CTM (correlated topic model)을 사용하였다. 토픽의 수, 단어-문서 행렬의 생성방법에 따라 엔트로피 (entropy)를 통해 토픽 추출 모형들의 성능을 비교하였다.

독후감 텍스트의 토픽모델링 적용에 관한 탐색적 연구 (A Study on the Application of Topic Modeling for the Book Report Text)

  • 이수상
    • 한국도서관정보학회지
    • /
    • 제47권4호
    • /
    • pp.1-18
    • /
    • 2016
  • 이 연구는 독후감 텍스트의 주제분석에 토픽모델링의 활용방안을 탐색하는 것을 목적으로 하고 있다. 텍스트의 주제분석 방안으로서 토픽모델링 분석방법을 이해하고, R에서 제공하는 "topicmodels" 패키지의 LDA 함수를 사용하여 23건의 사례 독후감 텍스트들을 대상으로 실제의 분석작업을 수행하였다 토픽모델링 분석결과 16개의 토픽들을 추출하였고 토픽과 구성 단어들의 관계에서 토픽 네트워크 사례 독후감과 토픽들의 관계에서 독후감 네트워크를 구성하였다. 이후 토픽 네트워크와 독후감 네트워크를 대상으로 중심성 분석을 수행하였으며 분석결과는 다음과 같다. 첫째 16개의 토픽들이 1개의 컴포넌트를 가지는 네트워크로 나타났다. 이것은 16개 토픽들이 상호 연관되어 있다는 것을 의미한다. 둘째, 독후감 네트워크에서는 연결정도 중심성이 높은 독후감들과 낮은 독후감들로 구분이 되었다. 전자의 독후감들은 다른 독후감들과 주제적으로 유사성을 가지며 후자의 독후감들은 다른 독후감들과 주제적으로 상이성을 가지는 것으로 해석하였다. 토픽모델링의 결과를 네트워크 분석과 결합함으로써 독후감의 주제파악에 유용한 결과들을 얻게 되었다.