• 제목/요약/키워드: 토픽 모델링 기법

검색결과 198건 처리시간 0.024초

교수-학습지원시스템에서 학습자 질의응답 자동분류를 위한 토픽 모델링 (Topic modeling for automatic classification of learner question and answer in teaching-learning support system)

  • 김경록;송혜진;문남미
    • 디지털콘텐츠학회 논문지
    • /
    • 제18권2호
    • /
    • pp.339-346
    • /
    • 2017
  • 기사와 댓글, 질의응답과 같은 비정형 데이터에 기반한 텍스트 분석에 대한 관심이 증가하고 있다. 이는 사람들의 견해인 비정형 텍스트 데이터로부터 특징을 파악하고, 평가, 예측 및 추천에 활용할 수 있기 때문이다. TEL 분야에서도 MOOC 서비스의 확대로 교수학습지원시스템 기반 토론, 질의응답 서비스를 자동화하기 위한 관심이 증가하고 있다. 시스템에 축적된 질의응답 데이터를 기반으로 질의 토픽을 생성하고, 새로운 질의에 대해 토픽을 자동분류하기 위해서이다. 따라서 본 연구에서는 새로운 질의 토픽을 자동분류 할 수 있도록 LDA기법을 활용한 토픽 모델링을 제안하고자 한다. 이를 바탕으로 질의 토픽 사전을 생성하고 새로운 질의에 대해 토픽을 자동분류 할 수 있다. 일부 질의에서는 0.7 이상의 높은 자동 분류를 보였으며, 새로운 질의가 여러 토픽에 포함될수록 좀 더 좋은 자동분류 결과를 보였다.

토픽 모델링을 이용한 유사 시청 사용자 그룹핑 및 TV 프로그램 추천 알고리듬 (Topic modeling based similar user grouping and TV program recommendation for Smart TV)

  • 표신지;김은희;김문철
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2012년도 하계학술대회
    • /
    • pp.117-120
    • /
    • 2012
  • 본 논문에서는 토픽 모델링 기반 TV 프로그램 유사 시청 사용자 그룹핑 및 이를 이용한 TV 프로그램 콘텐츠 추천 알고리듬을 제안하였다. 제안 기술은 토픽 모델링 기법 중 Latent Dirichlet Allocation(LDA) 방법을 이용하여 TV프로그램 시청 기록 내에서 은닉된 유사 사용자들을 그룹핑하고 이러한 유사 시청 사용자 그룹 정보를 이용하여 사용자에게 선호 TV 프로그램 콘텐츠를 자동으로 추천하는 알고리듬이다. 제안된 자동 추천 알고리듬의 성능평가를 위해 실제 TV 시청기록 데이터를 이용하여 훈련 기간과 검증 기간을 나누어 훈련 기간 동안 제안한 알고리듬을 이용하여 사용자 개인에 대한 추천 TV 프로그램 콘텐츠 목록을 생성하여 검증 기간 동안에 실제 추천된 TV프로그램을 얼마나 시청했는지를 측정하여 추천 정확도를 검증하였다.

  • PDF

4차 산업혁명의 주요 이슈 분석

  • 전정환
    • 한국기술혁신학회:학술대회논문집
    • /
    • 한국기술혁신학회 2017년도 춘계학술대회 논문집
    • /
    • pp.69-69
    • /
    • 2017
  • ${\Box}$ 연구목적: 4차 산업혁명의 주요 이슈 분석 ${\bullet}$ 4차 산업혁명시대에 인공지능, 자율주행, 무인운송, 3D 프린터, 스마트팩토리..등 다양한 이슈가 등장 ${\bullet}$ 어떠한 이슈들이 있는지 분석하고자 함 ${\Box}$ 연구방법론: 빅데이터 분석기법 중에서 토픽 모델링을 활용 ${\Box}$ 연구데이터: 2013년1월부터 2017년3월까지 4차 산업혁명 관련 신문 기사 활용.

  • PDF

토픽 모델링을 활용한 한국콘텐츠학회 논문지 연구 동향 탐색 (An Exploratory Research Trends Analysis in Journal of the Korea Contents Association using Topic Modeling)

  • 석혜은;김수영;이연수;조현영;이수경;김경화
    • 한국콘텐츠학회논문지
    • /
    • 제21권12호
    • /
    • pp.95-106
    • /
    • 2021
  • 본 연구의 목적은 한국콘텐츠학회 논문지에 게재된 9,858건의 논문을 대상으로 토픽 모델링을 활용하여 지난 20년간 연구동향을 탐색함으로써 콘텐츠 연구개발에서의 주요 토픽을 도출하고 학술적 발전방향을 제공하는데 있다. 추출된 토픽의 신뢰성과 타당성을 확보하기 위해 양적 평가기법 뿐만 아니라 정성적 기법을 단계적으로 적용하여 연구자들이 합의한 수준의 말뭉치가 생성될 때까지 이를 반복적으로 수행하였으며 이에 따른 구체적인 분석 절차를 제시하였다. 분석 결과 8개의 핵심 토픽이 추출되었다. 이는 한국콘텐츠학회가 특정 학문 분야를 한정하지 않고 다양한 분야의 융·복합 연구 논문을 발간하고 있음을 보여준다. 또한 2012년 이전 상반기에는 공학기술 분야 토픽 비중이 상대적으로 높게 나타난 반면, 2012년 이후 하반기에는 사회과학 분야 토픽 출현 비중이 상대적으로 높게 나타났다. 구체적으로 '사회복지' 토픽은 상반기 대비 하반기에 약 4배수 증가세가 나타났다. 토픽별 추세분석을 통해 추세선의 변곡점이 나타난 특정 시점에 주목하여 해당 토픽의 연구동향에 영향을 미친 외적 변인을 탐색하였고 토픽과 외적 변인 간 관련성을 파악하였다. 본 연구결과가 국내 콘텐츠 관련 연구 개발 및 산업 분야에서 진행되고 있는 활발한 논의를 진행하는데 시사점을 제공할 수 있기를 기대한다.

토픽모델링을 이용한 도시 분야 연구동향 분석 (An Analysis of the Research Trends for Urban Study using Topic Modeling)

  • 장선영;정승현
    • 한국산학기술학회논문지
    • /
    • 제22권3호
    • /
    • pp.661-670
    • /
    • 2021
  • 연구동향은 시기별 연구주제에 대한 중요도 판단과 부족한 연구 분야를 파악하고 신규 분야를 발굴하는데 유용하게 활용될 수 있다. 본 연구에서는 인구집중과 도시화로 인해 다양한 문제가 발생하고 있는 도시공간을 대상으로 한 논문들을 대상으로 시기별 연구동향을 분석하였다. 이를 위해 2002년부터 2019년 사이에 게재된 한국학술지인용색인(KCI)에 등재된 논문의 초록을 대상으로 데이터마이닝 기법 중 하나인 토픽모델링 분석을 수행하였다. 토픽모델링은 전체 내용에서 일정한 패턴을 발견해낼 수 있는 알고리즘 기반의 텍스트마이닝 기법으로 방대한 문헌에서 주제를 찾아내고 군집하는데 용이하다. 본 연구에서는 키워드 빈도, 연도별 경향, 토픽 도출, 토픽별 군집, 토픽유형별 경향에 대한 분석을 실시하였다. 그 결과 먼저 도시재생 분야연구가 지속적으로 증가되고 있고 앞으로도 세부 주제가 확대될 수 있는 분야로 분석되었다. 그리고 도시재생 주제는 이제 정규 연구분야로 자리 잡고 있는 것으로 파악되었다. 반면, 개발/성장과 에너지/환경과 같은 주제는 정체기에 들어간 것으로 분석되었다. 본 연구는 국내 전체 도시분야 연구를 대상으로 데이터마이닝 기법인 토픽모델링을 이용하여 키워드 간 연관성과 경향을 함께 분석하였다는 데 의의가 있다.

텍스트마이닝을 활용한 연구동향 분석: 소셜네트워크서비스를 중심으로 (Research Trends Investigation Using Text Mining Techniques: Focusing on Social Network Services)

  • 윤혜진;김창식;곽기영
    • 디지털콘텐츠학회 논문지
    • /
    • 제19권3호
    • /
    • pp.513-519
    • /
    • 2018
  • 본 연구의 목적은 소셜네트워크서비스 주제에 관한 연구동향을 조사하는 것이다. 연구의 목적을 달성하기 위해서 웹오브사이언스 데이터베이스에서 제목에 'Social Network Service(SNS)'를 포함하는 1994년부터 2016년까지 출판된 논문 초록 308편을 분석 하였다. 본 연구에서는 텍스트마이닝 기법 중에서 최근 많이 적용되는 토픽모델링기법을 활용하였다. 토픽모델링 분석결과 20개의 토픽(신뢰, 지지, 만족 모델, 조직 지배구조, 모바일 시스템, 인터넷 마케팅, 대학생 효과, 의견 확산, 고객, 정보보호, 건강관리, 웹 협업, 방법, 학습 효과, 지식, 개인 이론, 아동 지지, 알고리즘, 미디어 참여, 문맥 시스템)이 도출되었다. 또한 시계열회귀분석 결과 모든 토픽은 상승 추세로 나타났다.

텍스트 마이닝을 이용한 4차 산업 연구 동향 토픽 모델링 (Topic Modeling on Research Trends of Industry 4.0 Using Text Mining)

  • 조경원;우영운
    • 한국정보통신학회논문지
    • /
    • 제23권7호
    • /
    • pp.764-770
    • /
    • 2019
  • 본 연구에서는 "4차 산업"과 관련된 논문들의 세부 연구 주제를 파악하기 위하여 텍스트 마이닝 기법을 이용하여 논문들을 분석하였다. 이를 위하여 2016년부터 2019년까지 한국학술지인용색인(KCI)에서 "4차 산업"이라는 키워드로 논문을 검색하여 총 685편의 논문을 수집하였다. 논문 수집을 위해서는 Python 기반의 웹 스크랩핑 프로그램을 사용하였으며, 자료 분석을 위해서는 R 언어로 구현된 LDA 알고리즘 기반의 토픽 모델링 기법들을 활용하였다. 수집된 논문들에 대한 Perplexity 분석 결과, 9가지 토픽이 최적으로 결정되었고 수집된 논문들의 9가지 대표 토픽들을 Gibbs 샘플링 방법을 사용하여 추출하였다. 분석 결과, 인공지능, 빅데이터, 사물인터넷, 디지털, 네트워크 등이 상위 주요 기술들로 나타났으며, 산업, 정부, 교육 현장, 일자리 등 4차 산업과 관련한 다양한 분야에서 주요 기술들로 인한 변화에 대한 연구들이 이루어져 왔음을 확인할 수 있었다.

LDA 토픽모델링을 활용한 인공지능 관련 국가R&D 연구동향 분석 (A Study on Analysis of national R&D research trends for Artificial Intelligence using LDA topic modeling)

  • 양명석;이성희;박근희;최광남;김태현
    • 인터넷정보학회논문지
    • /
    • 제22권5호
    • /
    • pp.47-55
    • /
    • 2021
  • 특정 주제분야에 대한 연구동향 분석은 대부분 논문, 특허 등 문헌정보를 대상으로 한 키워드 추출을 통해 토픽모델링 기법을 적용하여 주요 연구주제와 연도별 추이 등을 살펴보는 방식을 활용하고 있다. 본 논문에서는 국가과학기술지식정보서비스(NTIS)에서 제공하는 인공지능 관련 국가연구개발사업 과제정보를 대상으로 LDA(Latent Dirichlet Allocation) 토픽모델링 기법을 활용하여 연구주제와 관련된 토픽들을 추출·분석하여 국가연구개발사업에 대한 연구주제와 투자방향에 대하여 분석하고자 한다. NTIS는 국가연구개발사업·과제정보를 비롯하여, 논문, 특허, 보고서 등 연구를 통해 생성된 주요 연구개발성과에 이르기까지 방대한 양의 국가R&D 정보를 제공하고 있다. 본 논문에서는 NTIS 통합검색에서 인공지능 키워드와 관련된 분류 검색을 수행하여 검색결과를 확인하고, 최근 3개년 과제정보를 다운로드 받아 기초데이터를 구축하였다. 파이썬에서 제공하는 LDA 토픽모델링 라이브러리를 활용하여 기초데이터 (연구목표, 연구내용, 기대효과, 키워드 등)를 대상으로 관련 토픽과 주제어를 추출하고 분석하여 연구투자방향에 대한 인사이트를 도출하였다.

토픽모델링을 이용한 국내 패션디자인 연구동향 분석 (Research Trend Analysis in Fashion Design Studies in Korea using Topic Modeling)

  • 장남경;김민정
    • 디지털융복합연구
    • /
    • 제15권6호
    • /
    • pp.415-423
    • /
    • 2017
  • 본 연구는 국내 패션 디자인 분야의 연구동향을 파악하기 위해 패션 디자인 분야에 초점을 맞춘 국내 대표적인 학술지인 "한국패션디자인학회지"의 2001년 창간호부터 2015년까지 발표 논문의 주제어와 초록을 수집하여 텍스트 마이닝과 토픽모델링 기법을 수행하였다. 우선 텍스트 마이닝을 통해 총 338편 논문의 주제어와 초록에 사용된 7137개 단어 중 30회 이상의 출현빈도를 가지는 183개의 핵심 용어들을 도출하였다. 그 중 압도적으로 높은 빈도를 보인 핵심 용어는 'fashion'과 'design'이었다. 다음으로 토픽모델링 기법 중 LDA 알고리즘을 사용하여 20개의 연구주제를 도출하였는데 대부분 기존 패션 디자인 분야의 연구주제와 연결할 수 있었지만 패션 브랜드 마케팅 및 디지털 기술 등 최신 트렌드를 반영한 다양한 연구주제들이 추가적으로 발견되었다. 마지막으로 연구주제별로 연도별 트렌드 분석을 통해 상승세와 하강세에 있는 연구주제를 구분하였다. 이러한 국내 패션 디자인 분야의 연구주제 및 트렌드 추이 파악은 지금까지의 국내패션 디자인 연구 내용과 향후 방향성을 이해하는데 유용할 것이다.

토픽 모델링을 이용한 사운드스케이프 연구 주제어 분석 (Analysis on Topics in Soundscape Research based on Topic Modeling)

  • 최수환
    • 한국콘텐츠학회논문지
    • /
    • 제19권7호
    • /
    • pp.427-435
    • /
    • 2019
  • 사운드스케이프(soundscape)는 소리를 통해 문화와 환경, 사회적 변화를 이해하는데 중요한 역할을 하는 자료이지만, 자료의 기록, 보존, 분류, 분석을 위한 체계적인 연구 프레임워크의 구축은 아직 초기 단계에 있다. 토픽 모델링(topic modeling)은 문서에 숨겨져 있는 테마 구조를 드러내주는 알고리즘으로 연구 동향 분석과 같이 대량의 문서에 내재된 주제어를 찾아내기에 적합한 기법이다. 본 연구에서는 사운드스케이프 연구 분야의 대표적 학술지인 의 논문을 토픽 모델링 기법으로 분석하여 사운드스케이프 연구 동향을 파악할 수 있는 주제어를 도출해 보고, 이를 사운드스케이프 온톨로지(Soundscape Ontology) 및 사운드 아카이브의 메타데이터 설계 시 활용할 수 있는 방안에 대해 살펴보고자 한다. 이는 향후 시맨틱 웹 기술인 링크드 데이터(Linked Data) 기반의 사운드스케이프 아카이브 구축을 위한 메타데이터 설계의 기초 연구가 될 것이다.