• 제목/요약/키워드: LDA기법

검색결과 212건 처리시간 0.031초

LDA 모델을 이용한 잠재 키워드 추출 (Latent Keyphrase Extraction Using LDA Model)

  • 조태민;이지형
    • 한국지능시스템학회논문지
    • /
    • 제25권2호
    • /
    • pp.180-185
    • /
    • 2015
  • 인터넷 미디어의 발달과 함께 온라인 문서의 양이 급격하게 증가함에 따라, 문서 요약과 정보 검색 등 다양한 분야에 활용가능한 키워드를 자동으로 찾고자하는 연구가 활발히 진행되고 있다. 하지만 기존의 키워드 추출 연구들은 문서에서 나타나는 키워드만을 대상으로 하고 있어, 문서에서 등장하지 않는 잠재 키워드를 추출하지 못하는 한계를 갖고 있다. 잠재 키워드는 실데이터 키워드의 1/4 이상을 차지하고 있으며, 문서에서 나타나지는 않지만 문서의 중요한 개념이나 내용을 함축하고 있어 문서 요약 및 정보 검색에 중요한 역할을 차지할 수 있다. 특히 SNS와 같이 내용이 적어 키워드가 명시적으로 나타나기 어려운 문서에서 유용하게 활용될 수 있다. 본 논문에서는 잠재 키워드를 추출하기 위해 주어진 문서와 유사한 문서의 키워드를 후보 키워드로 선택하고 후보 키워드를 구성하는 개별 단어들을 이용해 후보 키워드의 중요도를 평가하는 방법을 제안한다. 실험을 통해, 제안 기법이 잠재 키워드를 합리적인 수준으로 추출할 수 있음을 보였다.

토픽모델링 분석 기법을 활용한 국내외 금융보안 분야 연구동향 분석 (Analysis of Domestic and Foreign Financial Security Research Activities and Trends through Topic Modeling Analysis)

  • 채호근;이기현;이주연
    • 한국산업정보학회논문지
    • /
    • 제26권1호
    • /
    • pp.83-95
    • /
    • 2021
  • 본 연구에서는 금융보안 분야의 핵심 연구분야를 도출하고, 방향성을 제시하기 위하여 토픽모델링을 통해 국내외 주요 연구 동향 비교분석을 수행하였다. 이를 위해, 학술저널에서 국내외 논문 데이터를 수집하였으며 LDA 분석을 통해 금융보안 관련 주요 연구분야를 1차 추출하였다. 이후 주요 연구분야의 시계열 선형회귀 분석을 통해 Hot & Cold 토픽을 도출하였다. 분석결과 국내의 경우 유망연구 분야로는 정부의 정책적 이슈와 개인정보 및 공인인증 관련 연구가 도출되었으며, 국외의 경우 암호 프로토콜과 양자보안 등 고도의 보안 시스템 개발을 위한 관련 연구가 도출되었다. 최근 국내에서도 공인인증 폐지함에 따라 다양한 보안기술의 적용이 가능해지고, 이를 위한 유망연구 분야의 변화가 예상된다. 이에 본 연구의 결과물이 국내 금융보안 분야의 성공적 로드맵 수립 및 개발에 기여될 수 있기를 기대한다.

토픽모델링을 활용한 대학생의 중도탈락 데이터 분석 (Data Analysis of Dropouts of University Students Using Topic Modeling)

  • 정도헌;박주연
    • 한국정보통신학회논문지
    • /
    • 제25권1호
    • /
    • pp.88-95
    • /
    • 2021
  • 본 연구의 목적은 대학생의 중도탈락 현상 데이터를 실증적으로 분석하여 대학의 학생지원정책을 수립하기 위한 시사점을 제공하는 데 있다. 이를 위해 D대학의 2017~2019년 입학생 데이터를 토픽모델링 LDA(Latent Dirichlet Allocation)를 활용하여 재학생과 제적생으로 나누어 분석하였다. 연구결과 제적생에서 특징있게 나타난 토픽은 '학적'관련하여 '학기등록 1회', '전공'관련하여 '어문계열학과', '학점'관련하여 '학사경고'이고, '대학생활'관련하여 '비교과 프로그램'에 대한 토픽은 나타나지 않았다. 다음으로 '재학생 토픽'과 '제적생 토픽'의 상호 식별 성능을 측정한 결과, SVM(Support Vector Machines)이 가장 우수한 식별 성능을 보여주었다. 이러한 실험을 통해 기계학습을 활용한 인공지능 기반의 학생 데이터 분류 기법 연구의 가능성을 확인할 수 있었다.

토픽모델링을 통한 북한의 경제정책 동향 분석 (The Analysis of North Korea's Economic Policy Trends through Topic Modeling)

  • 강경화
    • 스마트미디어저널
    • /
    • 제9권4호
    • /
    • pp.44-51
    • /
    • 2020
  • 1990년대 중후반 이래 북한경제에 많은 변화가 나타나는 것은 분명하다. 2012년 김정은 집권 이후 그 변화는 더욱 뚜렷하게 나타나고 있기 때문에 시기별 경제정책 흐름을 추적하여 변화추이를 파악하는 데 논문의 목적이 있다. 본 논문에서는 텍스트마이닝 분석기법인 LDA 토픽모델링을 활용하여 북한에서 발간되는 경제 분야 대표문헌인 경제학술지 『경제연구』 논문을 분석한다. 『경제연구』에 게재된 논문을 기본 텍스트로 활용하여 북한 경제 전략과 정책변화를 파악한다. 북한에서 생산되는 경제 관련 학술지로 독보적 위치를 차지하고 있는 『경제 연구』에 대한 심층 분석은 북한 당국이 경제 관련 인식하고 있는 현실, 직면 하고 있는 한계, 대안 등을 추적하는데 필수적인 작업이라고 할 수 있다. 다양한 북한 경제 관련 논쟁 주제가 숨어있는 『경제연구』를 빅데이터를 통해 분석하여 북한 지도자의 경제정책 흐름을 살펴보고, 현 김정은 체제가 의도하는 '변화'의 내용을 분석한다.

인플루언서 속성 분석 기반 추천 시스템 (Influencer Attribute Analysis based Recommendation System)

  • 박정련;박지원;김민우;오하영
    • 한국정보통신학회논문지
    • /
    • 제23권11호
    • /
    • pp.1321-1329
    • /
    • 2019
  • 소셜 정보망의 발달로 마케팅의 방법도 다양하게 변화되고 있다. 기존의 유명인, 경제적 지원 기반의 성공적인 마케팅방법론과 달리, 최근 인플루언서 기반 유튜브 마케팅이 큰 대세를 이루고 있다. 본 논문 에서는 처음으로 유튜브 양적 정보 및 댓글분석 기반 다각도 질적 분석을 활용하여 54개 이상의 유튜브 채널에서 인플루언서 특징을 추출하고 대표적인 주제들을 모델링하여 개인 맞춤형 영상 만족도 극대화는 물론 기업체가 새로운 아이템을 마케팅 할 때 기존의 인플루언서 특징을 참고하여 새로운 아이템의 영상을 제작하고 배포함으로써 성공적인 홍보 효과를 누릴 수 있도록 보조 수단 제공을 목적으로 한다. 유튜브 채널 별 다양한 영상의 모든 댓글을 각 문서로 가정하고 TF-IDF 및 LDA알고리즘을 적용하여 성능 극대화 향상을 보였다.

LDA기반 토픽모델링을 활용한 공공데이터 기반의 교육용 데이터마이닝 연구 (A Study on Educational Data Mining for Public Data Portal through Topic Modeling Method with Latent Dirichlet Allocation)

  • 신승기
    • 정보교육학회논문지
    • /
    • 제26권5호
    • /
    • pp.439-448
    • /
    • 2022
  • 본 연구에서는 공공데이터포털에서 제공하는 교육관련 데이터를 검색하고 토픽모델링 기법을 활용한 분류를 통해 어떠한 데이터의 종류가 구축되어 있으며 활용이 가능한지를 살펴보고자 하였다. 공공데이터포털의 데이터에 대하여 분류체계를 기준으로 교육분야의 파일데이터는 3,072건이 수집되었으며, 검색어를 활용하여 '교육'을 검색하여 나타난 파일데이터 2,361건으로 나타났다. 각각의 데이터셋에 대하여 불용어처리를 실시하고 데이터 전처리를 수행하여 LDA기반 토픽모델링을 활용하여 텍스트마이닝 분석을 실시하였다. 사전에 교육으로 분류된 데이터셋에서는 현재 재학중인 학교급별 학생을 대상으로 지원하는 프로그램과 정보에 대한 내용이 제공되고 있었다. 한편, 교육으로 검색하여 수집된 데이터셋에서는 장애인, 학부모, 노인, 아동 등 평생교육의 관점으로 제공되는 교육 프로그램 및 지원현황이라는 특징이 나타났다. 데이터과학기반의 의사결정 및 문제해결력을 기르기 위해 공공데이터포털이 제공하는 데이터에서 교육과정 및 내용이 충분히 제공되는 것도 좋은 기회가 될 것이다.

토픽모델링 기반의 학교폭력 사례 유형 연구 (A Study on the Categorizes of School Bullying through Topic Modelling Method)

  • 신승기
    • 한국정보교육학회:학술대회논문집
    • /
    • 한국정보교육학회 2021년도 학술논문집
    • /
    • pp.181-185
    • /
    • 2021
  • 본 연구는 학교현장에서 지속적으로 강조되고 있는 학교폭력 예방을 위한 방안을 도출하기 위한 노력의 일환으로 최근의 학교폭력 관련 이슈화되고 있는 주제를 데이터과학의 관점으로 살펴보고자 하였다. 특히, 온라인 SNS데이터를 활용하여 학교폭력 관련 게시물을 크롤링하고 토픽모델링 방법을 활용하여 유형별 특징을 살펴보고자 하였다. 토픽모델링 분석을 통해 도출된 주제별 키워드를 유형별로 정리한 결과를 통해 대체로 학교폭력의 피해 예방과 가해자 처벌 및 조치사안에 대한 내용으로 크게 3가지의 내용으로 구분할 수 있었다. 첫째, 학교폭력 예방활동에 대한 내용으로서 학교폭력예방을 위한 전문 기구들의 역할에 대한 내용이다. 둘째, 학교폭력에 대한 조치사항과 절차에 대한 내용으로 도출되었다. 셋째, 학교폭력의 최근 현안에 대한 내용에 대해서 살펴볼 수 있었다. 추후 연구에서는 데이터기반의 예측을 기반으로 당면하고 있는 사회적 문제해결에 활용하는 연구가 수행될 필요가 있다.

  • PDF

뉴스 데이터 토픽 모델링을 활용한 COVID-19 대유행 전후의 클라우드 보안 동향 파악 (Topic Modeling to Identify Cloud Security Trends using news Data Before and After the COVID-19 Pandemic)

  • 이선우;이재우
    • 융합보안논문지
    • /
    • 제22권2호
    • /
    • pp.67-75
    • /
    • 2022
  • COVID-19 대유행으로 인해 많은 기업에서 재택근무를 도입했다. 하지만 재택근무 도입으로 기업의 민감한 정보에 접근하려는 공격 시도가 증가했고, 보안위협에 대응하기 위해 많은 기업에서 클라우드 서비스를 이용하기 시작했다. 본 연구는 COVID-19 대유행 전후의 국내 클라우드 보안 동향의 변화를 분석하기 위해 '클라우드 보안' 키워드로 뉴스 데이터를 수집하여 LDA 토픽 모델링 기법을 사용했다. COVID-19 대유행 전에는 국내 클라우드 보안에 대한 관심이 낮아 추출한 토픽에서 대표성이나 연관성을 찾을 수 없었다. 다만, 현재 많은 연구가 이뤄지는 IT기술인 AI, IoT, 블록체인을 위해서는 높은 컴퓨팅 성능을 위해 클라우드의 도입이 필요하다는 것을 분석할 수 있었다. 반면, COVID-19 대유행 이후 추출된 토픽을 보면 국내에서 클라우드에 대한 관심이 증가했고, 이에 따라 클라우드 보안에 대한 관심이 향상된 것을 확인했다. 따라서 앞으로 계속 증가할 클라우스 서비스 사용량에 대비한 보안 대책을 수립해야 할 것이다.

홍채인식을 위한 강건한 특징추출 방법 (Robust Feature Extract ion Methods for Iris Recognition)

  • 김기진;손병준;이일병
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.793-795
    • /
    • 2004
  • 본 논문에서는 웨이블릿 변환과 Direct LDA(DLDA)을 사용한 홍채 특징추출 방법을 제안한다. 이것은 획득한 홍채 영상으로부터 독특한 특징을 추출하기 위해 특별히 이차원 이산 웨이블릿 변환의 다중해상도 분해 방법을 사용하는 것이다 또한 홍채의 다양한 웨이블릿 성분으로부터 변별력을 가진 특징을 얻을 수 있도록 DLDA 기법을 적용하였다. 이러한 특징추출 방법은 이동이나 회전에 변하지 않는 알고리즘을 요구하는 홍채의 모양을 묘사하는데 적합하다. 홍채의 패턴정합을 위해서는 최근접 평균 분류기(Nearest Mean Classifier)를 사용하였다. 본 논문에서 인간의 홍채인식을 위해 제시한 방법이 홍채패턴을 표현하는 효과적인 방법이며, 시간 및 공간의 절약이라는 측면에서 유리하다는 것을 보여준다.

  • PDF

빅데이터 분석을 통한 트렌드 파악 및 사용자 맞춤 도서 추천 (A Trend Analysis and Book Recommendation through Bigdata Analysis)

  • 윤경서;강승식
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.363-364
    • /
    • 2023
  • 카테고리별 베스트셀러를 통해 트렌드 파악 및 사용자 맞춤형 도서 추천을 위해 카테고리별로 도서 데이터를 수집하고, 대용량 데이터인 위키피디어 데이터를 이용하여 워드임베딩 모델을 구축한다. 도서 데이터에 대한 키워드 분석 및 LDA 주제분석 기법에 의해 카테고리별 핵심 단어 분석을 통해 도서 트렌드를 파악하고, 사용자 맞춤형 도서 정보 제공 및 도서를 추천하는 기능을 구현한다.