• 제목/요약/키워드: 나이브 베이스 알고리즘

검색결과 12건 처리시간 0.016초

자동문서분류를 위한 텐서공간모델 기반 심층 신경망 (A Tensor Space Model based Deep Neural Network for Automated Text Classification)

  • 임푸름;김한준
    • 데이타베이스연구회지:데이타베이스연구
    • /
    • 제34권3호
    • /
    • pp.3-13
    • /
    • 2018
  • 자동문서분류(Text Classification)는 주어진 텍스트 문서를 이에 적합한 카테고리로 분류하는 텍스트 마이닝 기술 중의 하나로서 스팸메일 탐지, 뉴스분류, 자동응답, 감성분석, 쳇봇 등 다양한 분야에 활용되고 있다. 일반적으로 자동문서분류 시스템은 기계학습 알고리즘을 활용하며, 이 중에서 텍스트 데이터에 적합한 알고리즘인 나이브베이즈(Naive Bayes), 지지벡터머신(Support Vector Machine) 등이 합리적 수준의 성능을 보이는 것으로 알려져 있다. 최근 딥러닝 기술의 발전에 따라 자동문서분류 시스템의 성능을 개선하기 위해 순환신경망(Recurrent Neural Network)과 콘볼루션 신경망(Convolutional Neural Network)을 적용하는 연구가 소개되고 있다. 그러나 이러한 최신 기법들이 아직 완벽한 수준의 문서분류에는 미치지 못하고 있다. 본 논문은 그 이유가 텍스트 데이터가 단어 차원 중심의 벡터로 표현되어 텍스트에 내재한 의미 정보를 훼손하는데 주목하고, 선행 연구에서 그 효능이 검증된 시멘틱 텐서공간모델에 기반하여 심층 신경망 아키텍처를 제안하고 이를 활용한 문서분류기의 성능이 대폭 상승함을 보인다.

대학생 중도탈락 예방을 위한 기계 학습 기반 추천 시스템 구현 방안 (Implementation of a Machine Learning-based Recommender System for Preventing the University Students' Dropout)

  • 정도헌
    • 한국융합학회논문지
    • /
    • 제12권10호
    • /
    • pp.37-43
    • /
    • 2021
  • 본 연구는 대학생의 중도탈락 패턴을 식별하는 효과적인 자동 분류 기법을 제안하고, 이를 바탕으로 중도탈락을 예방하기 위한 지능형 추천 시스템의 구현 방안을 제시하는 것을 목표로 한다. 이를 위해 1) 실제 대학생의 재학/제적 데이터를 기반으로 기계 학습의 성능을 향상시킬 수 있는 데이터 처리 방안을 제안하고, 2) 5종의 기계학습 알고리즘을 이용하여 성능 비교 실험을 실시하였다. 3) 실험 결과, 제안 기법이 베이스라인에 비해 모든 알고리즘에서 우수한 성능을 보여주었다. 제적생의 식별 정확률(precision)은 랜덤 포레스트(Random Forest)를 사용할 때 최대 95.6%, 제적생의 재현율(recall)은 나이브 베이즈(Naive Bayes)를 사용할 때 최대 80.0%로 측정되었다. 4) 마지막으로, 실험 결과를 바탕으로 중도탈락 가능성이 높은 학생을 우선 상담하는 추천 시스템의 활용 방안을 제시하였다. 교육 현안 문제를 해결하기 위해 IT 분야의 기술을 활용하는 융합 연구를 통해 합리적인 의사결정을 수행할 수 있음을 확인하였으며 향후 지속적인 연구를 통해 다양한 인공지능 기술을 적용하고자 한다.