• Title/Summary/Keyword: 나이브 베이즈 분류

Search Result 71, Processing Time 0.029 seconds

Automatic Classification of Blog Posts (블로그 포스트의 자동 분류 시스템)

  • Jho, Hee-Sun;Kim, Su-Ah;Lee, Hyun-Ah
    • Annual Conference on Human and Language Technology
    • /
    • 2013.10a
    • /
    • pp.160-162
    • /
    • 2013
  • 편리한 블로그 사용과 블로그에서의 정보 탐색을 위해서는 내용에 기반한 분류가 필요하다. 대부분의 블로그 사이트에서는 내용 기반 분류를 제공하고 있으나, 블로거들은 자신이 작성한 블로그에 대한 수동 분류를 입력하지 않는 경우가 많다. 본 논문에서는 분류가 제공되는 블로그 사이트에서 각 분류별 문서를 수집하고, 어휘빈도와 문서빈도, 분류별 빈도를 활용하여 문서 내 어휘의 자질 가중치를 부여하고, 다양한 학습기를 이용하여 분류 모델을 생성한 뒤 블로그의 특성에 적합한 자질 추출 알고리즘과 분류 알고리즘을 찾아낸다. 실험에서는 본 논문에서 고안한 CTF-IECDF와 나이브 베이즈 멀티노미얼로 조합한 분류 모델이 75.40%의 분류 정확률을 보였다.

  • PDF

Fast Fingerprint Classification Using the Probabilistic Integration of Structural Features (구조적 특징의 확률적 결합을 이용한 빠른 지문 분류)

  • Cho Ung-Keun;Hong Jin-Hyuk;Cho Sung-Bae
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.07b
    • /
    • pp.757-759
    • /
    • 2005
  • Henry의 지문분류법이 창안된 후, 지문분류에 대한 여러 가지 접근 방법이 연구되고 있다. 특이점에 의한 분류는 가장 많이 연구되고 있는 방법이지만, 지문영상의 품질에 민감하기 때문에 정확한 분류가 쉽지 않다. 의사 융선은 특이점과 더불어 지문을 분류하기 위한 특징으로, 특이점의 불완전함을 보완하는데 이용한다. 본 논문에서는 나이브 베이즈 분류기를 이용하여 특이점과 의사 융선 정보의 확률적인 분류 방법을 제안한다. NIST DB 4에 대해 제안하는 방법을 실험한 결과 5클래스 분류에 대해 $85.4\%$의 분류율을 획득하였으며, 제안하는 방법이 신경망, 최근접 이웃에 의한 분류에 비해 더 빠르다는 것을 확인하였다.

  • PDF

Performance Comparison by Combining CNN with Various Classification Methods (CNN과 다양한 분류 방법의 결합에 의한 성능 비교)

  • Han, Jung-Soo;Kwak, Keun-Chang
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2016.10a
    • /
    • pp.609-610
    • /
    • 2016
  • 본 논문에서는 컨볼루션 신경회로망(CNN: Convolutional Neural Network)과 다양한 분류기들의 결합을 통해 분류성능을 비교하고자 한다. 현재 일반적인 분류기로 알려진 것은 나이브 베이즈(Naive bayes), 트리(Tree), 판별 분석(Discriminant Analysis), 서포트 벡터 머신(SVM: Support Vector Machine) 등이 존재한다. 분류기들은 각각 다른 원리로 분류하기 때문에, 각각 성능을 비교해볼 필요가 있다. 분류기들의 성능을 비교하기 위한 사용한 데이터는 CNN에서 자주 사용되고 있는 MNIST 데이터를 사용하였다. 실험 결과로는 CNN에 선형 SVM을 결합하여 사용한 것이 분류율과 분류속도 측면에서 다른 분류기들의 성능보다 좋은 성능을 보이는 것을 확인할 수 있었다.

Comparison of Performance for Korean E-mail Filtering using Bayesian Classifier (한글 전자메일에 대한 베이지언 필터의 성능비교)

  • Lee, Chang-Beom;Kim, Ji-Soo;Kim, Soo-Hyung;Park, Hyuk-Ro
    • Annual Conference on Human and Language Technology
    • /
    • 2004.10d
    • /
    • pp.214-219
    • /
    • 2004
  • 전자 메일은 매우 많은 사람들이 사용하는 편리하고 효율적인 통신 수단이다. 그러나 전자메일 주소를 쉽게 획득할 수 있다면 점을 악용하기 때문에 사용자가 원하지 않는 메일 즉 스팸 메일에 대한 문제가 심각해지고 있다. 이러한 스팸 메일을 자동으로 분류해주는 스팸 필터는 주로 영어를 대상으로 하고 있으며, 규칙 기반 필터링보다는 통계적 학습을 통한 필터링 방법을 주로 사용하고 있다. 본 논문에서는 베이즈 정리를 기반으로 하는 3가지 분류 알고리즘을 한글 전자메일을 대상으로 하여 스팸 메일 특히 음란성 메일을 분류하는데 있어 그 성능을 평가하고자 한다. 실험 결과, 단어의 스팸일 확률만을 이용하는 방법이 나이브 베이즈 알고리즘이나 m-estimate를 이용하는 방법보다는 성능이 우수함을 알 수 있었다 특히, 단어의 스팸일 확률만을 이용하는 방법은 false positive rate를 0%로 유지하면서도 다른 방법들보다는 필터링을 잘 해내고 있음을 확인할 수 있었다. 그리고, 자질 선정에서는 명사나 명사/형용사를 사용할 경우에 그 에러율이 가장 적었다.

  • PDF

Learning Bayesian Networks for Text Documents Classification (텍스트 문서 분류를 위한 베이지안망 학습)

  • 황규백;장병탁;김영택
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.04b
    • /
    • pp.262-264
    • /
    • 2000
  • 텍스트 문서 분류는 텍스트 형태로 주어진 문서를 종류별로 구분하는 작업으로 웹페이지 검색, 뉴스 그룹 검색, 메일 필터링 등이 분야에 응용될 수 있는 기반 작업이다. 지금까지 문서를 분류하는데는 k-NN, 신경망 등 여러 가지 기계학습 기법이 이용되어 왔다. 이 논문에서는 베이지안망을 이용해서 텍스트 문서 분류를 행한다. 베이지안망은 다수의 변수들간의 확률적 관계를 표현하는 그래프 모델로 DAG 형태인 망 구조와 각 노드에 연관된 지역확률분포로 구성된다. 그래프 모델을 사용할 경우 학습에 이용되는 각 속성들간의 관계를 사람이 알아보기 쉬운 형태로 학습할 수 있다는 장점이 있다. 실험 데이터로는 Reuters-21578 문서분류데이터를 이용했으며 베이안망의 성능은 나이브 베이즈 분류기와 비슷했다.

  • PDF

Variational Bayesian multinomial probit model with Gaussian process classification on mice protein expression level data (가우시안 과정 분류에 대한 변분 베이지안 다항 프로빗 모형: 쥐 단백질 발현 데이터에의 적용)

  • Donghyun Son;Beom Seuk Hwang
    • The Korean Journal of Applied Statistics
    • /
    • v.36 no.2
    • /
    • pp.115-127
    • /
    • 2023
  • Multinomial probit model is a popular model for multiclass classification and choice model. Markov chain Monte Carlo (MCMC) method is widely used for estimating multinomial probit model, but its computational cost is high. However, it is well known that variational Bayesian approximation is more computationally efficient than MCMC, because it uses subsets of samples. In this study, we describe multinomial probit model with Gaussian process classification and how to employ variational Bayesian approximation on the model. This study also compares the results of variational Bayesian multinomial probit model to the results of naive Bayes, K-nearest neighbors and support vector machine for the UCI mice protein expression level data.

An Auto-blogging System based Context Model for Micro-blogging Service (마이크로 블로깅 서비스를 지원하기 위한 컨텍스트 모델 기반 자동 블로깅 시스템)

  • Park, Jae-Min;Lee, Sang-Yong
    • Journal of Digital Convergence
    • /
    • v.10 no.4
    • /
    • pp.341-346
    • /
    • 2012
  • Social network service is service that enables the human network to be built up on web. It is important to record users' information simply and establish the network with people based on the information to provide with the social network service effectively. But it is very troublesome work for the user to input his or her own information on the mobile environment. In this paper we suggested a system which classifies users' behavior using context and creates blogging sentences automatically after inferring the destination. For this, users' behavior is classified and the destination is inferred with the sequence matching method using Naive Bayes classification. Then sentences which are suitable for situation is created by arranging the processed context using the structure of 5W1H. The system was evaluated satisfaction degree by comparing the created sentences based on actually collected data with users' intension and got accuracy rate of 88.73%.

Automatic Construction and Evaluation of Movie Domain Korean Sentiment Dictionary (영화도메인 한국어 감성사전의 자동구축과 평가)

  • Cho, Heeryon;Choi, Sang-Hyun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2015.04a
    • /
    • pp.585-587
    • /
    • 2015
  • 본 연구에서는 네이버 영화평을 학습데이터로 사용하여 영화평 감성분류에 필요한 감성사전을 자동으로 구축하는 방법에 대해 제안한다. 이 때 학습데이터의 분량과 긍정/부정 영화평의 비율을 달리하여 네 가지의 학습데이터를 마련하고, 각 경우에 대하여 감성사전과 나이브베이즈(이하, NB) 분류기를 구축한 후, 이 둘의 성능을 비교했다. 네 종류의 학습데이터로 구축한 감성사전과 NB 분류기를 이용하여 영화평 감성 자동분류 성능을 비교한 결과, 네 경우의 평균 균형정확도는 감성사전이 78.2%, NB 분류기가 66.1%였다.

Automatic Classification of Product Data for Natural General-purpose O2O Application User Interface (자연스러운 범용 O2O 애플리케이션 사용자 인터페이스를 위한 상품 정보 자동 분류)

  • Lee, Hana;Lim, Eunsoo;Cho, Youngin;Yoon, Young
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2016.10a
    • /
    • pp.382-385
    • /
    • 2016
  • 본 논문은 현재 영역 별로 파편화된 여러 O2O(Online to Offline) 서비스들을 통합적으로 제공하기 위해 자연어를 통한 NUI(Natural User Interface)를 개발하여 사용자가 명시한 상품 정보의 항목을 자동으로 분류하고자 한다. 이를 위해 e-commerce 도메인 정보 학습에 적합한 나이브 베이즈 분류(Naive Bayes Classifier) 알고리즘을 사용한다. 학습에는 미국 e-commerce 사이트 Groupon의 상품 정보와 분류 체계를 사용하며, 학습 데이터의 특징을 분석하여 상품 정보에 특화된 학습 데이터 정제 및 TF-IDF(Term Frequency-Inverse Document Frequency)를 통한 단어 별 가중치를 적용하여 알고리즘의 정확도를 향상시킨다.

A Study on Classification Models for Predicting Bankruptcy using XAI (XAI 를 활용한 기업 부도예측 분류모델 연구)

  • Kim, Jihong;Moon, Nammee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2022.11a
    • /
    • pp.571-573
    • /
    • 2022
  • 최근 금융기관에서는 축적된 금융 빅데이터를 활용하여 차별화된 서비스를 강화하고 있다. 기업고객에 투자하기 위해서는 보다 정밀한 기업분석이 필요하다. 본 연구는 대만기업 6,819개의 95개 재무데이터를 가지고, 비대칭 데이터 문제해결, 데이터 표준화 등 데이터 전처리 작업을 하였다. 해당 데이터는 로지스틱 회기, SVM, K-NN, 나이브 베이즈, 의사결정나무, 랜덤포레스트 등 9가지 분류모델에 5겹 교차검증을 적용하여 학습한 후 모델 성능을 비교하였다. 이 중에서 성능이 가장 우수한 분류모델을 선택하여 예측 결정 이유를 판단하고자 설명 가능한 인공지능(XAI)을 적용하여 예측 결과에 대한 설명을 부여하여 이를 분석하였다. 본 연구를 통해 데이터 전처리에서부터 모델 예측 결과 설명에 이르는 분류예측모델의 전주기를 자동화하는 시스템을 제시하고자 한다.