• 제목/요약/키워드: naive bayesian

Search Result 118, Processing Time 0.028 seconds

소셜미디어 감성분석을 위한 베이지안 속성 선택과 분류에 대한 연구 (Investigating the Performance of Bayesian-based Feature Selection and Classification Approach to Social Media Sentiment Analysis)

  • 강창민;어균선;이건창
    • 경영정보학연구
    • /
    • 제24권1호
    • /
    • pp.1-19
    • /
    • 2022
  • 온라인 사용자들이 소셜 미디어상에 올린 온라인 리뷰 속 숨겨진 감정을 분석하는 감성분석은 소셜미디어의 확산에 힘입어 많은 관심을 받고 있다. 본 연구는 기존 연구들과 차별화된 방법으로 감성분석을 시도하기 위하여 베이지안 네트워크에 기반한 감성 분석 모델을 제안한다. 모델에는 MBFS(Markov Blanket-based Feature Selection)가 속성 선택 기법으로 사용된다. MBFS의 성과를 실증적으로 증명하기 위하여 소셜미디어인 Yelp의 리뷰 데이터를 활용하였다. 벤치마킹 속성 선택 기법으로는 상관관계기반 속성 선택, 정보획득 속성 선택, 획득비율 속성 선택을 사용하였다. 한편, 해당 속성선택방법을 토대로 4개의 머신러닝 알고리즘을 이용하여 분류성과를 비교하였다. 나아가 MBFS로 선택된 속성들 간 인과관계를 확인하고자 베이지안 네트워크를 통해 What-if 분석을 실시하였다. 본 연구에서 택한 머신러닝 분류기는 베이지안 네트워크 기반의 TAN (Tree Augmented Naive Bayes), NB (Naive Bayes), S-Spouses(Sons & Spouses), A-markov (Augmented Markov Blanket)이다. 성과분석 결과 본 연구에서 제안한 MBFS 방법이 정확도, 정밀도, F1점수 측면에서 벤치마킹 방법보다 더 우수한 성과를 나타내었다.

FCM 이산화를 이용한 스마트 홈에서 행동 모델링 (Intelligent Modeling of User Behavior based on FCM Quantization for Smart home)

  • 정우용;이제헌;윤숙현;조영완;김은태
    • 제어로봇시스템학회논문지
    • /
    • 제13권6호
    • /
    • pp.542-546
    • /
    • 2007
  • In the vision of ubiquitous computing environment, smart objects would communicate each other and provide many kinds of information about user and their surroundings in the home. This information enables smart objects to recognize context and to provide active and convenient services to the customers. However in most cases, context-aware services are available only with expert systems. In this paper, we present generalized activity recognition application in the smart home based on a naive Bayesian network(BN) and fuzzy clustering. We quantize continuous sensor data with fuzzy c-means clustering to simplify and reduce BN's conditional probability table size. And we apply mutual information to learn the BN structure efficiently. We show that this system can recognize user activities about 80% accuracy in the web based virtual smart home.

Reversible Jump MCMC와 베이지안망 학습에 의한 데이터마이닝 (Data Mining Using Reversible Jump MCMC and Bayesian Network Learning)

  • 하선영;장병탁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (2)
    • /
    • pp.90-92
    • /
    • 2000
  • 데이터마이닝 문제는 데이터를 그 속성들에 따라 분류하여 예측하는 것뿐만 아니라 분류된 속성들간의 연관성에 대해 잘 설명할 수 있어야 한다. 일반적으로 변수들간의 연관성을 잘 설명할 수 있으면서도 높은 예측력을 가지는 방법으로는 베이지안 네트웍 분류자(Bayesian network classifier)가 있다. 그러나 이것은 데이터 마이닝과 같은 대용량 데이터에서는 성능이 떨어지는 단점이 있다. 이에 이 논문에서는 최근 RBF 신경망이 입력변수 선정문제에 성공적으로 적용된 Reversible Jump Markov Chain Monte Carlo 방법을 이용하여 최적의 입력변수들만을 선택하여 베이지안 네트웍을 학습하는 Selective BN Augmented Naive-Bayes Classifier를 새로운 방안으로 제안하고 이를 실제 데이터마이닝 문제에 적용한 결과를 제시한다.

  • PDF

나이브 베이지안 분류기를 이용한 이상전파에코 식별방법에 대한 연구 (A Study on Anomalous Propagation Echo Identification using Naive Bayesian Classifier)

  • 이한수;김성신
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2016년도 춘계학술대회
    • /
    • pp.89-90
    • /
    • 2016
  • 이상전파에코는 대기 관측을 위해서 사용되는 레이더 전파가 온도나 습도에 의해서 발생하는 이상굴절 신호로, 지상에 설치된 기상레이더에 자주 발생하는 대표적인 비기상에코 중 하나이다. 기상예보의 정확도를 높이기 위해서는 레이더 데이터의 정확한 분석이 요구되기 때문에 전 세계적으로 이상전파에코의 식별 및 제거에 대한 연구가 수행되어 오고 있다. 본 논문에서는 레이더 관측변수인 반사도와 고도 정보와 나이브 베이지안 분류기를 이용하여 이상전파에코를 식별 및 제거하는 방법에 대한 연구를 수행하였다. 실제 이상전파에코 발생 사례를 통하여 구현한 나이브 베이지안 분류기를 검증한 결과, 우수한 정확도를 가지고 분류가 수행되는 것을 확인할 수 있었다.

  • PDF

만성 폐쇄성 폐질환을 이용한 노모그램 구축과 비교 (Comparison of nomogram construction methods using chronic obstructive pulmonary disease)

  • 서주현;이제영
    • 응용통계연구
    • /
    • 제31권3호
    • /
    • pp.329-342
    • /
    • 2018
  • 노모그램은 질병의 위험 요인과 예측 확률을 쉽게 이해할 수 있도록 시각적으로 표현하는 통계적 도구이다. 본 논문은 만성 폐쇄성 폐질환(chronic obstructive pulmonary disease)의 위험 요인을 이용하여 로지스틱 회귀모형과 순수 베이지안 분류기 모형의 노모그램을 구축하고 이를 비교하였다. 분석 데이터는 국민건강영양조사 6기(2013-2015)를 이용하여 진행하였다. 총 6개의 위험 요인을 이용하였다. 그리고 로지스틱 회귀모형, 순수 베이지안 분류기 모형과 각각의 구축 방법을 이용하여 만성 폐쇄성 폐질환의 노모그램을 제시하였다. 또한, 구축된 두 노모그램을 비교하여 유용성을 살펴보았다. 마지막으로 ROC curve와 Calibration plot을 통하여 각 노모그램을 검증하였다.

Na$ddot{i}$ve-Bayesian Classifier를 이 용한 전자 카탈로그 자동 분류 시스템 (Extending Na$ddot{i}$ve Bayesian Classifier for Catalog Classification Systems)

  • 서광훈;이경종;김현철;이태희;이상구
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.91-93
    • /
    • 2004
  • B2B Marketplace상에서의 거래에서 나타나는 주요한 특징은 다품종 및 대량의 물품 거래가 n:n거래 관계에 놓여있다는 점과 거래자가 원활한 거래 및 기업 내 관리를 위해 각자의 전자 카탈로그를 이용한 거래를 원한다는 정이다. 하지만 개별적인 전자 카탈로그 사용과 미흡한 표준안은 전자 카탈로그 상호 연계의 걸림돌이 되어 시장 형성의 걸림돌이 되고 있다. B2B Marketplace는 표준 분류체계를 중심으로 거래 대상 상품을 재분류하여 구매 당사자간의 거래 대상 물품에 대한 상호 애핑을 지원하는 방법 등으로 이를 충족시키려 하고 있다. 하지만 요청되는 다량의 물품에 대해 매번 분류를 수행해야 하는 고비용의 작업이라는 문제점이 있다. 본 논문에서는 이를 극복하기 위하여 기계학습 기법을 이용한 전자 카탈로그 상품 자동분류기를 모델링하고 이를 구현하는 것에 초점을 두었다. 상품의 속성별로 분류에 끼치는 영향력이 다론 것이라는데 착안하여 전자 카탈로그를 상품 단위로 재 모델링 하였으며 속성별 정보가 풍부하지 못한 정물 극복하기 위하여 속성값을 어휘 단위로 구분한 데이터를 추가 하는 확장 모델을 정의하였다. 또한 해당 모델을 학습시키기 위한 알고리즘으로는 속성별로 다른 가중치를 부여 할 수 있도록 확장된 Naive Bayesian Classifier를 고안하였다. 그리고 이론 B2B Market Place상의 실 데이터에 적용하여 고안된 모델의 유효성을 검증하였다.

  • PDF

가우시안 과정 분류에 대한 변분 베이지안 다항 프로빗 모형: 쥐 단백질 발현 데이터에의 적용 (Variational Bayesian multinomial probit model with Gaussian process classification on mice protein expression level data)

  • 손동현;황범석
    • 응용통계연구
    • /
    • 제36권2호
    • /
    • pp.115-127
    • /
    • 2023
  • 다항 프로빗 모형은 다중 분류와 선택 모형에서 흔히 사용하는 모형이다. 다항 프로빗 모형을 추정하기 위해 일반적으로 널리 사용하는 베이지안 접근법인 마르코프 연쇄 몬테카를로(MCMC) 방법은 계산 복잡도가 매우 높다는 문제점을 가지고 있다. 반면, 변분 베이즈 방법은 MCMC 방법보다 계산 복잡도는 낮으면서도 분류 성능적인 면에서 큰 차이가 나지 않아 더 효율적인 방법으로 알려져 있다. 본 연구에서는 가우시안 과정에 기반한 다항 프로빗 모형을 설명하고 해당 모형에 적용할 수 있는 변분 베이지안 근사법을 알아보고자 한다. 그리고 UCI에서 제공되는 쥐 단백질 발현 데이터에 가우시안 과정 분류에 대한 변분 베이지안 다항 프로빗 모형을 적용하여 그 성능을 확인하고 나이브 베이즈, K-최근접 이웃법, 서포트 벡터 머신 분류기의 성능과 비교한다.

분류기 성능 향상을 위한 범주 속성 가상예제의 생성과 선별 (Generation and Selection of Nominal Virtual Examples for Improving the Classifier Performance)

  • 이유정;강병호;강재호;류광렬
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제33권12호
    • /
    • pp.1052-1061
    • /
    • 2006
  • 본 논문에서는 베이지안 네트워크를 기반으로 생성하고 평가한 가상예제를 활용하여 범주 속성 데이타에 대한 분류 성능을 향상시키는 방안을 제안한다. 가상예제를 활용하는 종래의 연구들은 주로 수치 속성 데이타를 대상으로 하였고, 대상 도메인에 특화된 지식을 활용하여 특정 학습 알고리즘의 성능을 향상시키는 것을 목표로 하였다. 본 연구에서는 도메인에 특화된 지식을 활용하는 대신 주어진 훈련 집합을 기반으로 만든 베이지안 네트워크로부터 범주 속성 가상예제를 생성하고, 그 예제가 네트워크의 조건부 우도를 증가시키는데 기여할 경우 유용한 것으로 선별한다. 이러한 생성 및 선별과정을 반복하여 적절한 크기의 가상예제 집합을 수집하여 사용한다. 범주 속성 데이타를 대상으로 한 실험 결과, 여러 가지 학습 모델의 성능이 향상됨을 확인하였다.

나이브 베이지안 분류기를 이용한 게시물 자동 분류를 위한 eCRM 에이전트 시스템 (eCRM Agent System for Articles Automatic Classification System based on Naive Bayesian Classifier)

  • 최정민;이병수
    • 전기전자학회논문지
    • /
    • 제8권2호
    • /
    • pp.216-223
    • /
    • 2004
  • 최근 전자 상거래에서 사용하고 있는 게시판은 고객의 능동적인 참여로 운영되며, 게시물은 고객의 직접적인 의사를 들을 수 있는 인 바운드(Inbound)정보로서 다른 eCRM을 위한 고객 접점 채널 과는 성격이 다른 도구이다. 또한 게시판의 효과적인 운영은 게시판 자체의 신뢰도를 향상 시키고 나아가 전자 상거래 전체의 신뢰도를 높여 줄 수 있는 중요한 eCRM 도구이다. 그러나 현재 대부분의 전자상거래에서 운영하는 게시판은 기 분류된 카테고리를 고객이 직접 수동으로 선정하도록 되어 있고, 이렇게 임의로 분류되는 게시물에 대하여 체계적인 처리 과정 없이 답변이 이루어지기 때문에 답변을 하는데 많은 시간이 소요 되고 있으며, 정확한 답변이 이루어지지 않고 있는 실정이다. 따라서, 본 논문에서는 여러 가지 종류의 게시물에 대하여 나이브 베이지안 분류기를 이용하여 게시판의 기존 문제점의 해결과 효과적인 운영 그리고 게시물의 체계적인 분류 관리를 할 수 있는 게시물 자동 분류기를 설계하고 구현하였다. 아울러 문서 분류 학습 기법 중 대표적인 TFIDF. k-NN, 나이브 베이지안 기법들의 게시물 분류 성능을 측정하여 채택한 나이브 베이지안 분류기의 우수성을 확인 하였다.

  • PDF

고객 질의 문서 자동 분류를 위한 학습 알고리즘 성능 평가 (Performance Evaluation on the Learning Algorithm for Automatic Classification of Q&A Documents)

  • 최정민;이병수
    • 정보처리학회논문지D
    • /
    • 제13D권1호
    • /
    • pp.133-138
    • /
    • 2006
  • 최근 인터넷의 보급으로 전자상거래가 대중들에게 나타났고 현재 기업들의 경영환경 변화를 주도하고 있다. 전자상거래에서는 기업이 고객과의 유지 및 관계 구축을 위하여 고객이 원하는 것이 무엇인가를 파악하고 그것을 고객에게 제안하는 여러 가지 고객 채널을 가지고 있는데, 그 중 게시판과 전자메일은 고객의 질의를 직접적으로 들을 수 있는 인바운드(Inbound) 정보로서 매우 중요한 채널로 다루어지고 있다. 그러나 현재 운영되는 전자상거래의 게시판과 전자메일은 체계적인 관리와 처리과정 없이 질의와 답변이 이루어지고 있는 실정이다. 따라서 본 연구에서는 이러한 문제점의 해결을 위해 인공지능 분야의 문서 분류에서 널리 사용되고 있는 기계학습 알고리즘 중 대표적인 나이브 베이지안(Naive Bayesian), TFIDF, 신경망, k-NN 알고리즘을 도입하여 전자상거래에서 존재하는 여러 가지 고객 질의의 카테고리를 자동으로 분류할 수 있도록 함으로써 관리자가 정확한 답변을 신속하게 처리할 수 있도록 하였다. 그리고 도입한 알고리즘의 고객 질의 문서 자동 분류 성능 실험을 통해 어떤 알고리즘이 우수한 분류 성능을 나타내는지 확인하였으며 실험 결과 나이브 베지이지안 알고리즘이 95%이상의 높은 분류 성능을 나타내는 것을 확인하였다.