• 제목/요약/키워드: naive Bayesian

검색결과 118건 처리시간 0.02초

선호도 재계산을 위한 연관 사용자 군집 분석과 Representative Attribute -Neighborhood를 이용한 협력적 필터링 시스템의 성능향상 (Performance Improvement of Collaborative Filtering System Using Associative User′s Clustering Analysis for the Recalculation of Preference and Representative Attribute-Neighborhood)

  • 정경용;김진수;김태용;이정현
    • 정보처리학회논문지B
    • /
    • 제10B권3호
    • /
    • pp.287-296
    • /
    • 2003
  • 추천 시스템에 있어서 협력적 필터링 기술은 많은 연구가 되고 있다. 그러나 협력적 필터링 기술을 이용한 추천 시스템은 초기 평가 문제와 희박성 문제가 발생한다. 이를 해결하기 위해서 본 논문에서는 선호도 재 계산을 위한 연관 사용자 군집과 베이지안 추정치를 이용한 사용자 선호도 예측 방법을 제안한다. 제안한 방법에서는 협력적 필터링 시스템에서 아이템의 속성을 고려하지 않는 단점을 보완하기 위해서 선호도에 가장 크게 영향을 미치는 대표 장르를 추출하여 유사한 이웃을 찾아 낼 때 예측에 이용하는 Representative Attribute-Neighborhood 방법을 사용한다. 협력적 필터링의 알고리즘에 군집 아이템 백터 내의 특정 아이템의 선호도를 재계산 하기 위한 연관 사용자 군집 분석을 적용하여 성능 향상을 하였다. 또 초기 평가 문제와 희박성 문제를 해결하기 위하여 Association Rule Hypergraph Partitioning 알고리즘을 사용하여 사용자를 장르별로 군집한다. 새로운 사용자는 Naive Bayes 분류자에 의해 이들 장르 중 하나로 분류된다. 또한, 분류된 장르 내에 속한 사용자들과 새로운 사용자의 유사도를 구하기 위해 Naive Bayes 학습을 통해 사용자가 평가한 아이템에 추정치를 달리 부여한다. 추정치가 부여된 선호도를 피어슨 상관 관계에 적용할 경우 결측치(Missing Value)로 인한 예측의 오류를 적게하여 예측의 정확도를 높일 수 있다. 제안된 방법은 기존의 방법보다 높은 성능을 나타냄을 보인다.

베이지안 분류 기반 통합가뭄지수를 활용한 낙동강 유역의 미래 가뭄에 대한 수문학적 위험도 분석 (Evaluation of Future Hydrologic Risk of Drought in Nakdong River Basin Using Bayesian Classification-Based Composite Drought Index)

  • 김혁;김지은;김지영;유지영;김태웅
    • 대한토목학회논문집
    • /
    • 제43권3호
    • /
    • pp.309-319
    • /
    • 2023
  • 최근 기후변화로 인해 기상재해의 발생빈도와 강도가 증가하고 있다. 우리나라는 지역별 기후 특성의 편차로 인해 기후변화에 따른 취약성 및 대응능력이 지역별로 차이가 크다. 특히 가뭄은 다양한 요인에 의해 발생하고, 기상학적, 수문학적, 농업적 영향 범위가 광범위하다. 따라서 가뭄에 효과적으로 대응하기 위해서는 다양한 요인을 고려할 수 있는 통합가뭄지수를 활용할 필요가 있으며, 기후변화를 고려한 미래 가뭄을 종합적으로 평가해야 한다. 본 연구에서는 베이지안 분류(DNBC) 기반의 통합가뭄지수를 활용하여 낙동강 유역의 미래 가뭄에 대한 수문학적 위험도(${\bar{R}}$)를 평가하였다. 우선, 관측자료와 기후변화 시나리오 자료를 이용하여 부문별 가뭄지수(SPI, SDI, ESI, WSCI)를 DNBC에 적용하여 통합가뭄지수를 산정하였다. 산정된 통합가뭄지수의 심도와 지속기간을 대상으로 이변량 가뭄빈도분석을 실시하고, 이변량 재현기간을 활용하여 수문학적 위험도를 산정하였다. 그 결과, S2(2021-2040) 기간에서 위험도가 가장 높게 나타났으며(${\bar{R}}$=0.572), 평균적으로 위험도가 가장 높은 지역은 밀양강(#2021)이었다(${\bar{R}}$=0.94). 단기 미래(2021-2040) 기간 동안 낙동강 유역의 수문학적 위험도는 전반적으로 큰 폭으로 상승하였으며, 중·장기 미래(2041-2070, 2071-2099) 기간 동안 낙동강 유역 북부의 위험도는 감소하고 남부의 위험도는 상승하였다.

Topic Signature를 이용한 댓글 분류 시스템 (Comments Classification System using Topic Signature)

  • 배민영;차정원
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제35권12호
    • /
    • pp.774-779
    • /
    • 2008
  • 본 논문에서는 토픽 시그너처(Topic Signature)를 이용하여 댓글을 분류하는 시스템에 대해서 설명한다. 토픽 시그너처는 자질을 선택하는 방법으로 문서요약이나 문서분류에서 사용하는 방법이다. 댓글은 문장의 길이가 짧고 띄어쓰기가 거의 없으며 특수문자들이 많은 특성을 가지고 있다. 따라서 우리는 댓글을 7개의 음절로 나누고 이를 다시 Tri-gram으로 나누어 분류의 기본단위로 본다. 이 Tri-gram을 토픽 시그너처를 이용한 학습 단위로 사용하고, 학습한 자질을 베이지안(Bayesian) 모델을 사용하여 분류한다. 다양한 방법의 모델과 비교 실험을 통하여 구현한 시스템의 성능이 기존의 방법보다 상승되었음을 실험 결과를 통해 알 수 있었다.

Microblogging Sentiment Investor, Return and Volatility in the COVID-19 Era: Indonesian Stock Exchange

  • FARISKA, Putri;NUGRAHA, Nugraha;PUTERA, Ika;ROHANDI, Mochamad Malik Akbar;FARISKA, Putri
    • The Journal of Asian Finance, Economics and Business
    • /
    • 제8권3호
    • /
    • pp.61-67
    • /
    • 2021
  • The covid-19 pandemic scenario caused the most extensive economic shocks the world has experienced in decades. Maintaining financial performance and economic stability is essential during the pandemic period. In these conditions, where movement is severely restricted, media consumption is considered to be increasing. The social media platform is one of the media online used by the public as a source of information and also expressing their sentiment, including individual investors in the capital market as social media users. Twitter is one of the social media microblogging platforms used by individual investors to share their opinion and get information. This study aims to determine whether microblogging sentiment investors can predict the capital market during pandemics. To analyze microblogging sentiment investors, we classified sentiment using the phyton text mining algorithm and Naïve Bayesian text classification into level positive, negative, and neutral from November 2019 to November 2020. This study was on 68 listed companies on the Indonesia stock exchange. A Vector Autoregression and Impulse Response is applied to capture short and long-term impacts along with a causal relationship. We found that microblogging sentiment investor has a significant impact on stock returns and volatility and vice-versa. Also, the response due to shocks is convergent, and microblogging investors in Indonesia are categorized as a "news-watcher" investor.

베이지안 네트워크 개선을 통한 탐지율 향상의 IDS 모델 (IDS Model using Improved Bayesian Network to improve the Intrusion Detection Rate)

  • 최보민;이정식;한명묵
    • 한국지능시스템학회논문지
    • /
    • 제24권5호
    • /
    • pp.495-503
    • /
    • 2014
  • 최근 보안 분야에서는 네트워크 패킷이나 로그와 같은 네트워크 정보를 수집하고 분석함으로써 네트워크 위협에 대응할 수 있는 침입탐지 시스템에 대한 연구를 활발히 진행되고 있다. 특히, 베이지안 네트워크는 주어진 몇 몇 자료만으로도 정확도 높은 침입에 대한 추론이 가능한 이점으로 이를 이용한 침입탐지 시스템의 모델링 기법들이 이전에도 진행되어 왔다. 그러나 이전 연구들에서는 네트워크 패킷간의 복잡성 문제와 이용되는 패킷 데이터의 연속성 문제를 반영하지 못하고 있기 때문에 높은 탐지정확도 산출에 한계가 있다. 따라서 본 논문에서는 이전 모델들이 갖는 문제들의 개선을 통하여 탐지율을 향상시키기 위해 K-means 클러스터링 기반의 두 가지 방법론을 제안한다. 첫 번째로는 K-means 클러스터링 기반의 정교한 노드구간 범위를 설정방법을 제안하여 연속성 데이터 처리 문제를 개선할 수 있다. 또한, 두 번째로는 K-means 클러스터링 기반으로 산출된 가중치를 학습에 적용하여 보다 견고한 CPT를 산출하여 탐지성능을 향상 시킬 수 있다. 제안하는 방법론들의 성능을 입증하기 위하여 방법론 모두를 적용한 K_WTAN_EM에 대한 탐지율을 이전 모델들과 비교 실험을 수행하였다. 실험 결과 제안하는 모델의 탐지율이 이전의 순수베이지안 네트워크기반(NBN) 모델 보다는 약 7.78%의 향상도를 보였고 트리확장 순수베이지안 네트워크(TAN) 모델 보다는 약 5.24%의 향상도를 산출하여 제안하는 방법의 우수성을 입증하였다.

A Comparison Study of Classification Algorithms in Data Mining

  • Lee, Seung-Joo;Jun, Sung-Rae
    • International Journal of Fuzzy Logic and Intelligent Systems
    • /
    • 제8권1호
    • /
    • pp.1-5
    • /
    • 2008
  • Generally the analytical tools of data mining have two learning types which are supervised and unsupervised learning algorithms. Classification and prediction are main analysis tools for supervised learning. In this paper, we perform a comparison study of classification algorithms in data mining. We make comparative studies between popular classification algorithms which are LDA, QDA, kernel method, K-nearest neighbor, naive Bayesian, SVM, and CART. Also, we use almost all classification data sets of UCI machine learning repository for our experiments. According to our results, we are able to select proper algorithms for given classification data sets.

Optimization of Domain-Independent Classification Framework for Mood Classification

  • Choi, Sung-Pil;Jung, Yu-Chul;Myaeng, Sung-Hyon
    • Journal of Information Processing Systems
    • /
    • 제3권2호
    • /
    • pp.73-81
    • /
    • 2007
  • In this paper, we introduce a domain-independent classification framework based on both k-nearest neighbor and Naive Bayesian classification algorithms. The architecture of our system is simple and modularized in that each sub-module of the system could be changed or improved efficiently. Moreover, it provides various feature selection mechanisms to be applied to optimize the general-purpose classifiers for a specific domain. As for the enhanced classification performance, our system provides conditional probability boosting (CPB) mechanism which could be used in various domains. In the mood classification domain, our optimized framework using the CPB algorithm showed 1% of improvement in precision and 2% in recall compared with the baseline.

전자상거래에서 2-Way 혼합 협력적 필터링을 이용한 추천 시스템 (Recommendation System using 2-Way Hybrid Collaborative Filtering in E-Business)

  • 김용집;정경용;이정현
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2003년도 컴퓨터소사이어티 추계학술대회논문집
    • /
    • pp.175-178
    • /
    • 2003
  • Two defects have been pointed out in existing user-based collaborative filtering such as sparsity and scalability, and the research has been also made progress, which tries to improve these defects using item-based collaborative filtering. Actually there were many results, but the problem of sparsity still remains because of being based on an explicit data. In addition, the issue has been pointed out. which attributes of item arenot reflected in the recommendation. This paper suggests a recommendation method using nave Bayesian algorithm in hybrid user and item-based collaborative filtering to improve above-mentioned defects of existing item-based collaborative filtering. This method generates a similarity table for each user and item, then it improves the accuracy of prediction and recommendation item using naive Bayesianalgorithm. It was compared and evaluated with existing item-based collaborative filtering technique to estimate the accuracy.

  • PDF

의료 웹포럼에서의 텍스트 분석을 통한 정보적 지지 및 감성적 지지 유형의 글 분류 모델 (The Informative Support and Emotional Support Classification Model for Medical Web Forums using Text Analysis)

  • 우지영;이민정
    • 한국IT서비스학회지
    • /
    • 제11권sup호
    • /
    • pp.139-152
    • /
    • 2012
  • In the medical web forum, people share medical experience and information as patients and patents' families. Some people search medical information written in non-expert language and some people offer words of comport to who are suffering from diseases. Medical web forums play a role of the informative support and the emotional support. We propose the automatic classification model of articles in the medical web forum into the information support and emotional support. We extract text features of articles in web forum using text mining techniques from the perspective of linguistics and then perform supervised learning to classify texts into the information support and the emotional support types. We adopt the Support Vector Machine (SVM), Naive-Bayesian, decision tree for automatic classification. We apply the proposed model to the HealthBoards forum, which is also one of the largest and most dynamic medical web forum.

나이브 베이지안 분류자와 메일 주소 유효성 검사를 이용한 스팸 메일 필터링 시스템 (Spam-Mail Filtering System by Using Naive Bayesian Classifier and Mail Address Validation Check)

  • 임정택;김형준;강승식
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 가을 학술발표논문집 Vol.32 No.2 (2)
    • /
    • pp.523-525
    • /
    • 2005
  • 본 논문에서는 가중치가 부여된 나이브 베이지안 분류자와 스팸 메일의 특성을 이용한 주소 유효성 검사를 결합하여 필터링하는 방식의 스팸 메일 필터링 시스템을 제안하였다. 주소 유효성 검사를 통해 스팸 메일을 효율적으로 필터링 할 수 있으며, 나이브 베이지안 분류자에 가중치를 부여함으로써 더욱 효과적인 분류를 할 수 있다. 또한, 각 요인의 중요도에 따라 다른 비중을 부여함으로써 메일의 특성을 고려한 필터링 환경을 구현하였다. 실험에서는 제안하는 요인들이 실제로 필터링 성능 향상에 어떤 영향을 미치는지 살펴보고 최적의 시스템 성능을 측정하였다.

  • PDF