• Title/Summary/Keyword: naive bayes classifier

Search Result 94, Processing Time 0.024 seconds

자연스러운 범용 O2O 애플리케이션 사용자 인터페이스를 위한 상품 정보 자동 분류 (Automatic Classification of Product Data for Natural General-purpose O2O Application User Interface)

  • 이하나;임은수;조영인;윤영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2016년도 추계학술발표대회
    • /
    • pp.382-385
    • /
    • 2016
  • 본 논문은 현재 영역 별로 파편화된 여러 O2O(Online to Offline) 서비스들을 통합적으로 제공하기 위해 자연어를 통한 NUI(Natural User Interface)를 개발하여 사용자가 명시한 상품 정보의 항목을 자동으로 분류하고자 한다. 이를 위해 e-commerce 도메인 정보 학습에 적합한 나이브 베이즈 분류(Naive Bayes Classifier) 알고리즘을 사용한다. 학습에는 미국 e-commerce 사이트 Groupon의 상품 정보와 분류 체계를 사용하며, 학습 데이터의 특징을 분석하여 상품 정보에 특화된 학습 데이터 정제 및 TF-IDF(Term Frequency-Inverse Document Frequency)를 통한 단어 별 가중치를 적용하여 알고리즘의 정확도를 향상시킨다.

Memory-Efficient NBNN Image Classification

  • Lee, YoonSeok;Yoon, Sung-Eui
    • Journal of Computing Science and Engineering
    • /
    • 제11권1호
    • /
    • pp.1-8
    • /
    • 2017
  • Naive Bayes nearest neighbor (NBNN) is a simple image classifier based on identifying nearest neighbors. NBNN uses original image descriptors (e.g., SIFTs) without vector quantization for preserving the discriminative power of descriptors and has a powerful generalization characteristic. However, it has a distinct disadvantage. Its memory requirement can be prohibitively high while processing a large amount of data. To deal with this problem, we apply a spherical hashing binary code embedding technique, to compactly encode data without significantly losing classification accuracy. We also propose using an inverted index to identify nearest neighbors among binarized image descriptors. To demonstrate the benefits of our method, we apply our method to two existing NBNN techniques with an image dataset. By using 64 bit length, we are able to reduce memory 16 times with higher runtime performance and no significant loss of classification accuracy. This result is achieved by our compact encoding scheme for image descriptors without losing much information from original image descriptors.

고등학생을 위한 과학-기술-사회에 대한 시각 (HS-VOST) 설문조사 결과 분석 (Analysis of high school students' views on science-technology-society (HS-VOSTS) questionnaire results)

  • 강대기
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2011년도 추계학술대회
    • /
    • pp.201-203
    • /
    • 2011
  • 본 논문에서 우리는 고교생들의 과학-기술-사회에 대한 소양을 알아보기 위한 설문 조사지인 high school students' views on science-technology- society (HS-VOSTS)를 부산의 한 대학교 학생들에게 적용하였고, 그 결과에 대해 데이터 마이닝 알고리즘을 이용하여 분석하였다. 나이브 베이스 알고리즘을 사용하여 나온 예비 결과에 따르면, 나이브 베이스 알고리즘과 같은 데이터 마이닝 알고리즘이 학생들의 설문 데이터에서 자동으로 지식을 발견해 내는 데 효과적으로 이용될 수 있음을 알 수 있었다.

  • PDF

동적인 문서 여과에서 나이브 베이즈 분류기와 코사인 유사 계수의 성능 비교 (Comparative Between Naive Bayes Classifier and Cosine Similarity Coefficient in Dynamic Document Filtering)

  • 손기준;임수연;박성배;이상조
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 한국컴퓨터종합학술대회 논문집 Vol.33 No.1 (B)
    • /
    • pp.214-216
    • /
    • 2006
  • 온라인 정보가 증가함에 따라 많은 양의 정보 중에서 사용자가 원하는 정보를 정확하고 신속하게 찾아 주는 문서 여과의 중요성 또한 증가하고 있는 추세이다. 본 논문은 문서 여과 문제를 이진 문서 분류 문제로 보고, 나이브 베이즈 분류기를 동적인 문서 여과 목적으로 사용하였다. 이때 사용자가 자신의 관심 분야에 해당하는 주제를 제대로 여과 받기 위해서 학습 대상으로 삼아야 할 학습문서의 범위와 관련성 있는 문서를 제대로 여과 받기 위해서 체크해야 하는 관련성 표기 비율에 따른 분류기의 성능에 대하여 실험을 하였다. 코사인 유사계수를 이용한 여과 방법과의 성능도 비교 실험하였다. 실험 결과 나이브 베이즈 이진 분류기는 문서집합의 크기가 일정한 정도일 때 관련성 있는 문서가 모두 표기되지 않더라도 여과에는 큰 영향을 미치지 않음을 볼 수 있었다.

  • PDF

제품 리뷰문에서의 광고성 문구 분류 연구 (Classification of Advertising Spam Reviews)

  • 박인숙;강한훈;유성준
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2010년도 제22회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.186-190
    • /
    • 2010
  • 본 논문은 쇼핑몰의 이용 후기 중 광고성 리뷰를 분류해 내는 방법을 제안한다. 여기서 광고성 리뷰는 주로 업체에서 작성하는 것으로 리뷰 안에 광고 내용이 포함되어 있다. 국외 연구 중에는 드물게 오피니언 스팸 문서의 분류 연구가 진행되고 있지만 한국어 상품평으로부터 광고성 리뷰를 분류하는 연구는 아직 이루어지지 않고 있다. 본 논문에서는 Naive Bayes Classifier를 활용하여 광고성 리뷰를 분류하였다. 이때 확률 계산을 위해 사용된 특징 단어는 POS-Tagging+Bigram, POS-Tagging+Unigram, Bigram을 사용하여 추출하였다. 실험 결과는 POS-Tagging+Bigram 방법을 이용하였을 때 광고성 리뷰의 F-Measure가 80.35%로 정확도 높았다.

  • PDF

나이브 베이즈 분류 기반의 핫 데이터 구분 기법 (Hot Data Identification based on Naive Bayes Classifier)

  • 이혜림;윤이빈;박동철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 추계학술발표대회
    • /
    • pp.721-723
    • /
    • 2022
  • 최근 낸드 플래시 메모리 기반의 Solid State Drive(SSD)가 기존 Hard Disk Drive(HDD)를 대신하여 개인용과 산업용으로도 널리 쓰이고 있다. 핫 데이터 구분 기법은 이러한 SSD 의 성능과 수명에 중요한 역할을 하는 Garbage Collection(GC)과 Wear Leveling(WL) 기술의 기반이 된다. 본 논문에서는 핫 데이터를 예측하기 위한 나이브 베이즈 분류 기반의 새로운 핫 데이터 구분 기법을 제안한다. 제안 기법은 워크로드 액세스 패턴의 학습 단계인 초기 단계와 실제 운영 단계를 통해 다시 액세스 될 확률이 높은 데이터를 그렇지 않은 데이터와 효과적으로 구분한다. 다양한 실제 trace 기반 실험을 통해 본 제안 기법이 기존 대표적인 기법보다 평균 19.3% 높은 성능을 확인했다.

베이지안 네트워크 기반 계층적 CPV 태양광 추적 시스템 (A Hierarchical CPV Solar Generation Tracking System based on Modular Bayesian Network)

  • 박수상;양견모;조성배
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제41권7호
    • /
    • pp.481-491
    • /
    • 2014
  • 지구 온난화 문제와 화석 연료 양의 한계 때문에 재생 가능한 전력 생산에 대한 관심이 증가하고 있다. 특히 재생 에너지 중 태양광 에너지의 전력 생산 비율은 점차 증가함에 따라 집광형 태양광발전 시스템은 높은 전력 생산량으로 각광받고 있다. 하지만 이 시스템은 태양광 중첩률이 높을 때 가장 높은 발전 효율을 내기 때문에 허용 오차 범위가 작은 정밀 태양 추적 시스템이 필요하다. 본 논문에서는 복잡한 환경에 대응할 수 있는 베이지안 네트워크와 나이브 베이즈 분류기를 이용한 계층적 추적 시스템을 제안한다. 베이지안 네트워크는 불완전하고 불확실한 상황을 모델링 하는데 강력한 모델로 충분한 양의 데이터가 없을 경우에도 도메인 지식을 바탕으로 네트워크를 설계할 수 있다는 장점이 있다. 제안하는 계층적 확률 시스템에서는 불확실한 하늘 상황을 9개로 분류하고 모듈형 베이지안 네트워크를 이용하여 현재 날씨 상황을 추론한다. 또한 나이브 베이즈 분류기를 이용하여 추론된 날씨 상황을 고려한 효율적인 추적 방법을 분류하고 선택한다. 베이지안 네트워크의 유용성을 평가하기 위해 실제 날씨 데이터를 수집하였고 평균 93.9%의 정확도(Accuracy)를 보였다. 또한, 제안하는 시스템과 핀홀 카메라 시스템의 태양광발전 효율을 비교한 결과 약 16.58%의 성능이 향상됨을 확인하였다.

감성분석 기반의 게임 소비자 온라인 구전효과 연구 (A Study on the Effects of Online Word-of-Mouth on Game Consumers Based on Sentimental Analysis)

  • 정근웅;김종욱
    • 디지털융복합연구
    • /
    • 제16권3호
    • /
    • pp.145-156
    • /
    • 2018
  • 배급사가 소매점을 통해 게임을 유통했던 과거와 다르게 현재는 디지털 콘텐츠인 게임을 온라인 기반의 유통채널을 활용하여 판매를 실시하고 있다. 본 연구는 온라인 디지털 콘텐츠 유통 채널인 스팀(Steam)에서 판매되는 게임의 판매량에 대해서 eWOM(전자구전효과)의 요인들이 어떤 영향을 미치는지 분석한다. 최근 빅데이터 기반의 데이터 마이닝 기법을 이용한 연구가 많이 진행되고 있는데, 본 연구에서 eWOM의 요인 중 각 리뷰의 감성을 분석할 수 있는 텍스트 마이닝 기법인 감성분석을 실시하여 eWOM의 감성지수를 도출한다. 감성분석은 나이브 베이즈(Naive Bayes)와 지지벡터기(SVM) 분류기를 활용하고, 정확도가 높은 지지벡터기(SVM) 분류기를 통해 감성지수를 산출한다. 도출한 감성지수와 eWOM의 크기인 각 게임의 리뷰의 수, eWOM의 평점인 각 게임의 유저점수를 독립변수로 하여 종속변수인 판매변화량에 대해서 회귀분석을 실시한다. 회귀분석 결과, 독립변수인 eWOM의 크기와 eWOM의 감성지수가 종속변수인 판매변화량에 영향을 미치는 것을 확인하였다. 본 연구는 연구결과를 통해 국내 게임 기업들이 스팀을 기반으로 해외진출 시 판매량에 영향을 미치는 eWOM의 요인들을 제시할 수 있는 시사점을 가진다.

이산형 자료 예측을 위한 베이지안 네트워크 분류분석기의 성능 비교 (The performance of Bayesian network classifiers for predicting discrete data)

  • 박현재;황범석
    • 응용통계연구
    • /
    • 제33권3호
    • /
    • pp.309-320
    • /
    • 2020
  • 방향성 비순환 그래프(directed acyclic graph; DAG)라고도 하는 베이지안 네트워크(Bayesian network)는 변수 사이의 관계를 확률과 그래프를 통해 모형화할 수 있다는 점에서 최근 의학, 기상학, 유전학 등 여러 분야에서 다양하게 활용되고 있다. 특히 이산형 자료의 예측에 사용되는 베이지안 네트워크 분류분석기(Bayesian network classifier)가 최근 새로운 데이터 마이닝 기법으로 주목받고 있다. 베이지안 네트워크는 그 구조와 학습 방법에 따라 여러 가지 다양한 모형으로 분류할 수 있다. 본 논문에서는 서로 다른 성질을 가진 이산형 자료를 바탕으로 구조 학습 방법에 차이를 두어 베이지안 네트워크 모형을 학습시킨 후, 가장 간단한 방법인 나이브 베이즈 (naïve Bayes) 모형과 비교해 본다. 학습된 모형들을 여러 가지 실제 데이터에 적용하여 그 예측 정확도를 비교함으로써 최적의 분류 분석 결과를 얻을 수 있는지 살펴본다. 또한 각각의 모형에서 나타나는 그래프를 통해 데이터의 변수 사이의 관계를 비교한다.

분류기 성능 향상을 위한 범주 속성 가상예제의 생성과 선별 (Generation and Selection of Nominal Virtual Examples for Improving the Classifier Performance)

  • 이유정;강병호;강재호;류광렬
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제33권12호
    • /
    • pp.1052-1061
    • /
    • 2006
  • 본 논문에서는 베이지안 네트워크를 기반으로 생성하고 평가한 가상예제를 활용하여 범주 속성 데이타에 대한 분류 성능을 향상시키는 방안을 제안한다. 가상예제를 활용하는 종래의 연구들은 주로 수치 속성 데이타를 대상으로 하였고, 대상 도메인에 특화된 지식을 활용하여 특정 학습 알고리즘의 성능을 향상시키는 것을 목표로 하였다. 본 연구에서는 도메인에 특화된 지식을 활용하는 대신 주어진 훈련 집합을 기반으로 만든 베이지안 네트워크로부터 범주 속성 가상예제를 생성하고, 그 예제가 네트워크의 조건부 우도를 증가시키는데 기여할 경우 유용한 것으로 선별한다. 이러한 생성 및 선별과정을 반복하여 적절한 크기의 가상예제 집합을 수집하여 사용한다. 범주 속성 데이타를 대상으로 한 실험 결과, 여러 가지 학습 모델의 성능이 향상됨을 확인하였다.