• 제목/요약/키워드: 단순 베이지안 분류기

검색결과 6건 처리시간 0.025초

다항시행접근 단순 베이지안 문서분류기의 개선 (Improving Multinomial Naive Bayes Text Classifier)

  • 김상범;임해창
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제30권3_4호
    • /
    • pp.259-267
    • /
    • 2003
  • 단순 베이지언 분류모형은 구현이 간단하고 효율적이기 때문에 실용적으로 사용하기에 적합하다. 그러나 이 분류모형은 많은 기계학습 도메인에서 우수한 성능을 보임에도 불구하고 문서분류에 적용되었을 경우에는 그 성능이 매우 낮은 것으로 알려져왔다. 본 논문에서는 단순 베이지언 분류모형중 가장 성능이 우수한 것으로 알려진 다항 시행접근 단순 베이지언 분류모형을 개선하는 세가지 방법을 제안한다. 첫 번째는 범주에 대한 단어의 확률추정방법을 문서모델에 기반하여 개선하는 것이고, 두 번째는 문서의 길이에 따라 범주와의 관련성이 선형적으로 증가하는 것을 억제하기 위해 길이에 대한 정규화를 수행하는 것이며, 마지막으로 범주판정에 중요한 역할을 하는 단어들의 영향력을 높여주기 위하여 상호정보가중 단순 베이지언 분류방법을 사용하는 것이다. 제안하는 방법들은 문서분류기의 성능 평가를 위한 벤치마크 문서집합인 Reuters21578과 20Newsgroup에서 기존의 방범에 비해 상당한 성능향상을 가져옴을 알 수 있었다.

스트림 데이터의 윈도우 기반 분류 (A Window-Based Classification of Stream Data)

  • 김성현;이용미;김룡;서성보;류근호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2005년도 추계학술발표대회 및 정기총회
    • /
    • pp.47-50
    • /
    • 2005
  • 센서와 모바일 기술의 발달로 인해 다양한 센서에서 수집된 스트림 데이터를 처리하는 연구들이 많이 수행되고 있다. 다차원 속성의 스트림 데이터는 센서에서 주기적으로 수집되어 버퍼링 후 처리되기 때문에 기존의 투플 기반의 데이터 분류 기법에 적합하지 않다. 따라서 이 논문에서는 윈도우 기반의 스트림 데이터 분류를 위해 각 속성의 평균과 표준편차 값을 이용하여 투플 기반으로 변환하는 기법을 제안한다. 제안된 기법의 타당성은 투플 기반 데이터 분류 기법(의사결정트리, 단순 베이지안 분류기, 베이지안 신뢰 네트워크)에 의한 정확도 측정에 기반 한다. 로봇에서 수집된 센서 데이터를 이용한 실험 결과, 높은 정확도로 제안된 기법이 타당함을 증명하였으며 베이지안 신뢰 네트워크 기법이 다른 기법에 비해 우수함을 발견하였다.

  • PDF

빅데이터 검색 정확도에 미치는 다양한 측정 방법 기반 검색 기법의 효과 (Impact of Diverse Document-evaluation Measure-based Searching Methods in Big Data Search Accuracy)

  • 김지영;한다현;김종권
    • 정보과학회 논문지
    • /
    • 제44권5호
    • /
    • pp.553-558
    • /
    • 2017
  • 빅데이터의 공급이 늘어남에 따라, 이로부터 유용한 정보를 추출해내기 위한 학계와 업계의 연구가 활발히 진행 되고 있다. 특히 분석한 정보의 특징과 함께, 정보 검색 시 검색자의 의도를 함께 반영하여 정보를 여과해 주는 것이 대부분의 연구의 최종 목표이다. 정확하게 분석된 자료는 기업이 제공하는 서비스에 대한 사용자의 충성도를 높여주고, 사용자 스스로 보다 효율적이고 효과적으로 정보를 이용할 수 있게 된다. 본 논문에서는 가장 높은 빈도로 사용되는 검색 분야인 기사를 검색하는 경우의 정확도를 높이기 위해, 관련 데이터를 TF-IDF, 결정 트리, 코사인 유사도, 단순 베이지안 분류기 등의 다양한 측도방법으로 평가해 보고, 이를 분석하였다. 또한, 분석 결과를 바탕으로 가장 적합한 측도 방법을 제안한다.

2단계 분류기법을 이용한 영상분류기 개발 (A Study on development for image detection tool using two layer voting method)

  • 김명관
    • 한국컴퓨터산업학회논문지
    • /
    • 제3권5호
    • /
    • pp.605-610
    • /
    • 2002
  • 영상물에 대한 학습과 분류를 위해 단순 베이지안, N-Nearest 방법 등이 사용된다. 이 방법들은 단순하면서 높은 정확도를 갖는다. 본 논문에서는 2단계 투표를 통해 이들 방법들을 조합하여 사용하였다. 유해 영상물들을 대상으로 학습 및 분류를 실험하였다. 결과로 색상분포에 따른 영상 분류가 실시간 처리 및 유해 영상 인식에 효과적임을 보였다. 또한 2단계 투표 방식의 알고리즘으로 약 2000장 이상의 사진을 가지고 학습 및 분류를 시행했으며 결과 80%에 가까운 높은 정확도와 대상 사진에 영향 받지 않는 안정도를 보였다.

  • PDF

감정요소를 사용한 정보검색에 관한 연구 (A Study of using Emotional Features for Information Retrieval Systems)

  • 김명관;박영택
    • 정보처리학회논문지B
    • /
    • 제10B권6호
    • /
    • pp.579-586
    • /
    • 2003
  • 감정요소를 사용한 정보검색시스템은 감정에 기반한 정보검색을 수행하기 위하여 감정시소러스를 구성하였으며 이를 사용한 감정요소추출기를 구현하였다. 감정요소추출기는 기본 5가지 감정 요소를 해당 문서에서 추출하여 문서를 벡터화시킨다. 벡터화시킨 문서들은 k-nearest neighbor, 단순 베이지안 및 상관계수기법을 사용한 2단계 투표방식을 통해 학습하고 분류하였다. 실험결과 분류 방식과 K-means를 이용한 클러스터링에서 감정요소에 기반한 방식이 더 우수하다는 결과와 5,000 단어 미만의 문서 검색에 감정기반 검색이 유리하다는 것을 보였다.

행동 패턴 모델을 이용한 게임 봇 검출 방법 (Behavior Pattern Modeling based Game Bot detection)

  • 박상현;정혜욱;윤태복;이지형
    • 한국지능시스템학회논문지
    • /
    • 제20권3호
    • /
    • pp.422-427
    • /
    • 2010
  • 2004년 이후 정보기술의 성장과 더불어 게임 서비스에 대한 피해 사례가 해 마다 빠르게 증가하고 있는 실정이다. 특히 게임 봇(자동사냥 프로그램)에 대한 피해규모가 가장 크게 조사되고 있으며 이를 방지하기 위한 연구도 활발히 진행되고 있다. 게임 봇은 사용자가 입력하는 키보드나 마우스의 움직임을 대신해 자동으로 게임을 수행하는 프로그램으로 어떠한 사용자의 조작 없이도 게임 속에서의 이득 활동을 무한정 행할 수 있다. 이와 같은 행동은 일반적인 사용자에게 상대적인 불쾌감을 줄 뿐만 아니라 게임의 수명을 단축시키는 등 게임 회사 및 사용자에게 큰 피해를 발생시키고 있어 이를 방지하기 위한 방법이 주목 되고 있다. 기존의 게임 봇 검출 연구들은 단순이 사용자 개인 PC에 설치되어 동작중인 프로그램을 감시하기 때문에 게임 봇 사용자의 조작에 의해 쉽게 피해갈수 있는 단점을 가지고 있다. 따라서 본 논문에서는 게임 서버측면에서 사람과 게임 봇의 행동을 비교하여 게임 봇 사용자들이 조작이나 회피가 힘든 게임 봇 검출 방법을 제안한다. 제안 방법으로는 게임 봇과 사람의 행동 패턴 차이 모델을 정의하고 나이브 베이지안 분류기를 사용하여 게임 봇을 검출한다.