• 제목/요약/키워드: 나이브 베이지안

검색결과 54건 처리시간 0.024초

의료데이터마이닝에서 클러스터링 기반의 나이브 베이지안 학습 (A Naive Bayesian Learning of Clustering for Medical Datamining)

  • 한송이;정용규
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2010년도 한국컴퓨터종합학술대회논문집 Vol.37 No.1(C)
    • /
    • pp.410-413
    • /
    • 2010
  • 병원정보시스템의 전세계적인 보급과 데이터웨어하우스의 도입으로 인해서 병원내의 의료데이터가 기하 급수적인 증가추세를 보이고 있다. 환자에 대한 임상적인 특징을 다수 포함하고 있는 의료데이터는 유용한 임상지식의 보고로서 그 가치가 매우 유용하다. 따라서 데이터에 숨겨진 지식을 발견하여 구조화시킴으로써 새로운 지식을 창조하는 데이터마이닝은 임상부분에 적합한 기술이라 말할 수 있다. 본 연구에서는 급성염증을 가진 환자들의 의료데이터를 기반으로 특징을 추출하고, 추출된 특징을 바탕으로 병명을 판단하기 위한 학습을 수행한다. 학습 방법은 클러스터링을 이용한 나이브 베이지안으로 진행한다. 기존의 나이브 베이지안 학습은 대량의 데이터를 처리하는데 효과적이며 성능 또한 우수하지만, 속성별 독립을 가정하기 때문에 의료데이터를 분석에는 잘 사용되지 않는다. 따라서 높은 신뢰도를 구현하기 위해 나이브 베이지안 학습 전에 클러스터링을 선행하여, 기존 데이터에 클러스터링 클래스를 추가한다. 이를 통해 급성염증의 증상을 보이는 환자데이터를 바탕으로 자동적으로 방광염과 결석으로 인한 신장염을 효과적으로 진단해낸다.

  • PDF

나이브 베이지안 분류자와 메세지 규칙을 이용한 스팸메일 필터링 시스템 (Spam-mail Filtering System Using Naive Bayesian Classifier and Message Rule)

  • 조한철;조근식
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 봄 학술발표논문집 Vol.29 No.1 (B)
    • /
    • pp.223-225
    • /
    • 2002
  • 인터넷의 급속한 성장과 함께 E-Mail은 대표적인 통신수단의 하나가 되어버렸다. 편리하다는 점을 이용해서 엄청난 양의 스팸메일이 매일같이 쏟아져 오고 , 그 문제점의 심각성에 정보통신부에서 정보통신망 이용촉진 및 정보보호 등에 관한 법률이라는 새로운 법률까지 생겨났다. 본 논문에서는 이 법률에서 요구하는 '광고'라는 문구를 걸러내는 등의 메시지 규칙을 갖는 시스템과 기존의 문서 분류에 널리 쓰이던 나이브 베이지안 분류자(Naive Baesian Classifier)를 결합한 스팸 메일 필터링 시스템(Spam-mail Fitering System)을 제안한다. 제안된 시스템에서는 사용자가 직접 규칙을 작성할 필요없이 학습한 데이터를 갖고 자동으로 스팸메일을 분류할 수가 있다. 들어온 메일은 메시지 규칙 기반 필터가 먼저 적용되고, 메세지 규칙 기반 필터에서 분류되지 않으면 나이브 베이지안 필터에서 분류된다. 실험에서는 제안된 시스템의 성능을 평가하기 위해서 메시지 규칙을 사용한 시스템 및 나이브 베이지만 분류자 시스템과 비교 평가하였다. 또한 임계치를 변경함으로써 제안된 시스템의 성능을 높일 수있도록 하였다.

  • PDF

다중 레이블 나이브 베이지안 분류기의 정확도 개선 연구 (Improving Accuracy of Multi-label Naive Bayes Classifier)

  • 김해천;이재성
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2018년도 제57차 동계학술대회논문집 26권1호
    • /
    • pp.147-148
    • /
    • 2018
  • 다중 레이블 분류 문제는 다중 레이블 데이터를 입력받았을 때 연관된 다수의 레이블을 추측하는 문제이다. 본 논문에서는 다중 레이블 분류 문제의 기법 중 하나인 나이브 베이지안 분류기에 레이블 의존성을 계산하여 결과에 반영한 결과 다중 레이블 분류 문제의 성능이 개선됨을 확인하였다.

  • PDF

디지털 TV에서 시멘틱 환경의 유헬스 서비스를 위한 나이브 베이지안 필터링 기반 개인화 서비스 추천 방법 (Semantics Environment for U-health Service driven Naive Bayesian Filtering for Personalized Service Recommendation Method in Digital TV)

  • 김재권;이영호;김종훈;박동균;강운구
    • 한국컴퓨터정보학회논문지
    • /
    • 제17권8호
    • /
    • pp.81-90
    • /
    • 2012
  • 디지털 TV에서 시멘틱 환경의 유헬스 개인화 서비스 추천은 개인의 신체조건, 질병, 건강상태를 평가해서 이루어져야 한다. 기존의 시멘틱 환경의 유헬스 개인화 추천 방법은 온톨로지에 의존하여 의미 분석으로 추천을 하기 때문에 사용자 만족도가 떨어진다. 이에 본 논문에서는 디지털 TV에서 시멘틱 환경의 유헬스 서비스를 위한 나이브 베이지안 필터링 기반 개인화 서비스 추천 방법을 제안한다. 제안하는 방법은 온톨로지를 이용하여 상황데이터를 추론하여 트렌젝션을 저장 하고, 선호도 정보를 이용한 나이브 베이지안 필터링 기법을 사용하여 온톨로지로부터 생성된 트렌젝션과 사용자 선호도 정보를 이용하여 추론하여 서비스를 제공한다. 나이브 베이지안 필터링 기반으로 추론된 서비스는 기존의 필터링 방법 보다 콘텐츠 추천의 높은 정확도와 재현율을 보인다.

나이브 베이지안 분류기를 이용한 선에코 탐지 방법에 대한 연구 (A Study of Line-shaped Echo Detection Method using Naive Bayesian Classifier)

  • 이한수;김성신
    • 한국지능시스템학회논문지
    • /
    • 제24권4호
    • /
    • pp.360-365
    • /
    • 2014
  • 기상 레이더, 인공위성, 라디오존데 등 날씨 예보를 수행하기 위해 많은 종류의 첨단 장비들이 사용되고 있다. 이들 중에서 지상에 설치된 기상 레이더는 넓은 탐지영역, 높은 시간 및 공간 분해능 등과 같은 많은 장점을 가지고 있기 때문에 기상예보 과정에서 필수적인 장비이다. 이러한 기상 레이더 데이터의 내부에는 기상현상 이외에도 여러 가지 외부 요인에 의해 발생하는 비기상현상이 관측되는데, 이는 기상 예보의 정확도를 감소시키는 원인이 된다. 본 논문에서는 기상 레이더 데이터를 이용한 연구를 통하여 비기상현상이 레이더에 관측되어 에코 형태로 나타난 것들 중에서 선 모양으로 발생하는 비기상에코를 제거하는 방법을 제안한다. 원시 레이더 데이터에서 선에코를 구분하여 그 특성을 추출한 후, 이들을 바탕으로 데이터 페어를 구성하여 나이브 베이지안 분류기를 학습시켰다. 그리고 학습된 나이브 베이지안 분류기를 선에코와 기상에 코가 혼재된 사례에 적용하였다. 실제 사례를 바탕으로 한 실험을 통해서 제안한 나이브 베이지안 분류기가 효과적으로 선에코를 식별할 수 있음을 확인하였다.

나이브 베이지안 분류자와 메일 주소 유효성 검사를 이용한 스팸 메일 필터링 시스템 (Spam-Mail Filtering System by Using Naive Bayesian Classifier and Mail Address Validation Check)

  • 임정택;김형준;강승식
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 가을 학술발표논문집 Vol.32 No.2 (2)
    • /
    • pp.523-525
    • /
    • 2005
  • 본 논문에서는 가중치가 부여된 나이브 베이지안 분류자와 스팸 메일의 특성을 이용한 주소 유효성 검사를 결합하여 필터링하는 방식의 스팸 메일 필터링 시스템을 제안하였다. 주소 유효성 검사를 통해 스팸 메일을 효율적으로 필터링 할 수 있으며, 나이브 베이지안 분류자에 가중치를 부여함으로써 더욱 효과적인 분류를 할 수 있다. 또한, 각 요인의 중요도에 따라 다른 비중을 부여함으로써 메일의 특성을 고려한 필터링 환경을 구현하였다. 실험에서는 제안하는 요인들이 실제로 필터링 성능 향상에 어떤 영향을 미치는지 살펴보고 최적의 시스템 성능을 측정하였다.

  • PDF

나이브 베이지안 분류기 모델 기반의 소용량 파일 그룹화 시스템 설계 (A Design of the Small File Grouping System Based on Naive Bayesian Classifier Model)

  • 김민재;김경태;윤희용
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2014년도 제50차 하계학술대회논문집 22권2호
    • /
    • pp.221-222
    • /
    • 2014
  • 빠른 웹의 성장으로 대용량 데이터를 효과적으로 처리할 수 있는 플랫폼 기술에 대한 관심이 높아지고 있다. 특히, HDFS는 이상적인 분산 파일 시스템으로 각광받고 있으며 대용량 파일의 처리를 목적으로 개발되었다. 하지만, 실제 파일들의 집합에서 소용량 파일이 차지하는 비중은 높은 편이다. 많은 수의 소용량 파일은 HDFS 성능 감소에 치명적인 원인이 된다. 많은 수의 소용량 파일들이 HDFS에 저장된다면 NameNode의 메모리 소비량이 증가하게 되며 많은 수의 소용량 파일은 많은 수의 DataNode와 NameNode를 요구하므로 상대적으로 처리시간이 많이 소모된다. 따라서 본 논문에서는 HDFS에서 소용량 파일의 저장과 액세스 효율성을 향상시키기 위하여 나이브 베이지안 분류기 알고리즘을 적용한 파일 그룹화 시스템을 설계하였다.

  • PDF

나이브 베이지안 분류기를 이용한 게시물 자동 분류를 위한 eCRM 에이전트 시스템 (eCRM Agent System for Articles Automatic Classification System based on Naive Bayesian Classifier)

  • 최정민;이병수
    • 전기전자학회논문지
    • /
    • 제8권2호
    • /
    • pp.216-223
    • /
    • 2004
  • 최근 전자 상거래에서 사용하고 있는 게시판은 고객의 능동적인 참여로 운영되며, 게시물은 고객의 직접적인 의사를 들을 수 있는 인 바운드(Inbound)정보로서 다른 eCRM을 위한 고객 접점 채널 과는 성격이 다른 도구이다. 또한 게시판의 효과적인 운영은 게시판 자체의 신뢰도를 향상 시키고 나아가 전자 상거래 전체의 신뢰도를 높여 줄 수 있는 중요한 eCRM 도구이다. 그러나 현재 대부분의 전자상거래에서 운영하는 게시판은 기 분류된 카테고리를 고객이 직접 수동으로 선정하도록 되어 있고, 이렇게 임의로 분류되는 게시물에 대하여 체계적인 처리 과정 없이 답변이 이루어지기 때문에 답변을 하는데 많은 시간이 소요 되고 있으며, 정확한 답변이 이루어지지 않고 있는 실정이다. 따라서, 본 논문에서는 여러 가지 종류의 게시물에 대하여 나이브 베이지안 분류기를 이용하여 게시판의 기존 문제점의 해결과 효과적인 운영 그리고 게시물의 체계적인 분류 관리를 할 수 있는 게시물 자동 분류기를 설계하고 구현하였다. 아울러 문서 분류 학습 기법 중 대표적인 TFIDF. k-NN, 나이브 베이지안 기법들의 게시물 분류 성능을 측정하여 채택한 나이브 베이지안 분류기의 우수성을 확인 하였다.

  • PDF

나이브 베이지안 분류기를 이용한 판소리 분류 프로그램 구현 (An Implementation of Pan-So-Ri Classification Program Using Naive Bayesian Classifier)

  • 김원종;이강복;김명관
    • 한국인터넷방송통신학회논문지
    • /
    • 제11권3호
    • /
    • pp.153-159
    • /
    • 2011
  • 판소리는 이야기를 노래로 부르는 우리나라의 전통음악 형식 중 하나로 두 가지 유파(동편제, 서편제)로 나누어진다. 판소리에 대한 지식이 없는 사람은 판소리를 듣고서 이 두 가지 유파를 구별해내기 어렵다. 본 논문에서는 PCD(Pitch Class Distribution)와 나이브 베이지안 분류기를 이용한 판소리 분류 프로그램 구현 과정을 기술한다. 분류기에 사용되는 속성값으로는 각 음계의 출현빈도를 이용하였다. 실험은 확률값을 반올림한 위치를 다르게 하여 두 번 실행하였으며, 그 중 보다 뛰어난 결과로 동편제를 80%, 서편제를 97%, 총 88%의 정확도로 올바르게 분류해 내는 것을 알 수 있었다. 구현한 프로그램에는 이 결과를 적용하였다.

나이브 베이지안 방법을 위한 데이터 변환법으로 한국인 급성 심근경색증 환자의 예후를 예측하는 성능의 향상 (Development of Performance to Predict the Prognosis of Korean Patients with Acute Myocardial Infarction by Data Transformation for Naïve Bayes Method)

  • 조선호;김정수;권혁철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2014년도 추계학술발표대회
    • /
    • pp.868-871
    • /
    • 2014
  • 오늘날 한국에서는 급성 심근경색증으로 인한 사망률이 높은 상태로, 발병 시에 치료까지 신속한 의사결정이 요구되는 위중한 질병이기 때문에, 한국인에게 맞는 급성 심근경색증 연구가 매우 중요 하다. 본 연구는 한국인 급성 심근경색증 등록 데이터를 이용해 기계 학습 방법의 한 종류인 나이브 베이지안 방법을 이용해 급성 심근경색증 환자의 예후를 예측하고자, 의료 데이터의 특성에 따른 데이터 변환 방법을 제안한다. 타겟 클래스에서 보다 중요한 의미를 가진 death 값에 대해 각 값을, nominal value, numeric value, 결측치로 구분한 방식에 따라, 확률을 계산해 변환한다. 실험 결과를 통해 결측치를 피처마다 존재하는 값들의 평균을 낸 값으로 대입하였을 때 가장 좋은 성능임을 알 수 있었는데, 기존의 방법에 비해 precision=5.4%, recall=7.0%의 성능이 향상되었다. 따라서 제안한 방법은 나이브 베이지안 방법의 예측 성능 향상에 기여하였다고 판단된다. 이후 적용했던 데이터 변환 방법을 여러 가지 기계 학습 방법에서 판단해보고, 다른 타겟 클래스에도 시험해보고자 한다.