• 제목/요약/키워드: 베이지안 분류

검색결과 200건 처리시간 0.026초

마케팅 데이터를 대상으로 중요 통계 예측 기법의 정확성에 대한 비교 연구 (A Comparative Study on the Accuracy of Important Statistical Prediction Techniques for Marketing Data)

  • 조민호
    • 한국전자통신학회논문지
    • /
    • 제14권4호
    • /
    • pp.775-780
    • /
    • 2019
  • 미래를 예측하는 기법은 통계에 기반을 둔 것과 딥러닝에 기반을 둔 기술로 분류할 수 있다. 그중 통계에 기반을 둔 것이 간단하고 정확성이 높아서 많이 사용된다. 하지만 실무자들은 많은 분석기법의 올바른 사용에 어려움이 많다. 이번 연구에서는 마케팅에 관련된 데이터에 다항로지스틱회귀, 의사결정나무, 랜덤포레스트, 서포트벡터머신, 베이지안 추론을 적용하여 예측의 정확성을 비교하였다. 동일한 마케팅 데이터를 대상으로 하였고, R을 활용하여 분석을 진행하였다. 마케팅 분야의 데이터 특성을 반영한 다양한 기법의 예측 결과가 실무자들에게 좋은 참고가 될 것으로 생각한다.

데이터 마이닝을 적용한 기업형 클라우드 컴퓨팅 기반 데이터 처리 기법 (Data processing techniques applying data mining based on enterprise cloud computing)

  • 강인성;김태호;이홍철
    • 한국컴퓨터정보학회논문지
    • /
    • 제16권8호
    • /
    • pp.1-10
    • /
    • 2011
  • 최근 클라우드 컴퓨팅은 인터넷 접속을 통해 언제어디서든 사용할 수 있는 높은 이용편리성과 동시에 스마트폰, 넷북, PDA 등과 같은 각종 정보통신 기기로 데이터를 손쉽게 공유할 수 있는 사용환경을 제공하기 때문에 산업적 파급효과가 커 디지털혁명을 주도할 서비스로 주목받고 있다. 이와 같은 클라우드 컴퓨팅 기반의 협업 시스템을 통해 비즈니스 실무부서 간의 업무 통합이 점차적으로 이루어지면, 관련 부서 간 공유하게 되는 데이터가 더욱 많아지기 때문에 실무자가 필요한 데이터를 보다 쉽게 찾아 사용할 수 있는 방법이 필요하다. 기존 연구에서는 군집화를 통해 탐색과정을 단순화했지만, 본 논문에서는 관련 부서 간에 자주 발생하는 데이터 중복을 제거하고 시스템 성능을 향상시키기 위해 해쉬함수를 사용하고, 변경된 데이터에 대한 정보가 동적으로 반영되어 실무자에게 적합한 데이터가 분류될 수 있도록 데이터 마이닝 기법 중 베이지안 네트워크를 사용한 시스템을 제안하였다. 본 시스템은 기존 방법과 비교하여 탐색기능이 향상된 결과를 나타내었을 뿐만 아니라, CPU, Network Bandwidth 사용량 등의 시스템 성능에도 효율적인 것을 확인하였다.

문서분류를 위한 의미적 주제선정방법 (Semantic Topic Selection Method of Document for Classification)

  • 고광섭;김판구;이창훈;황명권
    • 한국정보통신학회논문지
    • /
    • 제11권1호
    • /
    • pp.163-172
    • /
    • 2007
  • 웹은 전세계 규모의 네트워크로써 문자, 화상, 음성 등의 미디어 정보들을 페이지 단위로 관리되며, 링크를 이용하여 분산된 정보들을 연결하고 있다. 이러한 웹의 지속적인 발전으로 무수한 정보들을 축적하고 있으며, 그 중 텍스트로 구성된 문서들이 주를 이룬다. 사용자는 이렇게 많은 정보들 중에서 자신이 원하는 특정 정보를 찾기 위해 웹을 사용한다. 그래서 웹은 사용자 요구에 적합한 정보를 검색해 주기 위해 계속적인 시도와 많은 연구들로 발전되고 있다. 확률을 이용한 방법, 통계적인 기법을 이용한 방법, 벡터 유사도를 이용한 방법, 베이지안 자동문서 분류 방법 등 기존의 방법들은 문서의 의미적인 주제나 특징을 정확하게 처리 할 수 없어 사용자는 재검색을 해야 하는 문제점을 갖는다. 특히, 국내 문서 분류를 위한 연구는 많이 이루어지지 않아 검색에 더욱 어렵다. 이러한 문제점을 보완하기 위해 본 논문에서는 국내문서의 효율적이고 의미적인 분류를 위해 출현 개념의 TF(Term Frequency)와 주변 개념들과의 관계된 정도(RV : Relation Value)를 추출한다. 그리고 추출된 키워드들을 국내 어휘 사전인 U-WIN에 매핑하여 문서의 주제를 선택하고 본문에서 제 시하는 분류방법에 의해 웹 문서를 분류한다. 이는 문서 내 개념들의 관계를 이용하여 문서의 주제를 선정하고 문서의 의미적인 분류를 가능하게 한다.

사용자 평점 기반 게임 추천 시스템 (Game Recommendation System Based on User Ratings)

  • 김종현;조현정;김병만
    • 한국산업정보학회논문지
    • /
    • 제23권6호
    • /
    • pp.9-19
    • /
    • 2018
  • 최근 게임 산업의 발달과 게임 방송에 대한 사람들의 관심이 많아짐에 따라 기존 게이머들이 아닌 사람들도 게임에 관심을 많이 보이고 있고, 게임 구매로 이어지고 있다. 하지만, 일반 사용자가 매일 수십 개씩 발매되는 게임 중에 어떤 게임이 자신이 재밌게 즐길 수 있는 게임인지를 판단하기 어렵다. 따라서 게임 판매 플랫폼에서 게임 추천 기능을 갖추고 있지만 그들의 매출 증가를 위한 수단으로 사용되어 그들의 할인 제품이나 신제품에 초점을 맞춰 추천을 해주기 때문에 추천 시스템의 정확도가 낮다. 이러한 이유 때문에 본 논문에서는 사용자에 대한 추천 만족도를 높이고 사용자 경험을 적절히 반영한, 사용자가 남긴 평점을 기반으로 한 게임 추천 시스템을 구성하였다. 시스템에서는 협력 필터링을 이용한 예상 평가 점수 기능과 나이브 베이지안을 이용한 게임 추천 기능을 구현하여 사용자에게 빠르고 정확한 추천을 할 수 있도록 구현하였다. 결과적으로 예상 평점 알고리즘의 경우 2.4초의 처리 속도와 평균 72.1퍼센트의 정확도를 얻었고, 게임 추천 알고리즘의 경우 75.187퍼센트의 정확도를 얻어 사용자에게 빠르고 정확한 추천 결과를 제시 할 수 있었다.

효과적인 추천 시스템을 위한 협업적 태그 기반의 여과 기법 (Collaborative Tag-based Filtering for Recommender Systems)

  • 연철;지애띠;김흥남;조근식
    • 지능정보연구
    • /
    • 제14권2호
    • /
    • pp.157-177
    • /
    • 2008
  • 최근 웹 2.0의 영향으로 태깅을 지원하는 인터넷 서비스들이 많아졌다. 태깅의 원래 목적은 컨텐츠를 분류하고 재검색을 용이하게 하는 것이지만, 컨텐츠에 태깅되어 있는 태그들을 분석하여 컨텐츠의 특성을 파악할 수 있다. 본 논문에서는 내용 파악이 힘든 컨텐츠들이 증가함에 따라 이러한 컨텐츠들의 효과적인 추천을 위해, 여러 사용자들에 의해 협업적으로 태깅된 정보를 이용한 여과 기법을 제시한다. 제안하는 방법은 사용자가 태깅한 정보들을 바탕으로 사용자의 관심을 파악하는 부분과 파악된 관심에 맞는 컨텐츠를 선별하는 부분으로 나뉘어진다. 사용자의 관심을 파악하는 부분은 사용자가 태깅한 정보들을 협업적 여과를 이용하고, 컨텐츠 선별은 확률적인 방법인 나이브 베이지안 분류자를 이용한다. 이를 통해 협업적 여과 방법의 문제점인 희박성 문제(sparsity problem)와 초기 사용자 문제(cold-start user probleam) 대해 기존의 방법들과 비교하여 그 효과를 보인다.

  • PDF

음성 명료도 향상을 위한 분류 모델의 잡음 환경 적응 (Adaptation of Classification Model for Improving Speech Intelligibility in Noise)

  • 정준영;김기백
    • 방송공학회논문지
    • /
    • 제23권4호
    • /
    • pp.511-518
    • /
    • 2018
  • 본 논문에서는 잡음 환경의 음성 신호를 시간-주파수 영역으로 분해한 후 0 또는 1로 표현되는 이진 마스크를 적용하여 음성의 명료도를 높이는 방법에 대해 다룬다. 시간-주파수 영역으로 분해된 신호에 대해 상대적으로 잡음이 많이 섞인 경우는 마스크 "0"을 할당하여 제거하고, 그렇지 않은 경우는 마스크 "1"을 할당하여 보존하는 방식을 채택한다. 이러한 이진 마스크의 추정은 가우시안 혼합 모델로 학습된 베이지안 분류기를 사용한다. 가우시안 혼합 모델 학습에 포함된 잡음 환경에 대해서는 학습된 모델을 이용하여 추정된 이진 마스크의 적용을 통해 잡음 환경에서 음성 명료도를 높일 수 있으나 학습에 포함되지 않은 잡음 환경에 대해서는 음성 명료도를 향상시키지 못하는 문제가 있다. 본 논문에서는 이러한 문제를 해결하기 위해 학습 모델을 잡음 환경에 적응시키고자 한다. 새로운 잡음 환경에 대처하고자 음성 인식에서 사용되는 대표적인 화자 적응 방법을 적용하였으며 실험을 통해 새로운 잡음 환경에 적응함을 확인하였다.

n-Gram 색인화와 Support Vector Machine을 사용한 스팸메일 필터링에 대한 연구 (A study on the Filtering of Spam E-mail using n-Gram indexing and Support Vector Machine)

  • 서정우;손태식;서정택;문종섭
    • 정보보호학회논문지
    • /
    • 제14권2호
    • /
    • pp.23-33
    • /
    • 2004
  • 인터넷 환경의 급속한 발전으로 인하여 이메일을 통한 메시지 교환은 급속히 증가하고 있다. 그러나 이메일의 편리성에도 불구하고 개인이나 기업에서는 스팸메일로 인한 시간과 비용의 낭비가 크게 증가하고 있다. 이러한 스팸메일에 대한 문제들을 해결하기 위하여 많은 방법들이 연구되고 있으며, 대표적인 방법으로 키워드를 이용한 패턴매칭이나 나이의 베이지안 방식과 같은 확률을 이용한 방법들이 있다. 본 논문에서는 기존의 연구에 대한 문제점을 보완하기 위하여 패턴 분류문제에 있어서 우수한 성능을 보이는 Support Vector Machine을 사용하여 정상적인 메일과 스팸메일을 분류하는 방안을 제시하였으며, 특히 n-Gram을 사용하여 생성된 색인어와 단어사전을 학습데이터 생성에 사용함으로서 효율적인 학습을 수행하도록 하였다. 결론에서는 제안된 방법에 대한 성능을 검증하기 위하여 기존의 연구 결과와 비교함으로서 제안된 방법의 성능을 검증하였다.

비정상 문자 조합으로 구성된 스팸 메일의 탐지 방법 (An Approach to Detect Spam E-mail with Abnormal Character Composition)

  • 이호섭;조재익;정만현;문종섭
    • 정보보호학회논문지
    • /
    • 제18권6A호
    • /
    • pp.129-137
    • /
    • 2008
  • 인터넷의 활용도가 높아짐에 따라, 스팸메일이 전체 메일에서 차지하는 비중이 점점 커지게 되었다. 전체 인터넷 자원에서 필요에 의해 사용되는 메일의 기능보다, 주로 광고나 악성코드 등의 전파를 위한 목적으로 사용되는 메일의 비중이 점점 커지고 있으며, 이를 방지하기 위한 컴퓨터 및 네트워크, 인적자원의 소모가 매우 심각해지고 있다. 이를 해결하기 위해 스팸 메일 필터링에 대한 연구가 활발히 진행되어 왔으며, 현재는 문맥상의 의미는 없지만 가독상에서 의미를 해석할 수 있는 문장에 대한 연구가 활발히 이루어지고 있다. 이러한 방식의 메일은 기존의 어휘를 분석하거나 문서 분류 기법 등을 이용한 스팸 메일을 필터링 방법을 통해 분류하기 어렵다. 본 연구는 이와 같은 어려움을 해결하기 위해 메일의 제목에 대한 N-GRAM 색인화를 통해 베이지안 및 SVM 을 이용하여 스팸 메일을 필터링 하는 방법을 제안한다.

엔트로피를 이용한 분산 서비스 거부 공격 탐지에 효과적인 특징 생성 방법 연구 (An Effective Feature Generation Method for Distributed Denial of Service Attack Detection using Entropy)

  • 김태훈;서기택;이영훈;임종인;문종섭
    • 정보보호학회논문지
    • /
    • 제20권4호
    • /
    • pp.63-73
    • /
    • 2010
  • 최근 분산 서비스 거부 공격의 근원인 악성 봇 프로그램이 널리 유포되고 있으며 보안이 유지되지 않는 PC를 통하여 악성 봇이 설치된 PC의 수가 기하급수적으로 증가하고 있다. 이를 통한 분산 서비스 거부 공격이 계속적으로 발생하고 있으며 최근 금품을 요구하는 사례도 발견되었다. 따라서 분산 서비스 거부 공격에 대응하기 위한 연구가 필요하며 본 논문에서는 네트워크 패킷 헤더의 속성에 대해 불확실성을 나타내는 척도인 엔트로피를 이용하는, 분산 서비스 거부 공격 탐지에 효과적인 특정 생성 방법을 제안한다. DARPA 2000 데이터셋과 직접 실험을 통해 구성한 분산 서비스 거부 공격 데이터셋에 대해 향상된 엔트로피 수식과 효율적인 엔트로피 계산 기법, 다양한 엔트로피 특징 값을 사용하는 제안 기법을 적용해보고 베이지안 네트워크 분류기를 이용하여 분류함으로써 제안하는 방법이 효과적인지를 검증해 본다.

클래스 영역의 다차원 구 생성에 의한 프로토타입 기반 분류 (Prototype based Classification by Generating Multidimensional Spheres per Class Area)

  • 심세용;황두성
    • 한국컴퓨터정보학회논문지
    • /
    • 제20권2호
    • /
    • pp.21-28
    • /
    • 2015
  • 본 논문에서는 최근접 이웃 규칙을 이용한 프로토타입 선택 기반 분류 학습을 제안하였다. 각 훈련 데이터가 대표하는 클래스 영역을 구(sphere)로 분할하는데 최근접 이웃 규칙을 적용시키며, 구의 내부는 동일 클래스 데이터들만 포함하도록 한다. 프로토타입은 구의 중심점이며 프로토타입의 반지름은 가장 인접한 다른 클래스 데이터와 가장 먼 동일 클래스 데이터의 중간 거리 값으로 결정한다. 그리고 전체 훈련 데이터를 대표하는 최소의 프로토타입 집합을 선택하기 위해 집합 덮개 최적화를 이용하여 프로토타입 선택 문제를 변형시켰다. 제안하는 프로토타입 선택 방법은 클래스 별 적용이 가능한 그리디 알고리즘으로 설계되었다. 제안하는 방법은 계산 복잡도가 높지 않으며, 대규모 훈련 데이터에 대한 병렬처리의 가능성이 높다. 프로토타입 기반 분류 학습은 선택된 프로토타입 집합을 새로운 훈련 데이터 집합으로 사용하고 최근접 이웃 규칙을 적용하여 테스트 데이터의 클래스를 예측한다. 실험에서 제안하는 프로토타입 기반 분류기는 최근접 이웃 학습, 베이지안 분류 학습과 다른 프로토타입 분류기에 비해 일반화 성능이 우수하였다.