• 제목/요약/키워드: Bayesian Classification

검색결과 253건 처리시간 0.026초

퍼지지식베이스에서의 효율적인 정보검색을 위한 규칙생성 및 근사추론 알고리듬 설계 (Rule Generation and Approximate Inference Algorithms for Efficient Information Retrieval within a Fuzzy Knowledge Base)

  • 김형수
    • 디지털콘텐츠학회 논문지
    • /
    • 제2권2호
    • /
    • pp.103-115
    • /
    • 2001
  • 본 논문은 퍼지지식베이스에서 러프 집합과 요인공간이론을 적용하여 최소 결정규칙 생성과 근사추론 연산을 수행하는 두 개의 알고리듬을 제안한다. 최소 결정규칙의 생성은 속성요인에 관련한 상관분석과 베이지안 정리를 응용한 데이터의 분류기법과 리덕트에 의해 수행된다. 이 결정규칙으로 이루어진 최소지식 베이스의 탐색공간에서 소속함수와 t-norm의 합성 연산을 정의한 근사추론 방식에 의해 특정 객체를 검색한다. 본 연구의 러프와 퍼지연산 모듈을 수행하는 제안 알고리듬 기법을 객체및 속성수를 증가시키는 시뮬레이션을 통해 다른 검색이론 및 합성연산 방식과 비교하였다. 그 결과 다른 제 방법보다 본 연구에서 제안하는 기법이 특정 객체를 추출하기 위한 검색연산 시간에 있어 보다 빠르게 검색됨을 입증하였다.

  • PDF

베이지안 기법을 적용한 마이크로어레이 데이터 분류 알고리즘 설계와 구현 (The Algorithm Design and Implement of Microarray Data Classification using the Byesian Method)

  • 박수영;정채영
    • 한국정보통신학회논문지
    • /
    • 제10권12호
    • /
    • pp.2283-2288
    • /
    • 2006
  • 최근 생명 정보학 기술의 발달로 마이크로 단위의 실험조작이 가능해짐에 따라 하나의 chip상에서 전체 genome의 expression pattern을 관찰할 수 있게 되었고, 동시에 수 만개의 유전자들 간의 상호작용도 연구 가능하게 되었다. 이처럼 DNA 마이크로어레이 기술은 복잡한 생물체를 이해하는 새로운 방향을 제시해주게 되었다. 따라서 이러한 기술을 통해 얻어진 대량의 유전자 정보들을 효과적으로 분석하는 방법이 시급하다. 본 논문에서는 실험용 데이터로 하버드대학교의 바이오인포메틱스 코어 그룹의 샘플데이터 이용하여 마이크로어레이 실험에서 다양한 원인에 의해 발생하는 잡음(noise)을 줄이거나 제거하는 과정인 표준화 과정을 거쳐 특징 추출방법인 베이지안 알고리즘 ASA(Adaptive Simulated Annealing) 방법을 이용하여 데이터를 2개의 클래스로 나누고, 정확도를 평가하는 시스템을 설계하고 구현하였다. Lowess 표준화 후 98.23%의 정확도를 보였다.

최근접 이웃 규칙 기반 프로토타입 선택과 편의-분산을 이용한 성능 평가 (Nearest-neighbor Rule based Prototype Selection Method and Performance Evaluation using Bias-Variance Analysis)

  • 심세용;황두성
    • 전자공학회논문지
    • /
    • 제52권10호
    • /
    • pp.73-81
    • /
    • 2015
  • 이 논문은 프로토타입 선택 방법을 제안하고, 편의-분산 분해를 이용하여 최근접 이웃 알고리즘과 프로토타입 기반 분류 학습의 일반화 성능 비교 평가에 있다. 제안하는 프로토타입 분류기는 클래스 영역 내에서 가변 반지름을 이용한 다차원 구를 정의하고, 적은 수의 프로토타입으로 구성된 새로운 훈련 데이터 집합을 생성한다. 최근접 이웃 분류기는 새 훈련 집합을 이용하여 테스트 데이터의 클래스를 예측한다. 평균 기대 오류의 편의와 분산 요소를 분해하여 최근접 이웃 규칙, 베이지안 분류기, 고정 반지름을 이용한 프로토타입 선택 방법, 제안하는 프로토타입 선택 방법의 일반화 성능을 비교한다. 실험에서 제안하는 프로토타입 분류기의 편의-분산 변화 추세는 모든 훈련 데이터를 사용하는 최근접 이웃 알고리즘과 비슷한 편의-분산 추세를 보였으며, 프로토타입 선택 비율은 전체 데이터의 평균 약 27.0% 이하로 나타났다.

Parzen 윈도우 추정에 기반한 다중 초점 이미지 융합 기법 (Multi-focus Image Fusion Technique Based on Parzen-windows Estimates)

  • ;박대철
    • 한국인터넷방송통신학회논문지
    • /
    • 제8권4호
    • /
    • pp.75-88
    • /
    • 2008
  • 본 논문은 입력 이미지 블록의 클래스 조건부 확률 밀도 함수의 커널 추정에 기반한 공간 영역에서의 다중초점 이미지 융합 기법을 제안한다. 이미지 융합 문제를 시험 패턴으로부터 추정된 유사 밀도 함수에 의해 사후 클래스 확률, P($w_{i}{\mid}B_{ikl}$),을 계산하는 분류 임무로 접근하였다. C개의 입력 이미지 $I_{i}$에 대하여 제안한 방법은 i 클래스 $w_{i}$를 정의하고 베이즈 결정 원리에 기초하여 판별 함수를 최대화하는 PxQ 블록 $B_{ikl}$의 집합에 의해 표현되는 결정 지도로 부터 융합 이미지 Z(k,l)를 형성한다. 출력 화질의 척도로서 RMSE 와 상호 정보량인 MI를 사용하여 제안한 기법의 성능이 평가되었다. 커널 함수의 폭 ${\sigma}$ 도 변화시키고, 다른 종류의 커널과 블록 크기를 변화시켜 가며 성능평가를 수행하였다. 제안한 가법은 C=2 와 C=3에 대하여 시험하였고 시험 결과는 좋은 성능을 보였다.

  • PDF

소셜 네트워크 서비스에 노출된 개인정보의 소유자 식별 방법 (A Method of Identifying Ownership of Personal Information exposed in Social Network Service)

  • 김석현;조진만;진승헌;최대선
    • 정보보호학회논문지
    • /
    • 제23권6호
    • /
    • pp.1103-1110
    • /
    • 2013
  • 본 논문에서는 소셜 네트워크 서비스 상에 공개된 개인정보의 소유자 식별 방법을 제안한다. 구체적으로는 트위터상에 언급된 지역 정보가 게시자의 거주지를 의미하는지를 자동으로 판단하는 방법이다. 개인정보 소유자 식별은 특정인의 개인정보가 온라인 상에 얼마나 노출되어 있는지 파악하여 그 위험도를 산정하기 위한 과정의 일부로서 필수적이다. 제안 방법은 트윗 문장의 어휘 및 구조적 특징 13개를 자질(feature set)로 활용한 소유자 식별 규칙들을 통해 지역정보가 게시자의 거주지를 의미하는지 판단한다. 실제 트위터 데이터를 이용한 실험에서 제안방법이 n-gram을 자질로 사용한 나이브베이지안 같은 전통적인 문서 분류 모델보다 더 높은 성능 (F1값 0.876)을 보였다.

Lifelong Machine Learning 기반 스팸 메시지 필터링 방법 (A Method for Spam Message Filtering Based on Lifelong Machine Learning)

  • 안연선;정옥란
    • 전기전자학회논문지
    • /
    • 제23권4호
    • /
    • pp.1393-1399
    • /
    • 2019
  • 인터넷의 급속한 성장으로 데이터의 송수신의 편리성과 비용이 들지 않는다는 장점 때문에 매일 수백만 건의 무차별적인 광고성 스팸 문자와 메일이 발송되고 있다. 아직은 스팸 단어나 스팸 번호를 차단하는 방법을 주로 사용하지만, 기계 학습이 떠오름에 따라 스팸을 필터링하는 방법에 대해 다양한 방식으로 활발히 연구되고 있다. 그러나 스팸에서만 등장하는 단어나 패턴은 스팸 필터링 시스템에 의해 걸러지지 않기 위해 지속적으로 변화하고 있기 때문에, 기존 기계 학습 메커니즘으로는 새로운 단어와 패턴을 감지, 적응할 수 없다. 최근 이러한 기존 기계 학습의 한계점을 극복하기 위해 기존의 지식을 활용하여 새로운 지식을 지속적으로 학습하도록 하는 Lifelong Learning(이하 LL)의 개념이 대두되었다. 본 논문에서는 문서 분류에 가장 많이 사용되는 나이브 베이즈와 Lifelong Machine Learning(이하 LLML)의 앙상블 기법을 이용한 스팸 메시지 필터링 방법을 제안한다. 우리는 기존 스팸 필터링 시스템에 가장 많이 사용되는 나이브 베이즈와, LLML 모델 중 ELLA를 적용하여 LL의 성능을 검증한다.

Nonstandard Machine Learning Algorithms for Microarray Data Mining

  • Zhang, Byoung-Tak
    • 한국생물정보학회:학술대회논문집
    • /
    • 한국생물정보시스템생물학회 2001년도 제2회 생물정보 워크샵 (DNA Chip Bioinformatics)
    • /
    • pp.165-196
    • /
    • 2001
  • DNA chip 또는 microarray는 다수의 유전자 또는 유전자 조각을 (보통 수천내지 수만 개)칩상에 고정시켜 놓고 DNA hybridization 반응을 이용하여 유전자들의 발현 양상을 분석할 수 있는 기술이다. 이러한 high-throughput기술은 예전에는 생각하지 못했던 여러가지 분자생물학의 문제에 대한 해답을 제시해 줄 수 있을 뿐 만 아니라, 분자수준에서의 질병 진단, 신약 개발, 환경 오염 문제의 해결 등 그 응용 가능성이 무한하다. 이 기술의 실용적인 적용을 위해서는 DNA chip을 제작하기 위한 하드웨어/웻웨어 기술 외에도 이러한 데이터로부터 최대한 유용하고 새로운 지식을 창출하기 위한 bioinformatics 기술이 핵심이라고 할 수 있다. 유전자 발현 패턴을 데이터마이닝하는 문제는 크게 clustering, classification, dependency analysis로 구분할 수 있으며 이러한 기술은 통계학과인공지능 기계학습에 기반을 두고 있다. 주로 사용된 기법으로는 principal component analysis, hierarchical clustering, k-means, self-organizing maps, decision trees, multilayer perceptron neural networks, association rules 등이다. 본 세미나에서는 이러한 기본적인 기계학습 기술 외에 최근에 연구되고 있는 새로운 학습 기술로서 probabilistic graphical model (PGM)을 소개하고 이를 DNA chip 데이터 분석에 응용하는 연구를 살펴본다. PGM은 인공신경망, 그래프 이론, 확률 이론이 결합되어 형성된 기계학습 모델로서 인간 두뇌의 기억과 학습 기작에 기반을 두고 있으며 다른 기계학습 모델과의 큰 차이점 중의 하나는 generative model이라는 것이다. 즉 일단 모델이 만들어지면 이것으로부터 새로운 데이터를 생성할 수 있는 능력이 있어서, 만들어진 모델을 검증하고 이로부터 새로운 사실을 추론해 낼 수 있어 biological data mining 문제에서와 같이 새로운 지식을 발견하는 exploratory analysis에 적합하다. 또한probabilistic graphical model은 기존의 신경망 모델과는 달리 deterministic한의사결정이 아니라 확률에 기반한 soft inference를 하고 학습된 모델로부터 관련된 요인들간의 인과관계(causal relationship) 또는 상호의존관계(dependency)를 분석하기에 적합한 장점이 있다. 군체적인 PGM 모델의 예로서, Bayesian network, nonnegative matrix factorization (NMF), generative topographic mapping (GTM)의 구조와 학습 및 추론알고리즘을소개하고 이를 DNA칩 데이터 분석 평가 대회인 CAMDA-2000과 CAMDA-2001에서 사용된cancer diagnosis 문제와 gene-drug dependency analysis 문제에 적용한 결과를 살펴본다.

  • PDF

모션헤드셋의 동작분류기를 위한 사용자 머리동작 분석 (Analysis of User Head Motion for Motion Classifier of Motion Headset)

  • 신춘성;이영호
    • 사물인터넷융복합논문지
    • /
    • 제2권2호
    • /
    • pp.1-6
    • /
    • 2016
  • 최근 다양한 형태의 착용형 컴퓨터가 연구되고 있다. 본 논문에서는 사용자가 음악을 들으며 사용할 수 있는 모션헤드셋의 동작분류기 제작을 위해 머리 움직임 정보의 특징을 분석한다. 모션헤드셋 프로토타입은 스마트폰과 블루투스 통신 방법을 이용하여 음악을 수신받으며, 가속도센서가 측정한 동작정보를 스마트폰으로 전송한다. 그리고 스마트폰에서는 모션 분류기를 통해 머리의 움직임을 분류한다. 실험을 위해 프로토타입을 제작하였다. 사용자 머리의 '위', '아래', '왼쪽', 그리고 '오른쪽' 머리 움직임을 베이지안 분류기를 이용하여 분류하였다. 그 결과 '위'와 '아래'의 머리 움직임의 경우 x, z축의 가속도 센서값이 큰 변화가 있었다. 추후에 사용성 평가를 통해 동작 분류기를 제작할 수 있는 적합한 변수를 찾아 낼 계획이다.

능동 시각을 이용한 이미지-텍스트 다중 모달 체계 학습 (Active Vision from Image-Text Multimodal System Learning)

  • 김진화;장병탁
    • 정보과학회 논문지
    • /
    • 제43권7호
    • /
    • pp.795-800
    • /
    • 2016
  • 이미지 분류 문제는 인간 수준의 성능을 보이지만 일반적인 인식 문제는 어려운 점들이 남아있다. 실내 환경은 다양한 정보를 담고 있어 정보 처리의 양을 효율적으로 줄일 필요성이 있다. 정보의 양을 효율적으로 줄일 수 있도록 대상 객체의 위치 측정을 위한 변분 추론, 변분 베이지안 등의 방법이 소개되었지만, 모든 경우에 대한 주변(marginal) 확률 분포를 구하기 어렵기 때문에 현실적으로 계산하기 어렵다. 본 연구에서는 공간 변형 네트워크(Spatial Transformer Networks)을 응용하여 능동 시각을 이용한 이미지-텍스트 통합 인지 체계를 제안한다. 이 체계는 주어진 텍스트 정보를 바탕으로 이미지의 일부를 효율적으로 샘플링 하도록 학습한다. 이를 통해 전통적인 방법으로 해결하기 어려운 문제를 상당한 격차로 성능을 향상 시킬 수 있다는 것을 보인다. 제안하는 모델을 통해 샘플링 된 이미지를 정성적으로 분석하여 이 모델이 가지는 특성도 함께 살펴본다.

군집 특정 변량효과를 포함한 유한 혼합 모형의 베이지안 분석 (Bayesian analysis of finite mixture model with cluster-specific random effects)

  • 이혜진;경민정
    • 응용통계연구
    • /
    • 제30권1호
    • /
    • pp.57-68
    • /
    • 2017
  • 대량의 데이터에 있어 전반적인 특성 및 구조를 파악하는데 유용하기 때문에 다양한 분야에서 군집분석을 사용하고 있다. Dempster 등 (1977)에서 정의된 expectation-maximization(EM) 알고리즘은 가장 보편적으로 사용되는 군집분석 방법이다. 선형모형의 유한혼합물(finite mixture of linear model) 기법 또한 군집분석 방법 중 많이 사용되는 방법이며 베이지안 군집방법은 Bernardo와 Giron (1988)이 군집에 대한 가중치 확률만 모를 경우 처음 적용하였다. 우리는 이 연구에서 일반적인 선형모형의 유한혼합물이 아닌 군집특정(cluster-specific) 변량효과를 모형에 포함하여 베이지안 분석방법인 깁스표집법(Gibbs sampling)을 사용한다. 제안한 모형의 특성 및 표집법에 대하여 설명하였고 모의실험 및 실제 데이터 분석을 통하여 모형의 유용성을 파악하였다. Hurn 등 (2003)의 CO2 데이터에 모형을 적용하여 변량효과가 없는 모형, 개체특정(subject-specific) 변량효과 모형과 비교하였다.