• 제목/요약/키워드: 베이지안 분류

검색결과 200건 처리시간 0.025초

베이지안 분류 기반의 입 모양을 이용한 한글 모음 인식 시스템 (Recognition of Korean Vowels using Bayesian Classification with Mouth Shape)

  • 김성우;차경애;박세현
    • 한국멀티미디어학회논문지
    • /
    • 제22권8호
    • /
    • pp.852-859
    • /
    • 2019
  • With the development of IT technology and smart devices, various applications utilizing image information are being developed. In order to provide an intuitive interface for pronunciation recognition, there is a growing need for research on pronunciation recognition using mouth feature values. In this paper, we propose a system to distinguish Korean vowel pronunciations by detecting feature points of lips region in images and applying Bayesian based learning model. The proposed system implements the recognition system based on Bayes' theorem, so that it is possible to improve the accuracy of speech recognition by accumulating input data regardless of whether it is speaker independent or dependent on small amount of learning data. Experimental results show that it is possible to effectively distinguish Korean vowels as a result of applying probability based Bayesian classification using only visual information such as mouth shape features.

변종 몬테 칼로 신경망을 이용한 패턴 분류 (Pattern Classification Using Hybrid Monte Carlo Neural Networks)

  • 전성해;최성용;오임걸;이상호;전홍석
    • 정보처리학회논문지B
    • /
    • 제8B권3호
    • /
    • pp.231-236
    • /
    • 2001
  • 일반적인 다층 신경망에서 가중치의 갱신 알고리즘으로 사용하는 오류 역전과 방식은 가중치 갱신 결과를 고정된(fixed) 한 개의 값으로 결정한다. 이는 여러 갱신의 가능성을 오직 한 개의 값으로 고정하기 때문에 다양한 가능성들을 모두 수용하지 못하는 면이 있다. 하지만 모든 가능성을 확률적 분포로 표현하는 갱신 알고리즘을 도입하면 이런 문제는 해결된다. 이러한 알고리즘을 사용한 베이지안 신경망 모형(Bayesian Neural Networks Models)은 주어진 입력값(Input)에 대해 블랙 박스(Black-Box)와같은 신경망 구조의 각 층(Layer)을 거친 출력값(Out put)을 계산한다. 이 때 주어진 입력 데이터에 대한 결과의 예측값은 사후분포(posterior distribution)의 기댓값(mean)에 의해 계산할 수 있다. 주어진 사전분포(prior distribution)와 학습데이터에 의한 우도함수(likelihood functions)에 의해 계산한 사후확률의 함수는 매우 복잡한 구조를 가짐으로 기댓값의 적분계산에 대한 어려움이 발생한다. 따라서 수치해석적인 방법보다는 확률적 추정에 의한 근사 방법인 몬테 칼로 시뮬레이션을 이용할 수 있다. 이러한 방법으로서 Hybrid Monte Carlo 알고리즘은 좋은 결과를 제공하여준다(Neal 1996). 본 논문에서는 Hybrid Monte Carlo 알고리즘을 적용한 신경망이 기존의 CHAID, CART 그리고 QUEST와 같은 여러 가지 분류 알고리즘에 비해서 우수한 결과를 제공하는 것을 나타내고 있다.

  • PDF

감정요소를 사용한 정보검색에 관한 연구 (A Study of using Emotional Features for Information Retrieval Systems)

  • 김명관;박영택
    • 정보처리학회논문지B
    • /
    • 제10B권6호
    • /
    • pp.579-586
    • /
    • 2003
  • 감정요소를 사용한 정보검색시스템은 감정에 기반한 정보검색을 수행하기 위하여 감정시소러스를 구성하였으며 이를 사용한 감정요소추출기를 구현하였다. 감정요소추출기는 기본 5가지 감정 요소를 해당 문서에서 추출하여 문서를 벡터화시킨다. 벡터화시킨 문서들은 k-nearest neighbor, 단순 베이지안 및 상관계수기법을 사용한 2단계 투표방식을 통해 학습하고 분류하였다. 실험결과 분류 방식과 K-means를 이용한 클러스터링에서 감정요소에 기반한 방식이 더 우수하다는 결과와 5,000 단어 미만의 문서 검색에 감정기반 검색이 유리하다는 것을 보였다.

베이지안 분류기를 이용한 소프트웨어 품질 분류 (Software Quality Classification using Bayesian Classifier)

  • 홍의석
    • 한국IT서비스학회지
    • /
    • 제11권1호
    • /
    • pp.211-221
    • /
    • 2012
  • Many metric-based classification models have been proposed to predict fault-proneness of software module. This paper presents two prediction models using Bayesian classifier which is one of the most popular modern classification algorithms. Bayesian model based on Bayesian probability theory can be a promising technique for software quality prediction. This is due to the ability to represent uncertainty using probabilities and the ability to partly incorporate expert's knowledge into training data. The two models, Na$\ddot{i}$veBayes(NB) and Bayesian Belief Network(BBN), are constructed and dimensionality reduction of training data and test data are performed before model evaluation. Prediction accuracy of the model is evaluated using two prediction error measures, Type I error and Type II error, and compared with well-known prediction models, backpropagation neural network model and support vector machine model. The results show that the prediction performance of BBN model is slightly better than that of NB. For the data set with ambiguity, although the BBN model's prediction accuracy is not as good as the compared models, it achieves better performance than the compared models for the data set without ambiguity.

최근접 이웃 규칙 기반 프로토타입 선택과 편의-분산을 이용한 성능 평가 (Nearest-neighbor Rule based Prototype Selection Method and Performance Evaluation using Bias-Variance Analysis)

  • 심세용;황두성
    • 전자공학회논문지
    • /
    • 제52권10호
    • /
    • pp.73-81
    • /
    • 2015
  • 이 논문은 프로토타입 선택 방법을 제안하고, 편의-분산 분해를 이용하여 최근접 이웃 알고리즘과 프로토타입 기반 분류 학습의 일반화 성능 비교 평가에 있다. 제안하는 프로토타입 분류기는 클래스 영역 내에서 가변 반지름을 이용한 다차원 구를 정의하고, 적은 수의 프로토타입으로 구성된 새로운 훈련 데이터 집합을 생성한다. 최근접 이웃 분류기는 새 훈련 집합을 이용하여 테스트 데이터의 클래스를 예측한다. 평균 기대 오류의 편의와 분산 요소를 분해하여 최근접 이웃 규칙, 베이지안 분류기, 고정 반지름을 이용한 프로토타입 선택 방법, 제안하는 프로토타입 선택 방법의 일반화 성능을 비교한다. 실험에서 제안하는 프로토타입 분류기의 편의-분산 변화 추세는 모든 훈련 데이터를 사용하는 최근접 이웃 알고리즘과 비슷한 편의-분산 추세를 보였으며, 프로토타입 선택 비율은 전체 데이터의 평균 약 27.0% 이하로 나타났다.

개인화된 분류를 위한 웹 메일 필터링 에이전트 (Design and Implementation of Web Mail Filtering Agent for Personalized Classification)

  • 정옥란;조동섭
    • 정보처리학회논문지B
    • /
    • 제10B권7호
    • /
    • pp.853-862
    • /
    • 2003
  • 인터넷의 발달로 인하여 웹을 통한 문서 송수신이 많아지면서 이메일의 사용자도 기하급수적으로 늘어나고 있다. 또한 일반 사용자나 전자상거래에서 오가는 메일의 양도 갈수록 늘어나고 있다. 편리하다는 점을 이용해서 엄청난 양의 스팸 메일도 매일 같이 쏟아져 나오고 있다. 본 논문에서는 사용자 개인에 맞게 메일을 자동 관리해 주는 즉 개인화된 분류가 가능하고, 또 언제 어디서나 로그인이 가능한 웹 메일 기반인 웹 메일 필터링 에이전트(Web Mail Filtering Agent for Personalized Classification)를 제안한다. 새로운 메일이 오면, 먼저 사용자의 메일 처리과정을 일정 기간 관찰하여 각각 개인에 맞는 룰(Personal rule)을 형성하고, 만들어진 룰을 바탕으로 메시지를 자동 관리 즉 카테고리별 분류ㆍ저장 및 개인에게 불필요한 메일이나 스팸 메일을 삭제 해 주는 것이다. 또한 시스템의 정확도를 높이기 위해 동적 임계치를 이용한 베이지안 알고리즘을 적용하였다.

Exploring the Feature Selection Method for Effective Opinion Mining: Emphasis on Particle Swarm Optimization Algorithms

  • Eo, Kyun Sun;Lee, Kun Chang
    • 한국컴퓨터정보학회논문지
    • /
    • 제25권11호
    • /
    • pp.41-50
    • /
    • 2020
  • 감성분석 연구에서는 문장에 내포된 감성을 결정짓는 단어를 찾는 것으로부터 시작된다. 경영자는 소비자가 주로 사용하는 단어를 분석함으로써 시장의 반응을 이해할 수 있다. 본 연구에서는 감성분류의 성능에 영향을 미치는 단어를 찾기 위하여 입자군집최적화 탐색방법과 다목적진화 알고리즘이 적용된 속성선택 방법을 제안한다. 속성선택 방법은 기존 머신러닝 분류기를 벤치마킹함으로써 성능이 비교된다. 벤치마킹된 분류기는 의사결정나무, 나이브 베이지안 네트워크, 서포터 벡터 머신, 랜덤포레스트, 배깅, 랜덤 서브스페이스, 로테이션 포레스트이다. 연구결과에 따르면, 입자군집 최적화 알고리즘이 적용된 속성선택방법으로 선택된 속성을 사용한 경우에 속성의 수를 상당히 줄일 수 있었고, 분류기의 성능을 유지시킬 수 있었다. 특히, 정확도 결과에서는 입자군집 최적화 탐색방법으로 선택된 속성을 사용한 경우의 서포터 벡터 머신의 성능이 가장 높게 나타났다. AUC 결과에서는 랜덤 서브스페이스가 가장 높게 나타났다. 본 연구의 결과는 해당 탐색방법과 분류기를 적용함으로써 오피니언 마이닝 모델의 성능을 효율적으로 유지 및 개선시키도록 도움을 준다.

학습문서의 개수에 따른 편차기반 분류방법의 분류 정확도 (Classification Accuracy by Deviation-based Classification Method with the Number of Training Documents)

  • 이용배
    • 디지털융복합연구
    • /
    • 제12권6호
    • /
    • pp.325-332
    • /
    • 2014
  • 일반적으로 자동분류는 학습문서의 개수에 영향을 받는다고 알려져 있지만 실제로 학습문서의 수가 텍스트 자동분류에 어떻게 영향을 주는지 입증한 연구는 거의 없었다. 본 연구에서는 학습문서 수가 자동분류에 어떤 영향을 주는지 알아보기 위해 최근에 개발된 편차기반 분류방법을 중심으로 다른 분류 알고리즘과 비교하는데 초점을 두었다. 실험결과, 편차기반 분류모델은 학습문서의 수가 총 21개(7개 장르)인 상황에서 정확도가 0.8로 베이지안이나 지지벡터기계보다 우수하게 나타났다. 이것은 편차기반 분류모델이 장르내의 주제정보를 이용하여 학습하기 때문에 학습문서의 수가 적더라도 다른 학습방법보다 좋은 자질 선택 능력을 갖는다는 것을 입증한 것이다.

기계학습 기반의 웹 이미지 분류 (A Machine Learning Approach to Web Image Classification)

  • 조수선;이동우;한동원;황치정
    • 정보처리학회논문지B
    • /
    • 제9B권6호
    • /
    • pp.759-764
    • /
    • 2002
  • HTML 페이지로 대표되는 웹 문서에서 이미지는 매우 큰 비중을 차지하고 있지만 이에 대한 분석 및 이해에 관한 연구는 활발하게 진행되지 못하고 있다. 여러 가지 웹 이미지들은 중요한 정보를 전달하기도 하지만 그렇지 않은 것들도 있다. 본 논문에서는 현재 서비스중인 인터넷 사이트의 웹 이미지들을 수집하여 기계학습(machine learning)에 기반한 분류(classification)론 통해 제거 가능한 이미지와 제거 불가능한 이미지의 두가지 클래스로 분석해 본다. 이를 위해 16개의 독특하고 풍부한 웹 이미지 특징들을 발굴하고 베이지안 기법과 결정 트리 기법을 사용하여 실험하였다. 그 결과 각각의 기법에서 87.09%, 82.72%의 F-measure 값을 얻었으며 특히, 특징 그룹의 비교 실험을 통해 본 연구에서 추가한 특징들이 매우 유용한 것임을 입증하였다.

데이터 마이닝을 이용한 단기 부하 예측 시스템 연구 (A Study of Short-Term Load Forecasting System Using Data Mining)

  • 주영훈;정근호;김도완;박진배
    • 한국지능시스템학회논문지
    • /
    • 제14권2호
    • /
    • pp.130-135
    • /
    • 2004
  • 본 논문에서는 데이터 마이닝을 이용한 단기 전력 부하 예측 시스템의 새로운 설계 기법을 제안한다. 제안된 단기 부하 예측시스템은 Takagj-Sugeno (T-S) 퍼지 모델 기반 예측기와 분류기로 구성된다. 또한, 제안된 T-S 퍼지 모델 기반 분류기는 전반부 가우시안 집합과 후반부 선형화된 베이지안 분류기로 구성된다 분류기의 파라미터들은 주어진 훈련 집합의 통계적 수치로 쉽게 얻어진다. 제안된 T-S 퍼지 모델 기반 예측기는 한 가지 입력에 대한 선형 시계열 예측기의 볼록 조합 형태를 가진다. 후반부 파라미터 추정 문제는 실제 전력 부하와 예측 전력 부하의 놈(norm)을 최소화하는 볼록 최적화 문제로 간주한다. 그 문제는 선형 행렬 부등식으로 설정됨으로써 후반부 파라미터는 추정된다. 전반부 파라미터 추정문제는 선형 시계열 예측기들이 모여진 전체 T-S 퍼지 시스템의 출력과 실제 전력 부하 사이의 에러를 최소화하는 문제이다. 이 문제는 경사치 하향 기법이 적용하여 해결되었다 제안된 기법의 유용성을 검증하기 위해 본 논문은 하루 후 24시간 전력 부하 예측과 하루 후 최고 전력부하를 예측 실험을 제공한다.