• 제목/요약/키워드: bayesian classification

검색결과 254건 처리시간 0.025초

문서의 주제어별 가중치 부여와 단어 군집을 이용한 한국어 문서 자동 분류 시스템 (An Automatic Classification System of Korean Documents Using Weight for Keywords of Document and Word Cluster)

  • 허준희;최준혁;이정현;김중배;임기욱
    • 정보처리학회논문지B
    • /
    • 제8B권5호
    • /
    • pp.447-454
    • /
    • 2001
  • 새로운 문서를 기존에 존재하는 클래스들에 할당하는 방법을 문서의 자동 분류라고 한다. 문서의 자동 분류는 뉴스 그룹의 기사분류, 웹 문서의 범주화, 전자 메일의 순서화, 사용자의 관심을 학습하여 보다 정확한 정보 검색을 제시하는데 사용될수 있다. 본 논문에서는 한국어 문서분류의 정확도를 높이기 위하여 문서내의 모든 단어들에 대한 확률값을 사용하여, 문서를 분류하는 기존의 방법과 달리 문서의 주제어를 선정하여 주제어로 선정된 단어들에 가중치를 부여하고 그렇지 않은 단어들에 대해서는 제거하너가 낮은 가중치를 부여하는 베이지안 분류자를 사용한다. 문서에는 특징으로 추출된 단어가 적어 문서를 분류하기 위한 만족할 만한 정보를 제공하지 못할 경우에 부족한 문서의 특징을 보충하기 위하여 말뭉치로부터 자동 단어 군집화를 통해 형성된 연관 단어 군집을 사용한다. 이러한 방법을 한국어 문서에 적용한 결과 기존의 베이지안 확률을 사용한 분류법보다 향상된 분류 정확도를 얻을 수 있었다.

  • PDF

UT 신호형상 인식을 위한 Intelligence Package 개발과 Austenitic Stainless Steel Welding부 결함 분류에 관한 적용 연구 (Intelligence Package Development for UT Signal Pattern Recognition and Application to Classification of Defects in Austenitic Stainless Steel Weld)

  • 이강용;김준섭
    • 비파괴검사학회지
    • /
    • 제15권4호
    • /
    • pp.531-539
    • /
    • 1996
  • 본 연구에서는 초음파 신호형상인식법을 이용하여 용접부의 인공 결함을 분류하기 위한 연구를 실시하였다. 이를 위해 신호처리 및 특징 변수를 추출할 때에 많은 사용자 정의 변수를 가지는 신호 형상 인식 패키지를 개발하였으며 디지탈 신호처리, 특징 변수 추출, 특징 변수의 선택, 분류기 선정 등의 과정을 일괄적으로 처리하였다. 특히, 선형 분류기, 경험적 Bayesian 분류기 등의 통계적 분류기와 신경회로망 분류기를 함께 사용하여 비교, 검토하였다. 이에 관한 적용 연구로 노치와 구멍으로 이루어진 인공 결함을 분류하였다. 그 결과 인공결함 분류에서 높은 인식률을 얻었으며, 특히 적절히 학습 시켰을 경우 신경회로망 분류기가 통계적 분류기에 비하여 인식률 면에서 유리하였다.

  • PDF

용접결함의 패턴인식을 위한 디지털 신호처리에 관한 연구 (A Study on the Digital Signal Processing for the Pattern fiecognition of Weld Flaws)

  • 김재열;송찬일;김병현
    • 한국정밀공학회:학술대회논문집
    • /
    • 한국정밀공학회 1995년도 추계학술대회 논문집
    • /
    • pp.393-396
    • /
    • 1995
  • In this syudy, the researches classifying the artificial and natural flaws in welding parts are performed using the smart pattern recognition technology. For this purpose the smart signal pattern recognition package including the user defined function was developed and the total procedure including the digital signal processing,feature extraction , feature selection and classifier selection is treated by bulk. Specially it is composed with and discussed using the statistical classifier such as the linear disciminant function classifier, the empirical Bayesian classifier. Also, the smart pattern recognition technology is applied to classification problem of natural flaw(i.e multiple classification problem-crack,lack of penetration,lack of fusion,porosity,and slag inclusion, the planar and volumetric flaw classification problem). According to this results, if appropriately learned the neural network classifier is better than ststistical classifier in the classification problem of natural flaw. And it is possible to acquire the recognition rate of 80% above through it is different a little according to domain extracting the feature and the classifier.

  • PDF

수치위성자료를 이용한 광역의 토지피복분류 기법 (Land Cover Classification Techniques for Large Area using Digital Satellite Data)

  • 박병욱
    • 한국측량학회지
    • /
    • 제14권1호
    • /
    • pp.39-47
    • /
    • 1996
  • Landsat TM자료를 이용하여 전라남도 전역에 대한 토지피복분류를 실시하므로서 광역 분석시 자주 발생하게되는 서로 다른 두 path 데이타의 통합 분석기법을 제시하였다. path가 다를 경우 관측일이 다르므로 개별적 분석후 통합하였으며, 이 과정에서 두 scene간의 분류가능 항목의 변화 및 자료 중복지역의 처리문제 등이 대두되었다. 또한 광역 분석시 위도차에 따른 데이타값의 변화로 인하여 분류항목 및 training field의 선정이 어려웠다. 본 연구에서는 수차례의 시행착오를 통하여 이러한 문제에 대한 해결방안을 제시하였으며, 분류 정확도 향상을 위한 Bayesian 최대우도법 및 majority 필터링의 효율성을 입증하였다.

  • PDF

Topic Signature를 이용한 댓글 분류 시스템 (Comments Classification System using Topic Signature)

  • 배민영;차정원
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제35권12호
    • /
    • pp.774-779
    • /
    • 2008
  • 본 논문에서는 토픽 시그너처(Topic Signature)를 이용하여 댓글을 분류하는 시스템에 대해서 설명한다. 토픽 시그너처는 자질을 선택하는 방법으로 문서요약이나 문서분류에서 사용하는 방법이다. 댓글은 문장의 길이가 짧고 띄어쓰기가 거의 없으며 특수문자들이 많은 특성을 가지고 있다. 따라서 우리는 댓글을 7개의 음절로 나누고 이를 다시 Tri-gram으로 나누어 분류의 기본단위로 본다. 이 Tri-gram을 토픽 시그너처를 이용한 학습 단위로 사용하고, 학습한 자질을 베이지안(Bayesian) 모델을 사용하여 분류한다. 다양한 방법의 모델과 비교 실험을 통하여 구현한 시스템의 성능이 기존의 방법보다 상승되었음을 실험 결과를 통해 알 수 있었다.

Deep Image Annotation and Classification by Fusing Multi-Modal Semantic Topics

  • Chen, YongHeng;Zhang, Fuquan;Zuo, WanLi
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제12권1호
    • /
    • pp.392-412
    • /
    • 2018
  • Due to the semantic gap problem across different modalities, automatically retrieval from multimedia information still faces a main challenge. It is desirable to provide an effective joint model to bridge the gap and organize the relationships between them. In this work, we develop a deep image annotation and classification by fusing multi-modal semantic topics (DAC_mmst) model, which has the capacity for finding visual and non-visual topics by jointly modeling the image and loosely related text for deep image annotation while simultaneously learning and predicting the class label. More specifically, DAC_mmst depends on a non-parametric Bayesian model for estimating the best number of visual topics that can perfectly explain the image. To evaluate the effectiveness of our proposed algorithm, we collect a real-world dataset to conduct various experiments. The experimental results show our proposed DAC_mmst performs favorably in perplexity, image annotation and classification accuracy, comparing to several state-of-the-art methods.

Molecular Phylogeny of the Subfamily Tephritinae (Diptera: Tephritidae) Based on Mitochondrial 16S rDNA Sequences

  • Han, Ho-Yeon;Ro, Kyung-Eui;McPheron, Bruce A.
    • Molecules and Cells
    • /
    • 제22권1호
    • /
    • pp.78-88
    • /
    • 2006
  • The phylogeny of the subfamily Tephritinae (Diptera: Tephritidae) was reconstructed from mitochondrial 16S ribosomal RNA gene sequences using 53 species representing 11 currently recognized tribes of the Tephritinae and 10 outgroup species. The minimum evolution and Bayesian trees suggested the following phylogenetic relationships: (1) monophyly of the Tephritinae was strongly supported; (2) a sister group relationship between the Tephritinae and Plioreocepta was supported by the Bayesian tree; (3) the tribes Tephrellini, Myopitini, and Terelliini (excluding Neaspilota) were supported as monophyletic groups; (4) the non-monophyletic nature of the tribes Dithrycini, Eutretini, Noeetini, Tephritini, Cecidocharini, and Xyphosiini; and (5) recognition of 10 putative tribal groups, most of which were supported strongly by the statistical tests of the interior branches. Our results, therefore, convincingly suggest that an extensive rearrangement of the tribal classification of the Tephritinae is necessary. Since our sampling of taxa heavily relied on the current accepted classification, some lineages identified by the present study were severely under-sampled and other possible major lineages of the Tephritinae were probably not even represented in our dataset. We believe that our results provide baseline information for a more rigorous sampling of additional taxa representing all possible major lineages of the subfamily, which is essential for a comprehensive revision of the tephritine tribal classification.

New Inference for a Multiclass Gaussian Process Classification Model using a Variational Bayesian EM Algorithm and Laplace Approximation

  • Cho, Wanhyun;Kim, Sangkyoon;Park, Soonyoung
    • IEIE Transactions on Smart Processing and Computing
    • /
    • 제4권4호
    • /
    • pp.202-208
    • /
    • 2015
  • In this study, we propose a new inference algorithm for a multiclass Gaussian process classification model using a variational EM framework and the Laplace approximation (LA) technique. This is performed in two steps, called expectation and maximization. First, in the expectation step (E-step), using Bayes' theorem and the LA technique, we derive the approximate posterior distribution of the latent function, indicating the possibility that each observation belongs to a certain class in the Gaussian process classification model. In the maximization step, we compute the maximum likelihood estimators for hyper-parameters of a covariance matrix necessary to define the prior distribution of the latent function by using the posterior distribution derived in the E-step. These steps iteratively repeat until a convergence condition is satisfied. Moreover, we conducted the experiments by using synthetic data and Iris data in order to verify the performance of the proposed algorithm. Experimental results reveal that the proposed algorithm shows good performance on these datasets.

확장 베이지안망을 적용한 고위험성 HRCT 영상 분류 (Classification of Very High Concerns HRCT Images using Extended Bayesian Networks)

  • 임채균;정용규
    • 전자공학회논문지CI
    • /
    • 제49권2호
    • /
    • pp.7-12
    • /
    • 2012
  • 최근 의료분야에서는 방대한 양의 정보를 효과적으로 처리하기 위하여 의사결정트리, 신경망, 베이지안망 등을 비롯한 각종 데이터마이닝 기법의 적용 방안을 연구하고 있다. 또한 환자의 기본적인 신상정보나 과거력, 가족력과 같은 정보 이외에도 MRI, HRCT 등의 영상정보를 추가적으로 수집하고 진단에 활용함으로써 질병진단의 정확도 향상을 도모하는 것이 일반적인 현황이다. 하지만 실제 상황에서는 결과에 영향을 미치는 다량의 변수가 존재하므로 특정 데이터마이닝 기법을 통하여 얻을 수 있는 정보가 상당히 제한적이라고 볼 수 있다. 그뿐만 아니라 촬영된 의료영상도 부수적으로 진단에 긍정적인 영향을 줄 수는 있지만, 주관적인 판단 비중이 높아 자동화된 시스템으로 처리하기가 난해한 문제이다. 이에 따라 현실의 복잡한 상황에서 상대적으로 대처가 유리하고 다변량 확률적인 모델을 기반으로 하는 베이지안망에서 K2나 TAN 등으로 탐색 알고리즘을 개선한 확장 모델이 제안되었다. 이 때, 적용되는 탐색 알고리즘의 종류에 따라 그 성능이 크게 좌우되는 확장 베이지안망의 특성상, 각 기법에 대한 성능과 적합성의 사실적인 평가가 요구된다. 따라서 본 논문에서는 확장 베이지안망에서 질병 진단에 대한 동일한 데이터를 이용하여 실험을 수행하였으며, K2, TAN과 같은 탐색 알고리즘에 변화를 주며 분류 정확도를 측정하였다. 실험에서는 10-fold 교차검증을 수행한 결과분석을 기반으로 성능을 비교평가하고, 발병 위험성이 높은 환자에 대한 HRCT 영상을 분류하여 고위험성의 데이터를 식별 가능하도록 하였다.

변종 몬테 칼로 신경망을 이용한 패턴 분류 (Pattern Classification Using Hybrid Monte Carlo Neural Networks)

  • 전성해;최성용;오임걸;이상호;전홍석
    • 정보처리학회논문지B
    • /
    • 제8B권3호
    • /
    • pp.231-236
    • /
    • 2001
  • 일반적인 다층 신경망에서 가중치의 갱신 알고리즘으로 사용하는 오류 역전과 방식은 가중치 갱신 결과를 고정된(fixed) 한 개의 값으로 결정한다. 이는 여러 갱신의 가능성을 오직 한 개의 값으로 고정하기 때문에 다양한 가능성들을 모두 수용하지 못하는 면이 있다. 하지만 모든 가능성을 확률적 분포로 표현하는 갱신 알고리즘을 도입하면 이런 문제는 해결된다. 이러한 알고리즘을 사용한 베이지안 신경망 모형(Bayesian Neural Networks Models)은 주어진 입력값(Input)에 대해 블랙 박스(Black-Box)와같은 신경망 구조의 각 층(Layer)을 거친 출력값(Out put)을 계산한다. 이 때 주어진 입력 데이터에 대한 결과의 예측값은 사후분포(posterior distribution)의 기댓값(mean)에 의해 계산할 수 있다. 주어진 사전분포(prior distribution)와 학습데이터에 의한 우도함수(likelihood functions)에 의해 계산한 사후확률의 함수는 매우 복잡한 구조를 가짐으로 기댓값의 적분계산에 대한 어려움이 발생한다. 따라서 수치해석적인 방법보다는 확률적 추정에 의한 근사 방법인 몬테 칼로 시뮬레이션을 이용할 수 있다. 이러한 방법으로서 Hybrid Monte Carlo 알고리즘은 좋은 결과를 제공하여준다(Neal 1996). 본 논문에서는 Hybrid Monte Carlo 알고리즘을 적용한 신경망이 기존의 CHAID, CART 그리고 QUEST와 같은 여러 가지 분류 알고리즘에 비해서 우수한 결과를 제공하는 것을 나타내고 있다.

  • PDF