• 제목/요약/키워드: empirical Bayes

검색결과 106건 처리시간 0.019초

Binary classification on compositional data

  • Joo, Jae Yun;Lee, Seokho
    • Communications for Statistical Applications and Methods
    • /
    • 제28권1호
    • /
    • pp.89-97
    • /
    • 2021
  • Due to boundedness and sum constraint, compositional data are often transformed by logratio transformation and their transformed data are put into traditional binary classification or discriminant analysis. However, it may be problematic to directly apply traditional multivariate approaches to the transformed data because class distributions are not Gaussian and Bayes decision boundary are not polynomial on the transformed space. In this study, we propose to use flexible classification approaches to transformed data for compositional data classification. Empirical studies using synthetic and real examples demonstrate that flexible approaches outperform traditional multivariate classification or discriminant analysis.

가속수명자료를 이용한 경험적 베이즈 예측분석 (Empirical Bayesian Prediction Analysis on Accelerated Lifetime Data)

  • 조건호
    • Journal of the Korean Data and Information Science Society
    • /
    • 제8권1호
    • /
    • pp.21-30
    • /
    • 1997
  • 가속수명시험에서 강한충격수준에서 부품들의 고장시간이 관측되고 가속화된 고장시간을 토대로 정상충격수준에서 부품들의 성능을 조사한다. 본 논문은 지수수명분포에서 중도절단된 가속수명자료를 이용하여 고장률의 사전분포의 평균을 알 때, 정상조건하에서 하나의 미래 관찰치의 예측문제를 사전분포의 모수에 대하여 적률추정량을 이용하는 경험적 베이즈 접근방법을 적용시켜 경험적 베이즈 예측분포와 예측구간에 대하여 연구하였다.

  • PDF

Prediction of 305 Days Milk Production from Early Records in Dairy Cattle Using an Empirical Bayes Method

  • Pereira, J.A.C.;Suzuki, M.;Hagiya, K.
    • Asian-Australasian Journal of Animal Sciences
    • /
    • 제14권11호
    • /
    • pp.1511-1515
    • /
    • 2001
  • A prediction of 305 d milk production from early records using an empirical Bayes method (EBM) was performed. The EBM was compared with the best predicted estimation (BPE), test interval method (TIM), and the linearized Wood's model (LWM). Daily milk yields were obtained from 606 first lactation Japanese Holstein cows in three herds. From each file of 305 daily records, 10 random test day records with an interval of approximately one month were taken. The accuracies of these methods were compared using the absolute difference (AD) and the standard deviation (SD) of the differences between the actual and the estimated 305 d milk production. The results showed that in the early stage of the lactation, EBM was superior in obtaining the prediction with high accuracy. When all the herds were analyzed jointly, the AD during the first 5 test day records were on average 373, 590, 917 and 1,042 kg for EBM, BPE, TIM, and LWM, respectively. Corresponding SD for EBM, BPE, TIM, and LWM were on average 488, 733, 747 and 1,605 kg. When the herds were analyzed separately, the EBM predictions retained high accuracy. When more information on the actual lactation was added to the prediction, TIM and LWM gradually achieved better accuracies. Finally, in the last period of the lactation, the accuracy of both of the methods exceeded EBM and BPM. The AD for the last 2 samples analyzing all the herds jointly were on average 141, 142, 164, and 214 kg for LWM, TIM, EBM, and BPE, respectively. In the current practices of collecting monthly records, early prediction of future milk production may be more accurate using EBM. Alternatively, if enough information of the actual lactation is accumulated, TIM may obtain better accuracy in the latter stage of lactation.

우리나라 저체중아 출생의 공간적 변동성 지도화: 베이지언적 접근 (Mapping the Geographic Variations of the Low Birth Weight cases in South Korea: Bayesian Approaches)

  • 노영희;박기호
    • 대한지리학회지
    • /
    • 제51권3호
    • /
    • pp.367-380
    • /
    • 2016
  • 본 연구에서는 우리나라에서 발생한 저체중아 출생 집계 자료를 공간적으로 지도화하기 위한 기법들을 검토 비교하고, 이를 기반으로 우리나라의 LBW 지도를 작성하였다. 표준화사망률이나 조사망률 등은 역학 분야에서 지속적으로 광범위하게 사용되고 있는 지표이다. 그러나 이러한 표준화사망률은 집계 단위의 샘플 수에 영향을 많이 받는다는 단점을 가지고 있다. 이에, 본 연구에서는 베이지언 기법을 활용하여 샘플 수에 따른 통계적 변동성을 감소시키고자 하였다. 이를 위해 경험적 베이지언 기법과 풀 베이지언 기법을 모두 활용하였고, 결과적으로 유사한 통계량을 산출한 것을 확인할 수 있었다. 반면, SMR 기반의 통계량은 높은 분산을 가지고 있음을 확인하였다. 연구의 결과에 따른 통계 지도는 우리나라 저체중아 출생의 높은 위험도를 가지는 지역들을 파악할 수 있도록 한다.

  • PDF

한국어 트위터의 감정 분류를 위한 기계학습의 실증적 비교 (An Empirical Comparison of Machine Learning Models for Classifying Emotions in Korean Twitter)

  • 임좌상;김진만
    • 한국멀티미디어학회논문지
    • /
    • 제17권2호
    • /
    • pp.232-239
    • /
    • 2014
  • 온라인에서의 글쓰기가 늘어나면서, 기계학습을 통해 이를 분류하는 연구가 늘고 있다. 그럼에도 불구하고 한국어로 작성된 마이크로블로그를 대상으로 한 연구는 많지 않다. 또한 통계적으로 기계학습을 평가한 연구를 찾아보기 힘들다. 본 논문에서는 트위터를 대상으로, 표본을 추출하고, 형태소와 음절을 자질로 사용하여 기계학습에 따라 감정을 분류하였다. 그 결과 약 76%정도 트위터에 포함된 감정이 분류되었다. Support Vector Machine이 Na$\ddot{i}$ve Bayes보다 정확했고, 선형모델도 비구조적인 텍스트 처리에 비선형모델에 상응하는 정확성을 보였다. 또한 형태소가 음절 자질에 비해 높은 정확성을 보이지 않았다.

관찰적 사전·사후 평가연구 방법의 비교 연구: 공용중인 고속도로 안전진단사업 효과평가를 사례로 (The Comparison Study on Observational Before-After Studies: Case Study on Safety Evaluation on Highways)

  • 문승라;이영인
    • 대한교통학회지
    • /
    • 제31권6호
    • /
    • pp.67-89
    • /
    • 2013
  • 본 연구는 관찰적 사전 사후 평가연구의 세 방법인 단순비교법, 비교그룹에 의한 방법 그리고 경험적 베이즈 방법에 대한 실증 분석을 수행하고, 그 결과를 비교하며, 평가연구에 적용 방안을 제시하고자 한다. 이를 위해 2005년과 2006년에 영동고속도로에서 시행된 안전진단사업의 평가를 수행하였다. 분석결과 세 가지 방법 모두 안전진단조치로 인한 개선효과가 나타나고 있으며, 단순비교법이 개선효과가 가장 크고 그 다음이 비교그룹에 의한 방법, 경험적 베이즈 방법의 순으로 나타났다. 단순비교법의 결과는 교통사고 감소추이가 반영되어 과대 추정되었으며, 비교그룹방법의 결과에는 비교그룹의 외부우연요인이 내재되어 있다. 경험적 베이즈 방법은 참조그룹의 사고예측모형에 의해 평균으로의 회귀 현상이 통제되므로, 두 방법과 비교해 결과가 비교적 정확하다. 평가연구의 수행에서, 분석가는 평가방법별 장 단점을 잘 이해하고, 관련된 모든 지역에서 사고추이의 검토를 선행한 후에 평가 분석을 수행하여야 한다.

회귀모형 오차항의 1차 자기상관에 대한 베이즈 검정법 (A Bayesian test for the first-order autocorrelations in regression analysis)

  • 김혜중;한성실
    • 응용통계연구
    • /
    • 제11권1호
    • /
    • pp.97-111
    • /
    • 1998
  • 본 논문에서는 회귀모형 오차항의 1차 자기상관에 대한 베이즈 검정법을 제안하였다. 이를 위해 자기상관검정에서 설정된 귀무 및 대립가설간에 베이즈 요인을 도출하고, 이를 근사추정하는 방법을 일반화 Savage-Dickey 밀도비와 Gibbs 추출법의 합성을 통해 제시하였다. 또한, 근사추정의 효율 및 제안된 검정법의 검정력을 평가하기 위해서 모의실험과 경험적 자료분석 예를 사용하였다.

  • PDF

EMPIRICAL BAYES THRESHOLDING: ADAPTING TO SPARSITY WHEN IT ADVANTAGEOUS TO DO SO

  • Silverman Bernard W.
    • Journal of the Korean Statistical Society
    • /
    • 제36권1호
    • /
    • pp.1-29
    • /
    • 2007
  • Suppose one is trying to estimate a high dimensional vector of parameters from a series of one observation per parameter. Often, it is possible to take advantage of sparsity in the parameters by thresholding the data in an appropriate way. A marginal maximum likelihood approach, within a suitable Bayesian structure, has excellent properties. For very sparse signals, the procedure chooses a large threshold and takes advantage of the sparsity, while for signals where there are many non-zero values, the method does not perform excessive smoothing. The scope of the method is reviewed and demonstrated, and various theoretical, practical and computational issues are discussed, in particularly exploring the wide potential and applicability of the general approach, and the way it can be used within more complex thresholding problems such as curve estimation using wavelets.

고등학생을 위한 과학-기술-사회에 대한 시각 (HS-VOST) 설문조사 결과 분석 (Analysis of high school students' views on science-technology-society (HS-VOSTS) questionnaire results)

  • 강대기
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2011년도 추계학술대회
    • /
    • pp.201-203
    • /
    • 2011
  • 본 논문에서 우리는 고교생들의 과학-기술-사회에 대한 소양을 알아보기 위한 설문 조사지인 high school students' views on science-technology- society (HS-VOSTS)를 부산의 한 대학교 학생들에게 적용하였고, 그 결과에 대해 데이터 마이닝 알고리즘을 이용하여 분석하였다. 나이브 베이스 알고리즘을 사용하여 나온 예비 결과에 따르면, 나이브 베이스 알고리즘과 같은 데이터 마이닝 알고리즘이 학생들의 설문 데이터에서 자동으로 지식을 발견해 내는 데 효과적으로 이용될 수 있음을 알 수 있었다.

  • PDF

Word2vec과 앙상블 분류기를 사용한 효율적 한국어 감성 분류 방안 (Effective Korean sentiment classification method using word2vec and ensemble classifier)

  • 박성수;이건창
    • 디지털콘텐츠학회 논문지
    • /
    • 제19권1호
    • /
    • pp.133-140
    • /
    • 2018
  • 감성 분석에서 정확한 감성 분류는 중요한 연구 주제이다. 본 연구는 최근 많은 연구가 이루어지는 word2vec과 앙상블 방법을 이용하여 효과적으로 한국어 리뷰를 감성 분류하는 방법을 제시한다. 연구는 20 만 개의 한국 영화 리뷰 텍스트에 대해, 품사 기반 BOW 자질과 word2vec를 사용한 자질을 생성하고, 두 개의 자질 표현을 결합한 통합 자질을 생성했다. 감성 분류를 위해 Logistic Regression, Decision Tree, Naive Bayes, Support Vector Machine의 단일 분류기와 Adaptive Boost, Bagging, Gradient Boosting, Random Forest의 앙상블 분류기를 사용하였다. 연구 결과로 형용사와 부사를 포함한 BOW자질과 word2vec자질로 구성된 통합 자질 표현이 가장 높은 감성 분류 정확도를 보였다. 실증결과, 단일 분류기인 SVM이 가장 높은 성능을 나타내었지만, 앙상블 분류기는 단일 분류기와 비슷하거나 약간 낮은 성능을 보였다.