• 제목/요약/키워드: Empirical Bayes Method

검색결과 42건 처리시간 0.032초

EMPIRICAL BAYES THRESHOLDING: ADAPTING TO SPARSITY WHEN IT ADVANTAGEOUS TO DO SO

  • Silverman Bernard W.
    • Journal of the Korean Statistical Society
    • /
    • 제36권1호
    • /
    • pp.1-29
    • /
    • 2007
  • Suppose one is trying to estimate a high dimensional vector of parameters from a series of one observation per parameter. Often, it is possible to take advantage of sparsity in the parameters by thresholding the data in an appropriate way. A marginal maximum likelihood approach, within a suitable Bayesian structure, has excellent properties. For very sparse signals, the procedure chooses a large threshold and takes advantage of the sparsity, while for signals where there are many non-zero values, the method does not perform excessive smoothing. The scope of the method is reviewed and demonstrated, and various theoretical, practical and computational issues are discussed, in particularly exploring the wide potential and applicability of the general approach, and the way it can be used within more complex thresholding problems such as curve estimation using wavelets.

Word2vec과 앙상블 분류기를 사용한 효율적 한국어 감성 분류 방안 (Effective Korean sentiment classification method using word2vec and ensemble classifier)

  • 박성수;이건창
    • 디지털콘텐츠학회 논문지
    • /
    • 제19권1호
    • /
    • pp.133-140
    • /
    • 2018
  • 감성 분석에서 정확한 감성 분류는 중요한 연구 주제이다. 본 연구는 최근 많은 연구가 이루어지는 word2vec과 앙상블 방법을 이용하여 효과적으로 한국어 리뷰를 감성 분류하는 방법을 제시한다. 연구는 20 만 개의 한국 영화 리뷰 텍스트에 대해, 품사 기반 BOW 자질과 word2vec를 사용한 자질을 생성하고, 두 개의 자질 표현을 결합한 통합 자질을 생성했다. 감성 분류를 위해 Logistic Regression, Decision Tree, Naive Bayes, Support Vector Machine의 단일 분류기와 Adaptive Boost, Bagging, Gradient Boosting, Random Forest의 앙상블 분류기를 사용하였다. 연구 결과로 형용사와 부사를 포함한 BOW자질과 word2vec자질로 구성된 통합 자질 표현이 가장 높은 감성 분류 정확도를 보였다. 실증결과, 단일 분류기인 SVM이 가장 높은 성능을 나타내었지만, 앙상블 분류기는 단일 분류기와 비슷하거나 약간 낮은 성능을 보였다.

회귀모형 오차항의 1차 자기상관에 대한 베이즈 검정법 (A Bayesian test for the first-order autocorrelations in regression analysis)

  • 김혜중;한성실
    • 응용통계연구
    • /
    • 제11권1호
    • /
    • pp.97-111
    • /
    • 1998
  • 본 논문에서는 회귀모형 오차항의 1차 자기상관에 대한 베이즈 검정법을 제안하였다. 이를 위해 자기상관검정에서 설정된 귀무 및 대립가설간에 베이즈 요인을 도출하고, 이를 근사추정하는 방법을 일반화 Savage-Dickey 밀도비와 Gibbs 추출법의 합성을 통해 제시하였다. 또한, 근사추정의 효율 및 제안된 검정법의 검정력을 평가하기 위해서 모의실험과 경험적 자료분석 예를 사용하였다.

  • PDF

패널교통사고자료 기반 기대교통사고건수 추정기법 평가 (Assessing Estimation Methods of the Expected Crashes using Panel Traffic Crash Data)

  • 신강원
    • 대한교통학회지
    • /
    • 제29권1호
    • /
    • pp.103-111
    • /
    • 2011
  • 유사한 특성을 갖는 지점 (또는 구간)들에서 연속되고 동일한 시간 간격 동안 관측된 패널 (panel) 교통사고 자료를 시간의 흐름에 따라 비교분석하여 분석지점의 기대교통사고건수를 추정하는 과정은 교통안전 개선사업의 효과 평가와 교통안전 개선사업 수행의 우선순위 결정과 같은 교통안전연구의 핵심이다. 패널 교통사고 자료를 이용한 기대교통사고건수 추정기법은 관측교통사고건수 기반 기법과 경험적 베이지안 기법으로 대별할 수 있으며, 본 연구에서는 시간의 흐름에 따른 기대교통사고건수의 변화 여부와 다양한 패널 교통사고 자료 구조에 따라 전술한 두 가지 기법의 추정오차를 모의실험을 통해 비교 분석하였다. 분석결과 시간의 흐름에 따른 기대교통사고건수의 변화 여부와 패널교통사고자료 구조의 특성과 관계없이 관측교통사고건수 기반 추정치인 평균 관측교통사고건수와 평행비교 추정치의 추정오차는 경험적 베이즈 추정치의 추정오차보다 항상 크게 나타나 향후 패널교통 사고자료를 이용한 교통안전 연구 수행 시 경험적 베이지안 추정기법의 적용이 필요하다고 판단된다. 한편 시간의 흐름에 따라 기대교통 사고건수가 변화하지 않을 경우 분석기간이 늘어날수록 두 가지 기법의 추정오차는 모두 현저하게 감소하는 것으로 분석되어, 현재 국내의 교통사고 잦은 곳 선정 연구에서 기준치로 사용되고 있는 분석기간인 "1년"을 연장하여 보다 효율적으로 시간 불변 기대교통사고건수를 추정할 필요가 있다고 판단된다.

cDNA 마이크로어레이에서 유전자간 상관 관계에 대한 보고 (A Report on the Inter-Gene Correlations in cDNA Microarray Data Sets)

  • 김병수;장지선;김상철;임요한
    • 응용통계연구
    • /
    • 제22권3호
    • /
    • pp.617-626
    • /
    • 2009
  • 최근에 보고되는 일련의 연구는 Affymetrix 마이크로어레이 자료에서 유전자간 상관관계가 강하고 장범위(長範圍)(long-ranged)로 나타나고 있으며, 기존의 "편한" 가정, 즉 유전자간 상관관계가 매우 약하며, 따라서 유전자간 유사 독립성을 가정할 수 있다는 주장이 비현실적이라는 것을 보고하고 있다. Qui 등 (2005b)은 각 유전자의 검정통계량을 병합하여 통계적 추론을 하는 이른바 비모수적 경험적 베이즈 방법을 적용하면 검색된 특이발현 유전자수의 분산이 커진다는 것을 보고하고 있고, 이러한 분산의 불안전성 이유로서 유전자간 강한 상관관계를 지적하고 있다. 또한 Klebanov와 Yakovlev (2007)는 유전자간 상관관계가 통계적 분석을 어렵게 하는 요인이라기 보다는 유용한 정보의 원천이고 적정한 변환을 통하여 근사 독립을 유지할 수 있는 급수를 만들 수 있으며 이 급수를 ${\delta}$-급수라고 불렀다. 본 보고에서는 국내에서 생산된 2조의 cDNA 마이크로어레이 자료에서 유전자간 상관관계가 비교적 강하며, 장범위(長範圍)로 나타나는 것을 확인하며, 유사 독립성을 전제할 수 있는 ${\delta}$-급수가 cDNA 마이크로어레이에서도 발견되는 것을 보고하고자 한다, 동 보고는 추후 cDNA 마이크로어레이 자료의 분석에서도 유전자간 상관관계를 고려하여야 함을 강조하고 있다.

교육수준과 지역결핍지수에 따른 뇌혈관질환 사망률 차이 (Difference of Area-based deprivation and Education on Cerebrovascular Mortality in Korea)

  • 심정하;안동춘;손미아
    • 보건행정학회지
    • /
    • 제22권2호
    • /
    • pp.163-182
    • /
    • 2012
  • This study was performed to identify the difference of the area-based deprivation and the educational level on the cerebrovascular mortality in Korea. Data used in this study was obtained from the Death Certificate Data 2000 and the 2000 Census produced by Korean National Statistics(NSO). We classified the whole country into 246 areas based on the administrative districts. Then, the Standardized Mortality Ratio (SMR) in cerebrovascular disease was calculated according to the sex, education level and 246 areas. Its Predicted SMR was calculated by the Empirical Bayes Methods to reduce the variation of the SMR values. The area-based deprivation of 246 areas were measured using the modified Carstairs index in which the 5 indicators consisted of overcrowding, the unemployment ratio of men, the percentage of households classified low social class, the percentage of non home owners, and finally those houses lacking basic amenities. The correlation between the area-based deprivation and the SMR of the whole country and the correlation between the area-based deprivation and the SMR of each metropolitan cities or provinces was analyzed by the Pearson correlation analysis method. After classifying the deprivation of 246 areas into 5 levels, we performed the random intercept Poisson regression analysis after adjusting education level and age using Empirical Bayes Method to investigate the relationship between the 5 deprivation levels and the cerebrovascular mortality. The SMR was increased in lower education level. Each 246 areas had different values in SMR, Predicted SMR and area-based deprivation. The area-based deprivation and the SMR of the whole country was not correlated in both sexes. The education level of an individual was associated the risk of cerebrovascular mortality in men. The risk of cerebrovascular mortality increased with age compared to the reference(<30). The area-based deprivation was not associated with the risk of cerebrovascular in both sexes. The findings of this study suggest that the SMR had positive and negative correlations with area-based deprivation depending on the metropolitan cities or province. It also suggests that the individual education level and age were related with mortality and finally that the area-based deprivation was not associated to the cerebrovascular mortality in Korea.

EB기법을 이용한 사고잦은 곳 개선사업 우선순위 판정기법 개발 (Development of Evaluation Model for Black Spot Improvement Priorities by using Emperical Bayes Method)

  • 정성봉;황보희;성낙문;이선하
    • 대한교통학회지
    • /
    • 제27권3호
    • /
    • pp.81-90
    • /
    • 2009
  • 도로 네트워크의 안전 관리는 기본적으로 교통안전 조사를 위한 사이트(교통사고 잦은 지점) 선정, 안전문제에 대한 진단, 잠재적 위험요소들에 대한 가능한 대안 선정, 주어진 예산 제약 하에 대안간의 우선순위 결정과 같은 순서로 이루어진다(Persaud, 2001). 효율적인 안전 조사를 위해 요구되는 지점(교통사고 잦은 지점) 선정에 대한 과정은 매우 중요하다. 이에, 본 연구는 인천시 4지 신호 교차로 중 교통사고 잦은 지점으로 선정된 지점의 3년간(2004~2006년) 사고 자료와 기하구조 자료를 이용하여 EB 기법 이용 시 필요한 사고예측모델을 개발하였다. 또한, 교통사고 잦은 지점을 선정하는데 있어 현재 우리나라에서 적용되고 있는 단순사고건수와 심각도를 고려하여 선정된 우선순위와 단순사고건수 대신 EB 기법을 이용하여 예측된 사고건수를 이용하여 선정된 우선순위 비교를 통해 기존 방법의 한계를 제시하고 합리적인 예측모형 개발 필요성을 보여주고자 하였다. 분석 결과, 총 사고건수 추정 시 기존의 사고 예측 방법인 비선형 회귀모형과 EB 기법의 결과 값 모두 예측력이 높은 것으로 나타났지만 지점별 사고건수 예측력을 함께 고려할 경우엔 EB 기법이 비선형 회귀 모형(포아송)의 결과보다 예측력이 좋은 것으로 나타났다. 또한, 도출된 우선순위 비교 결과 대부분의 지점의 우선순위는 크게 변동이 없었으나, 서해4거리 등 몇 개 지점의 개선우선순위에는 상당한 변동이 발생하는 것으로 나타났다. 이는 실제 사고건수를 이용할 경우 발생하는 RTM문제를 본 연구에서 제안한 기법을 사용할 경우 해결가능하다는 것을 시사한다.

Socioeconomic Predictors of Diabetes Mortality in Japan: An Ecological Study Using Municipality-specific Data

  • Okui, Tasuku
    • Journal of Preventive Medicine and Public Health
    • /
    • 제54권5호
    • /
    • pp.352-359
    • /
    • 2021
  • Objectives: The aim of this study was to examine the geographic distribution of diabetes mortality in Japan and identify socioeconomic factors affecting differences in municipality-specific diabetes mortality. Methods: Diabetes mortality data by year and municipality from 2013 to 2017 were extracted from Japanese Vital Statistics, and the socioeconomic characteristics of municipalities were obtained from government statistics. We calculated the standardized mortality ratio (SMR) of diabetes for each municipality using the empirical Bayes method and represented geographic differences in SMRs in a map of Japan. Multiple linear regression was conducted to identify the socioeconomic factors affecting differences in SMR. Statistically significant socioeconomic factors were further assessed by calculating the relative risk of mortality of quintiles of municipalities classified according to the degree of each socioeconomic factor using Poisson regression analysis. Results: The geographic distribution of diabetes mortality differed by gender. Of the municipality-specific socioeconomic factors, high rates of single-person households and unemployment and a high number of hospital beds were associated with a high SMR for men. High rates of fatherless households and blue-collar workers were associated with a high SMR for women, while high taxable income per-capita income and total population were associated with low SMR for women. Quintile analysis revealed a complex relationship between taxable income and mortality for women. The mortality risk of quintiles with the highest and lowest taxable per-capita income was significantly lower than that of the middle-income quintile. Conclusions: Socioeconomic factors of municipalities in Japan were found to affect geographic differences in diabetes mortality.

자동차보험 신뢰도 적용에 대한 베이지안 추론 방식 연구 (A study of Bayesian inference on auto insurance credibility application)

  • 김명준;김영화
    • Journal of the Korean Data and Information Science Society
    • /
    • 제24권4호
    • /
    • pp.689-699
    • /
    • 2013
  • 본 연구는 가격 경쟁으로 인하여 최근 들어 요율 세분화가 심화되고 있는 자동차보험 시장에서, 부분 신뢰도의 적용 대상에 대한 경험적 사전분포 (empirical prior distribution) 함수 또는 무정보적 사전분포 (noninformative prior distribution) 정보의 가정을 통한 신뢰도 산출 방식에 대하여 살펴보았다. 요율 세분화의 확대로 가격 산출 단위의 수가 증가될 경우, 부분 신뢰도의 적용 대상은 점차 증가되게 될 것으로 판단되기 때문에, 기존에 제시된 신뢰도 적용 방식을 베이지안 프레임에서 적용, 추론함으로써 보다 다양하고 정교한 방식으로 그 활용 범위를 넓히고자 한다. 즉, 경험적으로 사용되는 사전 분포함수 또는 무정보적 사전 정보를 통하여 적절한 사후분포 (posterior distribution)함수를 도출하고 오차를 최소화하는 베이즈 통계량을 적용한 신뢰도를 추정하여 적용함으로써, 위험도 예측에 있어 기존에 제시된 방법과 비교하여 그 효용성을 입증하고자 한다. 현재 가장 많이 활용되는 제곱근 법칙 (square root rule)의 신뢰도 추정 방식에 베이지안 추론에서 도출된 통계량을 반영한 결과를 분석하여 실질적인 위험도에 수렴하는 수준을 비교하게 된다. 이는 이론적으로 위험도 예측에서 오차를 줄이는 방식에 대한 대안 제시와 더불어 신뢰도 적용 방식에 대한 추가적인 활용 대안을 보험업계에 제시함으로써 요율 세분화로 인한 부분 신뢰도 적용방식에 대한 그 이해와 활용의 폭을 넓히고자 한다.

Effect of missing values in detecting differentially expressed genes in a cDNA microarray experiment

  • Kim, Byung-Soo;Rha, Sun-Young
    • Bioinformatics and Biosystems
    • /
    • 제1권1호
    • /
    • pp.67-72
    • /
    • 2006
  • The aim of this paper is to discuss the effect of missing values in detecting differentially expressed genes in a cDNA microarray experiment in the context of a one sample problem. We conducted a cDNA micro array experiment to detect differentially expressed genes for the metastasis of colorectal cancer based on twenty patients who underwent liver resection due to liver metastasis from colorectal cancer. Total RNAs from metastatic liver tumor and adjacent normal liver tissue from a single patient were labeled with cy5 and cy3, respectively, and competitively hybridized to a cDNA microarray with 7775 human genes. We used $M=log_2(R/G)$ for the signal evaluation, where Rand G denoted the fluorescent intensities of Cy5 and Cy3 dyes, respectively. The statistical problem comprises a one sample test of testing E(M)=0 for each gene and involves multiple tests. The twenty cDNA microarray data would comprise a matrix of dimension 7775 by 20, if there were no missing values. However, missing values occur for various reasons. For each gene, the no missing proportion (NMP) was defined to be the proportion of non-missing values out of twenty. In detecting differentially expressed (DE) genes, we used the genes whose NMP is greater than or equal to 0.4 and then sequentially increased NMP by 0.1 for investigating its effect on the detection of DE genes. For each fixed NMP, we imputed the missing values with K-nearest neighbor method (K=10) and applied the nonparametric t-test of Dudoit et al. (2002), SAM by Tusher et al. (2001) and empirical Bayes procedure by $L\ddot{o}nnstedt$ and Speed (2002) to find out the effect of missing values in the final outcome. These three procedures yielded substantially agreeable result in detecting DE genes. Of these three procedures we used SAM for exploring the acceptable NMP level. The result showed that the optimum no missing proportion (NMP) found in this data set turned out to be 80%. It is more desirable to find the optimum level of NMP for each data set by applying the method described in this note, when the plot of (NMP, Number of overlapping genes) shows a turning point.

  • PDF