• 제목/요약/키워드: Bayesian model

검색결과 1,312건 처리시간 0.024초

가중치를 이용한 통계 기반 한국어 동형이의어 분별 모델 (A Korean Homonym Disambiguation Model Based on Statistics Using Weights)

  • 김준수;최호섭;옥철영
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제30권11호
    • /
    • pp.1112-1123
    • /
    • 2003
  • 본 논문은 한국어 정보처리에서 발생하는 어휘 중의성 문제 중 한국어에서 그 심각성이 큰 동형이의어 중의성을 해결하기 위하여, 사전 뜻풀이 말뭉치에서 구축한 의미정보(Semantic Information)와 이를 이용한 기존의 통계기반 동형이의어 분별 모델에 대한 실험 결과를 분석하여, 정확률 향상을 위한 새로운 동형이의어 NPH(New Prior Probability of Homonym sense) 가중치 및 인접 어절에 대한 거리 가중치 적용 모델을 제안한다. 사전 뜻풀이 말뭉치의 상위 고빈도 동형이의어 200개 중 중의성이 높은 46개(명사 30개, 동사 16개)를 선별하고, 21세기 세종 계획에서 제공하는 350만 어절 품사 부착 말뭉치에서 이들 동형이의어를 포함하는 47,977개의 문장을 추출하여 실험을 하였다. 기존의 통계기반 동형이의어 분별 모델에서는 72.08%(명사78.12%, 동사 62.45%)의 정확률을 나타냈으나, NPH 가중치를 부여한 실험 결과 정확률이 평균 1.70% 향상되었으며, NPH와 거리 가중치를 함께 이용한 결과 평균 2.01% 정확률이 향상되었다.

한국인의 연령대에 따른 건강관련 삶의 질(EQ-5D)에 대한 주요 요인 분석 (Important significant factors of health-related quality of life(EQ-5D) by age group in Korea based on KNHANES(2014))

  • 오현숙
    • Journal of the Korean Data and Information Science Society
    • /
    • 제28권3호
    • /
    • pp.573-584
    • /
    • 2017
  • 본 연구의 목적은 한국인의 연령대에 따라 건강관련 삶의 질에 주요한 영향을 주는 요인들의 효과를 분석, 비교하는 것이다. 연구대상은 2014년도 제 6기 국민건강영양조사자료에 참여한 19세 이상의 성인 5,976 명이며 EQ-5D 점수를 삶의 질에 대한 평가 척도로 이용하였다. 연령대는 젊은층(19세-39세), 중년층 (40세-65세), 노년층 (66세 이상)으로 나누었고 각 연령층에서 총 29개의 요인들에 대하여 베이지안 순서형 프로빗 모형을 이용하였다. 연구결과 전 연령대에서 공통적으로 삶의 질에 주요한 효과를 나타내는 요인은 성별, 건강에 대한 주관적 인식의 정도, 스트레스, 각종 질병요인들이다. 여성의 삶의 질은 남성보다 낮고 건강에 대한 주관적 인식의 정도가 높을수록 삶의 질이 높으며 스트레스는 삶의 질에 부정적 영향을 준다. 특히, 노년층에서 남녀간 차이와 건강에 대한 주관적 인식에 의한 차이가 두드러졌다. 질병은 삶의 질을 저하시키며 그 정도는 중년층, 젊은층, 노년층 순이다. 연령집단을 비교했을 때, 중년기에는 직업 활동이 삶의 질에 주요한 긍정적 효과를 나타내고, 노년기에는 앉거나 누워있는 시간이 많을수록, 비만 정도가 심할수록 삶의 질이 낮고 걷기를 자주 할수록 삶의 질이 높다.

한·중 FTA에 따른 산업부문별 수출 변화와 CO2 배출량 변화 예측 (Forecasting the Effects of Korea-China FTA on Korean Industrial Exports and CO2 Emissions)

  • 하인봉;이광석
    • 자원ㆍ환경경제연구
    • /
    • 제19권1호
    • /
    • pp.81-100
    • /
    • 2010
  • 본고는 한 중 FTA가 체결되어 이행될 경우 대표적인 온실가스인 이산화탄소가 수출 증대를 통해 우리나라에 얼마나 더 많이 배출될 것인가를 분석하고자 하였다. 한 중 FTA 체결에 따른 관세율의 변화가 미래의 산업별 수출에 어떠한 경제적 파급효과를 가져올 것인지를 동태적으로 예측한 후 산업부문별 이산화탄소($CO_2$) 배출변화를 분석하였다. 한국의 대 중국 수출물량 추정을 위해 Bayesian Kalman Filter Vector Auto-Regression(BVAR) 모형을 이용하였다. 이 추정결과를 활용하여 이산화탄소 배출량 변화를 현행체제(Non FTA) 시나리오와 FTA 추진 시나리오를 대비한 결과, 산업 전체를 총합해 보면 2010년 4분기에 이르면 한 중 간 FTA 추진 시나리오(현행 대비 관세율 50% 감소)의 경우가 현행 시나리오보다 수출 증가를 통해 이산화탄소 배출량을 1.96% 증가시킬 것으로 나타났다. 또한 2012년부터 완전 무관세가 실시되는 것을 가정한 시나리오에 따라 2014년 4분기에 이르면 FTA 추진에 따라 이산화탄소 배출량이 현행 시나리오 경우보다 2.06% 증가 배출되는 것으로 예측되었다. 전체적으로 볼 때 한 중 간 FTA 추진에 따른 대 중국 수출액 순증가가 우리 국내에 추가적으로 배출시키는 이산화탄소량은 비교적 크지 않을 것으로 분석되었다.

  • PDF

베이지안 추정을 이용한 팔당호 유역의 계절별 클로로필a 예측 및 오염특성 연구 (A Study on Characteristics and Predictions of Seasonal Chlorophyll-a using Bayseian Regression in Paldang Watershed)

  • 김미아;신유나;김경현;허태영;유문규;이수웅
    • 한국물환경학회지
    • /
    • 제29권6호
    • /
    • pp.832-841
    • /
    • 2013
  • In recent years, eutrophication in the Paldang Lake has become one of the major environmental problems in Korea as it may threaten drinking water safety and human health. Thus it is important to understand the phenomena and predict the time and magnitude of algal blooms for applying adequate algal reduction measures. This study performed seasonal water quality assessment and chlorophyll-a prediction using Bayseian simple/multiple linear regression analysis. Bayseian regression analysis could be a useful tool to overcome limitations of conventional regression analysis. Also it can consider uncertainty in prediction by using posterior distribution. Generally, chlorophyll-a of a P2(Paldang Dam 2) site showed high concentration in spring and it was similar to that of P4(Paldang Dam 4) site. For the development of Bayseian model, we performed seasonal correlation. As a result, chlorophyll-a of a P2 site had a high correlation with P5(Paldang Dam 5) site in spring (r = 0.786, p<0.05) and with P4 in winter (r = 0.843, p<0.05). Based on the DIC (Deviance Information Criterion) value, critical explanatory variables of the best fitting Bayesian linear regression model were selected as a $PO_4-P$ (P2), Chlorophyll-a (P5) in spring, $NH_3-N$ (P2), Chlorophyll-a (P4), $NH_3-N$ (P4) in summer, DTP (P2), outflow (P2), TP (P3), TP (P4) fall, COD (P2), Chl-a (P4) and COD (P4) in winter. The results of chlorophyll-a prediction showed relatively high $R^2$ and low RMSE values in summer and winter.

주택가격이 센서스에 기반한 박탈지수의 대안이 될 수 있는가?: 다수준 모델에 기반한 평가 (Can Housing Prices Be an Alternative to a Census-based Deprivation Index? An Evaluation Based on Multilevel Modeling)

  • 손철;나카야 토모키
    • 지적과 국토정보
    • /
    • 제48권2호
    • /
    • pp.197-211
    • /
    • 2018
  • 본 연구에서는 건강에 대한 공간적 연구에서 통상적으로 사용되는 센서스에 기반한 지역 박탈지수의 대안으로 지역 주택가격이 사용될 수 있는지 평가하였다. 평가를 위해 개인을 1수준으로, 수도권의 보건소 구역을 2수준으로 하는 다수준 로지스틱 모델이 추정되었다. 다수준 모델에는 개인의 점심식사후 칫솔질과 치간실 사용을 설명하기 위한 개인수준의 변수들과 보건소 구역을 대표하는 사회적 박탈지수 및 지역주택가격 수준이 포함되었다. 추정된 모델들의 설명력은 Akaike Information Criterion (AIC)와 Bayesian Information Criterion (BIC)를 이용하여 평가되었다. 모델의 추정결과는 사회적 박탈지수 및 지역 주택가격이 모두 개인의 치아관리 행동을 설명하는 데 기여하나 지역 주택가격을 사용한 모델의 AIC 및 BIC가 통상적인 센서스 기반 지역 박탈지수를 사용한 경우 보다 낮은 것을 보여 주었다. 본 연구결과는 센서스에 기반한 박탈지수를 생성하는 데 사용된 센서스 변수가 시점의 차이 등의 이유로 적절하지 않을 경우 지역 주택가격이 지역의 사회경제적 수준을 대표하기 위해 대안적으로 사용될 수 있음을 보여준다.

인공신경망을 활용한 동적 물성치 산정 연구 (Neural Network-Based Prediction of Dynamic Properties)

  • 민대홍;김영석;김세원;최현준;윤형구
    • 한국지반공학회논문집
    • /
    • 제39권12호
    • /
    • pp.37-46
    • /
    • 2023
  • 동적 물성치는 지반의 상세한 거동을 예측하기 위한 필수인자이나, 샘플 채취와 추가적인 실험이 동반되는 한계가 있다. 본 연구의 목적은 정적 지반 물성치를 기반으로 동적 지반 물성치를 예측하는 것으로 인공신경망을 활용하고자 하였다. 정적 물성치는 점착력, 내부마찰각, 함수비, 비중 그리고 일축압축강도로 선정하였으며 출력 값인 동적물성치는 압축파 속도와 전단파 속도로 결정하였다. 인공신경망 적용시 결과값의 신뢰성을 높이기 위해 Levenberg-Marquardt와 Bayesian regularization 방법을 적용하였으며, 각 최적화 방법에 따른 신뢰성을 비교하였다. 인공신경망 모델의 정확도는 결정계수로 나타냈으며, train과 test 과정 모두 0.9 이상의 값을 보여 해당 연구에서 구축한 인공신경망의 신뢰성이 높은 것으로 나타났다. 또한, 구축된 인공신경망 모델의 검증을 위해 새로운 입력 데이터에 대해서도 출력값의 신뢰성을 검증하였으며, 그 결과 높은 정확도를 보였다.

Random Regression Models Are Suitable to Substitute the Traditional 305-Day Lactation Model in Genetic Evaluations of Holstein Cattle in Brazil

  • Padilha, Alessandro Haiduck;Cobuci, Jaime Araujo;Costa, Claudio Napolis;Neto, Jose Braccini
    • Asian-Australasian Journal of Animal Sciences
    • /
    • 제29권6호
    • /
    • pp.759-767
    • /
    • 2016
  • The aim of this study was to compare two random regression models (RRM) fitted by fourth ($RRM_4$) and fifth-order Legendre polynomials ($RRM_5$) with a lactation model (LM) for evaluating Holstein cattle in Brazil. Two datasets with the same animals were prepared for this study. To apply test-day RRM and LMs, 262,426 test day records and 30,228 lactation records covering 305 days were prepared, respectively. The lowest values of Akaike's information criterion, Bayesian information criterion, and estimates of the maximum of the likelihood function (-2LogL) were for $RRM_4$. Heritability for 305-day milk yield (305MY) was 0.23 ($RRM_4$), 0.24 ($RRM_5$), and 0.21 (LM). Heritability, additive genetic and permanent environmental variances of test days on days in milk was from 0.16 to 0.27, from 3.76 to 6.88 and from 11.12 to 20.21, respectively. Additive genetic correlations between test days ranged from 0.20 to 0.99. Permanent environmental correlations between test days were between 0.07 and 0.99. Standard deviations of average estimated breeding values (EBVs) for 305MY from $RRM_4$ and $RRM_5$ were from 11% to 30% higher for bulls and around 28% higher for cows than that in LM. Rank correlations between RRM EBVs and LM EBVs were between 0.86 to 0.96 for bulls and 0.80 to 0.87 for cows. Average percentage of gain in reliability of EBVs for 305-day yield increased from 4% to 17% for bulls and from 23% to 24% for cows when reliability of EBVs from RRM models was compared to those from LM model. Random regression model fitted by fourth order Legendre polynomials is recommended for genetic evaluations of Brazilian Holstein cattle because of the higher reliability in the estimation of breeding values.

Genetic analysis of milk production traits of Tunisian Holsteins using random regression test-day model with Legendre polynomials

  • Zaabza, Hafedh Ben;Gara, Abderrahmen Ben;Rekik, Boulbaba
    • Asian-Australasian Journal of Animal Sciences
    • /
    • 제31권5호
    • /
    • pp.636-642
    • /
    • 2018
  • Objective: The objective of this study was to estimate genetic parameters of milk, fat, and protein yields within and across lactations in Tunisian Holsteins using a random regression test-day (TD) model. Methods: A random regression multiple trait multiple lactation TD model was used to estimate genetic parameters in the Tunisian dairy cattle population. Data were TD yields of milk, fat, and protein from the first three lactations. Random regressions were modeled with third-order Legendre polynomials for the additive genetic, and permanent environment effects. Heritabilities, and genetic correlations were estimated by Bayesian techniques using the Gibbs sampler. Results: All variance components tended to be high in the beginning and the end of lactations. Additive genetic variances for milk, fat, and protein yields were the lowest and were the least variable compared to permanent variances. Heritability values tended to increase with parity. Estimates of heritabilities for 305-d yield-traits were low to moderate, 0.14 to 0.2, 0.12 to 0.17, and 0.13 to 0.18 for milk, fat, and protein yields, respectively. Within-parity, genetic correlations among traits were up to 0.74. Genetic correlations among lactations for the yield traits were relatively high and ranged from $0.78{\pm}0.01$ to $0.82{\pm}0.03$, between the first and second parities, from $0.73{\pm}0.03$ to $0.8{\pm}0.04$ between the first and third parities, and from $0.82{\pm}0.02$ to $0.84{\pm}0.04$ between the second and third parities. Conclusion: These results are comparable to previously reported estimates on the same population, indicating that the adoption of a random regression TD model as the official genetic evaluation for production traits in Tunisia, as developed by most Interbull countries, is possible in the Tunisian Holsteins.

음성 명료도 향상을 위한 분류 모델의 잡음 환경 적응 (Adaptation of Classification Model for Improving Speech Intelligibility in Noise)

  • 정준영;김기백
    • 방송공학회논문지
    • /
    • 제23권4호
    • /
    • pp.511-518
    • /
    • 2018
  • 본 논문에서는 잡음 환경의 음성 신호를 시간-주파수 영역으로 분해한 후 0 또는 1로 표현되는 이진 마스크를 적용하여 음성의 명료도를 높이는 방법에 대해 다룬다. 시간-주파수 영역으로 분해된 신호에 대해 상대적으로 잡음이 많이 섞인 경우는 마스크 "0"을 할당하여 제거하고, 그렇지 않은 경우는 마스크 "1"을 할당하여 보존하는 방식을 채택한다. 이러한 이진 마스크의 추정은 가우시안 혼합 모델로 학습된 베이지안 분류기를 사용한다. 가우시안 혼합 모델 학습에 포함된 잡음 환경에 대해서는 학습된 모델을 이용하여 추정된 이진 마스크의 적용을 통해 잡음 환경에서 음성 명료도를 높일 수 있으나 학습에 포함되지 않은 잡음 환경에 대해서는 음성 명료도를 향상시키지 못하는 문제가 있다. 본 논문에서는 이러한 문제를 해결하기 위해 학습 모델을 잡음 환경에 적응시키고자 한다. 새로운 잡음 환경에 대처하고자 음성 인식에서 사용되는 대표적인 화자 적응 방법을 적용하였으며 실험을 통해 새로운 잡음 환경에 적응함을 확인하였다.

정규 확률과정을 사용한 공조 시스템의 전력 소모량 예측에 관한 연구 (A Study on the Prediction of Power Consumption in the Air-Conditioning System by Using the Gaussian Process)

  • 이창용;송근수;김진호
    • 산업경영시스템학회지
    • /
    • 제39권1호
    • /
    • pp.64-72
    • /
    • 2016
  • In this paper, we utilize a Gaussian process to predict the power consumption in the air-conditioning system. As the power consumption in the air-conditioning system takes a form of a time-series and the prediction of the power consumption becomes very important from the perspective of the efficient energy management, it is worth to investigate the time-series model for the prediction of the power consumption. To this end, we apply the Gaussian process to predict the power consumption, in which the Gaussian process provides a prior probability to every possible function and higher probabilities are given to functions that are more likely consistent with the empirical data. We also discuss how to estimate the hyper-parameters, which are parameters in the covariance function of the Gaussian process model. We estimated the hyper-parameters with two different methods (marginal likelihood and leave-one-out cross validation) and obtained a model that pertinently describes the data and the results are more or less independent of the estimation method of hyper-parameters. We validated the prediction results by the error analysis of the mean relative error and the mean absolute error. The mean relative error analysis showed that about 3.4% of the predicted value came from the error, and the mean absolute error analysis confirmed that the error in within the standard deviation of the predicted value. We also adopt the non-parametric Wilcoxon's sign-rank test to assess the fitness of the proposed model and found that the null hypothesis of uniformity was accepted under the significance level of 5%. These results can be applied to a more elaborate control of the power consumption in the air-conditioning system.