• 제목/요약/키워드: empirical Bayes

검색결과 106건 처리시간 0.024초

Classifying Social Media Users' Stance: Exploring Diverse Feature Sets Using Machine Learning Algorithms

  • Kashif Ayyub;Muhammad Wasif Nisar;Ehsan Ullah Munir;Muhammad Ramzan
    • International Journal of Computer Science & Network Security
    • /
    • 제24권2호
    • /
    • pp.79-88
    • /
    • 2024
  • The use of the social media has become part of our daily life activities. The social web channels provide the content generation facility to its users who can share their views, opinions and experiences towards certain topics. The researchers are using the social media content for various research areas. Sentiment analysis, one of the most active research areas in last decade, is the process to extract reviews, opinions and sentiments of people. Sentiment analysis is applied in diverse sub-areas such as subjectivity analysis, polarity detection, and emotion detection. Stance classification has emerged as a new and interesting research area as it aims to determine whether the content writer is in favor, against or neutral towards the target topic or issue. Stance classification is significant as it has many research applications like rumor stance classifications, stance classification towards public forums, claim stance classification, neural attention stance classification, online debate stance classification, dialogic properties stance classification etc. This research study explores different feature sets such as lexical, sentiment-specific, dialog-based which have been extracted using the standard datasets in the relevant area. Supervised learning approaches of generative algorithms such as Naïve Bayes and discriminative machine learning algorithms such as Support Vector Machine, Naïve Bayes, Decision Tree and k-Nearest Neighbor have been applied and then ensemble-based algorithms like Random Forest and AdaBoost have been applied. The empirical based results have been evaluated using the standard performance measures of Accuracy, Precision, Recall, and F-measures.

화물차 DTG 데이터를 활용한 고속도로 졸음운전 위험구간 분석 (The Hazardous Expressway Sections for Drowsy Driving Using Digital Tachograph in Truck)

  • 조종석;이현석;이재영;김덕녕
    • 대한교통학회지
    • /
    • 제35권2호
    • /
    • pp.160-168
    • /
    • 2017
  • 지난 10년 간 졸음운전은 전체 고속도로 사고건수의 약 23%로 교통사고 사망원인 중 가장 높은 비중을 차지하고 있다. 과속, 주시태만 등 운전자 과실이 주요원인인 일반적인 사고유형과 달리, 졸음운전은 졸음이라는 불가항력적 원인에 의해 발생한다는 점에서 타 사고유형과 차별화된 접근이 요구된다. 그 동안의 졸음운전 감소대책은 일반적인 교통사고 대책과 마찬가지로 사고다발지점과 같은 특정지점(spot)에 집중하였으나, 도로특성(해당구간의 화물차 비율 등) 또는 시간특성(누적주행시간에 따른 위험 운전행동 증가 등)을 고려한 감소대책이 필요함에 따라, 본 연구에서는 시 공간적으로 확대한 구간(link) 개념을 도입하였다. 고속도로 졸음운전 위험구간 분석을 위해 화물차 디지털 운행기록계(digital tacho graph: DTG) 자료를 활용하였으며, 이를 바탕으로 졸음운전 위험구간을 산정하였다. 위험 행동지표와 사고 발생건수 간의 상관 분석을 위해 음이항 회귀모형(negative binomial regression)을 통한 졸음사고 예측모형을 추정하였으며 모형의 결과 값을 바탕으로 경험적 베이즈(empirical Bayes: EB) 추정치와 구간별 잠재적 안전개선 지수(potential for safety improvement: PSI)를 산출하여 졸음운전 위험 구간을 선정하였다. 졸음사고 모형 추정 결과, 연평균 일교통량, 화물차 비율, DTG 수집 자료건수, 평균 과속비율(20km/h 초과), 평균 급감속비율 및 평균 급차로변경비율이 늘어날 경우 졸음운전 사고건수 역시 증가하는 것으로 분석되었다.

cDNA 마이크로어레이에서 유전자간 상관 관계에 대한 보고 (A Report on the Inter-Gene Correlations in cDNA Microarray Data Sets)

  • 김병수;장지선;김상철;임요한
    • 응용통계연구
    • /
    • 제22권3호
    • /
    • pp.617-626
    • /
    • 2009
  • 최근에 보고되는 일련의 연구는 Affymetrix 마이크로어레이 자료에서 유전자간 상관관계가 강하고 장범위(長範圍)(long-ranged)로 나타나고 있으며, 기존의 "편한" 가정, 즉 유전자간 상관관계가 매우 약하며, 따라서 유전자간 유사 독립성을 가정할 수 있다는 주장이 비현실적이라는 것을 보고하고 있다. Qui 등 (2005b)은 각 유전자의 검정통계량을 병합하여 통계적 추론을 하는 이른바 비모수적 경험적 베이즈 방법을 적용하면 검색된 특이발현 유전자수의 분산이 커진다는 것을 보고하고 있고, 이러한 분산의 불안전성 이유로서 유전자간 강한 상관관계를 지적하고 있다. 또한 Klebanov와 Yakovlev (2007)는 유전자간 상관관계가 통계적 분석을 어렵게 하는 요인이라기 보다는 유용한 정보의 원천이고 적정한 변환을 통하여 근사 독립을 유지할 수 있는 급수를 만들 수 있으며 이 급수를 ${\delta}$-급수라고 불렀다. 본 보고에서는 국내에서 생산된 2조의 cDNA 마이크로어레이 자료에서 유전자간 상관관계가 비교적 강하며, 장범위(長範圍)로 나타나는 것을 확인하며, 유사 독립성을 전제할 수 있는 ${\delta}$-급수가 cDNA 마이크로어레이에서도 발견되는 것을 보고하고자 한다, 동 보고는 추후 cDNA 마이크로어레이 자료의 분석에서도 유전자간 상관관계를 고려하여야 함을 강조하고 있다.

패널교통사고자료 기반 기대교통사고건수 추정기법 평가 (Assessing Estimation Methods of the Expected Crashes using Panel Traffic Crash Data)

  • 신강원
    • 대한교통학회지
    • /
    • 제29권1호
    • /
    • pp.103-111
    • /
    • 2011
  • 유사한 특성을 갖는 지점 (또는 구간)들에서 연속되고 동일한 시간 간격 동안 관측된 패널 (panel) 교통사고 자료를 시간의 흐름에 따라 비교분석하여 분석지점의 기대교통사고건수를 추정하는 과정은 교통안전 개선사업의 효과 평가와 교통안전 개선사업 수행의 우선순위 결정과 같은 교통안전연구의 핵심이다. 패널 교통사고 자료를 이용한 기대교통사고건수 추정기법은 관측교통사고건수 기반 기법과 경험적 베이지안 기법으로 대별할 수 있으며, 본 연구에서는 시간의 흐름에 따른 기대교통사고건수의 변화 여부와 다양한 패널 교통사고 자료 구조에 따라 전술한 두 가지 기법의 추정오차를 모의실험을 통해 비교 분석하였다. 분석결과 시간의 흐름에 따른 기대교통사고건수의 변화 여부와 패널교통사고자료 구조의 특성과 관계없이 관측교통사고건수 기반 추정치인 평균 관측교통사고건수와 평행비교 추정치의 추정오차는 경험적 베이즈 추정치의 추정오차보다 항상 크게 나타나 향후 패널교통 사고자료를 이용한 교통안전 연구 수행 시 경험적 베이지안 추정기법의 적용이 필요하다고 판단된다. 한편 시간의 흐름에 따라 기대교통 사고건수가 변화하지 않을 경우 분석기간이 늘어날수록 두 가지 기법의 추정오차는 모두 현저하게 감소하는 것으로 분석되어, 현재 국내의 교통사고 잦은 곳 선정 연구에서 기준치로 사용되고 있는 분석기간인 "1년"을 연장하여 보다 효율적으로 시간 불변 기대교통사고건수를 추정할 필요가 있다고 판단된다.

교육수준과 지역결핍지수에 따른 뇌혈관질환 사망률 차이 (Difference of Area-based deprivation and Education on Cerebrovascular Mortality in Korea)

  • 심정하;안동춘;손미아
    • 보건행정학회지
    • /
    • 제22권2호
    • /
    • pp.163-182
    • /
    • 2012
  • This study was performed to identify the difference of the area-based deprivation and the educational level on the cerebrovascular mortality in Korea. Data used in this study was obtained from the Death Certificate Data 2000 and the 2000 Census produced by Korean National Statistics(NSO). We classified the whole country into 246 areas based on the administrative districts. Then, the Standardized Mortality Ratio (SMR) in cerebrovascular disease was calculated according to the sex, education level and 246 areas. Its Predicted SMR was calculated by the Empirical Bayes Methods to reduce the variation of the SMR values. The area-based deprivation of 246 areas were measured using the modified Carstairs index in which the 5 indicators consisted of overcrowding, the unemployment ratio of men, the percentage of households classified low social class, the percentage of non home owners, and finally those houses lacking basic amenities. The correlation between the area-based deprivation and the SMR of the whole country and the correlation between the area-based deprivation and the SMR of each metropolitan cities or provinces was analyzed by the Pearson correlation analysis method. After classifying the deprivation of 246 areas into 5 levels, we performed the random intercept Poisson regression analysis after adjusting education level and age using Empirical Bayes Method to investigate the relationship between the 5 deprivation levels and the cerebrovascular mortality. The SMR was increased in lower education level. Each 246 areas had different values in SMR, Predicted SMR and area-based deprivation. The area-based deprivation and the SMR of the whole country was not correlated in both sexes. The education level of an individual was associated the risk of cerebrovascular mortality in men. The risk of cerebrovascular mortality increased with age compared to the reference(<30). The area-based deprivation was not associated with the risk of cerebrovascular in both sexes. The findings of this study suggest that the SMR had positive and negative correlations with area-based deprivation depending on the metropolitan cities or province. It also suggests that the individual education level and age were related with mortality and finally that the area-based deprivation was not associated to the cerebrovascular mortality in Korea.

댓글이 음원 판매량에 미치는 차별적 영향에 관한 텍스트마이닝 분석 (The Impact of Comments on Music Download and Streaming: A Text Mining Analysis)

  • 박명석;권영진;이상용
    • 지식경영연구
    • /
    • 제19권2호
    • /
    • pp.91-108
    • /
    • 2018
  • This study mainly focused on measuring the impact of comments for a particular song on the number of streamings and downloads. We modeled multiple regression equations to perform this analysis. We chose digital music market for the object of analysis because of its inherent characteristics, such as experience goods, high bandwagon effect, and so on. We carefully utilized text mining technique in accordance with the algorithm of Naïve Bayes classifier to distinguish whether a comment for a piece of music be regarded as positive or negative. In addition, we used 'size of agency' and 'existence of hit song' as moderating variables. The reason for usage of those variables is that those are assumed to affect users' decision for selecting particular song especially when downloading or streaming via music sites. We found empirical evidences that positive comments for a particular song increase the number of both downloads and streamings. However, positive comments may decrease the number of downloads when the size of agency of the artist is big. As a result, we were able to say that a positive comment for a particular song functioned as 'word-of-mouth' effect, inducing other users' behavioral response. We also found that other features of an artist such as size of the agency that the artist belongs to functioned as an external factor along with feature of the song itself.

Socioeconomic Predictors of Diabetes Mortality in Japan: An Ecological Study Using Municipality-specific Data

  • Okui, Tasuku
    • Journal of Preventive Medicine and Public Health
    • /
    • 제54권5호
    • /
    • pp.352-359
    • /
    • 2021
  • Objectives: The aim of this study was to examine the geographic distribution of diabetes mortality in Japan and identify socioeconomic factors affecting differences in municipality-specific diabetes mortality. Methods: Diabetes mortality data by year and municipality from 2013 to 2017 were extracted from Japanese Vital Statistics, and the socioeconomic characteristics of municipalities were obtained from government statistics. We calculated the standardized mortality ratio (SMR) of diabetes for each municipality using the empirical Bayes method and represented geographic differences in SMRs in a map of Japan. Multiple linear regression was conducted to identify the socioeconomic factors affecting differences in SMR. Statistically significant socioeconomic factors were further assessed by calculating the relative risk of mortality of quintiles of municipalities classified according to the degree of each socioeconomic factor using Poisson regression analysis. Results: The geographic distribution of diabetes mortality differed by gender. Of the municipality-specific socioeconomic factors, high rates of single-person households and unemployment and a high number of hospital beds were associated with a high SMR for men. High rates of fatherless households and blue-collar workers were associated with a high SMR for women, while high taxable income per-capita income and total population were associated with low SMR for women. Quintile analysis revealed a complex relationship between taxable income and mortality for women. The mortality risk of quintiles with the highest and lowest taxable per-capita income was significantly lower than that of the middle-income quintile. Conclusions: Socioeconomic factors of municipalities in Japan were found to affect geographic differences in diabetes mortality.

EB기법을 이용한 사고잦은 곳 개선사업 우선순위 판정기법 개발 (Development of Evaluation Model for Black Spot Improvement Priorities by using Emperical Bayes Method)

  • 정성봉;황보희;성낙문;이선하
    • 대한교통학회지
    • /
    • 제27권3호
    • /
    • pp.81-90
    • /
    • 2009
  • 도로 네트워크의 안전 관리는 기본적으로 교통안전 조사를 위한 사이트(교통사고 잦은 지점) 선정, 안전문제에 대한 진단, 잠재적 위험요소들에 대한 가능한 대안 선정, 주어진 예산 제약 하에 대안간의 우선순위 결정과 같은 순서로 이루어진다(Persaud, 2001). 효율적인 안전 조사를 위해 요구되는 지점(교통사고 잦은 지점) 선정에 대한 과정은 매우 중요하다. 이에, 본 연구는 인천시 4지 신호 교차로 중 교통사고 잦은 지점으로 선정된 지점의 3년간(2004~2006년) 사고 자료와 기하구조 자료를 이용하여 EB 기법 이용 시 필요한 사고예측모델을 개발하였다. 또한, 교통사고 잦은 지점을 선정하는데 있어 현재 우리나라에서 적용되고 있는 단순사고건수와 심각도를 고려하여 선정된 우선순위와 단순사고건수 대신 EB 기법을 이용하여 예측된 사고건수를 이용하여 선정된 우선순위 비교를 통해 기존 방법의 한계를 제시하고 합리적인 예측모형 개발 필요성을 보여주고자 하였다. 분석 결과, 총 사고건수 추정 시 기존의 사고 예측 방법인 비선형 회귀모형과 EB 기법의 결과 값 모두 예측력이 높은 것으로 나타났지만 지점별 사고건수 예측력을 함께 고려할 경우엔 EB 기법이 비선형 회귀 모형(포아송)의 결과보다 예측력이 좋은 것으로 나타났다. 또한, 도출된 우선순위 비교 결과 대부분의 지점의 우선순위는 크게 변동이 없었으나, 서해4거리 등 몇 개 지점의 개선우선순위에는 상당한 변동이 발생하는 것으로 나타났다. 이는 실제 사고건수를 이용할 경우 발생하는 RTM문제를 본 연구에서 제안한 기법을 사용할 경우 해결가능하다는 것을 시사한다.

전달오차의 EEMD적용을 통한 기어 결함분류연구 (A Study on Fault Classification by EEMD Application of Gear Transmission Error)

  • 박성호;최주호
    • 한국전산구조공학회논문집
    • /
    • 제30권2호
    • /
    • pp.169-177
    • /
    • 2017
  • 본 논문에서는 기어 전달오차의 EEMD 적용을 통한 기어 이빨의 박리결함과 균열결함의 분류법을 소개한다. 두 가지 결함을 적용한 기어의 유한요소모델을 바탕으로 전달오차를 획득하고 전달오차에서 나타나는 두 가지 결함의 특징과 정상상태의 전달오차와의 차이를 나타내는 RTE에서 나타나는 두 가지 결함의 특징을 확인했으며 유한요소해석 결과를 이용한 시뮬레이션 신호를 구성하여 신호처리를 통한 RTE 획득과정을 구성하였다. 시뮬레이션 신호로부터 얻은 RTE의 EEMD 적용을 통하여 박리과 균열의 신호가 각기 다른 IMF에서 비중이 크다는 것을 확인하였고, 이를 실험을 통해 검증하고자 하였다. 한 쌍의 기어와 서보모터, 파우더브레이크 그리고 기어의 회전량을 측정하기 위한 엔코더로 구성되어있는 테스트베드를 꾸려 전달오차를 획득하였다. 두 개의 기어를 이용하여 정상, 박리, 균열 세가지 상황에 대한 전달오차를 획득하여 시뮬레이션과 같은 과정을 거쳐 결함이 신호로 구분되는 것을 확인했다. 이를 정량화 하기위해 파고율을 각 IMF에 적용하였고 첫 번째 IMF와 세 번째 IMF의 파고율을 특징 신호로 선정하였다. 실험을 통해 확보된 데이터를 이용하여 Bayes decision 이론을 이용하여 분류 방법을 제시하였다.

Effect of missing values in detecting differentially expressed genes in a cDNA microarray experiment

  • Kim, Byung-Soo;Rha, Sun-Young
    • Bioinformatics and Biosystems
    • /
    • 제1권1호
    • /
    • pp.67-72
    • /
    • 2006
  • The aim of this paper is to discuss the effect of missing values in detecting differentially expressed genes in a cDNA microarray experiment in the context of a one sample problem. We conducted a cDNA micro array experiment to detect differentially expressed genes for the metastasis of colorectal cancer based on twenty patients who underwent liver resection due to liver metastasis from colorectal cancer. Total RNAs from metastatic liver tumor and adjacent normal liver tissue from a single patient were labeled with cy5 and cy3, respectively, and competitively hybridized to a cDNA microarray with 7775 human genes. We used $M=log_2(R/G)$ for the signal evaluation, where Rand G denoted the fluorescent intensities of Cy5 and Cy3 dyes, respectively. The statistical problem comprises a one sample test of testing E(M)=0 for each gene and involves multiple tests. The twenty cDNA microarray data would comprise a matrix of dimension 7775 by 20, if there were no missing values. However, missing values occur for various reasons. For each gene, the no missing proportion (NMP) was defined to be the proportion of non-missing values out of twenty. In detecting differentially expressed (DE) genes, we used the genes whose NMP is greater than or equal to 0.4 and then sequentially increased NMP by 0.1 for investigating its effect on the detection of DE genes. For each fixed NMP, we imputed the missing values with K-nearest neighbor method (K=10) and applied the nonparametric t-test of Dudoit et al. (2002), SAM by Tusher et al. (2001) and empirical Bayes procedure by $L\ddot{o}nnstedt$ and Speed (2002) to find out the effect of missing values in the final outcome. These three procedures yielded substantially agreeable result in detecting DE genes. Of these three procedures we used SAM for exploring the acceptable NMP level. The result showed that the optimum no missing proportion (NMP) found in this data set turned out to be 80%. It is more desirable to find the optimum level of NMP for each data set by applying the method described in this note, when the plot of (NMP, Number of overlapping genes) shows a turning point.

  • PDF