• 제목/요약/키워드: Bayes test

검색결과 110건 처리시간 0.027초

Metabolic Syndrome Prediction Using Machine Learning Models with Genetic and Clinical Information from a Nonobese Healthy Population

  • Choe, Eun Kyung;Rhee, Hwanseok;Lee, Seungjae;Shin, Eunsoon;Oh, Seung-Won;Lee, Jong-Eun;Choi, Seung Ho
    • Genomics & Informatics
    • /
    • 제16권4호
    • /
    • pp.31.1-31.7
    • /
    • 2018
  • The prevalence of metabolic syndrome (MS) in the nonobese population is not low. However, the identification and risk mitigation of MS are not easy in this population. We aimed to develop an MS prediction model using genetic and clinical factors of nonobese Koreans through machine learning methods. A prediction model for MS was designed for a nonobese population using clinical and genetic polymorphism information with five machine learning algorithms, including naïve Bayes classification (NB). The analysis was performed in two stages (training and test sets). Model A was designed with only clinical information (age, sex, body mass index, smoking status, alcohol consumption status, and exercise status), and for model B, genetic information (for 10 polymorphisms) was added to model A. Of the 7,502 nonobese participants, 647 (8.6%) had MS. In the test set analysis, for the maximum sensitivity criterion, NB showed the highest sensitivity: 0.38 for model A and 0.42 for model B. The specificity of NB was 0.79 for model A and 0.80 for model B. In a comparison of the performances of models A and B by NB, model B (area under the receiver operating characteristic curve [AUC] = 0.69, clinical and genetic information input) showed better performance than model A (AUC = 0.65, clinical information only input). We designed a prediction model for MS in a nonobese population using clinical and genetic information. With this model, we might convince nonobese MS individuals to undergo health checks and adopt behaviors associated with a preventive lifestyle.

Comparative Study of PSO-ANN in Estimating Traffic Accident Severity

  • Md. Ashikuzzaman;Wasim Akram;Md. Mydul Islam Anik;Taskeed Jabid;Mahamudul Hasan;Md. Sawkat Ali
    • International Journal of Computer Science & Network Security
    • /
    • 제23권8호
    • /
    • pp.95-100
    • /
    • 2023
  • Due to Traffic accidents people faces health and economical casualties around the world. As the population increases vehicles on road increase which leads to congestion in cities. Congestion can lead to increasing accident risks due to the expansion in transportation systems. Modern cities are adopting various technologies to minimize traffic accidents by predicting mathematically. Traffic accidents cause economical casualties and potential death. Therefore, to ensure people's safety, the concept of the smart city makes sense. In a smart city, traffic accident factors like road condition, light condition, weather condition etcetera are important to consider to predict traffic accident severity. Several machine learning models can significantly be employed to determine and predict traffic accident severity. This research paper illustrated the performance of a hybridized neural network and compared it with other machine learning models in order to measure the accuracy of predicting traffic accident severity. Dataset of city Leeds, UK is being used to train and test the model. Then the results are being compared with each other. Particle Swarm optimization with artificial neural network (PSO-ANN) gave promising results compared to other machine learning models like Random Forest, Naïve Bayes, Nearest Centroid, K Nearest Neighbor Classification. PSO- ANN model can be adopted in the transportation system to counter traffic accident issues. The nearest centroid model gave the lowest accuracy score whereas PSO-ANN gave the highest accuracy score. All the test results and findings obtained in our study can provide valuable information on reducing traffic accidents.

FAFS: A Fuzzy Association Feature Selection Method for Network Malicious Traffic Detection

  • Feng, Yongxin;Kang, Yingyun;Zhang, Hao;Zhang, Wenbo
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제14권1호
    • /
    • pp.240-259
    • /
    • 2020
  • Analyzing network traffic is the basis of dealing with network security issues. Most of the network security systems depend on the feature selection of network traffic data and the detection ability of malicious traffic in network can be improved by the correct method of feature selection. An FAFS method, which is short for Fuzzy Association Feature Selection method, is proposed in this paper for network malicious traffic detection. Association rules, which can reflect the relationship among different characteristic attributes of network traffic data, are mined by association analysis. The membership value of association rules are obtained by the calculation of fuzzy reasoning. The data features with the highest correlation intensity in network data sets are calculated by comparing the membership values in association rules. The dimension of data features are reduced and the detection ability of malicious traffic detection algorithm in network is improved by FAFS method. To verify the effect of malicious traffic feature selection by FAFS method, FAFS method is used to select data features of different dataset in this paper. Then, K-Nearest Neighbor algorithm, C4.5 Decision Tree algorithm and Naïve Bayes algorithm are used to test on the dataset above. Moreover, FAFS method is also compared with classical feature selection methods. The analysis of experimental results show that the precision and recall rate of malicious traffic detection in the network can be significantly improved by FAFS method, which provides a valuable reference for the establishment of network security system.

HEVC의 재귀적 CU 구조에 대한 조건부 확률 기반 고속 탐색 알고리즘 (Conditional Probability Based Early Termination of Recursive Coding Unit Structures in HEVC)

  • 한우진
    • 방송공학회논문지
    • /
    • 제17권2호
    • /
    • pp.354-362
    • /
    • 2012
  • MPEG과 ITU-T에서 최근 표준화가 진행되고 있는 HEVC는 H.264/AVC에 비해, CU(coding unit), PU(prediction unit), TU(transform unit)의 다양한 형태 분할 단위를 갖는 것을 큰 특징으로 한다. 이 중, CU와 TU는 쿼드트리 형태의 재귀적 분할 구조를 가지도록 구성되는데, 압축 효율은 향상시키지만 높은 부호화 복잡도를 갖는 단점이 있다. 본 논문에서는 이러한 재귀적 분할 구조에서의 rate-distortion cost를 조건부 확률을 이용한 통계적 분석 방법을 사용하여, 분할이 일어나는 경우와 그렇지 않은 경우로 분류하는 방법을 제안한다. 제안한 방법을 HEVC의 재귀적 CU 부호화에 적용한 결과, 부호화 복잡도를 32% 가량 감소시키면서 압축 효율하락은 0.4-0.5%로 억제할 수 있었다. 또한, HM4.0에 구현되어 있는 고속 탐색 알고리즘과 함께 사용하는 경우, 압축 효율 하락을 0.9%로 억제하면서 부호화 복잡도를 1/2로 감소시킬 수 있었다.

The use of data mining methods for dystocia detection in Polish Holstein-Friesian Black-and-White cattle

  • Zaborski, Daniel;Proskura, Witold S.;Grzesiak, Wilhelm
    • Asian-Australasian Journal of Animal Sciences
    • /
    • 제31권11호
    • /
    • pp.1700-1713
    • /
    • 2018
  • Objective: The aim of this study was to verify the usefulness of artificial neural networks (ANN), multivariate adaptive regression splines (MARS), naïve Bayes classifier (NBC), general discriminant analysis (GDA), and logistic regression (LR) for dystocia detection in Polish Holstein-Friesian Black-and-White heifers and cows and to indicate the most influential predictors of calving difficulty. Methods: A total of 1,342 and 1,699 calving records including six categorical and four continuous predictors were used. Calving category (difficult vs easy or difficult, moderate and easy) was the dependent variable. Results: The maximum sensitivity, specificity and accuracy achieved for heifers on the independent test set were 0.855 (for ANN), 0.969 (for NBC), and 0.813 (for GDA), respectively, whereas the values for cows were 0.600 (for ANN), 1.000 and 0.965 (for NBC, GDA, and LR), respectively. With the three categories of calving difficulty, the maximum overall accuracy for heifers and cows was 0.589 (for MARS) and 0.649 (for ANN), respectively. The most influential predictors for heifers were an average calving difficulty score for the dam's sire, calving age and the mean yield of the farm, where the heifer was kept, whereas for cows, these additionally included: calf sex, the difficulty of the preceding calving, and the mean daily milk yield for the preceding lactation. Conclusion: The potential application of the investigated models in dairy cattle farming requires, however, their further improvement in order to reduce the rate of dystocia misdiagnosis and to increase detection reliability.

폐암 생존율 향상을 위한 아다부스트 학습 기반의 컴퓨터보조 진단방법에 관한 연구 (Study of Computer Aided Diagnosis for the Improvement of Survival Rate of Lung Cancer based on Adaboost Learning)

  • 원철호
    • 재활복지공학회논문지
    • /
    • 제10권1호
    • /
    • pp.87-92
    • /
    • 2016
  • 본 논문에는 관심 영역의 폐실질 영역을 양성과 악성 결절의 분류를 위한 특징인자에 포함으로써 분류성능을 개선하였다. CT를 통해 확인되는 매우 작은 폐결절(4~10mm)은 고형 종양 내에 CT 데이터 복셀 수가 제한되어 기존 컴퓨터보조 진단도구를 통해 처리하기가 어렵다. 이러한 아주 작은 폐 결절의 경우 분석을 위해 주변의 실질을 포함하여 특징인자를 추출하는 것이 CT 복셀 세트를 증가시킬 수 있으며, CT 스캐너와 매개 변수에 대한 컴퓨터 보조진단도구의 유연성을 확보함으로써 진단 성능을 개선할 수 있다. 나이브 베이스와 SVM 약분류기를 이용하는 아다부스트 학습을 통해 304개의 특징인자로부터 유효한 특징인자를 결정하였으며, 제안한 방법을 COPDGene 데이터에 적용한 결과 100%의 정확도, 민감도 및 특이도의 결과를 획득하여 컴퓨터 보조진단에 유용하게 사용될 수 있음을 보였다.

고령운전자 운전 및 신체특성을 반영한 교통사고 분석 연구 (Analysis of Elderly Drivers' Accident Models Considering Operations and Physical Characteristics)

  • 임삼진;박준태;김영일;김태호
    • 대한교통학회지
    • /
    • 제30권6호
    • /
    • pp.37-46
    • /
    • 2012
  • 65세 이상 고령운전자의 경우 지난 10년 새 교통사고건수는 3만 7,000건에서 27만 4,000건으로 무려 640.5% 증가되었다. 이는 전체사고에서 차지하는 비율이 1.2%에서 3.1배 증가한 3.7%를 차지하고 있는 것으로 교통안전 관련기관에서는 여러 대책을 강구하고 있다. 무엇보다 고령운전자의 행동특성 및 신체특성에 대한 심층연구를 통해 안전대책과 연계하는 방안이 중요하다 할 수 있다. 본 연구에서는 고령운전자의 행동특성을 측정할 수 있는 운전자 적성검사(Driving Aptitude) 항목과 교통사고 자료를 토대로 고령운전자 운전특성과 사고특성을 연결한 실증연구를 수행하였다. 영향모형 개발을 위해 활용한 방법론은 영과잉 회귀모형을 적용하였고, ZIP 회귀모형과 ZINB 회귀모형에 대하여 베이지안 추론을 이용한 사고예측 모형을 선택하였다. AAE분석결과 ZIP 회귀모형이 적합하며, 3가지 변수속도예측, 주의전환, 인지능력이 고령자사고와 영향관계에 있음을 확인할 수 있었다.

통합의료적 황달진단법개발을 위한 통계적 접근방법 (Development of integrative diagnosis methods for the jaundice through statistical analysis)

  • 신임희;곽상규;김상경;손기철;정현정;조윤정;이아진;권오승
    • Journal of the Korean Data and Information Science Society
    • /
    • 제24권3호
    • /
    • pp.515-521
    • /
    • 2013
  • 건강 관리에 있어서 서양의학과 한의학의 접근 방법의 차이는 자연과 인간의 이해에 대한 문화적인 차이에서 비롯된다. 서양의학에서는 자연과 인간을 분리하고 인간 또한 여러 하위 시스템으로 나누고, 질병을 외부의 자극에 대한 반응이 적절하지 못하여 초래되는 것으로 보고 질병이 발생되면 시스템 별로 진단하여 치료해 왔다. 반면, 한의학의 경우 자연과 인간을 하나로 보고 인간의 건강을 자연과의 조화로운 상태로 규명하고 질병이 발생하기 전에 건강의 균형을 유지하기 위한 면역 기능을 높이는 예방적 치료를 주로 해왔다. 이러한 인간에 대한 근본적인 접근방법의 차이는 의료 전달체계를 양분화 시키고 상호 의사소통의 어려움을 야기했으나 통합 의료 서비스는 두 가지 의학의 장점을 살리고 최상의 치료 효과를 지향하는 시도라고 할 수 있다. 따라서 본 논문에서는 특정 질환인 황달에 대해 한의학적 분류 (습증, 열증)에 따른 서양의학에서 사용하는 혈액학적 검사수치를 통계적 분석기법을 사용하여 살펴보고 차이가 있는 수치를 살펴봄으로써 통합의료적 환자 진단과 치료에 적용할 수 있는 접근 방법을 살펴보고자 한다.

클래스 영역의 다차원 구 생성에 의한 프로토타입 기반 분류 (Prototype based Classification by Generating Multidimensional Spheres per Class Area)

  • 심세용;황두성
    • 한국컴퓨터정보학회논문지
    • /
    • 제20권2호
    • /
    • pp.21-28
    • /
    • 2015
  • 본 논문에서는 최근접 이웃 규칙을 이용한 프로토타입 선택 기반 분류 학습을 제안하였다. 각 훈련 데이터가 대표하는 클래스 영역을 구(sphere)로 분할하는데 최근접 이웃 규칙을 적용시키며, 구의 내부는 동일 클래스 데이터들만 포함하도록 한다. 프로토타입은 구의 중심점이며 프로토타입의 반지름은 가장 인접한 다른 클래스 데이터와 가장 먼 동일 클래스 데이터의 중간 거리 값으로 결정한다. 그리고 전체 훈련 데이터를 대표하는 최소의 프로토타입 집합을 선택하기 위해 집합 덮개 최적화를 이용하여 프로토타입 선택 문제를 변형시켰다. 제안하는 프로토타입 선택 방법은 클래스 별 적용이 가능한 그리디 알고리즘으로 설계되었다. 제안하는 방법은 계산 복잡도가 높지 않으며, 대규모 훈련 데이터에 대한 병렬처리의 가능성이 높다. 프로토타입 기반 분류 학습은 선택된 프로토타입 집합을 새로운 훈련 데이터 집합으로 사용하고 최근접 이웃 규칙을 적용하여 테스트 데이터의 클래스를 예측한다. 실험에서 제안하는 프로토타입 기반 분류기는 최근접 이웃 학습, 베이지안 분류 학습과 다른 프로토타입 분류기에 비해 일반화 성능이 우수하였다.

영화 리뷰 감성분석을 위한 텍스트 마이닝 기반 감성 분류기 구축 (A Study on Analyzing Sentiments on Movie Reviews by Multi-Level Sentiment Classifier)

  • 김유영;송민
    • 지능정보연구
    • /
    • 제22권3호
    • /
    • pp.71-89
    • /
    • 2016
  • 누구나 본인이 사용한 제품이나, 이용한 서비스에 대한 후기를 자유롭게 인터넷에 작성할 수 있고, 이러한 데이터의 양은 점점 더 많아지고 있다. 감성분석은 사용자가 생성한 온라인 텍스트 속에 내포된 감성 및 감정을 식별하기 위해 사용된다. 본 연구는 다양한 데이터 도메인 중 영화 리뷰를 분석 대상으로 한다. 영화 리뷰를 이용한 기존 연구에서는 종종 리뷰 평점을 관객의 감성으로 동일시하여 감성분석에 이용한다. 그러나 리뷰 내용과 평점의 실제적 극성 정도가 항상 일치하는 것은 아니기 때문에 연구의 정확성에 한계가 발생할 수 있다. 이에 본 연구에서는 기계학습 기반의 감성 분류기를 구축하고, 이를 통해 리뷰의 감성점수를 산출하여 리뷰에서 나타나는 감성의 수치화를 목표로 한다. 나아가 산출된 감성점수를 이용하여 리뷰와 영화 흥행 간의 연관성을 살펴보았다. 감성분석 모델은 지지벡터 분류기와 신경망을 이용해 구축되었고, 총 1만 건의 영화 리뷰를 학습용 데이터로 하였다. 감성분석은 총 175편의 영화에 대한 1,258,538개의 리뷰에 적용하였다. 리뷰의 평점과 흥행, 그리고 감성점수와 흥행과의 연관성은 상관분석을 통해 살펴보았고, t-검정으로 두 지표의 평균차를 비교하여 감성점수의 활용성을 검증하였다. 연구 결과, 본 연구에서 제시하는 모델 구축 방법은 나이브 베이즈 분류기로 구축한 모델보다 높은 정확성을 보였다. 상관분석 결과로는, 영화의 주간 평균 평점과 관객 수 간의 유의미한 양의 상관관계가 나타났고, 감성점수와 관객 수 간의 상관분석에서도 유사한 결과가 도출되었다. 이에 두 지표간의 평균을 이용한 t-검정을 수행하고, 이를 바탕으로 산출한 감성점수를 리뷰 평점의 역할을 할 수 있는 지표로써 활용 가능함을 검증하였다. 나아가 검증된 결론을 근거로, 트위터에서 영화를 언급한 트윗을 수집하여 감성분석을 적용한 결과를 살펴봄으로써 감성분석 모델의 활용 방안을 모색하였다. 전체적 실험 및 검증의 과정을 통해 본 연구는 감성분석 연구에 있어 개선된 감성 분류 방법을 제시할 수 있음을 보였고, 이러한 점에서 연구의 의의가 있다.