• 제목/요약/키워드: Bayes classifier

검색결과 149건 처리시간 0.025초

Evaluation of Machine Learning Algorithm Utilization for Lung Cancer Classification Based on Gene Expression Levels

  • Podolsky, Maxim D;Barchuk, Anton A;Kuznetcov, Vladimir I;Gusarova, Natalia F;Gaidukov, Vadim S;Tarakanov, Segrey A
    • Asian Pacific Journal of Cancer Prevention
    • /
    • 제17권2호
    • /
    • pp.835-838
    • /
    • 2016
  • Background: Lung cancer remains one of the most common cancers in the world, both in terms of new cases (about 13% of total per year) and deaths (nearly one cancer death in five), because of the high case fatality. Errors in lung cancer type or malignant growth determination lead to degraded treatment efficacy, because anticancer strategy depends on tumor morphology. Materials and Methods: We have made an attempt to evaluate effectiveness of machine learning algorithms in the task of lung cancer classification based on gene expression levels. We processed four publicly available data sets. The Dana-Farber Cancer Institute data set contains 203 samples and the task was to classify four cancer types and sound tissue samples. With the University of Michigan data set of 96 samples, the task was to execute a binary classification of adenocarcinoma and non-neoplastic tissues. The University of Toronto data set contains 39 samples and the task was to detect recurrence, while with the Brigham and Women's Hospital data set of 181 samples it was to make a binary classification of malignant pleural mesothelioma and adenocarcinoma. We used the k-nearest neighbor algorithm (k=1, k=5, k=10), naive Bayes classifier with assumption of both a normal distribution of attributes and a distribution through histograms, support vector machine and C4.5 decision tree. Effectiveness of machine learning algorithms was evaluated with the Matthews correlation coefficient. Results: The support vector machine method showed best results among data sets from the Dana-Farber Cancer Institute and Brigham and Women's Hospital. All algorithms with the exception of the C4.5 decision tree showed maximum potential effectiveness in the University of Michigan data set. However, the C4.5 decision tree showed best results for the University of Toronto data set. Conclusions: Machine learning algorithms can be used for lung cancer morphology classification and similar tasks based on gene expression level evaluation.

차대차 교통사고에 대한 상해 심각도 예측 연구 (A Study on Injury Severity Prediction for Car-to-Car Traffic Accidents)

  • 고창완;김현민;정영선;김재희
    • 한국ITS학회 논문지
    • /
    • 제19권4호
    • /
    • pp.13-29
    • /
    • 2020
  • 자동차는 우리의 일상에 필수재가 된 지 오래지만 자동차 교통사고로 인한 사회적 비용이 국가 예산의 9%를 넘을 정도로 심각하여 이에 대한 국가적인 예방 및 대응 체계 구축이 매우 필요한 실정이다. 이에 본 연구에서는 빅데이터 분석 기법을 활용하여 차대차 교통사고의 상해 심각도를 정확히 예측할 수 있는 모형을 제시하고자 하였다. 이를 위해 과거 3년간의 전국교통사고 발생 데이터를 토대로, K-최근접 이웃, 로지스틱 회귀분석, 나이브베이즈, 의사결정나무, 앙상블 알고리즘을 적용하여 각 모델의 상해 심각도 분류의 성능을 비교 분석하였다. 특히 이 과정에서 각 상해 심각도 수준 간의 데이터 수에 차이가 있음에 주목하여 표본수가 많은 그룹에 대해서는 과소표본추출을 시행하는 등의 방법을 통해 분류 예측의 정확도를 높일 수 있었고, 분산 분석을 통해 모델의 유의성을 검증하였다.

The use of data mining methods for dystocia detection in Polish Holstein-Friesian Black-and-White cattle

  • Zaborski, Daniel;Proskura, Witold S.;Grzesiak, Wilhelm
    • Asian-Australasian Journal of Animal Sciences
    • /
    • 제31권11호
    • /
    • pp.1700-1713
    • /
    • 2018
  • Objective: The aim of this study was to verify the usefulness of artificial neural networks (ANN), multivariate adaptive regression splines (MARS), naïve Bayes classifier (NBC), general discriminant analysis (GDA), and logistic regression (LR) for dystocia detection in Polish Holstein-Friesian Black-and-White heifers and cows and to indicate the most influential predictors of calving difficulty. Methods: A total of 1,342 and 1,699 calving records including six categorical and four continuous predictors were used. Calving category (difficult vs easy or difficult, moderate and easy) was the dependent variable. Results: The maximum sensitivity, specificity and accuracy achieved for heifers on the independent test set were 0.855 (for ANN), 0.969 (for NBC), and 0.813 (for GDA), respectively, whereas the values for cows were 0.600 (for ANN), 1.000 and 0.965 (for NBC, GDA, and LR), respectively. With the three categories of calving difficulty, the maximum overall accuracy for heifers and cows was 0.589 (for MARS) and 0.649 (for ANN), respectively. The most influential predictors for heifers were an average calving difficulty score for the dam's sire, calving age and the mean yield of the farm, where the heifer was kept, whereas for cows, these additionally included: calf sex, the difficulty of the preceding calving, and the mean daily milk yield for the preceding lactation. Conclusion: The potential application of the investigated models in dairy cattle farming requires, however, their further improvement in order to reduce the rate of dystocia misdiagnosis and to increase detection reliability.

지역 기반 분류기의 앙상블 학습 (Ensemble Learning of Region Based Classifiers)

  • 최성하;이병우;양지훈
    • 정보처리학회논문지B
    • /
    • 제14B권4호
    • /
    • pp.303-310
    • /
    • 2007
  • 기계학습에서 분류기틀의 집합으로 구성된 앙상블 분류기는 단일 분류기에 비해 정확도가 높다는 것이 입증되어왔다. 본 논문에서는 새로운 앙상블 학습으로서 데이터의 지역 기반 분류기들의 앙상블 학습을 제시하여 기존의 앙상블 학습과의 비교를 통해 성능을 검증하고자 한다. 지역 기반 분류기의 앙상블 학습은 데이터의 분포가 지역에 따라 다르다는 점에 착안하여 학습 데이터를 분할하여 해당하는 지역에 기반을 둔 분류기들을 만들어 나간다. 이렇게 만들어진 분류기들로부터 지역에 따라 가중치를 둔 투표를 적용하여 앙상블 방법을 이끌어낸다. 본 논문에서 제시한 앙상블 분류기의 성능평가를 위해 단일 분류기와 기존의 앙상블 분류기인 배깅과 부스팅 등을 UCI Machine Learning Repository에 있는 11개의 데이터 셋으로 정확도 비교를 하였다. 그 결과 새로운 앙상블 방법이 기본 분류기로 나이브 베이즈와 SVM을 사용했을 때 다른 방법보다 좋은 성능을 보이는 것을 알 수 있었다.

Motion Recognition for Kinect Sensor Data Using Machine Learning Algorithm with PNF Patterns of Upper Extremities

  • Kim, Sangbin;Kim, Giwon;Kim, Junesun
    • The Journal of Korean Physical Therapy
    • /
    • 제27권4호
    • /
    • pp.214-220
    • /
    • 2015
  • Purpose: The purpose of this study was to investigate the availability of software for rehabilitation with the Kinect sensor by presenting an efficient algorithm based on machine learning when classifying the motion data of the PNF pattern if the subjects were wearing a patient gown. Methods: The motion data of the PNF pattern for upper extremities were collected by Kinect sensor. The data were obtained from 8 normal university students without the limitation of upper extremities. The subjects, wearing a T-shirt, performed the PNF patterns, D1 and D2 flexion, extensions, 30 times; the same protocol was repeated while wearing a patient gown to compare the classification performance of algorithms. For comparison of performance, we chose four algorithms, Naive Bayes Classifier, C4.5, Multilayer Perceptron, and Hidden Markov Model. The motion data for wearing a T-shirt were used for the training set, and 10 fold cross-validation test was performed. The motion data for wearing a gown were used for the test set. Results: The results showed that all of the algorithms performed well with 10 fold cross-validation test. However, when classifying the data with a hospital gown, Hidden Markov model (HMM) was the best algorithm for classifying the motion of PNF. Conclusion: We showed that HMM is the most efficient algorithm that could handle the sequence data related to time. Thus, we suggested that the algorithm which considered the sequence of motion, such as HMM, would be selected when developing software for rehabilitation which required determining the correctness of the motion.

폐암 생존율 향상을 위한 아다부스트 학습 기반의 컴퓨터보조 진단방법에 관한 연구 (Study of Computer Aided Diagnosis for the Improvement of Survival Rate of Lung Cancer based on Adaboost Learning)

  • 원철호
    • 재활복지공학회논문지
    • /
    • 제10권1호
    • /
    • pp.87-92
    • /
    • 2016
  • 본 논문에는 관심 영역의 폐실질 영역을 양성과 악성 결절의 분류를 위한 특징인자에 포함으로써 분류성능을 개선하였다. CT를 통해 확인되는 매우 작은 폐결절(4~10mm)은 고형 종양 내에 CT 데이터 복셀 수가 제한되어 기존 컴퓨터보조 진단도구를 통해 처리하기가 어렵다. 이러한 아주 작은 폐 결절의 경우 분석을 위해 주변의 실질을 포함하여 특징인자를 추출하는 것이 CT 복셀 세트를 증가시킬 수 있으며, CT 스캐너와 매개 변수에 대한 컴퓨터 보조진단도구의 유연성을 확보함으로써 진단 성능을 개선할 수 있다. 나이브 베이스와 SVM 약분류기를 이용하는 아다부스트 학습을 통해 304개의 특징인자로부터 유효한 특징인자를 결정하였으며, 제안한 방법을 COPDGene 데이터에 적용한 결과 100%의 정확도, 민감도 및 특이도의 결과를 획득하여 컴퓨터 보조진단에 유용하게 사용될 수 있음을 보였다.

노이즈에 강인한 정면 얼굴 검출을 위한 특성벡터 추출법 (Robust feature vector composition for frontal face detection)

  • 이승익;원철호;임성운;김덕규
    • 전자공학회논문지CI
    • /
    • 제42권6호
    • /
    • pp.75-82
    • /
    • 2005
  • 본 논문에서는 정면 얼굴 검출에 이용되는 특성 벡터의 새로운 추출법을 제안한다. 새로운 특성벡터의 추출은 일차원 Harr 웨이블릿, 평균행렬, 분산행렬 및 진폭 투시법을 이용하여 각 각의 특성벡터를 구하였으며 얼굴 및 비 얼굴의 모델링은 확률적 특성을 이용한 조건부 확률 분포 함수로 모델링 한다. 또한 계산된 확률 분포 함수를 이용한 확률 값을 계산하여 입력 영상에서의 얼굴 검출을 수행한다. 제안한 방법으로 구성된 특성 벡터를 이용한 얼굴 검출에서는, 영상 내에서의 다수의 얼굴 검출이 가능하며 약간의 각도를 가지는 얼굴 검출도 가능하며 저해상도의 영상에서의 얼굴 검출에 매우 효과적이며 모의실험 결과 SET3의 테스트 영상에서의 얼굴 검출율은 $98.3\%$가 됨을 확인하였다.

전력망에서의 다양한 서비스 거부 공격 탐지 위한 특징 선택 방법 (A Method to Find Feature Set for Detecting Various Denial Service Attacks in Power Grid)

  • 이동휘;김영대;박우빈;김준석;강승호
    • KEPCO Journal on Electric Power and Energy
    • /
    • 제2권2호
    • /
    • pp.311-316
    • /
    • 2016
  • 인공신경망과 같은 기계학습에 기반한 네트워크 침입탐지/방지시스템은 특징 조합에 따라 탐지의 정확성과 효율성 측면에서 크게 영향을 받는다. 하지만 침입탐지에 사용 가능한 여러개의 특징들 중 정확성과 효율성 측면에서 최적의 특징 조합을 추출하는 특징 선택 문제는 많은 계산량을 요구한다. 본 논문에서는 NSL-KDD 데이터 집합에서 제공하는 6가지 서비스 거부 공격과 정상 트래픽을 구분해 내기 위한 최적 특징 조합 선택 문제를 다룬다. 최적 특징 조합 선택 문제를 해결하기 위해 대표적인 메타 휴리스틱 알고리즘 중 하나인 다중 시작 지역탐색 알고리즘에 기반한 최적 특징 선택 알고리즘을 제시한다. 제안한 특징 선택 알고리즘의 성능 평가를 위해 NSL-KDD 데이터를 상대로 41개의 특징 모두를 사용한 경우와 비교한다. 그리고 선택된 특징 조합을 사용했을 때 가장 높은 성능을 보여주는 기계학습 방법을 찾기위해 3가지 잘 알려진 기계학습 방법들 (베이즈 분류기와 인공신경망, 서포트 벡터 머신)을 사용해 성능을 비교한다.

다중 클래스 데이터셋의 메타특징이 판별 알고리즘의 성능에 미치는 영향 연구 (The Effect of Meta-Features of Multiclass Datasets on the Performance of Classification Algorithms)

  • 김정훈;김민용;권오병
    • 지능정보연구
    • /
    • 제26권1호
    • /
    • pp.23-45
    • /
    • 2020
  • 기업의 경쟁력 확보를 위해 판별 알고리즘을 활용한 의사결정 역량제고가 필요하다. 하지만 대부분 특정 문제영역에는 적합한 판별 알고리즘이 어떤 것인지에 대한 지식은 많지 않아 대부분 시행착오 형식으로 최적 알고리즘을 탐색한다. 즉, 데이터셋의 특성에 따라 어떠한 분류알고리즘을 채택하는 것이 적합한지를 판단하는 것은 전문성과 노력이 소요되는 과업이었다. 이는 메타특징(Meta-Feature)으로 불리는 데이터셋의 특성과 판별 알고리즘 성능과의 연관성에 대한 연구가 아직 충분히 이루어지지 않았기 때문이며, 더구나 다중 클래스(Multi-Class)의 특성을 반영하는 메타특징에 대한 연구 또한 거의 이루어진 바 없다. 이에 본 연구의 목적은 다중 클래스 데이터셋의 메타특징이 판별 알고리즘의 성능에 유의한 영향을 미치는지에 대한 실증 분석을 하는 것이다. 이를 위해 본 연구에서는 다중 클래스 데이터셋의 메타특징을 데이터셋의 구조와 데이터셋의 복잡도라는 두 요인으로 분류하고, 그 안에서 총 7가지 대표 메타특징을 선택하였다. 또한, 본 연구에서는 기존 연구에서 사용하던 IR(Imbalanced Ratio) 대신 시장집중도 측정 지표인 허핀달-허쉬만 지수(Herfindahl-Hirschman Index, HHI)를 메타특징에 포함하였으며, 역ReLU 실루엣 점수(Reverse ReLU Silhouette Score)도 새롭게 제안하였다. UCI Machine Learning Repository에서 제공하는 복수의 벤치마크 데이터셋으로 다양한 변환 데이터셋을 생성한 후에 대표적인 여러 판별 알고리즘에 적용하여 성능 비교 및 가설 검증을 수행하였다. 그 결과 대부분의 메타특징과 판별 성능 사이의 유의한 관련성이 확인되었으며, 일부 예외적인 부분에 대한 고찰을 하였다. 본 연구의 실험 결과는 향후 메타특징에 따른 분류알고리즘 추천 시스템에 활용할 것이다.