• 제목/요약/키워드: C4.5 Classification Algorithm

검색결과 41건 처리시간 0.029초

디지털 유방촬영술에서 BI-RADS의 구분에 따른 알고리즘별 영상의 융복합적 평가 (Convergence of the Image Evaluation by BI-RADS Classification in Accordance with Algorithms in DR Mammography)

  • 이미화
    • 디지털융복합연구
    • /
    • 제13권9호
    • /
    • pp.489-495
    • /
    • 2015
  • BI-RADS의 구분에 따라 Algorithm의 변화로 영상의 질을 개선하는 기법을 이용하여 시각적 가시화의 차이를 일치도와 민감도로 평가하였다. 유방촬영을 시행한 172명을 대상으로 유방촬영의 판독소견과 자료 체계의 신뢰도를 평가하였다. Category 5단계(C0,C1,C2,C3,C4), 유방 실질 함유량 4단계(Fatty, Fibroglandular, Heterogeneous nodular, Diffuse dense), 병변 3종류(석회화, 결절, 종괴)로 분류하여 TE와 PV의 신뢰도를 평가하고, 민감도와 진단의 일치도, 정확도를 평가함으로 다방면의 융복합적 분석을 하였다. TE보다 PV가 병변의 신뢰도와 민감도와 정확도가 높았다. 유방 실질 함유량에 따른 평가에서 정확도는 PV가 높았다. TE에서는 Fatty는 모두에서, Fibroglandular는 종괴와 석회화가, Diffuse dense는 결절과 석회화가 구별이 용이하였다. PV에서는 Fatty는 모두에서, Fibroglandular는 결절, Heterogeneous nodular은 결절과 종괴, Diffuse dense는 결절과 석회화가 구별이 용이하였다. 민감도는 결절은 Fatty, Fibroglandular, Heterogeneous nodular에서 TE가 더 민감했고, 종괴에서는 Heterogeneous nodular, Diffuse dense에서 TE가 더 민감했으며, 석회화에서는 모두에서 TE가 더 민감하였다. 이에 Algorithm 기법을 적절히 변화시켜 활용한다면 진단과 판독에 정확성을 높일 것이라 사료된다.

차량 감시영상에서 그림자 제거를 통한 효율적인 차종의 학습 및 분류 (Efficient Learning and Classification for Vehicle Type using Moving Cast Shadow Elimination in Vehicle Surveillance Video)

  • 신욱선;이창훈
    • 정보처리학회논문지B
    • /
    • 제15B권1호
    • /
    • pp.1-8
    • /
    • 2008
  • 일반적으로 감시영상에서 움직이는 물체들은 배경빼기 혹은 프레임 차를 이용하여 추출된다. 하지만 객체에 의해서 만들어지는 그림자는 심각한 탐지의 오류를 야기시킬 수 있다. 특히, 도로 상에 설치된 감시카메라로부터 획득된 영상으로부터 차량 정보를 분석할 때, 차량에 의해서 생성되는 그림자로 인하여 차량의 모양을 왜곡시켜 부정확한 결과를 만든다. 때문에 그림자의 제거는 감시 영상 내에서의 정확한 객체 추출을 위해서 반드시 필요하다. 본 논문은 도로감시영상 내에서 움직이는 차량의 차종판별 성능을 향상시키기 위한 움직이는 객체 내에 만들어지는 그림자를 제거한다. 제거된 객체의 영역은 소실점을 이용하여 3차원 객체로 피팅(Fitting)한 후 측정된 데이터를 감독 학습하여 원하는 차종 판별결과를 얻는데 사용한다. 실험은 3가지 기계학습 방법{IBL, C4.5, NN(Neural Network)}을 이용하여 그림자의 제거가 차종의 판별성능에 미치는 결과의 평가한다.

SVM과 meta-learning algorithm을 이용한 고지혈증 유병 예측모형 개발과 활용 (Development and application of prediction model of hyperlipidemia using SVM and meta-learning algorithm)

  • 이슬기;신택수
    • 지능정보연구
    • /
    • 제24권2호
    • /
    • pp.111-124
    • /
    • 2018
  • 본 연구는 만성질환 중의 하나인 고지혈증 유병을 예측하는 분류모형을 개발하고자 한다. 이를 위해 SVM과 meta-learning 알고리즘을 이용하여 성과를 비교하였다. 또한 각 알고리즘에서 성과를 향상시키기 위해 변수선정 방법을 통해 유의한 변수만을 선정하여 투입하여 분석하였고 이 결과 역시 각각 성과를 비교하였다. 본 연구목적을 달성하기 위해 한국의료패널 2012년 자료를 이용하였고, 변수 선정을 위해 세 가지 방법을 사용하였다. 먼저 단계적 회귀분석(stepwise regression)을 실시하였다. 둘째, 의사결정나무(decision tree) 알고리즘을 사용하였다. 마지막으로 유전자 알고리즘을 사용하여 변수를 선정하였다. 한편, 이렇게 선정된 변수를 기준으로 SVM, meta-learning 알고리즘 등을 이용하여 고지혈증 환자분류 예측모형을 비교하였고, TP rate, precision 등을 사용하여 분류 성과를 비교분석하였다. 이에 대한 분석결과는 다음과 같다. 첫째, 모든 변수를 투입하여 분류한 결과 SVM의 정확도는 88.4%, 인공신경망의 정확도는 86.7%로 SVM의 정확도가 좀 더 높았다. 둘째, stepwise를 통해 선정된 변수만을 투입하여 분류한 결과 전체 변수를 투입하였을 때보다 각각 정확도가 약간 높았다. 셋째, 의사결정나무에 의해 선정된 변수 3개만을 투입하였을 때 인공신경망의 정확도가 SVM보다 높았다. 유전자 알고리즘을 통해 선정된 변수를 투입하여 분류한 결과 SVM은 88.5%, 인공신경망은 87.9%의 분류 정확도를 보여 주었다. 마지막으로, 본 연구에서 제안하는 meta-learning 알고리즘인 스태킹(stacking)을 적용한 결과로서, SVM과 MLP의 예측결과를 메타 분류기인 SVM의 입력변수로 사용하여 예측한 결과, 고지혈증 분류 정확도가 meta-learning 알고리즘 중에서는 가장 높은 것으로 나타났다.

A Novel Feature Selection Method in the Categorization of Imbalanced Textual Data

  • Pouramini, Jafar;Minaei-Bidgoli, Behrouze;Esmaeili, Mahdi
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제12권8호
    • /
    • pp.3725-3748
    • /
    • 2018
  • Text data distribution is often imbalanced. Imbalanced data is one of the challenges in text classification, as it leads to the loss of performance of classifiers. Many studies have been conducted so far in this regard. The proposed solutions are divided into several general categories, include sampling-based and algorithm-based methods. In recent studies, feature selection has also been considered as one of the solutions for the imbalance problem. In this paper, a novel one-sided feature selection known as probabilistic feature selection (PFS) was presented for imbalanced text classification. The PFS is a probabilistic method that is calculated using feature distribution. Compared to the similar methods, the PFS has more parameters. In order to evaluate the performance of the proposed method, the feature selection methods including Gini, MI, FAST and DFS were implemented. To assess the proposed method, the decision tree classifications such as C4.5 and Naive Bayes were used. The results of tests on Reuters-21875 and WebKB figures per F-measure suggested that the proposed feature selection has significantly improved the performance of the classifiers.

불완전한 데이터를 처리할수 있는 분류기 (A Classifier Capable of Handling Incomplete Data Set)

  • 이종찬;이원돈
    • 한국정보통신학회논문지
    • /
    • 제14권1호
    • /
    • pp.53-62
    • /
    • 2010
  • 본 논문은 변수 값들이나 부류 값을 손실한, 불완전한 데이터를 포함하는 데이터 집합을 가지고 학습하는 문제에 적용될 수 있는 분류 알고리즘을 소개한다. 이 알고리즘은 가중치 값과 확률 기법들을 이용하는 데이터 확장 방법을 사용한다. 이는 휘셔(Fisher)의 식을 기반으로 최적의 투사 면이 되도록 고려된 분류기를 확장함으로써 수행한다. 이를 위해, 데이터 확장에 적용되는 과정으로 부터 몇몇 식들이 유도된다. 제안한 알고리즘의 성능평가를 위해, 데이터에서 하나의 변수를 선택하고 이 선택된 변수에 소실 값과 소실되지 않은 값들의 비율을 변형함에 의해 다른 측정값들의 결과들이 반복적으로 비교된다. 또한 데이터 집합의 객관적인 평가를 위해 기계학습에서 지식 습득 도구로 널리 쓰이는 C4.5의 결과와 비교한다.

단측 순수성에 의한 나무모형의 성장에 대하여 (On the Tree Model grown by one-sided purity)

  • 김용대;최대우
    • 지능정보연구
    • /
    • 제7권1호
    • /
    • pp.17-25
    • /
    • 2001
  • 의사결정 나무라고 불리우기도 하는 나무모형은 결과 해석의 용이성으로 데이터마이닝의 분류예측 모형으로서 큰 각광을 받고 있다. 현재 나무모형으로 가장 많이 사용되는 CART(Breiman et al., 1984)나 C4.5(Quinlan, 1993) 모두 생성된 노드들의 자료 구성이 목표변수(target variable)를 기준으로 각 수준 구성비 측면에서 순수해지도록 진행된다. 그러나 CRM(Customer Relationship Management)에 있어 가장 흔한 주제인 해지예측을 위한 모델링을 실시하는 경우 관심의 대상인 해지자가 전체 자료에 극히 일부를 차지하여, 기존의 분할 방법에서와 같이 분할되어 생성되는 모든 노드의 순수성을 동시에 고려하기란 불가능하다 Buja와 Lee(1999)는 목표변수 중 소수의 관심에 대상이 되는 부류를 찾아내기 위한 나무모형 생성방법을 소개하였다. 즉, 해지자 관리가 중요한 경우 해지자와 비해지자 구분을 진행하는 기존의 방법과는 달리 전체 자료 중 해지자를 집중적으로 찾아가는 탐색적 분할 기준인 단측 순수성(one-sided purity)을 제안하였다. 본 연구에서는 단측 순수성에 의한 나무모형을 모 PC통신 회사의 해지자 자료에 적용하여 기존의 방법과 비교하였고 몇 가지 시뮬레이션 자료를 통해 단측 순수성의 문제점과 앞으로 해결하여야 할 과제에 대하여 살펴보았다.

  • PDF

Naive Bayes 분석기법을 이용한 유방암 진단 (Breast Cancer Diagnosis using Naive Bayes Analysis Techniques)

  • 박나영;김장일;정용규
    • 서비스연구
    • /
    • 제3권1호
    • /
    • pp.87-93
    • /
    • 2013
  • 선진국형 질병으로만 알려져 있던 유방암이 우리나라 현대 여성들에게 발병률이 꾸준히 증가하고 있다. 유방암은 보통 50대 이상의 여성에서 발병하는 병으로 알려져 있지만 우리나라의 경우 40대의 서양보다 젊은 여성들에게 발병률이 꾸준히 증가하고 있다. 따라서 우리나라 성인여성을 기준으로 유방암에 대한 정확한 진단을 할 수 있는 매뉴얼을 구축하는 것이 시급한 과제이다. 본 논문에서는 데이터마이닝기법을 이용하여 유방암을 예측하는 방법을 제시한다. 데이터마이닝이란 데이터베이스 내에 숨어 있는 일정한 패턴이나 변수들 간의 관계를 정교한 분석모형을 이용하여 쉽게 드러나지 않은 유용한 정보를 찾아내는 과정을 말한다. 실험을 통하여 Deicion Tree와 Naive Bayes 분석기법을 사용하여 유방암을 진단하는 분석기법을 비교분석을 하였다. Deicison Tree는 C4.5 알고리즘을 적용하여 분석하였고 두 알고리즘이 상당히 좋은 분류 정확도를 나타냈다. 그러나 Naive Bayes 분류방법이 Decision Tree방법보다 더 상회하는 정확도를 보였고 이는 의료데이터의 특성에 많이 기인한다고 볼 수 있다.

  • PDF

Motion Recognition for Kinect Sensor Data Using Machine Learning Algorithm with PNF Patterns of Upper Extremities

  • Kim, Sangbin;Kim, Giwon;Kim, Junesun
    • The Journal of Korean Physical Therapy
    • /
    • 제27권4호
    • /
    • pp.214-220
    • /
    • 2015
  • Purpose: The purpose of this study was to investigate the availability of software for rehabilitation with the Kinect sensor by presenting an efficient algorithm based on machine learning when classifying the motion data of the PNF pattern if the subjects were wearing a patient gown. Methods: The motion data of the PNF pattern for upper extremities were collected by Kinect sensor. The data were obtained from 8 normal university students without the limitation of upper extremities. The subjects, wearing a T-shirt, performed the PNF patterns, D1 and D2 flexion, extensions, 30 times; the same protocol was repeated while wearing a patient gown to compare the classification performance of algorithms. For comparison of performance, we chose four algorithms, Naive Bayes Classifier, C4.5, Multilayer Perceptron, and Hidden Markov Model. The motion data for wearing a T-shirt were used for the training set, and 10 fold cross-validation test was performed. The motion data for wearing a gown were used for the test set. Results: The results showed that all of the algorithms performed well with 10 fold cross-validation test. However, when classifying the data with a hospital gown, Hidden Markov model (HMM) was the best algorithm for classifying the motion of PNF. Conclusion: We showed that HMM is the most efficient algorithm that could handle the sequence data related to time. Thus, we suggested that the algorithm which considered the sequence of motion, such as HMM, would be selected when developing software for rehabilitation which required determining the correctness of the motion.

불완전한 데이터를 처리하기 위한 데이터 확장기법 (A data extension technique to handle incomplete data)

  • 이종찬
    • 한국융합학회논문지
    • /
    • 제12권2호
    • /
    • pp.7-13
    • /
    • 2021
  • 본 논문은 학습 데이터에 손실값을 포함하고 있는 불완전한 데이터를 위하여 확률을 나타낼 수 있는 형식으로 변환한 후 손실값을 보상하는 알고리즘을 소개한다. 기존에 이러한 데이터 변환을 사용한 방법에서는 손실 변수가 가질 수 있는 균등한 확률로 손실값을 할당하여 불완전한 데이터를 처리하는 것이었다. 이 방법으로 많은 문제에 적용하여 좋은 결과를 얻었으나, 손실 변수에 남아있는 모든 정보를 무시하고 새로운 값을 할당한다는 점에서 정보의 손실이 있다는 지적이 있었다. 이에 반해 새로운 제안 방법은 손실값을 포함하지 않는 완전한 정보만을 잘 알려진 분류 알고리즘(C4.5)에 입력하고 학습하는 중에 결정트리가 구축된다. 그리고 이 결정트리로 부터 손실값에 대한 확률을 구하여 이를 손실 변수의 추정값으로 할당한다. 즉, 불완전한 학습 데이터에서 손실되지 않은 많은 정보들을 사용하여 손실된 일부 정보를 복구하는 것이다.

유전자 알고리즘 및 국소 적응 오퍼레이션 기반의 의료 진단 문제 자동화 기법 연구 (Medical Diagnosis Problem Solving Based on the Combination of Genetic Algorithms and Local Adaptive Operations)

  • 이기광;한창희
    • 지능정보연구
    • /
    • 제14권2호
    • /
    • pp.193-206
    • /
    • 2008
  • 의료 진단 문제는 기정의된 특성치들로 표현되는 환자의 상태 데이터로부터 병의 유무를 판단하는 일종의 분류 문제로 간주할 수 있다. 본 연구는 혼용 유전자 알고리즘 기반의 분류방법을 도입함으로써 의료 진단 문제와 같은 다차원의 패턴 분류 문제를 해결할 수 있는 방안을 제안하고 있다. 일반적으로 분류 문제는 데이터 패턴에 존재하는 여러 클래스 간 구분경계를 생성하는 접근방법을 사용하는데, 이를 위해 본 연구에서는 일단의 영역 에이전트들을 도입하여 이들을 유전자 알고리즘 및 국소 적응조작을 혼용함으로써 데이터 패턴에 적응하도록 유도하고 있다. 일반적인 유전자 알고리즘의 진화단계를 거친 에이전트들에 적용되는 국소 적응조작은 영역 에이전트의 확장, 회피 및 재배치로 이루어지며, 각 에이전트의 적합도에 따라 이들 중 하나가 선택되어 해당 에이전트에 적용된다. 제안된 의료 진단용 분류 방법은 UCI 데이터베이스에 있는 잘 알려진 의료 데이터, 즉 간, 당뇨, 유방암 관련 진단 문제에 적용하여 검증하였다. 그 결과, 기존의 대표적인 분류기법인 최단거리이웃방법(the nearest neighbor), C4.5 알고리즘에 의한 의사 결정트리(decision tree) 및 신경망보다 우수한 진단 수행도를 나타내었다.

  • PDF