• 제목/요약/키워드: 의사결정나무 분류기

검색결과 15건 처리시간 0.031초

진단지식관리를 위한 앙상블 기법의 실증적 평가 (Empirical Evaluation of Ensemble Approach for Diagnostic Knowledge Management)

  • 하성호;장전위
    • 한국정보시스템학회지:정보시스템연구
    • /
    • 제20권3호
    • /
    • pp.237-255
    • /
    • 2011
  • 지난 수십 년 간 연구자들은 효과적인 진료지원시스템을 개발하기 위해 다양한 도구와 방법론들을 제안하였고 지금도 새로운 방법론과 도구들을 계속적으로 개발하고 있다. 그 중에서 흉통으로 응급실에 내원한 노인환자에 대한 정확한 진단은 중요한 이슈 중의 하나였다. 따라서 많은 연구자들이 의사의 진단 능력을 향상시키기 위한 지능적인 의료의사결정과 시스템 개발에 투신하고 있지만 전통적인 의료시스템에 따른 대부분의 진료의사결정이 단일 분류기(classifier)에 기반하고 있어 만족스런 성능을 보여주지 못하고 있는 것이 현실이다. 따라서 이 논문은 앙상블 전략을 활용하여 의사들이 노인환자들의 흉통을 더 정확하고 빠르게 진단하는데 있어 도움을 줄 수 있게 하였다. 의사결정나무, 인공신경망, SVM 모델을 결합한 앙상블 기법을 실제 응급실에서 수집한 응급실 자료에 적용하였고, 그 결과 단일 분류기를 사용하는 것에 비해 월등히 향상된 진단 성과를 보이는 것을 관찰 할 수 있었다.

XAI 를 활용한 기업 부도예측 분류모델 연구 (A Study on Classification Models for Predicting Bankruptcy using XAI)

  • 김지홍;문남미
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 추계학술발표대회
    • /
    • pp.571-573
    • /
    • 2022
  • 최근 금융기관에서는 축적된 금융 빅데이터를 활용하여 차별화된 서비스를 강화하고 있다. 기업고객에 투자하기 위해서는 보다 정밀한 기업분석이 필요하다. 본 연구는 대만기업 6,819개의 95개 재무데이터를 가지고, 비대칭 데이터 문제해결, 데이터 표준화 등 데이터 전처리 작업을 하였다. 해당 데이터는 로지스틱 회기, SVM, K-NN, 나이브 베이즈, 의사결정나무, 랜덤포레스트 등 9가지 분류모델에 5겹 교차검증을 적용하여 학습한 후 모델 성능을 비교하였다. 이 중에서 성능이 가장 우수한 분류모델을 선택하여 예측 결정 이유를 판단하고자 설명 가능한 인공지능(XAI)을 적용하여 예측 결과에 대한 설명을 부여하여 이를 분석하였다. 본 연구를 통해 데이터 전처리에서부터 모델 예측 결과 설명에 이르는 분류예측모델의 전주기를 자동화하는 시스템을 제시하고자 한다.

Exploring the Feature Selection Method for Effective Opinion Mining: Emphasis on Particle Swarm Optimization Algorithms

  • Eo, Kyun Sun;Lee, Kun Chang
    • 한국컴퓨터정보학회논문지
    • /
    • 제25권11호
    • /
    • pp.41-50
    • /
    • 2020
  • 감성분석 연구에서는 문장에 내포된 감성을 결정짓는 단어를 찾는 것으로부터 시작된다. 경영자는 소비자가 주로 사용하는 단어를 분석함으로써 시장의 반응을 이해할 수 있다. 본 연구에서는 감성분류의 성능에 영향을 미치는 단어를 찾기 위하여 입자군집최적화 탐색방법과 다목적진화 알고리즘이 적용된 속성선택 방법을 제안한다. 속성선택 방법은 기존 머신러닝 분류기를 벤치마킹함으로써 성능이 비교된다. 벤치마킹된 분류기는 의사결정나무, 나이브 베이지안 네트워크, 서포터 벡터 머신, 랜덤포레스트, 배깅, 랜덤 서브스페이스, 로테이션 포레스트이다. 연구결과에 따르면, 입자군집 최적화 알고리즘이 적용된 속성선택방법으로 선택된 속성을 사용한 경우에 속성의 수를 상당히 줄일 수 있었고, 분류기의 성능을 유지시킬 수 있었다. 특히, 정확도 결과에서는 입자군집 최적화 탐색방법으로 선택된 속성을 사용한 경우의 서포터 벡터 머신의 성능이 가장 높게 나타났다. AUC 결과에서는 랜덤 서브스페이스가 가장 높게 나타났다. 본 연구의 결과는 해당 탐색방법과 분류기를 적용함으로써 오피니언 마이닝 모델의 성능을 효율적으로 유지 및 개선시키도록 도움을 준다.

범주형 시퀀스 데이터의 K-Nearest Neighbor알고리즘 (A K-Nearest Neighbor Algorithm for Categorical Sequence Data)

  • 오승준
    • 한국컴퓨터정보학회논문지
    • /
    • 제10권2호
    • /
    • pp.215-221
    • /
    • 2005
  • 최근에는 단백질 시퀀스, 소매점 거래 데이터, 웹 로그 등과 같은 상업적이거나 과학적인 데이터의 폭발적인 증가를 볼 수 있다. 이런 데이터들은 순서적인 면을 가지고 있는 시퀀스 데이터들이다. 본 논문에서는 이런 시퀀스 데이터들을 분류하는 문제를 다룬다. 분류 기법 으로는 의사결정 나무나 베이지안 분류기, K-NN방법 등 석러 종류가 있는데, 본 연구에서는 또-U방법을 이용하여 시퀀스들을 분류한다. 또한, 시퀀스들간의 유사도를 구하기 위한 새로운 계산 방법과 효율적인 계산 방법도 제안한다.

  • PDF

의사결정나무분석을 이용한 심혈관질환자의 재입원 위험 요인에 대한 융합적 분석 (Convergence Analysis of Risk factors for Readmission in Cardiovascular Disease: A Machine Learning Approach)

  • 김현수
    • 융합정보논문지
    • /
    • 제9권12호
    • /
    • pp.115-123
    • /
    • 2019
  • 본 연구는 의사결정나무 통계분석법을 톨해 국민건강영양조사 자료를 2차 분석하여 심혈관질환자의 재입원 위험 요인을 확인하는 기초자료를 마련하고자 하였다. 연구대상자는 국민건강영양조사 4-6기 자료대상자 총 65,973명 중 협심증이나 심근경색 진단 병력이 있는 총 1,037명의 성인이며, SPSS window 21 Program을 이용하여 분류 분석 중 CHAID 의사결정나무 방법으로 분석하였다. 뿌리 마디(Root node)는 경제활동상태((χ2=12.063, p=.001), 자식 마디(Child node)는 개인 소득수준(χ2=6.575, p=.031), 최근 1년간 체중 변화(χ2=12.758, p=.001), 거주지역(χ2=4.025, p=.045), 직접흡연(χ2=3.884, p=.049), 교육수준(χ2=9.630, p=.024)으로 확인되었다. 끝마디(Terminal node)는 고혈압(χ2=3.854, p=.050), 당뇨(χ2=6.056, p=.014), 직업형태(χ2=7.799, p=.037)로 분석되었다. 이를 통해 심혈관질환자의 재입원 관리를 위해 다양한 요인의 통합적 접근을 고려한 프로그램의 개발 및 운영이 필요함을 제언한다.

속성 값 빈도 기반의 전문가 다수결 분류기 (Committee Learning Classifier based on Attribute Value Frequency)

  • 이창환;정인철;권영식
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제37권4호
    • /
    • pp.177-184
    • /
    • 2010
  • 센서 정보, 물류/유통정보, 신용 정보, 주식 정보 등이 과거보다 다양하면서 대용량의 연속 발생 형태 데이터가 발생하고 있다. 이러한 데이터는 대용량의 특의 변화가 빠른 특징들을 가지고 있기 때문에 학습이 어렵다. 이러한 문제점을 해결하기 위해 일정 윈도우 크기의 최근 데이터를 연속적으로 학습시킴으로써 전체 모형을 새롭게 만들거나 모형의 일부분을 대체 하는 방법을 사용하여 왔다. 그러나 이러한 방법은 계속해서 새로운 학습모형을 만들어야 하므로 대용량의 연속 데이터를 학습시키는데 많은 시간과 비용이 든다. 따라서, 이러한 특성에 대비하기 위하여 추가적인 학습 데이터가 발생할 때 마다, 점진적이며 지속적으로 학습을 할 수 있는 학습 기법이 필요하다. 보다 빠른 속도로 학습 모형의 변화 없이 분류를 하기 위하여 대표적인 점진적 학습 방법으로 베이지안 분류기를 사용할 수 있지만, 사전확률을 알고 있다는 가정으로부터 시작을 하게 되어 일정량 이상의 학습데이터가 필요하다. 따라서 본 연구에서는 베이지안 분류기와 같이 점진적으로 학습을 할 수 있지만, 사전 확률을 알지 못하더라고 학습을 할 수 있는 새로운 점진적 학습 알고리즘을 제안하고자 한다. 본 연구에서 제안하는 알고리즘의 기본 개념은 여러 전문가의 의견을 종합하는 방식이다. 여기서는 속성값(attribute value)을 한명의 전문가로 보고 전문가 집단의 의사 결정이 맞을 경우에는 가점을 주고 틀릴 경우에는 감점을 하는 방식으로 학습을 하게 된다. 실험결과 이 방법은 의사결정나무나 베이지언 분류기와 비교해 비슷한 성능을 나타내었으며, 향후에 스트림 데이터 분석에 사용할 가능성을 보였다.

준지도학습 기반의 P2P 대출 부도 위험 예측에 대한 연구 (Semi-Supervised Learning to Predict Default Risk for P2P Lending)

  • 김현정
    • 디지털융복합연구
    • /
    • 제20권4호
    • /
    • pp.185-192
    • /
    • 2022
  • 본 연구는 P2P(Peer-to-Peer) 대출의 부도위험 예측을 위하여 준지도학습(SSL) 기반의 모델을 개발하고자 한다. 검증된 성능에도 불구하고 지도학습(SL) 방법은 완전 지불 또는 채무불이행과 같이 레이블이 결정된 다수의 데이터가 필요한데 충분한 수의 레이블 데이터를 수집하려면 많은 자원과 시간이 필요하다. P2P 플랫폼이 급성장하면서 대출 건수도 매해 급증하였고, 레이블이 없는 데이터도 지속적으로 증가하고 있다. 본 연구는 P2P 대출 플랫폼인 LendingClub에서 수집한 데이터를 사용하였다. P2P 대출 중 레이블이 결정된 대출에서 추출한 정보뿐만 아니라 레이블이 결정되지 않은 대출에서 추출한 정보도 사용하여 부도 위험을 예측하는 SSL 모델을 개발하여 연구를 수행한 결과, 적은 수의 레이블이 결정된 데이터를 사용함에도 불구하고 SSL 방법으로 구축된 모델이 많은 수의 레이블이 결정된 데이터를 사용하여 학습시킨 SL 방법으로 구축된 모델보다 부도 위험 예측성과가 향상되었다.

출력 코딩 기반 다중 클래스 서포트 벡터 머신을 위한 특징 선택 기법 (A Novel Feature Selection Method for Output Coding based Multiclass SVM)

  • 이영주;이정진
    • 한국멀티미디어학회논문지
    • /
    • 제16권7호
    • /
    • pp.795-801
    • /
    • 2013
  • 서포트 벡터 머신은 뛰어난 일반화 성능에 힘입어 다양한 분야에서 의사 결정 나무나 인공 신경망에 비해 더 좋은 분류 성능을 보이고 있기 때문에 최근 널리 사용되고 있다. 서포트 벡터 머신은 기본적으로 이진 분류 문제를 위하여 설계되었기 때문에 서포트 벡터 머신을 다중 클래스 문제에 적용하기 위한 방법으로 다중 이진 분류기의 출력 결과를 이용하는 출력 코딩 방법이 주로 사용되고 있다. 그러나 출력 코딩 기반 서포트 벡터 머신에 사용된 기존 특징 선택 기법은 각 분류기의 정확도 향상을 위한 특징이 아니라 전체 분류 정확도 향상을 위한 특징을 선택하고 있다. 본 논문에서는 출력 코딩 기반 서포트 벡터 머신의 각 이진 분류기의 분류 정확도를 최대화하는 특징을 각각 선택하여 사용함으로써, 전체 분류 정확도를 향상시키는 특징 선택 기법을 제안한다. 실험 결과는 제안 기법이 기존 특징 선택 기법에 비하여 통계적으로 유의미한 분류 정확도 향상이 있었음을 보여주었다.

합성곱 신경망을 이용한 주가방향 예측: 상관관계 속성선택 방법을 중심으로 (Stock Price Direction Prediction Using Convolutional Neural Network: Emphasis on Correlation Feature Selection)

  • 어균선;이건창
    • 경영정보학연구
    • /
    • 제22권4호
    • /
    • pp.21-39
    • /
    • 2020
  • 딥러닝(Deep learning) 기법은 패턴분석, 이미지분류 등 다양한 분야에서 높은 성과를 나타내고 있다. 특히, 주식시장 분석문제는 머신러닝 연구분야에서도 어려운 분야이므로 딥러닝이 많이 활용되는 영역이다. 본 연구에서는 패턴분석과 분류능력이 높은 딥러닝의 일종인 합성곱신경망(Convolutional Neural Network) 모델을 활용하여 주가방향 예측방법을 제안한다. 추가적으로 합성곱신경망 모델을 효율적으로 학습시키기 위한 속성선택(Feature Selection, FS)방법이 적용된다. 합성곱신경망 모델의 성과는 머신러닝 단일 분류기와 앙상블 분류기를 벤치마킹하여 객관적으로 검증된다. 본 연구에서 벤치마킹한 분류기는 로지스틱 회귀분석(Logistic Regression), 의사결정나무(Decision Tree), 인공신경망(Neural Network), 서포트 벡터머신(Support Vector Machine), 아다부스트(Adaboost), 배깅(Bagging), 랜덤포레스트(Random Forest)이다. 실증분석 결과, 속성선택을 적용한 합성곱신경망이 다른 벤치마킹 분류기보다 분류 성능이 상대적으로 높게 나타났다. 이러한 결과는 합성곱신경망 모델과 속성선택방법을 적용한 예측방법이 기업의 재무자료에 내포된 가치를 보다 정교하게 분석할 수 있는 가능성이 있음을 실증적으로 확인할 수 있었다.

효과적 이모션마이닝을 위한 속성선택 방법에 관한 연구 (Exploring Feature Selection Methods for Effective Emotion Mining)

  • 어균선;이건창
    • 디지털융복합연구
    • /
    • 제17권3호
    • /
    • pp.107-117
    • /
    • 2019
  • 블로그, 소셜 미디어 등의 발달로 인해 점점 더 많은 사람들이 본인의 의견이나 감정을 표현하기 위해 온라인상에서 텍스트 문장을 작성한다. 그리고 이같은 온라인 텍스트 문장속에 숨겨져 있는 긍정 또는 부정등의 감성을 찾아내는 연구분야를 감성분석 이라고 한다. 그중에서도 이모션 마이닝은 사람들의 구체적인 이모션을 찾아내는데 초점을 맞춘 연구분야이다. 본 연구에서는 속성선택 방법과 단일 및 앙상블 분류기를 조합하여 효과적인 이모션 마이닝 예측모델을 제시하고자 한다. 이를 위해 두가지 대표적인 오픈 데이터인 Tweet와 SemEval2007 데이터를 이용하여 TF-IDF를 계산하고 백 오브 워즈(BOW: bag-of-words) 형태로 속성 셋을 구성하였다. 그리고 효과적인 이모션 마이닝이 될 수 있는 최적의 속성을 선택하기 위하여 상관관계 기반 속성선택(CFS), 정보획득 속성선택 (IG), 그리고 ReliefF 등 세가지 속성선택 방법을 적용하였다. 선택된 속성을 이용하여 아홉가지 분류기 모델로 이모션 마이닝의 정확도를 비교하였다. 실험 결과, Tweet 데이터는 의사결정나무(DT)가 CFS, IG, ReliefF에 의한 속성을 이용할 경우 정확도가 상승했고, 랜덤서브스페이스(RS)는 CFS, IG에 선택된 속성을 사용할 경우 정확도가 상승했다. SemEval2007 데이터는 ReliefF에 의해 선택된 속성으로 로지스틱 회귀분석(LR)을 적용하였을 때 정확도가 상승했고, 나이브 베이지안 네트워크(NBN)은 CFS, IG에 의한 속성을 사용할 경우 정확도가 상승하였다.