• 제목/요약/키워드: 분류 회귀 나무

검색결과 72건 처리시간 0.024초

회귀의사결정나무에서의 관심노드 찾는 분류 기준법 (Interesting Node Finding Criteria for Regression Trees)

  • 이영섭
    • 응용통계연구
    • /
    • 제16권1호
    • /
    • pp.45-53
    • /
    • 2003
  • 의사결정나무 분석 기법 중 하나인 회귀의사결정나무는 연속적인 반응변수를 예측할 때 사용된다. 나무 구조를 형성할 때, 전통적인 분류 기준법은 왼쪽과 오른쪽 자식노드의 불순도를 결합하여 이루어진다. 그러나 본 논문에서 제안하는 새로운 분류 기준법은 관심있는 한쪽만 선택하고 다른 나머지 자식노드는 큰 관심이 없어 무시함으로써 더 이상 결합하여 구하는 것이 아니다. 따라서 나무 구조는 불균형적일 수 있으나 이해하기가 쉽다. 즉, 관심있는 부분집합을 가능한 한 빨리 찾음으로써 단지 몇 개의 조건으로 쉽게 표현할 수 있으며, 정확도는 다소 떨어지지만 설명력은 아주 높다.

데이터마이닝을 위한 혼합 데이터베이스에서의 속성선택

  • 차운옥;허문열
    • 한국통계학회:학술대회논문집
    • /
    • 한국통계학회 2003년도 춘계 학술발표회 논문집
    • /
    • pp.103-108
    • /
    • 2003
  • 데이터마이닝을 위한 대용량 데이터베이스를 축소시키는 방법 중에 속성선택 방법이 많이 사용되고 있다. 본 논문에서는 세 가지 속성선택 방법을 사용하여 조건속성 수를 60%이상 축소시켜 결정나무와 로지스틱 회귀모형에 적용시켜보고 이들의 효율을 비교해 본다. 세 가지 속성선택 방법은 MDI, 정보획득, ReliefF 방법이다. 결정나무 방법은 QUEST, CART, C4.5를 사용하였다. 속성선택 방법들의 분류 정확성은 UCI 데이터베이스에 주어진 Credit 승인 데이터베이스와 German Credit 데이터베이스를 사용하여 10층-교차확인 방법으로 평가하였다.

  • PDF

로지스틱 회귀분석과 의사결정나무 분석을 이용한 일 대도시 주민의 우울 예측요인 비교 연구 (Comparative Analysis of Predictors of Depression for Residents in a Metropolitan City using Logistic Regression and Decision Making Tree)

  • 김수진;김보영
    • 한국콘텐츠학회논문지
    • /
    • 제13권12호
    • /
    • pp.829-839
    • /
    • 2013
  • 본 연구는 로지스틱 회귀분석과 의사결정나무 분석을 활용하여 일 대도시 주민의 우울에 영향을 주는 요인을 예측하고 비교하고자 시도된 서술적 조사연구이다. 연구대상은 20세에서 65세 미만의 일 대도시 주민 462명이었다. 자료 수집은 2011년 10월 7일부터 10월 21일까지이었으며, 자료 분석은 SPSS 18.0 프로그램을 이용하여 빈도, 백분율, 평균과 표준편차 및 ${\chi}^2$-test, t-test, 로지스틱 회귀분석, roc curve, 의사결정나무 분석으로 분석하였다. 본 연구 결과, 로지스틱 회귀분석과 의사결정나무 분석에서 공통적으로 나타난 우울 예측요인은 사회부적응, 주관적 신체증상 및 가족 지지이었다. 로지스틱 회귀분석에서 특이도 93.8%, 민감도 42.5%이었고, 본 연구의 모형 적합도를 roc curve 검증 한 결과 AUC=.84으로 본 연구 모형은 적합(p=<.001)하다고 할 수 있다. 우울예측에 대한 의사결정나무 분석은 분류에 대한 예측 정확도에서 특이도 98.3%, 민감도 20.8%이었고, 전체 분류 정확도는 로지스틱 회귀분석은 82.0%, 의사결정나무 분석은 80.5% 이었다. 본 연구 결과 민감성과 분류 정확도와 더 높게 나타난 로지스틱 회귀분석 방법이 지역 주민의 우울 예측 모형을 구축하는데 더 유용한 자료로 사용될 수 있으리라 사료된다.

통계적 분류방법을 이용한 문화재 정보 분석

  • 강민구;성수진;이진영;나종화
    • 한국산업정보학회:학술대회논문집
    • /
    • 한국산업정보학회 2009년도 춘계학술대회 미래 IT융합기술 및 전략
    • /
    • pp.120-125
    • /
    • 2009
  • 본 논문에서는 통계적 분류방법을 이용하여 문화재 자료의 분석을 수행하였다. 분류방법으로는 선형판별분석, 로지스틱회귀분석, 의사결정나무분석, 신경망분석, SVM분석을 사용하였다. 각각의 분류방법에 대한 개념 및 이론에 대해 간략히 소개하고, 실제자료 분석에서는 "지역별 문화재 통계분석 및 모형개발 연구 1차(2008)"에 사용된 자료 중 익산시 자료를 근거로 매장문화재에 대한 분류방법별 적합모형을 구축하였다. 구축된 모형과 모의실험의 결과를 통해 각각의 적합모형에 대한 비교를 수행하여 모형의 성능을 비교하였다. 분석에 사용된 도구로는 최근 가장 관심을 갖는 R-project를 사용하였다.

  • PDF

로지스틱 회귀모형과 의사결정나무 모형을 이용한 Cochlodinium polykrikoides 적조 탐지 기법 연구 (Study on Detection Technique for Cochlodinium polykrikoides Red tide using Logistic Regression Model and Decision Tree Model)

  • 박수호;김흥민;김범규;황도현;엥흐자리갈 운자야;윤홍주
    • 한국전자통신학회논문지
    • /
    • 제13권4호
    • /
    • pp.777-786
    • /
    • 2018
  • 본 연구에서는 기계학습 기법의 한 갈래인 로지스틱 회귀모형과 의사결정나무 모형을 이용하여 인공위성 영상에서 Cochlodinium polykrikoides 적조 픽셀을 탐지하는 방법을 제안한다. 학습자료로 적조, 청수, 탁수해역에서 추출된 수출광량 분광 프로파일(918개)을 활용하였다. 전체 데이터셋의 70%를 추출하여 모형 학습에 활용하였으며, 나머지 30%를 이용하여 모형의 분류 정확도를 평가하였다. 정확도 평가 결과 로지스틱 회귀모형은 약 97%의 분류 정확도를 보였으며, 의사결정나무 모형은 약 86%의 분류 정확도를 보였다.

대용량 화학 데이터 베이스를 선별하기위한 결합다중회귀나무 예측치 (A Combined Multiple Regression Trees Predictor for Screening Large Chemical Databases)

  • 임용빈;이소영;정종희
    • 응용통계연구
    • /
    • 제14권1호
    • /
    • pp.91-101
    • /
    • 2001
  • 다중나무예측치들이 한 개의 나무 예측치 보다 검증용 자료 오분류률을 줄이는데 있어서 더 정확하다 라는 것은 잘 알려져 있는 사실이다. 다중나무를 생성하는 두 가지 방법이 있다. 하나는 원래의 훈련용 자료를 재 추출하여 수정된 훈련용자료들을 만든 다음에 각각의 수정된 훈련용 자료에 근거하여 나무를 만드는 것이다. arcing 알고리즘이 효율적이라고 알려져있다. 다른 방법은 각각의 마디에서 최적 분리의 후보들 중에서 랜덤하게 하나를 선택하여 나무를 생성하는데에, 이 과정을 반복하면 원래의 훈련용 자료에 대해서 비교적 좋은 나무들을 생성하리라 기대되다. 우리는 arcing의 각 단계에서 후자의 다중회귀나무예측치들을 사용하는 결합다중회귀나무예측치를 제안하고, 효능 있는 화합물들을 찾기 위한 고속의 대량 선별 자료 분석의 예를 통해서 예측방법들의 효율성을 비교한다.

  • PDF

덕유산 국립공원내 회귀 및 멸종위기식물의 보전실태 (Conservation Status of Rare and Endangered Plant Species in T$\v{o}$kyusan National Park)

  • 임경빈;김용식;전승훈;김선희;김휘
    • 한국환경생태학회지
    • /
    • 제7권2호
    • /
    • pp.112-117
    • /
    • 1994
  • 덕유산 국립공원 지역에 생육하고 있는 회귀 및 멸종위기식물의 서식처를 답사하여 그 생육상황을 조사하였으며, 복수초 군락 등 16종류를 대상으로 하여 기존에 우리나라에서 분류되어 사용되고 있는 분류결과와 최근에 작성 중인 회귀 및 멸종위기식물의 평가기준에 따라 재분류를 시도하였다. 본 조사에서 검토된 식물 종은 복수초 군락, 너도바람꽃, 구상나무, 주목, 뻐꾹나리, 왕괴불나무, 금강애기나리, 누른종덩굴, 백작약, 개불알꽃, 노각나무, 흰참꽃, 등대시호, 한라부추, 솔나리 및 감자난 등 모두 16종류였다. 이들을 I.U.C.N.의 S.S.C.에서 마련 중인 회귀 및 멸종위기 식물의 평가기준을 적용하여 재평가한 바 Endangered (E)에 해당하는 종으로는 너도바람꽃, 구상나무, 주목, 뻐꾹나리, 백작약, 노각나무, 흰참꽃, 등대시호, 솔나리 및 감자난 등 10종이, Critical (C)에 해당하는 종으로는 왕괴불나무, 누른종덩굴, 개불알꽃, 한라부추 등 4종이, Vulnerable (V)에 해당하는 종으로는 복수초와 금강애기나리 등 2종이었다. 상기의 구분은 기존에 우리나라에서 분류되어 알려져 있는 구분과는 약간의 차이가 있었으며, 이들 식물종들의 관리보전계획을 위해 앞으로 더욱 검토, 보완되어야 하리라 판단된다. 덕유산 국립공원내에 생육하고 있는 보전대상 특정식물은 주로 등산로변이나 개발계획지 등지에 거의 무방비 상태로 노출되어 있어서 앞으로 더욱 훼손될 가능성이 높은 것으로 판단되었다.

  • PDF

실시간 CRM을 위한 분류 기법과 연관성 규칙의 통합적 활용;신용카드 고객 이탈 예측에 활용

  • 이지영;김종우
    • 한국경영정보학회:학술대회논문집
    • /
    • 한국경영정보학회 2007년도 International Conference
    • /
    • pp.135-140
    • /
    • 2007
  • 이탈 고객 예측은 데이터 마이닝에서 다루는 주요한 문제 중에 하나이다. 이탈 고객 예측은 일종의 분류(classification) 문제로 의사결정나무추론, 로지스틱 회귀분석, 인공신경망 등의 기법이 많이 활용되어왔다. 일반적으로 이탈 고객 예측을 위한 모델은 고객의 인구통계학적 정보와 계약이나 거래 정보를 입력변수로 하여 이탈 여부를 목표변수로 보는 형태로 분류 모델을 생성하게 된다. 본 연구에서는 고객과의 지속적인 접촉으로 발생되는 추가적인 사건 정보를 활용하여 연관성 규칙을 생성하고 이 결과를 기존의 방식으로 생성된 분류 모델과 결합하는 이탈 고객 예측 방법을 제시한다. 제시한 방법의 유용성을 확인하기 위해서 특정 국내 신용카드사의 실제 데이터를 활용하여 실험을 수행하였다. 실험 결과 제시된 방법이 기존의 전통적인 분류 모델에 비해서 향상된 성능을 보이는 것을 확인할 수 있었다. 제시된 예측 방법의 장점은 기존의 이탈 예측을 위한 입력 변수들 이외에 고객과 회사간의 접촉을 통해서 생성된 동적 정보들을 통합적으로 활용하여 예측 정확도를 높이고 실시간으로 이탈 확률을 갱신할 수 있다는 점이다.

  • PDF

의사결정나무를 이용한 화물자동차 투어유형 선택행태 분석 (An Analysis of Choice Behavior for Tour Type of Commercial Vehicle using Decision Tree)

  • 김한수;박동주;김찬성;최창호;김경수
    • 대한교통학회지
    • /
    • 제28권6호
    • /
    • pp.43-54
    • /
    • 2010
  • 최근 화물수요모형에 화물자동차 투어행태를 반영하기 위한 접근방법이 제시되었다. 화물자동차 이동을 투어기반 접근방법으로 모형화 하기 위해서는 화물자동차 투어와 투어유형에 대한 이해가 필요하다. 본 연구는 화물자동차 투어유형을 왕복형 투어와 체인형 투어로 구분하여 이들 투어유형 선택행태를 분석하였다. 투어유형 선택행태를 분석하기 위한 방법으로는 의사결정나무(decision tree)와 로짓모형(logit model)을 이용하였다. 분석결과 화물자동차 투어유형을 분류하는 설명변수로 화물적재율, 평균화물량, 총화물량이 선정되었으며, 의사결정나무와 로짓모형이 유사한 결과를 도출하였다. 또한 소형과 중형 화물자동차의 투어유형을 분류하는 설명변수가 큰 차이를 보이지 않음에 따라 화물자동차 투어를 계획함에 있어 화물을 어떻게 적재할 것인지가 가장 중요한 것으로 나타났다. 의사결정나무와 로짓모형의 예측력을 비교한 결과는 의사결정나무가 로짓모형에 비해 상대적으로 우수한 결과를 보였는데, 이는 화물자동차 투어유형을 분류함에 있어 로짓모형과 같이 설명변수의 선형적 결합에 의한 분류 보다는 의사결정나무와 같이 다수 설명변수들의 규칙조합으로 분류하는 것이 효과적임을 나타낸다.

데이터마이닝기법상에서 적합된 예측모형의 평가 -4개분류예측모형의 오분류율 및 훈련시간 비교평가 중심으로 (Evaluations of predicted models fitted for data mining - comparisons of classification accuracy and training time for 4 algorithms)

  • 이상복
    • Journal of the Korean Data and Information Science Society
    • /
    • 제12권2호
    • /
    • pp.113-124
    • /
    • 2001
  • 의사결정나무모형 가운데 하나인 CHAID, 로지스틱 회귀모형, 이들을 이용한 각각의 베깅모형 등 4가지 예측분류모형에 대한 오분류율과 훈련시간을 표본크기별로 계산하고, 이들 모형에 대한 모의실험 비교를 통하여 주어진 알고리즘들의 효율성을 평가하였다. 베깅 의사결정나무모형은 오분류율은 낮았으나 상대적으로 훈련시간이 가장 길었다.

  • PDF