• 제목/요약/키워드: 나무모형

검색결과 342건 처리시간 0.028초

데이터마이닝기법상에서 적합된 예측모형의 평가 -4개분류예측모형의 오분류율 및 훈련시간 비교평가 중심으로 (Evaluations of predicted models fitted for data mining - comparisons of classification accuracy and training time for 4 algorithms)

  • 이상복
    • Journal of the Korean Data and Information Science Society
    • /
    • 제12권2호
    • /
    • pp.113-124
    • /
    • 2001
  • 의사결정나무모형 가운데 하나인 CHAID, 로지스틱 회귀모형, 이들을 이용한 각각의 베깅모형 등 4가지 예측분류모형에 대한 오분류율과 훈련시간을 표본크기별로 계산하고, 이들 모형에 대한 모의실험 비교를 통하여 주어진 알고리즘들의 효율성을 평가하였다. 베깅 의사결정나무모형은 오분류율은 낮았으나 상대적으로 훈련시간이 가장 길었다.

  • PDF

나무구조의 분류분석에서 변수 중요도에 대한 고찰 (Comparison of Variable Importance Measures in Tree-based Classification)

  • 김나영;이은경
    • 응용통계연구
    • /
    • 제27권5호
    • /
    • pp.717-729
    • /
    • 2014
  • 본 연구에서는 나무구조의 분류분석에서 자료의 크기가 방대해짐에 따라 중요한 문제로 대두되고 있는 변수의 중요도에 대하여 사영추적분류나무를 중심으로 고찰하였다. 사영추적분류나무(projection pursuit classification tree)는 각 마디에서 사영추적을 이용하여 그룹을 잘 분리하는 변수들의 선형결합을 이용하는 방법으로 이때 사용되는 사영계수들은 각 마디에서의 분류에 대한 정보를 가지고 있다. 이를 종합하여 각 변수의 분류에 대한 중요도를 계산할 수 있다. 먼저 사영추적분류나무의 분류과정에서 계산되는 사영추적계수를 이용하여 분류를 위한 변수선택의 중요도를 계산하고 이들의 특성을 살펴보고 이를 같은 형태의 나무모형방법인 CART와 랜덤 포레스트의 결과와 비교 분석하여 사영추적분류나무의 특성을 살펴보고 비교, 분석하였다. 대부분의 자료에서 사영추적분류나무가 훨씬 좋은 성능을 보이고 있었으며 특히 상관계수가 높은 변수들이 포함되어 있는 경우에는 상대적으로 적은 수의 변수로도 잘 분류를 할 수 있음을 확인하였다. 랜덤 포레스트에서 제공하는 변수 중요도는 변수들 간의 상관관계가 높은 경우에는 사영추적분류나무의 변수중요도와 매우 다르게 나타나며 사영추적분류나무의 변수 중요도가 조금 더 나은 성능을 보이고 있음을 알 수 있다.

의사결정나무기법을 이용한 노인장기요양보험 등급결정모형 개발 (A Determining System for the Category of Need in Long-Term Care Insurance System using Decision Tree Model)

  • 한은정;곽민정;강임옥
    • 응용통계연구
    • /
    • 제24권1호
    • /
    • pp.145-159
    • /
    • 2011
  • 노인장기요양보험은 2008년 7월에 시작된 이후 제도의 안정적 정착과 발전을 위해 여러 가지 면에서 보완해야할 부분이 많은 상태이다. 그 중에서도 장기요양급여의 진입장벽을 결정하는 등급결정모형을 지속적으로 보완하는 것이 가장 중요하다. 본 연구는 제도 시행 이후 급속히 변화하는 장기요양 시장의 현실을 등급결정모형에 반영하고자 제도 도입 이후의 자료를 활용하여 등급결정모형을 구축하여 현행 모형을 보완하고자 하였다. 등급결정모형을 개발하기 위해 데이터마이닝 기법 중 의사결정나무기법을 활용하였으며, 이것은 현행 모형과 비교가 용이하도록 하기 위한 것이다. 이 모형은 기능상태가 나쁜 사람일수록 장기요양서비스량이 많을 것이라는 가정을 전제로 하고 있으며 장기요양서비스량을 서비스 제공시간으로 보았다. 이 연구는 변화된 현실을 충분히 반영하기 위해 등급결정모형을 보완 하였다는 점에서 의의를 갖는다. 그러나 향후에도 서비스 인프라, 급여 이용자의 특성 등 계속 변화하는 환경을 반영하여 등급결정모형을 보완하고 발전시키는 것이 지속적으로 필요하다고 본다.

계급불균형자료의 분류: 훈련표본 구성방법에 따른 효과 (Classification of Class-Imbalanced Data: Effect of Over-sampling and Under-sampling of Training Data)

  • 김지현;정종빈
    • 응용통계연구
    • /
    • 제17권3호
    • /
    • pp.445-457
    • /
    • 2004
  • 두 계급의 분류문제에서 두 계급의 관측 개체수가 심하게 불균형을 이룬 자료를 분석할 때, 흔히 인위적으로 두 계급의 크기를 비슷하게 해준 다음 분석한다. 본 연구에서는 이런 훈련표본 구성방법의 타당성에 대해 알아보았다. 또한 훈련표본의 구성방법이 부스팅에 미치는 효과에 대해서도 알아보았다. 12개의 실제 자료에 대한 실험 결과 나무모형으로 부스팅 기법을 적용할 때는 훈련표본을 그대로 둔 채 분석하는 것이 좋다는 결론을 얻었다.

난대 기후대의 상록활엽수림 복원 모형(V) - 사례지의 복원전략 - (Restoration Model of Evergreen Broad-leaved forests in Warm Temperate Region(V) - Restoration Strategies of the Case Study Areas -)

  • 오구균;김용식
    • 한국환경생태학회지
    • /
    • 제11권3호
    • /
    • pp.352-365
    • /
    • 1997
  • 상록활엽수림 복원모형의 연구의 일환으로 사례지인 전남 완도와 경남 목도의 복원전략을 제시하였다. 완도의 식생복원 유형은 개선형과 재현형으로 구분했고, 목도는 개선형으로 제시했다. 완도의 복원식생은 붉가시나무군락, 참가시나무군락, 참식나무군락, 구실잣밤나무군락, 후박나무군락, 생달나무군락 등 상록활엽수림 군락을 목표식생으로 제시했다. 목도의 복원식생은 후박나무군락으로 제시했다. 완도의 종복원 대상은 개체군의 분포지역이 매우 한저되어 있고 크기가 작은 수종 중에서 참나무과의 참가시나무와 자작나무과의 새우나무를 선정하였다. 목도지역에는 복원할만한 수종이 없는 것으로 판단되었다.

  • PDF

데이터마이닝을 이용한 국민연금 부정수급 예측모형 개발 - 손해배상금 불성실 신고를 대상으로 - (An Application of Data-Mining Tool in Fraud Pension Payment Prediction)

  • 차경엽
    • Communications for Statistical Applications and Methods
    • /
    • 제17권1호
    • /
    • pp.1-8
    • /
    • 2010
  • 최근 사회복지분야에서 부정수급, 횡령 등이 빈번히 발생함에 따라 비리를 방지하기 위한 체계적인 관리 방안이 요구되고 있다. 데이터마이닝은 다수의 이해관계자와 많은 예산이 투입되는 사업을 관리하는데 효과적인 방법이다. 본 연구는 국민연금의 부정 수급자 관리방안으로 데이터마이닝을 이용한 예측모형을 개발하였다. 분석결과, 수급자의 급여, 연금 가입, 사고내역 정보가 부정수급의 특성 요인으로 나타났으며 이를 의사결정나무 모형, 로지스틱 회귀모형, 인공신경망 모형에 적용한 결과 의사결정나무 모형의 예측력이 가장 우수한 것으로 분석되었다.

퍼지집합과 GIS를 이용한 고로쇠나무 임분의 수액채취 적지 분석 (Analysis of Site Suitability of Forest Stands for Extracting Sap of Acer pictum var. mono Using GIS and Fuzzy Sets)

  • 이병두;정주상;권대순
    • 한국산림과학회지
    • /
    • 제95권1호
    • /
    • pp.38-44
    • /
    • 2006
  • 본 연구에서는 GIS와 퍼지집합을 이용하여 고로쇠나무 수액채취 적지를 판정할 수 있는 모형을 제시하고, 이에 따라 적지도를 작성하였다. 이를 위해 고로쇠나무 수액생산에 영향을 미치는 인자를 생물인자와 입지환경인자로 구분하여 선정하였고, 수액 채취 여건은 지형인자와 접근성인자를 선정하여 평가하였다. 각 인자별 가중치의 결정은 실제 고로쇠나무 수액이 채취되고 있는 지역의 인자별 특성을 분석하여, 채취 지역과 비채취 지역의 차이가 클수록 높은 가중치를 부여하는 방식을 이용하였다. 이 결과 수계로부터의 거리, 임상, 광노출도 등이 수액생산량 예측모형에서 높은 가중치를 보였으며, 영급, 도로접근성, 경급인자는 수액채취 적지 판정에 있어서 관련성이 적었다. 개발된 모형의 타당성을 검토하기 위하여 실제 고로쇠나무 수액이 채취되고 있는 지역을 대상으로 모형을 적용한 결과, 적지지수 평균값이 0.81로써 높게 분석되었다.

기계학습 기반의 영화흥행예측 방법 비교: 인공신경망과 의사결정나무를 중심으로 (A Comparison of Predicting Movie Success between Artificial Neural Network and Decision Tree)

  • 권신혜;박경우;장병희
    • 예술인문사회 융합 멀티미디어 논문지
    • /
    • 제7권4호
    • /
    • pp.593-601
    • /
    • 2017
  • 본 연구는 영화산업의 가치사슬단계에 따라 각 단계에서 고려할 수 있는 변인을 활용하여 제작/투자, 배급, 상영단계별 모형을 구성하였다. 모형의 예측력을 높이기 위해 회귀분석으로 유의미한 변인을 도출하여 모형을 추가로 설정하였다. 주어진 변인을 바탕으로 기계학습 분석방법인 인공신경망과 의사결정나무 분석방법 간의 예측력 차이를 비교하였다. 분석 결과, 제작/투자 모형과 배급 모형에서 모든 변인을 투입했을 때는 인공신경망의 정확도가 의사결정나무보다 높았으나, 회귀분석결과에 따라 선정된 변인을 투입하였을 때는 의사결정나무의 정확도가 더 높았다. 상영 모형에서는 회귀분석결과의 반영여부와 관계없이 인공신경망의 정확도가 의사결정나무의 정확도보다 높게 나타났다. 본 논문은 영화흥행 예측연구에 기계학습기법을 적용하여 예측성과가 향상됨을 확인하였다는데 의의가 있다. 선형회귀분석 결과를 기계학습기법에 반영함으로써 기존의 선형적 분석방법의 한계를 극복하고자 하였다.

통계적 분류방법을 이용한 문화재 정보 분석

  • 강민구;성수진;이진영;나종화
    • 한국산업정보학회:학술대회논문집
    • /
    • 한국산업정보학회 2009년도 춘계학술대회 미래 IT융합기술 및 전략
    • /
    • pp.120-125
    • /
    • 2009
  • 본 논문에서는 통계적 분류방법을 이용하여 문화재 자료의 분석을 수행하였다. 분류방법으로는 선형판별분석, 로지스틱회귀분석, 의사결정나무분석, 신경망분석, SVM분석을 사용하였다. 각각의 분류방법에 대한 개념 및 이론에 대해 간략히 소개하고, 실제자료 분석에서는 "지역별 문화재 통계분석 및 모형개발 연구 1차(2008)"에 사용된 자료 중 익산시 자료를 근거로 매장문화재에 대한 분류방법별 적합모형을 구축하였다. 구축된 모형과 모의실험의 결과를 통해 각각의 적합모형에 대한 비교를 수행하여 모형의 성능을 비교하였다. 분석에 사용된 도구로는 최근 가장 관심을 갖는 R-project를 사용하였다.

  • PDF