• 제목/요약/키워드: 변수선택력

검색결과 235건 처리시간 0.026초

회귀나무에서 변수선택 편의에 관한 연구

  • 김민호;김진흠
    • 한국통계학회:학술대회논문집
    • /
    • 한국통계학회 2003년도 추계 학술발표회 논문집
    • /
    • pp.263-268
    • /
    • 2003
  • Breiman, Friedman, Olshen and Stone(1984)의 전체탐색법에 의한 회귀나무는 상대적으로 많은 분리가 가능한 변수로 분리기준이 정해지는 편의 현상을 갖고 있다. 본 연구에서는 이런 문제점을 해결할 수 있는 알고리즘을 제안하여 변수선택편의가 없는 회귀나무를 만들고자 한다. 제안하는 알고리즘은 노드의 분리변수를 선택하는 단계와 그 선택된 변수에 의해 이진분리를 위한 분리점을 찾는 단계로 구성되어 있다. 예측변수 중에서 목표변수와 가장 밀접하게 연관된 예측변수는 예측변수의 자료의 종류에 따라 스피어만의 순위상관계수에 의한 검정 혹은 크루스칼-왈리스의 통계량에 의한 검정을 수행하여 가장 통계적으로 유의한 변수로 선택하였고, 선택된 변수에만 Breiman et al.(1984)의 전체선택법을 적용하여 분리점을 결정하였다. 모의실험을 통해 변수선택편의, 변수선택력 , 그리고 평균제곱오차 측면에서 Breiman et al. (1984)의 CART(Classification and Regression Trees)와 제안한 알고리즘을 서로 비교하였다. 또한, 두 알고리즘을 실제 자료에 적용하여 효율을 서로 비교하였다.

  • PDF

의사결정나무에서 분리 변수 선택에 관한 연구 (A Study on Selection of Split Variable in Constructing Classification Tree)

  • 정성석;김순영;임한필
    • 응용통계연구
    • /
    • 제17권2호
    • /
    • pp.347-357
    • /
    • 2004
  • 의사결정나무에서 분리 변수를 선택하는 것은 매우 중요한 일이다. C4.5는 변수 선택에 있어 연속형 변수로의 변수 선택 편의가 심각하고, QUEST는 연속형 변수와 관련해서 정규성 가정이 위반될 경우 변수 선택력이 떨어진다. 본 논문에서는 통계적 로버스트 검정 알고리즘을 제안하고, 모의 실험을 통하여 C4.5, QUEST그러고 제안된 알고리즘의 효율성을 비교하였다. 실험 결과 제안된 알고리즘이 변수 선택 편의와 변수 선택력 측면에서 로버스트함을 알 수 있었다.

의사결정나무에서 순서형 분리 변수 선택에 관한 연구

  • 김현중;송주미
    • 한국통계학회:학술대회논문집
    • /
    • 한국통계학회 2004년도 학술발표논문집
    • /
    • pp.283-288
    • /
    • 2004
  • 지금까지 의사결정나무에서 분리 변수의 선택에 관한 연구는 많았으나, 대부분 연속형 변수와 명목형 변수에 국한되어 왔다. 본 연구에서는 순서형 변수에 주목하여 CART, QUEST, CRUISE 등 기존 알고리즘과 본 연구에서 제안하는 비모수적 접근 방법인 K-S test, framer-von Misos test 방법의 변수 선택력을 비교하였다. 그 결과 본 연구에서 제안하는 framer-von Mises test 방법이 다른 알고리즘에 비하여, 변수 선택력과 안정성에 있어서 좋은 성과를 보였다.

  • PDF

벌점함수를 이용한 부분최소제곱 회귀모형에서의 변수선택 (Variable Selection in PLS Regression with Penalty Function)

  • 박종선;문규종
    • Communications for Statistical Applications and Methods
    • /
    • 제15권4호
    • /
    • pp.633-642
    • /
    • 2008
  • 본 논문에서는 반응변수가 하나 이상이고 설명변수들의 수가 관측치에 비하여 상대적으로 많은 경우에 널리 사용되는 부분최소제곱회귀모형에 벌점함수를 적용하여 모형에 필요한 설명변수들을 선택하는 문제를 고려하였다. 모형에 필요한 설명변수들은 각각의 잠재변수들에 대한 최적해 문제에 벌점함수를 추가한 후 모의담금질을 이용하여 선택하였다. 실제 자료에 대한 적용 결과 모형의 설명력 및 예측력을 크게 떨어뜨리지 않으면서 필요없는 변수들을 효과적으로 제거하는 것으로 나타나 부분최소제곱회귀모형에서 최적인 설명변수들의 부분집합을 선택하는데 적용될 수 있을 것이다.

데이터마이닝 패키지에서 변수선택 편의에 관한 연구 (A Study on Variable Selection Bias in Data Mining Software Packages)

  • 송문섭;윤영주
    • 응용통계연구
    • /
    • 제14권2호
    • /
    • pp.475-486
    • /
    • 2001
  • 데이터마이닝 패키지에 구현된 분류나무 알고리즘 가운데 CART, CHAID, QUEST, C4.5에서 변수 선택법을 비교하였다. CART의 전체탐색법이 편의를 갖는다는 사실은 잘알려졌으며, 여기서는 상품화된 패키지들에서 이들 알고리즘의 편의와 선택력을 모의실험 연구를 통하여 비교하였다. 상용 패키지로는 CART, Enterprise Miner, AnswerTree, Clementine을 사용하였다. 본 논문의 제한된 모의실험 연구 결과에 의하면 C4.5와 CART는 모두 변수선택에서 심각한 편의를 갖고 있으며, CHAID와 QUEST는 비교적 안정된 결과를 보여주고 있었다.

  • PDF

의사결정나무에서 순서형 분리변수 선택에 관한 연구 (Ordinal Variable Selection in Decision Trees)

  • 김현중
    • 응용통계연구
    • /
    • 제19권1호
    • /
    • pp.149-161
    • /
    • 2006
  • CART로 대표되는 의사결정나무의 알고리즘에서 가장 중요한 요소는 분리변수의 선택방법이다. 대부분의 알고리즘은 변수의 형태가 연속형인지, 혹은 명목형(nominal)인지에 따라 별개의 변수선택방법을 적용한다. 하지만 변수의 형태가 순서형(ordinal)인 경우에는 그 변수를 연속형으로 취급하여 연속형 변수선택방법을 적용하는 것이 대부분이다. 이것은 CART와 같은 Greedy탐색을 이용하는 방법에는 문제점이 발생하지 않는다. 하지만 Greedy탐색의 약점을 보완하기 위해 통계이론을 이용하여 개발된 최근의 방법들에는 최선의 대처방법이 아니다. 따라서 본 연구에서는 의사결정 나무에서 분리변수를 선택하는데 있어서 비모수적 접근 방법인 Clamor-von Mises 검정을 이용한 방법을 순서형 변수에 사용하는 것을 제안하고, CART, C4.5, QUEST, CRUISE등 기존 알고리즘과 본 연구에서 제안하는 방법의 순서형 변수 선택력을 비교하였다. 모의실험의 결과, Clamor-von Mises 검정을 이용한 변수선택방법은 순서형 변수의 분류력을 기존 방법들에 비해 더 정확히 예측하는 좋은 성과를 보여주었다.

변수선택 편향이 없는 회귀나무를 만들기 위한 알고리즘 (Regression Trees with. Unbiased Variable Selection)

  • 김진흠;김민호
    • 응용통계연구
    • /
    • 제17권3호
    • /
    • pp.459-473
    • /
    • 2004
  • 본 논문에서는 Breiman 등(1984)의 전체탐색법이 갖고 있는 변수선택 편향을 극복할 수 있는 알고리즘을 제안하였다. 제안한 알고리즘은 노드의 분리 변수를 선택하는 단계와 그 선택된 변수에 대해서만 이진분리를 위한 분리점을 찾는 단계로 나뉘어져 있다. 예측변수가 연속형 일 때는 스피어만의 순위상관계수에 의한 검정을 수행하고, 범주형일 때는 크루스칼-왈리스의 통계량에 의한 검정을 수행하여 통계적으로 가장 유의한 변수를 분리변수로 선택하였고 Breiman 등(1984)의 전체탐색법을 그 변수에만 적용하여 노드의 분리기준을 정하였다 모의실험 연구를 통해 Breiman등(19히)의 CART와 제안한 알고리즘을 변수선택 편의, 변수선택력파 평균제곱오차 측면에서 서로 비교하였다. 아울러 두 알고리즘을 실제 자료에 적용하여 효율을 서로 비교하였다.

MDA에서 판별변수 선택을 위한 베이즈 기준 (A Bayes Criterion for Selecting Variables in MDA)

  • 김혜중;유희경
    • 응용통계연구
    • /
    • 제11권2호
    • /
    • pp.435-449
    • /
    • 1998
  • 본 연구는 다중판별분석(MDA)에서 필요한 변수선택기준을 베이즈접근법으로 제안하였다. 이 베이즈판별변수 선택기준은 여러 정규모집단분포의 평균벡터에 대한 동질성 검정에 필요한 디폴터형태의 베이즈요인을 객관적 베이즈방법으로 유도하여 설정하였다. 디폴트베이즈요인(default Bayes factor)은 Spiegelhalter와 Smith (1982)가 계발한 가상적트레이닝표본법(imaginary training sample method)을 사용하여서 도출하였다. 또한 제안된 베이즈판별변수선택 기준이 지닌 분포의 성질을 이용하여, 추가 판별변수(또는 변수군)가 MDA에 기여하는 부가적인 판별력에 대한 검정법 및 추가판별변수(또는 변수군)의 선택 기준에 대해서도 논하였다. 본 연구에서 새로이 얻은 변수선택기준은 최적부분집합선택법(optimal subset selection method)뿐 아니라 각 단계적방법(stepwise method)의 변수선택기준으로 사용될 수 있으며, 두 그룹 판별분석에도 사용이 가능하다는 점에서 표본이론에 의해 여러 형태로 개발된 기존의 판별변수 선택 기준들을 하나로 통합시킬 수 있는 기능을 지니고 있다. 모의실험을 실시하여 최적 부분집합선택법과 단계적방법하에서 제안된 판별변수선택 기준이 가진 효용성을 평가하였다.

  • PDF

통행수단선택에 영향을 미치는 요인에 관한 연구 - 지역특성이 통행수단선택에 미치는 영향에 대해서 - (A study on the Factors Influencing Traveler's Mode Choice)

  • 권세나;김형진;손봉수
    • 대한교통학회:학술대회논문집
    • /
    • 대한교통학회 2007년도 제55회 학술발표회논문집
    • /
    • pp.181-190
    • /
    • 2007
  • 본 연구는 기존의 통행수단선택에 관한 연구들이 주로 다룬 개인 및 가구의 사회경제적특성에 관한 변수를 비롯하여 통행이 발생하는 지역의 특성에 관한 여러 가지 변수를 고려하여 통행수단 선택에 미치는 영향을 알아보고자 한다. 분석대상은 첨두시와 비첨두시의 대표적인 목적통행인 출근통행과 쇼핑통행으로 삼았으며 승용차, 버스, 지하철에 관한 다항로짓모형을 이용하였다. 연구결과, 변수들이 목적통행별로 상이한 영향을 미쳤고, 지역특성변수들이 모형의 설명력을 높여준다는 것을 알 수 있었다.

  • PDF

노년층의 라이프스타일과 프랜차이즈 레스토랑 선택행동의 관계 및 구전의도의 조절효과에 관한 연구 (A Study of the Effect between Senior Citizen Lifestyle Choice Behavior on Franchise Restaurants - Mediating Effect of Word of Mouth -)

  • 김찬우;양동휘
    • 한국조리학회지
    • /
    • 제22권5호
    • /
    • pp.106-116
    • /
    • 2016
  • 본 연구에서는 노년층의 라이프스타일이 프랜차이즈 레스토랑의 선택속성이 얼마나 영향을 끼치는지 측정하였다. 그리고 구전의도가 노년층의 라이프스타일과 프랜차이즈 레스토랑의 선택속성 사이에서 어떤 영향을 끼치는지 측정하였다. 연구 결과, 첫째, 노년층들의 라이프스타일의 하위변수인 외향적, 개방형, 진보형, 미래 지향형 활동 4가지를 변수로 설정하였다. 그 결과, 외향적(${\beta}=.463$, p<.001), 개방형(${\beta}=.132$, p<.001), 진보형(${\beta}=.150$, p<.001), 미래지향적(${\beta}=.320$, p<.001)로 종속변수인 프랜차이즈 레스토랑의 선택속성에 대하여 모두 유의한 정(+)의 영향관계가 있는 것으로 분석되었다. 둘째, 조절변수인 구전의도가 추가된 2단계 모형에서는 구전의도의 추가로 인한 설명력의 증가는 0.1%이고, 이에 대한 F=147.556(p<0.01)로 설명력의 증가로 2단계 역시 유의적으로 나왔다. 조절효과를 검증하는 상호작용항들이 추가로 들어간 3단계에서는 '노년의 라이프스타일${\times}$구전의도'의 추가적인 투입으로 인한 설명력의 증가는 0.5%이고, 이에 대한 F=82.987(p<0.01)로 조절효과는 유의적으로 나왔다. 노년의 라이프스타일과 구전의도의 개별적인 조절효과를 보면 미래적${\times}$구전의도는 유의적인 정(+)의 영향력이 있었고, 또한 외향적${\times}$구전의도는 유의적인 부(-)의 영향력이 있었다.