• 제목/요약/키워드: 연속형 변수

검색결과 203건 처리시간 0.029초

의사결정나무에서 순서형 분리변수 선택에 관한 연구 (Ordinal Variable Selection in Decision Trees)

  • 김현중
    • 응용통계연구
    • /
    • 제19권1호
    • /
    • pp.149-161
    • /
    • 2006
  • CART로 대표되는 의사결정나무의 알고리즘에서 가장 중요한 요소는 분리변수의 선택방법이다. 대부분의 알고리즘은 변수의 형태가 연속형인지, 혹은 명목형(nominal)인지에 따라 별개의 변수선택방법을 적용한다. 하지만 변수의 형태가 순서형(ordinal)인 경우에는 그 변수를 연속형으로 취급하여 연속형 변수선택방법을 적용하는 것이 대부분이다. 이것은 CART와 같은 Greedy탐색을 이용하는 방법에는 문제점이 발생하지 않는다. 하지만 Greedy탐색의 약점을 보완하기 위해 통계이론을 이용하여 개발된 최근의 방법들에는 최선의 대처방법이 아니다. 따라서 본 연구에서는 의사결정 나무에서 분리변수를 선택하는데 있어서 비모수적 접근 방법인 Clamor-von Mises 검정을 이용한 방법을 순서형 변수에 사용하는 것을 제안하고, CART, C4.5, QUEST, CRUISE등 기존 알고리즘과 본 연구에서 제안하는 방법의 순서형 변수 선택력을 비교하였다. 모의실험의 결과, Clamor-von Mises 검정을 이용한 변수선택방법은 순서형 변수의 분류력을 기존 방법들에 비해 더 정확히 예측하는 좋은 성과를 보여주었다.

연속형의 텐서곱과 범주형의 직합을 사용한 다항 로지스틱 회귀모형 (A polychotomous regression model with tensor product splines and direct sums)

  • 심송용;강희모
    • Journal of the Korean Data and Information Science Society
    • /
    • 제25권1호
    • /
    • pp.19-26
    • /
    • 2014
  • 다항 로지스틱 회귀모형의 설명변수가 연속형과 범주형을 모두 포함할 때 범주형 설명변수는 직합을 적용하고 연속형 설명변수는 텐서곱을 적용하는 모형을 제안한다. 변수선택의 기준으로 BIC를 사용하고, 제안된 모형의 알고리즘을 구현하였다. 구현된 알고리즘을 실제 자료에 적용하여 기존의 방법과 비교하여 제안된 모형이 더 좋은 분류율을 보임을 확인하였다.

이상점 탐지를 위한 일반화 우도비 검정 (A Generalized Likelihood Ratio Test in Outlier Detection)

  • Jang Sun Baek
    • 응용통계연구
    • /
    • 제7권2호
    • /
    • pp.225-237
    • /
    • 1994
  • 본 연구에서는 핵확산 감시와 관련된 이상점 탐지를 위한 일반화 우도비 검정 방법이 개발되었다. 고전적인 이상점 탐지방법들이 연속형 변수만을 고려한 반면, 본 연구에서 제안된 방법은 연속형 변수, 이산형 변수, 혹은 이산형과 연속형이 혼합된 변수들에 모두 적용될 수 있다. 더우기 대부분의 고전적인 방법들에 있어서 주로 이용된 정규분포 가정을 필요로 하지 않는다. 본 연구에서 제안된 방법은 일반화 우도비에 붓스트랩 방법을 적용하여 구성되었다. 모의 실험을 통하여 검정력을 고찰함으로써 제안된 검정방법의 성능을 연구하였다.

  • PDF

상호정보 추정을 위한 k-최근접이웃 기반방법 (k-Nearest Neighbor-Based Approach for the Estimation of Mutual Information)

  • 차운옥;허문열
    • Communications for Statistical Applications and Methods
    • /
    • 제15권6호
    • /
    • pp.977-991
    • /
    • 2008
  • 본 논문에서는 연속형 변수에 대한 결합확률분포를 추정하지 않고도 상호정보(MI) 추정량을 구할 수 있는 k-최근접이웃 기반방법에 대하여 연구하였다. 변수가 동일한 값들을 가지는 경우 k-최근접이웃을 구할 때 생기는 문제점을 해결하기 위하여 지터링(jittering)과 붓스트랩(bootstrap) 방법을 제안하였다. 몬테칼로 모의실험과 실제 데이터에 대한 실험을 수행한 결과, k=1과 같이 작은 값을 사용한 k-최근접이웃 기반방법에 의해 효율적인 MI 추정량을 구할 수 있었다. k-최근접이웃 기반방법은 연속형 설명변수, 범주형 또는 연속형인 목적변수 형태의 데이터에 적용할 수 있으며, 목적변수에 영향을 주는 중요한 설명변수의 순서를 구할 수 있을 뿐만 아니라 다차원에도 적용할 수 있기 때문에 중요변수의 집합을 구하는 변수 선택(feature subset selection) 문제에도 적용할 수 있다.

의사결정나무에서 순서형 분리 변수 선택에 관한 연구

  • 김현중;송주미
    • 한국통계학회:학술대회논문집
    • /
    • 한국통계학회 2004년도 학술발표논문집
    • /
    • pp.283-288
    • /
    • 2004
  • 지금까지 의사결정나무에서 분리 변수의 선택에 관한 연구는 많았으나, 대부분 연속형 변수와 명목형 변수에 국한되어 왔다. 본 연구에서는 순서형 변수에 주목하여 CART, QUEST, CRUISE 등 기존 알고리즘과 본 연구에서 제안하는 비모수적 접근 방법인 K-S test, framer-von Misos test 방법의 변수 선택력을 비교하였다. 그 결과 본 연구에서 제안하는 framer-von Mises test 방법이 다른 알고리즘에 비하여, 변수 선택력과 안정성에 있어서 좋은 성과를 보였다.

  • PDF

유전자 알고리즘을 이용한 변동부등식 제약하의 연속형 가로망 설계 (A Genetic Algorithm Approach to the Continuous Network Design Problem with Variational Inequality Constraints)

  • 김재영;임강원
    • 대한교통학회지
    • /
    • 제18권1호
    • /
    • pp.61-73
    • /
    • 2000
  • 이 논문은 변동부등식을 제약조건으로 하는 연속형 변수의 가로망 설계 문제를 풀기 위한 해석 알고리즘을 제시하는 것을 목적으로 한다. 가로망 설계 문제는 문제의 특성상 비선형의 목적함수와 비선형. 비볼록한 제약식으로 인해 다수의 국지해를 갖으며, 이러한 여러 국지해 중 가장 최적의 해를 구하는 것에 관심이 모아지고 있다. 전역 최적해를 찾을 수 있는 기존의 방법들은 확률적 최적화 방법에 속하는데 이 논문에서는 유전자 알고리즘의 접근법을 사용하여 2개의 다른 예제 가로망에서 5개의 서로 다른 해석 알고리즘에 대한 비교를 행하였으며. 그 해석결과를 기술하였다. 이 논문에서 사용된 정책결정자의 설계 변수는 가로망상 링크의 용량 변수이며, 연속형 변수의 어떤 설계 변수에도 적절한 변환과정을 거쳐 사용이 가능하다.

  • PDF

Wasserstein 거리를 이용한 연속형 변수 이산화 기법 (Discretization Method for Continuous Data using Wasserstein Distance)

  • 하상원;김한준
    • 데이타베이스연구회지:데이타베이스연구
    • /
    • 제34권3호
    • /
    • pp.159-169
    • /
    • 2018
  • 연속형 변수의 이산화(Discretization)는 양적 변수(Quantitative variable)를 질적 변수(Qualitative variable)로 변형시켜 데이터 마이닝(Data mining) 기법 등 다양한 알고리즘의 성능을 향상시키는데 사용 목적이 있다. 데이터에 적절한 이산화 기법을 사용한다면 분류 알고리즘에 대해 더 좋은 성능뿐 아니라 간결한 결과 해석, 속도 향상까지 기대할 수 있다. 현재까지 다양한 이산화 기법들이 연구되었으며, 현재도 이산화와 관련한 연구에 수요가 많다. 본 논문은 데이터의 클래스에 대한 연속형 변수 값의 분포를 고려하여, Wasserstein 거리를 이용해 분할점을 자동 설정하는 이산화 기법을 제안한다. 본 논문에서 제안하는 기법과 우수함이 입증된 기존의 이산화 기법에 대해 성능비교를 통해 제안 기법의 우수성을 보인다.

연속형 자료에 대한 나무형 군집화

  • 허명희;양경숙
    • 한국통계학회:학술대회논문집
    • /
    • 한국통계학회 2005년도 춘계 학술발표회 논문집
    • /
    • pp.49-51
    • /
    • 2005
  • 본 연구는 반복분할(recursive partitioning)에 의한 군집화 방법을 제안하고 활용 예를 제시한다. 이 방법은 나무 형태의 해석하기 쉬운 단순한 규칙을 제공하면서 동시에 변수선택기능을 제공한다.

  • PDF

범주형 자료에서 연관성 측도들의 비교 분석

  • 홍종선;임한승
    • Communications for Statistical Applications and Methods
    • /
    • 제4권3호
    • /
    • pp.645-661
    • /
    • 1997
  • 연속형 변수들의 상관관계와 범주형 변수들의 연관성 측도들을 비교 연구하였다. 이 연구를 위하여 연속형 변수들이며 +1에서 -1까지 완벽한 상관관계를 갖고 있는 2 변량 정규분포를 이용하여 2$\times$2 분할표와 확장하여 일반적인 I$\times$J 분할표를 대신하는 3$\times$3 분할표를 생성하였다. 2 차원 분할표에서 정의된 연관성 측도들을 구하여 논의하였는데 2$\times$2 분할표에서는 교차적비 $\alpha$ 통계량과 교차적비의 함수로 표현되는 Yule [1912]의 Q와 Y의 통계량 그리고 상관계수 R 통계량과 R 통계량의 함수인 P 통계량을 설명하고 생성된 분할표에서 구한 통계량값을 분석하였으며, 3$\times$3 분할표에서는 Pearson의 독립성 검정통계량 $X^2$의 함수로 표현되는 P. T. V 통계량과 Goodman과 Kruskal [1954]의 $\lambda_{C/R}$통계량과 Light와 Margolin [1971]의 $\tau_{R/C}$ 통계량을 설명하고 그 값들을 Pearson의 상관계수와 비교 분석하였다.

  • PDF

선 모자이크 도표를 이용한 동적 그래픽스 (Dynamic Graphics Using Line Mosaic Plot)

  • 차운옥;이경미;최병수
    • Communications for Statistical Applications and Methods
    • /
    • 제17권2호
    • /
    • pp.153-164
    • /
    • 2010
  • 본 논문에서는 이산형과 연속형 데이터가 혼합되어 있는 데이터 구조를 탐색하기 위하여 동적 기법을 사용하였다. 이산형 변수들간의 관계를 표현하는 선 모자이크 도표와 연속형 변수들의 관계를 위한 산점도, 일변량 변수 관점에서의 데이터의 분포를 파악할 수 있는 상자도표를 동시에 사용하면서, 동적인 기법들을 적용하여 다차원 데이터에 대한 구조를 좀 더 쉽게 파악할 수 있음을 보였다.