• 제목/요약/키워드: 분위수 회귀분석

검색결과 28건 처리시간 0.03초

분위수 회귀나무를 이용한 변수선택 방법 연구 (Variable selection with quantile regression tree)

  • 장영재
    • 응용통계연구
    • /
    • 제29권6호
    • /
    • pp.1095-1106
    • /
    • 2016
  • Koenker 등 (1978)에 의해 제안 된 분위수 회귀분석법은 독립변수들이 주어졌을 때, 종속변수의 조건부 분위수에 초점을 맞추어 독립변수들과 종속변수의 해당 특정 분위수와의 관계를 분석하는 방법이다. 선형프로그래밍법 등을 이용한 분위수 회귀의 추정 과정을 생각해 볼 때, 고차원 대용량 자료의 경우에는 모형 적합에 어려움을 겪을 수 밖에 없다. 따라서 분위수 회귀의 문제에 있어서도 차원 축소의 문제, 조금 더 폭을 좁혀 생각해보면 변수선택의 문제를 통해 의사 결정에 영향을 미치는 주요 요인들을 파악하거나 적절한 규모의 모형을 적합하는 과정이 중요하다고 할 수 있다. 본 논문에서는 분위수 회귀의 변수선택의 문제를 보다 직관적이고 간단하게 해결하기 위한 방법으로서 회귀나무 모형을 응용하여 한국야구위원회에 등록된 선수들의 연봉과 기록 데이터를 분석해 보았다. 분석 결과, 각 분위수 별로 소수의 주요 변수가 선택되어 차원축소의 효과를 얻을 수 있었다. 또한 해당 분위수별로 선택된 변수도 해석상 의미 있는 것으로 평가할 수 있었다.

벌점화 분위수 회귀나무모형에 대한 연구 (Penalized quantile regression tree)

  • 김재오;조형준;방성완
    • 응용통계연구
    • /
    • 제29권7호
    • /
    • pp.1361-1371
    • /
    • 2016
  • 분위수 회귀모형은 설명변수가 반응변수의 조건부 분위수 함수에 어떻게 관계되는지 탐색함으로서 많은 유용한 정보를 제공한다. 그러나 설명변수와 반응변수가 비선형 관계를 갖는다면 선형형태를 가정하는 전통적인 분위수 회귀모형은 적합하지 않다. 또한 고차원 자료 또는 설명변수간 상관관계가 높은 자료에 대해서 변수선택의 방법이 필요하다. 이러한 이유로 본 연구에서는 벌점화 분위수 회귀나무모형을 제안하였다. 한편 제안한 방법의 분할규칙은 과도한 계산시간과 분할변수 선택편향 문제를 극복한 잔차 분석을 기반으로 하였다. 본 연구에서는 모의실험과 실증 예제를 통해 제안한 방법의 우수한 성능과 유용성을 확인하였다.

통합 비교차 다중 분위수회귀나무 모형을 활용한 AI 면접체계 자료 분석 (Analysis of AI interview data using unified non-crossing multiple quantile regression tree model)

  • 김재오;방성완
    • 응용통계연구
    • /
    • 제33권6호
    • /
    • pp.753-762
    • /
    • 2020
  • 본 연구는 대한민국 육군이 선도적으로 도입하고자 노력하고 있는 AI 면접체계의 자료를 통합 비교차 다중 분위수 회귀나무 모형(unified non-crossing multiple quantile tree; UNQRT)을 활용하여 분석한 것이다. 분위수 회귀가 일반적인 선형회귀에 비하여 많은 장점을 가지지만, 선형성 가정은 여전히 많은 현실 문제해결에 있어 지나치게 강한 가정이다. 선형성을 완화한 모형의 하나인 기존 나무모형 기반의 분위수 회귀는 추정된 분위수 함수별로 교차하는 문제와 분위수별로 나무모형을 제시하여 해석력을 저하시키는 문제가 있다. 통합 비교차 다중 분위수회귀나무 모형은 비교차 제약식을 부여한 상태로 다중 분위수 함수를 동시에 추정함으로서 분위수 함수의 교차 문제를 해결하며, 극단 분위수에서 안정된 결과를 기대할 수 있고, 하나의 통합된 나무모형을 제시하여 우수한 해석력이 있다. 본 연구에서는 통합 비교차 다중 분위수회귀나무 모형을 활용하여 육군 AI 면접체계의 결과와 기존 인사자료간 관계를 충분히 탐색하여 의미있는 다양한 결과를 도출하였다.

대용량 자료의 분석을 위한 분할정복 커널 분위수 회귀모형 (Divide and conquer kernel quantile regression for massive dataset)

  • 방성완;김재오
    • 응용통계연구
    • /
    • 제33권5호
    • /
    • pp.569-578
    • /
    • 2020
  • 분위수 회귀모형은 반응변수의 조건부 분위수 함수를 추정함으로써 반응변수와 예측변수의 관계에 대한 포괄적인 정보를 제공한다. 특히 커널 분위수 회귀모형은 비선형 관계식을 고려하기 위하여 양정치 커널함수(kernel function)에 의해 만들어지는 재생 커널 힐버트 공간(reproducing kernel Hilbert space)에서 비선형 조건부 분위수 함수를 추정한다. 그러나 KQR은 이차계획법으로 공식화되어 많은 계산비용을 필요로 하므로 컴퓨터 메모리 능력의 제한으로 대용량 자료의 분석은 불가능하다. 이러한 문제점을 해결하기 위하여 본 논문에서는 분할정복(divide and conquer) 알고리즘을 활용한 KQR 추정법(DC-KQR)을 제안한다. DC-KQR은 먼저 전체 훈련자료를 몇 개의 부분집합으로 무작위로 분할(divide)한 후, 각각의 부분집합에 대하여 KQR 분위수 함수를 추정하고 이들의 산술 평균을 이용하여 최종적인 추정량으로 통합(conquer)하는 기법이다. 본 논문에서는 모의실험과 실제자료 분석을 통해 제안한 DC-KQR의 효율적인 성능과 활용 가능성을 확인하였다.

비교차 제약식을 이용한 다중 선형 분위수 회귀모형에 관한 비교연구 (A comparison study of multiple linear quantile regression using non-crossing constraints)

  • 방성완;신승준
    • 응용통계연구
    • /
    • 제29권5호
    • /
    • pp.773-786
    • /
    • 2016
  • 분위수 회귀는 반응변수의 조건부 분위수 함수를 추정함으로써 반응변수와 예측변수의 관계에 대한 포괄적인 정보를 제공한다. 그러나 여러 개의 분위수 함수를 개별적으로 추정하게 되면 이들이 서로 교차할 가능성이 있으며, 이러한 분위수 함수의 교차(quantile crossing) 현상 분위수의 이론적 기본 특성에 위배된다. 본 논문에서는 다중 비교차 분위수 함수의 추정의 대표적인 방법들의 특성을 적합식과 계산 알고리즘의 측면에서 살펴보고, 모의실험과 실제 자료 분석을 통해 그 성능을 비교하였다.

분위수 회귀를 이용한 가속수명시험 자료 분석 (Accelerated Lifetime Data Analysis Using Quantile Regression)

  • 노지연;김희정;나명환
    • 응용통계연구
    • /
    • 제21권4호
    • /
    • pp.631-638
    • /
    • 2008
  • 가속수명시험은 실제 사용조건보다 열악한 수준으로 시험하여 빠른 기간 내에 제품의 고장자료를 얻고, 실제 사용조건에서의 수명관련 품질 특성치를 추정하는 방법이다. 본 논문에서는 가속수명 자료를 이용하여 분위수 회귀추정 방법을 통해 정상 조건에서의 수명을 추정하는 방법을 제안한다. 대표적인 가속 스트레스인 온도와 전압을 갖는 실제 자료에 분위수 회귀 모형을 적용하여 수명을 추정하였다.

다변량 분위수 회귀나무 모형에 대한 연구 (Multivariate quantile regression tree)

  • 김재오;조형준;방성완
    • Journal of the Korean Data and Information Science Society
    • /
    • 제28권3호
    • /
    • pp.533-545
    • /
    • 2017
  • 분위수 회귀모형은 반응변수의 조건부 분포에 대하여 포괄적이고 유용한 통계적 정보를 제공한다. 그러나 많은 실제 자료는 설명변수와 반응변수가 비선형의 관계를 갖고 있어 전통적인 선형 분위수 회귀모형은 왜곡되고 잘못된 결과를 초래할 수 있다. 또한 자료의 복잡성이 증가하여 반응변수가 여러개인 다변량 자료의 분석에 대한 보다 정확한 예측과 더불어 풍부한 해석에 대한 요구가 증가하고 있다. 이러한 이유로 본 연구에서는 다변량 분위수 회귀나무 모형을 제안하였다. 본 연구에서는 기존의 다변량 회귀나무 모형의 분할변수 선택 알고리즘의 문제점을 지적하고 향상된 분할변수 선택 알고리즘을 제안하였다. 제안한 알고리즘은 합리적인 계산시간으로 적용 가능하며 분할변수 선택에서 편향 발생의 문제를 갖지 않는 동시에 기존 방법보다 더 정확하게 분할변수를 선택할 수 있있다. 본 연구에서는 모의실험과 실증 예제를 통해 제안한 방법의 우수한 성능과 유용성을 확인하였다.

베이즈 정보 기준을 활용한 분할-정복 벌점화 분위수 회귀 (Model selection via Bayesian information criterion for divide-and-conquer penalized quantile regression)

  • 강종경;한석원;방성완
    • 응용통계연구
    • /
    • 제35권2호
    • /
    • pp.217-227
    • /
    • 2022
  • 분위수 회귀 모형은 변수에 숨겨진 복잡한 정보를 살펴보기 위한 효율적인 도구를 제공하는 장점을 바탕으로 많은 분야에서 널리 사용되고 있다. 그러나 현대의 대용량-고차원 데이터는 계산 시간 및 저장공간의 제한으로 인해 분위수 회귀 모형의 추정을 매우 어렵게 만든다. 분할-정복은 전체 데이터를 계산이 용이한 여러개의 부분집합으로 나눈 다음 각 분할에서의 요약 통계량만을 이용하여 전체 데이터의 추정량을 재구성하는 기법이다. 본 연구에서는 분할-정복 기법을 벌점화 분위수 회귀에 적용하고 베이즈 정보기준을 활용하여 변수를 선택하는 방법에 관하여 연구하였다. 제안 방법은 분할 수를 적절하게 선택하였을 때, 전체 데이터로 계산한 일반적인 분위수 회귀 추정량만큼 변수 선택의 측면에서 일관된 결과를 제공하면서 계산 속도의 측면에서 효율적이다. 이러한 제안된 방법의 장점은 시뮬레이션 데이터 및 실제 데이터 분석을 통해 확인하였다.

분위수 공적분 모형과 해운 경기변동 분석 (Quantile Co-integration Application for Maritime Business Fluctuation)

  • 김현석
    • 한국항만경제학회지
    • /
    • 제38권2호
    • /
    • pp.153-164
    • /
    • 2022
  • 본 연구는 2000년 1월부터 2021년 12월까지의 대표적 원자재 운송 수단인 Capesize 중고선가를 대상으로 해운산업에 대한 분위수 모형을 추정한다. 본 연구는 두 가지 학술적 기여를 목표로 한다. 첫째, 혼재된 실증분석 결과가 제기되는 원자재 운송 시장의 대표적 선종인 Capesize 중고선과 운임시장의 연관성을 분석한다. 둘째, 분위수 회귀로 김현석·장명희(2020a) 연구에서 제기하는 구조변환을 고려하는 실증분석 모형을 제시한다. 분석 결과는 분위수 모형은 시계열 자료에서 구조변화를 분석에 반영함으로써 오차의 불안정성으로 제기되는 문제를 우회할 수 있음을 확인한다. 그리고 공적분 모형의 장기 균형관계를 장기와 단기 추정변수를 통해 외생변수의 장·단기 영향으로 구분하고, 이를 분위별로 세분화한 예측으로 확장한다. 이상의 추정결과는 해운 이론모형에 기반한 분석을 인공지능과 기계학습으로 확장할 수 있는 근거가 된다.

평률 회귀분석을 위한 추정 방법의 비교 (Comparison of estimation methods for expectile regression)

  • 김종민;강기훈
    • 응용통계연구
    • /
    • 제31권3호
    • /
    • pp.343-352
    • /
    • 2018
  • 설명변수가 주어졌을 때 반응변수의 평균적인 추세뿐만 아니라 극단적인 지역에서의 추세에 대해서 추정하고 싶거나 반응변수 분포의 일반적인 탐색을 위해서는 분위수 회귀분석과 평률 회귀분석을 사용할 수 있다. 본 논문에서는 평률 회귀모형의 추정을 위한 모수적 방법과 비모수적 방법의 성능을 비교하고자 한다. 이를 위해 각 추정 방법을 소개하고 여러 상황의 모의실험 및 실제자료에의 적용을 통해 비교 분석을 실시하였다. 모형에 따라 성능 차이가 있는데 자료의 형태가 복잡하여 변수 간의 관계를 유추하기 힘들 경우 비모수적으로 추정한 평률 회귀분석모형이 더욱 좋은 결과를 보였다. 일반적인 회귀분석의 경우와 달리 평률의 경우 후보가 되는 모수 모형을 상정하기 어렵다는 측면에서 볼 때, 비모수적 방법의 사용이 추천될 수 있다.