• 제목/요약/키워드: 단계적 선형회귀 분석

검색결과 99건 처리시간 0.02초

나이브 베이즈 분류와 기상예보자료 기반의 농업용 저수지 저수율 전망을 위한 저수율 예측 다중선형 회귀모형 개발 (Development of Multiple Linear Regression Model to Predict Agricultural Reservoir Storage based on Naive Bayes Classification and Weather Forecast Data)

  • 김진욱;정충길;이지완;김성준
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2018년도 학술발표회
    • /
    • pp.112-112
    • /
    • 2018
  • 최근 이상기후로 인한 국부적인 혹은 광역적인 가뭄이 빈번하게 발생하고 있는 추세이며 발생횟수 뿐 아니라 가뭄 심도 및 지속기간이 과거보다 크게 증가하여 그에 따른 피해가 커질 것으로 예측되고 있다. 특히, 2014~2015년도의 유례없는 가뭄으로 인해 저수지 용수공급이 제한되면서 많은 농가들이 피해를 입었다. 본 연구의 목적은 전국 농업용 저수지를 대상으로 기상청 3개월 예보자료를 활용 할 수 있는 농업용 저수지 저수율 다중선형 회귀 모형을 개발하여 저수율 전망정보를 생산하는 것이다. 본 연구에서는 전국에 적용 가능한 저수율 다중선형 회귀 모형개발을 위해 5개의 기상요소(강수량, 최고기온, 최저기온, 평균기온, 평균풍속)와 관측 저수지 저수율을 활용했다. 기상자료는 2002년부터 2017년까지의 기상청 63개 지상관측소로부터 기상관측자료를 수집하였다. 본 연구에서는 저수율 전망 단계를 세 단계로 나누었다. 첫 번째 단계로 농어촌공사에서 전국 511개 용수구역을 대상으로 군집분석 및 의사결정나무 분석을 통해 제시한 65개 대표저수지를 대상으로 기상자료 및 관측 저수율 자료를 이용하여 다중선형 회귀분석을 실시하였다. 수집한 기상요소와 저수율을 독립변수로 하여 월별 회귀식을 산정한 결과 결정계수($R^2$)는 0.51~0.95로 나타났다. 두 번째 단계로 대표저수지의 회귀분석 결과를 전국의 저수지로 확대하기 위해 나이브 베이즈 분류법을 적용하여 전국 3098개의 저수지를 65의 군집으로 분류하고 각각의 군집에 해당되는 월별 회귀식을 산정하였다. 마지막으로 전국 저수지로 산정된 회귀식과 농업 가뭄 예측을 위해 기상청의 GS5(Global Seasonal Forecasting System 5) 3개월 예보자료를 수집하여 회귀식에 적용해 2017년 전국 저수지의 3개월 저수율 전망정보를 생산하였다. 본 연구의 전국 저수지 군집결과 기반의 저수율 전망기술은 2017년도 관측 저수율과 비교한 결과 유의한 상관성을 나타냈으며 이 결과는 추후 농업용 저수지의 물 공급 및 농업가뭄 전망 자료로서 이용이 가능할 것으로 판단된다.

  • PDF

비선형 혼합효과모형에서의 로버스트 능형회귀 방법과 정량적 고속 대량 스크리닝 자료에의 응용 (Robust ridge regression for nonlinear mixed effects models with applications to quantitative high throughput screening assay data)

  • 유지선;임창원
    • 응용통계연구
    • /
    • 제31권1호
    • /
    • pp.123-137
    • /
    • 2018
  • 비선형 혼합효과 모형은 다양한 분야에서 반복 측정 자료를 분석할 때 주로 사용된다. 비선형 혼합효과 모형은 개체 내 변동(intra-individual variation)에 대해 고려하는 제 1단계 개별수준모델(individual-level model)과 개체간 변동(inter-individual variation)에 대해 고려하는 제 2단계 개체군모델(population model)의 두 단계로 구성되어 있다. 비선형 혼합효과 모형의 첫 번째 단계인 개별수준모델은 비선형 회귀모형의 모수를 추정하는 것으로 일반적인 비선형 회귀모형과 같고, 주로 보통최소제곱추정 방법을 사용하여 모수를 추정한다. 그러나 최소제곱추정방법은 가정된 비선형 함수가 자료에 의해 명시적으로 드러나지 않는 경우 모수의 추정값과 그 표준오차가 극단적으로 커지는 문제가 발생할 수 있다. 본 논문에서는 최근에 비선형 회귀모형에서 제안된 능형회귀(ridge regression) 방법을 비선형 혼합효과 모형의 제 1단계 개별수준모델에 도입함으로써 이러한 문제를 해결할 수 있는 새로운 추정방법을 제안하였다. 제안된 추정량은 모의실험 연구를 통하여 기존의 표준적인 추정량과 그 성능을 비교하였다. 또한 미국의 National Toxicology Program으로부터 얻어진 정량적 대량고속 스크리닝(quantitative high throughput screening) 실제 자료를 사용하여 추정 방법들을 비교하였다.

가중치 부여 방법에 따른 가중 비선형 회귀 쌍곡선법의 침하 예측 정확도 분석 (Settlement Prediction Accuracy Analysis of Weighted Nonlinear Regression Hyperbolic Method According to the Weighting Method)

  • 곽태영;우상인;홍성호;이주형;백성하
    • 한국지반공학회논문집
    • /
    • 제39권4호
    • /
    • pp.45-54
    • /
    • 2023
  • 설계 단계에서의 침하 예측은 주로 이론적 침하 예측 방법에 의해 수행되지만, 정확도의 문제로 인해 시공 단계에서는 주로 시간에 따른 침하량 계측 결과를 토대로 장래 침하량을 예측하는 계측 기반 침하 예측 방법을 적용하고 있다. 계측 기반 침하 예측 방법 중에서도 쌍곡선법이 주로 쓰이고 있으나 기존의 쌍곡선법은 정확도가 떨어지며 통계적 측면에서 한계점이 명확하기 때문에, 가중 비선형 회귀 분석 기반의 쌍곡선법이 제안된 바 있다. 본 연구에서는 가중 비선형 회귀 쌍곡선법에 두 가지 가중치 부여 방식을 적용하여 침하 예측 정확도를 비교 분석하였다. 부산 신항에 위치한 두 현장에서 측정한 지표침하판 데이터를 활용했으며, 회귀분석 구간을 전체 데이터에 30, 50, 70%로 설정해 나머지 구간의 침하를 예측했다. 그 결과, 가중치 부여 방식과 무관하게 쌍곡선법 기반의 침하 예측 방법은 모두 회귀 분석 구간이 증가할수록 정확도가 높게 나타났으며, 가중 비선형 회귀 쌍곡선법을 통해 기존 선형 회귀 쌍곡선법 보다 정확하게 침하를 예측할 수 있었다. 특히 더 작은 회귀분석 구간이 적용되었음에도 가중 비선형 회귀 쌍곡선법이 기존 선형 회귀 쌍곡선법에 비해 높은 침하 예측 성능을 보여, 가중 비선형 회귀 쌍곡선법을 통해 훨씬 빠르고 정확하게 침하량을 예측할 수 있음을 확인했다.

공간가중회귀분석을 이용한 통행발생모형 (Trip Generation Model based on Geographically Weighted Regression)

  • 김진희;박일섭;정진혁
    • 대한교통학회지
    • /
    • 제29권2호
    • /
    • pp.101-109
    • /
    • 2011
  • 대다수의 현대 도시들은 집적의 이익을 극대화하기 위해 군집을 형성하고 각 지역 간에 다양한 공간적 영향을 주고받는다. 그러나 전통적 4단계 수요예측방법의 첫 단계인 통행발생단계에서 주로 적용되는 선형회귀분석모형은 공간적 영향을 반영할 수 없다는 단점이 있다. 이러한 문제를 해결하기 위해서 공간적 상관성을 반영할 수 있는 통행 발생모형을 구축하는 것이 필요하다. 본 연구에서는 공간적 상관성을 고려할 수 있는 통행발생모형으로 공간가중회귀모형(Geographically Weighted Regression)을 제안한다. 공간가중회귀모형은 공간적 상관성을 고려할 수 있는 가중치 행렬을 추정하고 이를 이용하여 회귀식의 계수를 각 존별로 추정하는 것이다. 본 연구에서는 대구광역권 통행자료를 이용하여 공간가중회귀모형을 적용하였다. 공간가중회귀모형의 우수성을 평가하기 위하여 일반적인 회귀모형과 적합도, RMSE 등을 비교분석하였다. 또한 국지적 공간상관성을 측정하는 척도인 LISA(Local Indicator of Spatial Association) 지표를 각 모형별로 산출하였다. LISA 지표를 통하여 현재 분석대상지역은 국지적 공간상관성이 존재함을 확인할 수 있으며 공간가중회귀모형을 적용함으로써 공간상관성으로 인한 오차가 크게 개선됨을 확인할 수 있다.

PGA 투어의 골프 스코어 예측 및 분석 (Prediction of golf scores on the PGA tour using statistical models)

  • 임정은;임영인;송종우
    • 응용통계연구
    • /
    • 제30권1호
    • /
    • pp.41-55
    • /
    • 2017
  • 최근 골프는 많은 사람들의 취미 생활로서 자리를 잡아가고 있으며 골프와 관련된 연구도 다양하게 이루어지고 있다. 본 연구에서는 데이터 마이닝 기법을 사용하여 PGA 투어에 참여하는 선수들의 평균스코어를 예측하고 스코어에 유의한 영향을 미치는 변수들을 제시하고자 한다. 그리고 추가적으로 4개의 PGA 투어 플레이오프에 대해 상위 10명, 상위 25명의 선수들을 예측하는 것을 목표로 한다. 우리는 다양한 선형/비선형 회귀분석 방법을 이용하여 평균스코어를 예측하는데, 선형회귀분석 방법으로는 단계적 선택법, 모든 가능한 회귀모형, 라소(LASSO), 능형회귀, 주성분회귀분석을 사용하였으며 비선형회귀분석 방법으로는 트리(CART), 배깅, 그래디언트 부스팅, 신경망 모형, 랜덤 포레스트, 최근접이웃방법(KNN)을 사용하였다. 대부분의 모형에서 공통적으로 선택된 변수들을 살펴보면 페어웨이의 단단함와 그린의 풀의 높이, 평균최대풍속이 높을수록 선수들의 평균스코어는 높아지며 반대로 한 번에 퍼팅을 성공시키는 횟수와 그린적중률 실패 후 버디나 이글로 점수를 만드는 scrambling 변수들, 그리고 공을 멀리 보낼 수 있는 능력을 나타내는 longest drive는 그 값이 높아짐에 따라 선수들의 평균스코어가 낮아지는 경향이 있음을 알 수 있었다. 11가지 모형 모두 테스트 데이터인 2015년 경기 결과를 예측하는데 낮은 오류율을 보였으나 배깅과 랜덤 포레스트의 예측률이 가장 좋았으며 두 모형 모두 상위 10명과 상위 25명의 랭킹을 예측할 때 상당히 높은 적중률을 보였다.

대형 데이터에서 VIF회귀를 이용한 신속 강건 변수선택법 (Fast robust variable selection using VIF regression in large datasets)

  • 서한손
    • 응용통계연구
    • /
    • 제31권4호
    • /
    • pp.463-473
    • /
    • 2018
  • 연구에서는 선형회귀모형을 가정한 대형 데이터에서의 변수선택 알고리즘을 다룬다. 방법의 속도와 강건성에 주안점을 둔 여러 알고리즘들이 제안되었다. 그 중에서 streamwise 회귀 접근법을 사용한 VIF회귀는 신속하고 정확하게 수행된다. 그러나 VIF회귀는 최소제곱방법에 의해 모형이 추정되므로 이상치에 민감하다. 변수선택방법의 강건성을 높이기 위해 가중 추정치를 사용한 강건측도가 제안되었으며 강건 VIF회귀도 제안되었다. 본 연구에서는 잠재적 이상치를 탐지하여 제거한 후 VIF회귀를 수행하는, 빠르고 강건한 변수선택 방법을 제안한다. 제안된 방법은 모의실험과 데이터 분석 통해 다른 방법들과 비교된다.

사무소용 빌딩의 부하종별 국내외 수용률 적용실태 분석에 관한 연구 (Recommended Practice for a Reasonable Design Demand Factor and Analysis of Power Consumption Characteristics by loads in Office Buildings)

  • 김세동
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2005년도 학술대회 논문집 전문대학교육위원
    • /
    • pp.113-117
    • /
    • 2005
  • 사무소용 빌딩과 같은 전력다소비 건물에서는 전력의 효율적 이용에 의한 에너지절감을 위해서 설계 단계부터 합리적인 전기설비 설계가 요청되고 있다. 본 연구에서는 사무소용 빌딩을 중심으로 일본과 우리나라에 있어서 일반전등전열부하 및 일반동력부하의 전력 소비특성을 조사 분석하였고, 전기설계사무소의 설계단계에서 적용하는 수용률값을 조사하였다. 조사된 자료의 전체 특징과 중심적인 경향을 알아 보기 위해서 평균값 표준편차, 최대값, 최소값, 중앙값 등의 특징파라메터를 분석하였고, 회귀분석을 통한 선형적인 방법과 비선형적인 방법으로 그 경향을 확인하였다. 그 결과 국내 합성 수용률/부등률 평균값은 46.4%로 나타나 전력용변압기는 용량에 있어서 많은 여유를 가지고 있는 것으로 나타났다. 이를 토대로 변전설비용량의 합리적인 설계를 위하여 부하종별 수용률 기준(안)을 제시하였고, 변전설비용량 산정에 필요한 자료를 데이터베이스화하였다.

  • PDF

Tension infiltrometer를 이용한 토양의 침투특성 분석

  • 하규철;전철민;김재곤
    • 한국지하수토양환경학회:학술대회논문집
    • /
    • 한국지하수토양환경학회 2004년도 총회 및 춘계학술발표회
    • /
    • pp.362-365
    • /
    • 2004
  • 토양오염의 확산과정중의 서로 다른 지질적 기반위에 놓인 토양에 대한 침투특성과 4단계 이상의 장력을 적용하여 침투율을 산정하였다. 장력과 침투율과는 지수함수로 비선형 회귀시켜서 산정하였으며, 단지 몇단계의 장력만으로 구하여진 값보다 더 많은 불포화대수리특성과 신뢰성있는 포화수리전도도를 제공할 수 있을 것이다. 구하여진 침투율은 토양분석결과를 비교했을 경우 점토함량이 적은 시료에서 적게나오는 경향이 있고, sand가 많은 토양의 경우 높게 산정되었다.

  • PDF

환경인자를 이용한 산지계류의 계절별 수온변화 예측 (Estimated Headwater Stream Temperature Using Environmental Factors with Seasonal Variations in a Forested Catchment)

  • 남수연;장수진;김석우;이윤태;전근우
    • 한국환경생태학회지
    • /
    • 제34권1호
    • /
    • pp.55-62
    • /
    • 2020
  • 이 연구는 강원대학교 학술림 내의 산지계류를 대상으로 2년간(2017~2018)의 현지 모니터링에 기초하여 수온과 강우, 유량 및 기온 등 환경인자간의 관계를 분석하고, 계절별 산지계류의 수온변화 예측기법에 대하여 검토하였다. 동절기를 제외한 봄, 여름 및 가을철로 구분하여 단계적 다중선형회귀분석을 실시하였으며, 계절별 산지계류의 수온변화에 미치는 환경인자의 영향을 분석하였다. 그 결과, 산지계류의 일평균 수온은 봄철 6.9~17.7℃로 기온과 유의적 관계를 나타내었고, 여름철 12.2~26.3℃로 기온, 유량과 유의적 관계를 나타냈으며, 가을철 3.6~19.3℃로 기온 및 유량과 유의적 관계를 나타내는 등 계절별로 산지계류의 수온에 미치는 영향인자는 다르게 나타났다. 다중선형회귀식은 봄철 (0.553×기온)+(0.086×유량)+4.145(R2=0.505; p<0.01), 여름철 (0.756×기온)+(-0.072×유량)+2.670(R2=0.510; p<0.01), 가을철 (0.738×기온)+(0.028×강우)+2.660(R2=0.844; p<0.01)이었다. 도출된 모든 회귀식의 결정계수(R2)는 기온만으로 예측한 경우보다 높게 나타났고, 봄철에서 가을철로 갈수록 증가하였다. 향후 정밀도 높은 산지계류의 수온변화 예측을 위해서는 지속적인 현지 모니터링과 함께 시·공간적 데이터의 확보가 중요하다고 판단된다.

서울 경마 경기 우승마 예측 모형 연구 (Analysis of Horse Races: Prediction of Winning Horses in Horse Races Using Statistical Models)

  • 최혜민;황나영;황찬경;송종우
    • 응용통계연구
    • /
    • 제28권6호
    • /
    • pp.1133-1146
    • /
    • 2015
  • 경마 산업은 국내 합법 사행산업의 대부분을 차지하고 있다. 그러나 사행성 도박이라는 인식 하에 여타 스포츠 산업에 비해 활발한 통계적 분석이 이루어지지 않고 있다. 본 연구의 목적은 다양한 데이터마이닝 기법을 이용하여 우승마를 예측하는 모형 개발에 있다. 모형 적합에 사용한 데이터는 한국 마사회에서 제공하는 자료를 바탕으로 하였으며, 경마 성적표, 경주마 정보, 기수 정보, 조교사 정보 등을 사용하였다. 예측 모형은 크게 두 모형으로 나누어 순위를 기반으로 한 모형과 기록을 기반으로 한 모형으로 적합하였고, 분석 방법으로는 선형회귀분석, 랜덤 포레스트, 로지스틱 회귀 분석을 사용하였다. 그 결과 말 기본 정보와 과거 우승 경력, 기수의 과거 우승 경력 등이 순위 예측에 큰 영향을 미치는 것을 알 수 있었다. 모형 적합에 사용되지 않은 최근 1개월 간 데이터를 이용하여 단승식, 복승식, 삼복승식으로 배팅한 결과 모형 간 큰 차이가 없었고, 모두 양의 수익을 얻을 수 있었다.