• 제목/요약/키워드: 가중회귀분석

검색결과 148건 처리시간 0.024초

유전 알고리즘을 이용한 국소가중회귀의 다중모델 결합을 위한 점진적 앙상블 학습 (Incremental Ensemble Learning for The Combination of Multiple Models of Locally Weighted Regression Using Genetic Algorithm)

  • 김상훈;정병희;이건호
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제7권9호
    • /
    • pp.351-360
    • /
    • 2018
  • 전통적으로 나태한 학습에 해당하는 국소가중회귀(LWR: Locally Weighted Regression)모델은 입력변수인 질의지점에 따라 예측의 해를 얻기 위해 일정구간 범위내의 학습 데이터를 대상으로 질의지점의 거리에 따라 가중값을 달리 부여하여 학습 한 결과로 얻은 짧은 구간내의 회귀식이다. 본 연구는 메모리 기반학습의 형태에 해당하는 LWR을 위한 점진적 앙상블 학습과정을 제안한다. LWR를 위한 본 연구의 점진적 앙상블 학습법은 유전알고리즘을 이용하여 시간에 따라 LWR모델들을 순차적으로 생성하고 통합하는 것이다. 기존의 LWR 한계는 인디케이터 함수와 학습 데이터의 선택에 따라 다중의 LWR모델이 생성될 수 있으며 이 모델에 따라 예측 해의 질도 달라질 수 있다. 하지만 다중의 LWR 모델의 선택이나 결합의 문제 해결을 위한 연구가 수행되지 않았다. 본 연구에서는 인디케이터 함수와 학습 데이터에 따라 초기 LWR 모델을 생성한 후 진화 학습 과정을 반복하여 적절한 인디케이터 함수를 선택하며 또한 다른 학습 데이터에 적용한 LWR 모델의 평가와 개선을 통하여 학습 데이터로 인한 편향을 극복하고자 한다. 모든 구간에 대해 데이터가 발생 되면 점진적으로 LWR모델을 생성하여 보관하는 열심학습(Eager learning)방식을 취하고 있다. 특정 시점에 예측의 해를 얻기 위해 일정구간 내에 신규로 발생된 데이터들을 기반으로 LWR모델을 생성한 후 유전자 알고리즘을 이용하여 구간 내의 기존 LWR모델들과 결합하는 방식이다. 제안하는 학습방법은 기존 단순평균법을 이용한 다중 LWR모델들의 선택방법 보다 적합도 평가에서 우수한 결과를 보여주고 있다. 특정지역의 시간 별 교통량, 고속도로 휴게소의 시간별 매출액 등의 실제 데이터를 적용하여 본 연구의 LWR에 의한 결과들의 연결된 패턴과 다중회귀분석을 이용한 예측결과를 비교하고 있다.

회귀 수식을 이용한 지구화학적 이상분포지역 도출기법: 경기도화강암의 예 (The Methodology for Extraction of Geochemical Anomalies, Using Regression Formula: an Example from a Granitic Body in Gyeonggi Province)

  • 황상기;신성천;염승준;문상원
    • 자원환경지질
    • /
    • 제35권2호
    • /
    • pp.137-147
    • /
    • 2002
  • 자연에서 일어나는 지질작용과 환경변화는 지표 지질물질 내 원소의 존재량에 큰 영향을 미친다. 이 연구에서는 지구화학적 이상현상이 지질기원인지 인위적 요인에 의한 것인지를 판별해 내는 데에 지구통계 .기법을 적용할 수 있는지를 검증하였다. 경기도 전역의 2,290개 1-2차 수계에서 채취한 하천퇴적물(표사, <150 $\mu\textrm{m}$)의 분석결과를 바탕으로, 역거리 가중 보간법으로 광역 지구화학 지도를 작성하였다 지구통계 기법을 검증하기 위해 경기도 남동부에 저반상으로 분포하는 쥬라기 화강암체를 표본지역으로 선정하여, 445개 집수분지를 대표하는 하천퇴적물 시료의 22가지 원소에 대해 요인분석을 하였다. CO, Cf, SC, MgO, Fe$_{2}$O$_{3}$, V, Ni 등이 서로 상관도가 높은 그룹으로 구분되며, 이들의 낮은 함랑은 화강암의 전암 조성에서의 결핍 특성을 잘 반영한다. Co, Cr, Sc을 각각 종속변수로, 이들 외 다른 6가지 성분을 독립변수로 설정하여 회귀분석을 실시하여, 회귀식으로 계산된 값을 바탕으로 분포도를 작성하였다. 회귀식으로 만든 분포도는 각 변수의 본래 분석치로 나타낸 분포도와 매우 유사한 패턴을 보인다 이와 같이 두 가지 분포도가 유사한 것은 회귀분석에 의한 통계기법이 광역적인 지구화차 자료를 해석하는 데에 타당성을 가짐을 말해 준다. 그러나, 일부 성분에서 두 가지 분포도에서 이상대 영역이 서로 일치하지 않는 경우도 있는데, 이는 기반암의 화학조성과는 무관한 이타 요인에 기인할 가능성이 크다 결론적으로, 회귀분석에 의한 지구통계기법을 적용하여, 국지적인 지구화학적 이상현상이 지질기원이 아닌 인위적인 영향에 기인한 것인지를 효과적으로 판별해 낼 수 있는 것으로 검증되었다.

한국프로야구에서 타자능력지수 제안 - 대체선수대비승수(WAR)을 중심으로 (Suggestion of batter ability index in Korea baseball - focusing on the sabermetrics statistics WAR)

  • 이제영;김현규
    • 응용통계연구
    • /
    • 제29권7호
    • /
    • pp.1271-1281
    • /
    • 2016
  • 야구에서 타자의 능력을 측정하는 많은 세이버메트릭스 통계량들 중에서 대체선수대비승수(wins above replacement; WAR)은 가장 많이 쓰이는 통계량이다. WAR은 선수의 공격능력과 주루능력, 수비능력 등을 하나의 수치로 표현하는 방법이란 점에서 큰 장점을 가지고 있다. 본 논문에서는 지난 3년간(2013-2015년) 한국프로야구 기록 자료를 바탕으로 세이버메트릭스 변수들의 값을 구한 뒤, 이를 이용하여 WAR을 대체할 수 있는 타자능력지수를 제안하였다. 타자능력지수는 산술평균방법, 가중평균방법, 주성분회귀분석 등을 통해 산출하고 WAR과 비교하여 가장 관계가 높은 방법을 선택하였다.

통계기법 및 기계학습 기법을 이용한 우리나라 대설피해액 예측 및 적용성 검토 (Predicting and Reviewing the Amount of Snow Damage in Korea using Statistical and Machine Learning Techniques)

  • 이형주;이근우;장현빈;정건희
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2022년도 학술발표회
    • /
    • pp.384-384
    • /
    • 2022
  • 과거의 우리나라 대설피해 양상을 살펴보면 지역적으로 집중되어 피해가 발생하는 것이 특징이다. 그러나 현재는 전국적으로 대설피해가 가중되는 추세이며, 이에 따라 대설피해에 대비 가능한 대책의 강구가 필요한 실정이다. 그러나 피해 발생 시 정확한 피해 예측으로 사전에 재난을 대비가 가능한 수준의 연구는 미흡한 실정이다. 따라서 본 연구에서는 다양한 통계기법과 기계학습 기법을 이용하여 대설로 인해 발생한 피해액을 개략적으로 예측이 가능한 모형을 개발하고자 하였다. 대설피해액 예측 모형은 다중회귀분석, 서포트 벡터 머신, 인공신경망 기법, 랜덤포레스트 기법을 이용하여 총 4가지 기법으로 개발하였으며, 독립변수로 사회·경제적 요소, 기상요소를 사용하였고, 종속변수로는 1994년부터 2020년까지 발생한 대설피해 이력의 대설피해액을 사용하였다. 결과적으로 4가지 예측 모형의 예측력 검증 및 기법 간의 예측력을 비교하여 개발한 모형의 적용성을 검토하였다. 본 연구 결과에서 제시한 모형의 개선방안 및 업데이트 방안을 참고하여 후속 연구가 진행된다면 미래에 전국적으로 확대될 대설피해에 대한 대비가 가능할 것으로 기대되며 복구비 및 예방비 투자의 지역적 우선순위를 분석하여 선제적인 대비가 가능할 것으로 판단된다.

  • PDF

기상인자를 이용한 우리나라의 확률강수량 평가 (Evaluation of Probability Precipitation using Climatic Indices in Korea)

  • 오태석;문영일
    • 한국수자원학회논문집
    • /
    • 제42권9호
    • /
    • pp.681-690
    • /
    • 2009
  • 본 연구에서는 기상인자를 반영하여 확률강수량을 산정하고 불확실성을 평가하였다. 기상인자는 범지구적으로 관측되고 있는 해수면온도와 습윤지수 자료를 이용하였다. 분석 방법은 기상인자와 연최대시간강수량 사이의 지체상관계수를 산정하여 비교함으로써, 우리나라의 시간최대강수량과 상관관계가 큰 기상인자의 관측지역과 지체시간을 선정하고 지역가중다항식을 이용하여 회귀관계를 설정하였다. 다음으로 기상인자를 변동핵밀도함수를 이용하여 확률 밀도함수를 추정하여 모의발생을 수행하였다. 마지막으로 모의된 기상인자를 지역가중다항식을 통해 강수량을 추정하여 확률강수량을 산정하였다. 분석 결과에서 기상인자를 반영한 확률강수량은 강수자료를 빈도해석한 확률강수량과 큰 차이를 보이지 않는 것으로 나타났다. 또한 지구온난화와 같은 기후변화를 반영하는 기상인자를 반영한 확률강수량 산정의 기초자료로 활용할 수 있을 것으로 판단된다.

비선형 회귀모형에서 오차의 분산에 따른 예비검정 추정방법 (Preliminary test estimation method accounting for error variance structure in nonlinear regression models)

  • 유혜원;임창원
    • 응용통계연구
    • /
    • 제29권4호
    • /
    • pp.595-611
    • /
    • 2016
  • 일반적으로 독성학 또는 약리학에서는 자료를 분석할 때 Hill Model과 같은 비선형 회귀모형을 사용한다. 비선형 회귀모형에서 모수의 추정량과 그것의 불확실성(uncertainty)에 대한 측도의 추정은 오차의 분산 구조에 영향을 받게 된다. 따라서 자료가 등분산인지 혹은 이분산인지에 따라 사용하여야 할 추정 방법이 달라져야 한다. 그러나 일반적으로 자료를 실제로 분석하기 전에는 오차의 분산구조에 대해서 잘 알 수 없다. 그러므로 오차의 분산구조에 로버스트한 추정 방법을 개발하는 것은 중요한 문제이다. 본 논문에서는 예비검정 방법을 기반으로 한 비선형 회귀모형에서의 모수 추정 방법을 제안하였다. 오차 분산의 등분산성에 대한 간단한 예비검정의 결과에 따라 보통 최소제곱 추정(ordinary Least Square Estimation) 방법과 반복 가중 최소제곱 추정(iterative weighted least square estimation) 방법을 사용하는 추정량을 정의하였다. 제안된 추정량은 모의실험 연구를 통하여 기존의 표준적인 추정량들과 그 성능을 비교하였다. 또한 미국의 National Toxicology Program으로부터 얻어진 실제자료를 사용하여 추정 방법들을 비교하였다.

지리적 가중회귀모형을 이용한 지역별 걷기실천율의 지역적 변이 및 영향요인 탐색 (Exploring Spatial Variations and Factors associated with Walking Practice in Korea: An Empirical Study based on Geographically Weighted Regression)

  • 김은주;이영서;윤주영
    • 대한간호학회지
    • /
    • 제53권4호
    • /
    • pp.426-438
    • /
    • 2023
  • Purpose: Walking practice is a representative indicator of the level of physical activity of local residents. Although the world health organization addressed reduction in prevalence of insufficient physical activity as a global target, the rate of walking practice in Korea has not improved and there are large regional disparities. Therefore, this study aimed to explore the spatial variations of walking practice and its associated factors in Korea. Methods: A secondary analysis was conducted using Community Health Outcome and Health Determinants Database 1.3 from Korea Centers for Disease Control and Prevention. A total of 229 districts was included in the analysis. We compared the ordinary least squares (OLS) and the geographically weighted regression (GWR) to explore the associated factors of walking practice. MGWR 2.2.1 software was used to explore the spatial distribution of walking practice and modeling the GWR. Results: Walking practice had spatial variations across the country. The results showed that the GWR model had better accommodation of spatial autocorrelation than the OLS model. The GWR results indicated that different predictors of walking practice across regions of Korea. Conclusion: The findings of this study may provide insight to nursing researchers, health professionals, and policy makers in planning health programs to promote walking practices in their respective communities.

공간구문론 및 지리적 가중회귀 기법을 이용한 지가분석 (Land Value Analysis Using Space Syntax and GWR)

  • 김혜영;전철민
    • 한국지리정보학회지
    • /
    • 제15권2호
    • /
    • pp.35-45
    • /
    • 2012
  • 대부분의 지가분석 연구들은 접근성 변수로서 단순 직선거리를 사용하고, 분석방법으로는 OLS를 사용하는 것을 볼 수 있다. 그러나 단순한 거리개념의 접근성을 밀집된 도시지역에 적용시키는 것은 도로 네트워크의 특성을 반영하지 못하는 한계가 있으며, 또한 일반데이터를 위한 분석방법인 OLS는 공간데이터가 가진 공간효과를 고려하지 못하는 한계가 있다. 따라서 본 연구는 개선된 접근성 변수의 개발과 공간효과를 반영한 분석기법에 초점을 두어 지가를 분석하였다. 이를 위해 첫째, 접근성 변수인 도로는 단순한 거리가 아닌 도로네트워크 형태를 고려한 기법인 space syntax를 도입하였다. 둘째, 공간효과를 고려한 GWR을 OLS와 비교하여 분석하였다. 셋째, MAUP 이론을 고려하여 크기가 다른 grid-cell을 이용한 공간단위를 설정하였으며, 이를 강남구에 적용하였다. 더 나아가 각 cell별로 OLS를 통해 독립변수들의 전반적인 영향력을 해석하고, 각 계수들을 국지적인 분석과 도식화가 가능한 GWR을 통해 표현하였다. 분석결과, 접근성 변수는 지가분석에 유의한 결과를 보였으며 GWR이 OLS보다 개선되었고, 공간단위설정에 따라 결과 값이 달라지는 것을 확인할 수 있었다.

누락된 공변량을 가진 원인별 비례위험모형의 분석 (Analysis of the cause-specific proportional hazards model with missing covariates)

  • 이민정
    • 응용통계연구
    • /
    • 제37권2호
    • /
    • pp.225-237
    • /
    • 2024
  • 경쟁위험자료에서 일부 공변량들이 연구대상들의 일부분에 대해 관측되지 않을 수 있다. 그런 경우 결측된 공변량 값을 가진 연구대상들을 분석에서 제외하는 것은 편향된 추정치와 효율성 손실이 발생할 수 있다. 본 논문에서는 누락된 공변량을 가진 원인별 비례위험모형의 회귀모수 추정을 위해 다중대체 방법과 증대된 역 확률 가중 방법을 연구하였다. 모의실험을 통해 다중대체 방법과 증대된 역 확률 가중 방법에 의해 구해진 추정량의 성능을 평가한 결과, 이 방법들이 잘 수행됨을 확인하였다. 미국 국립암연구소의 전립선, 폐, 대장, 난소 암 선별 시험 연구에서 제공하는 종양 크기의 값이 누락된 유방암 자료에 대해 암 사망 위험률과 다른 원인 사망 위험률에 유의한 영향을 미치는 요인을 파악하기 위해 다중대체 방법과 증대된 역 확률 가중 방법을 적용하였다. 다중대체 방법과 증대된 역 확률 가중 방법에 의해 원인별 비례위험모형을 적합한 결과, 인종, 기혼여부, 병기, 분화도, 종양의 크기는 유방암 사망 위험률에 유의한 영향을 미치는 요인들이였으며, 병기가 유방암 사망 위험률을 높이는데 가장 큰 영향을 미치는 요인임을 확인하였다. 진단시 연령과 종양의 크기는 다른 원인 사망 위험률을 높이는데 유의한 영향을 미치는 요인이였다.

MK 검정 및 분위회귀분석을 통한 해수면 자료의 경향성 평가에 관한 연구 (A Study on Trend Analysis in Sea Level Data Through MK Test and Quantile Regression Analysis)

  • 오랑치맥 솜야;김용탁;권현한;황규남
    • 한국해안·해양공학회논문집
    • /
    • 제27권2호
    • /
    • pp.94-104
    • /
    • 2015
  • 우리나라의 연안은 도시개발, 인구증가가 지속적으로 나타나고 있으며, 이러한 점에서 해수면 상승으로 인한 연안재해 취약성이 가중될 것으로 전망되고 있다. 본 연구에서는 우리나라 연안의 20개 지역의 조위자료를 바탕으로 Mann-Kendall(MK) 검정, 선형회귀분석(OR), 분위회귀분석(QRA) 등을 이용하여 해수면상승에 대한 분석을 수행하였다. MK 검정결과 연평균조위의 경우 18개 지점에서 경향성이 통계적으로 유의한 것으로 분석되었으며, 연최대치의 경우에도 10개 지점에서 경향성이 통계적으로 유의(p < 0.05)한 것으로 평가되었다. QRA 방법을 이용하여 해수면의 경향성을 분위별로 평가한 결과 기존 회귀분석 방법에 비해 다각적인 경향성 검토가 가능하였다. QRA분석 결과 연평균해수면은 매년 1-6 mm의 범위에서 상승하고 있으며, 연최대해수면의 경우 1-20 mm의 범위에서 증가경향이 나타나고 있음을 확인할 수 있었다. 우리나라의 해수면상승의 경우 대부분 상향수렴 및 상향발산의 형태를 가지는 경향성을 나타내고 있었다. 향후 연구로서 이러한 경향성을 기반으로 연최대해수면 자료에 대한 비정상성빈도해석 절차의 개발 및 적용이 필요할 것으로 판단된다.