• 제목/요약/키워드: 최적회귀모형

검색결과 226건 처리시간 0.033초

오차분산의 추정에 대한 고찰

  • 김종태;고정환
    • 한국산업정보학회:학술대회논문집
    • /
    • 한국산업정보학회 1999년도 춘계학술대회 발표논문집
    • /
    • pp.185-190
    • /
    • 1999
  • 비모수 회귀모형에 있어서의 오차분산을 추정하는 방법들 중 차분에 기저한 방법(difference-based methods)을 이용한 기존의 추정량들을 비교 분석하는데 목적이 있다. 특히 점근적인 최적 이차차분에 기저한 Hall과 Kay, Titterington(1990)의 HKT 추정량에 대한 그들의 추정량에 대한 문제점들을 제시하고, HKT추정량과, GSJS 추정량, Rice 추정량에 대하여 모의실험을 이용하여 모수에 대한 수렴속도를 비교 분석하였다. 또한 GSJS 추정량에 대한 일치성과 수렴 속도를 보였다.

  • PDF

한국 프로스포츠 선수들의 연봉에 대한 다변량적 분석 (A Multivariate Analysis of Korean Professional Players Salary)

  • 송종우
    • 응용통계연구
    • /
    • 제21권3호
    • /
    • pp.441-453
    • /
    • 2008
  • 프로스포츠 선수들의 연봉은 선수들의 개인 성적과 팀에 대한 기여도 등으로 결정된다는 가정하에 프로농구와 프로야구 선수들의 전년도 성적으로 다음해 연봉을 예측 분석하였다. 분석에 있어서 data visualization 기법을 통해 변수사이의 관계, 이상점 발견, 모형진단등을 하였다. 다중선형회귀 모형(Multiple Linear Regression)과 트리모형(Regression Tree)을 이용해서 자료를 분석하고 모델간 비교를 했으며, Cross-Validation을 이용해서 최적모델을 선택하였다. 특히, 자동으로 변수선택을 하는 stepwise regression방법을 그냥 사용하기보다는 먼저 설명변수들 사이의 관계나 설명변수와 반응변수 사이의 관계등을 조사하고 나서 이를 통해 선택된 변수들을 가지고 stepwise regression과 regression tree 방법론을 이용해서 적절한 변수 및 최종 모형을 선택하였다. 분석결과, 프로농구의 경우에는 경기당 득점, 어시스트, 자유투 성공수, 경력 등이 중요한 변수였고, 프로야구 투수의 경우에는 경력, 9이닝 당 삼진 수, 방어율, 피홈런 수 등이 중요한 변수였고, 프로야구 타자의 경우에는 경력, 안타 수, FA(자유계약)유무 여부 등이 중요한 변수였다.

방화 발생에 영향을 미치는 요인에 관한 연구 (A Study on the Factors Affecting the Arson)

  • 김영철;박우성;이수경
    • 한국화재소방학회논문지
    • /
    • 제28권2호
    • /
    • pp.69-75
    • /
    • 2014
  • 본 연구에서는 방화발생에 영향을 미치는 요인을 도출하기 위하여 발생건수를 종속변수로 하고 경제 인구 사회적 요인을 독립변수로 하는 다중회귀분석을 실시하였다. 다중회귀분석은 선형함수, 준로그함수, 역준로그함수, 이중로그함수 4가지 함수형태에 대해 적용하였으며, 각 단계별로 변수의 선택과 제외를 고려하는 단계적선택 방식을 적용하였다. 다중공선성 문제와 자기상관 문제를 해결하기 위하여 분산확대지수(VIF)와 Durbin-Watson 계수 이용하였으며, 4가지 함수모형에 대하여 수정된 R 제곱(설명력) 값이 0.935 (93.5%)로 가장 값이 높고 통계적으로 유의한 선형함수모형을 최적의 모형으로 결정하고 모형에 대한 해석을 진행하였다. 선형함수모형 결과 방화발생에 영향을 미치는 요인은 범죄발생건수(0.829), 일반이혼율(0.151), 재정자주도(0.149), 소비자물가상승률(0.099) 순으로 도출되었다.

데이터마이닝을 이용한 한우의 우수 지방산합성효소 유전자 조합 선별 (Major gene identification for FASN gene in Korean cattles by data mining)

  • 김병두;김현지;이성원;이제영
    • Journal of the Korean Data and Information Science Society
    • /
    • 제25권6호
    • /
    • pp.1385-1395
    • /
    • 2014
  • 가축의 경제적인 특성은 환경적인 요인과 유전적인 요인의 영향을 받으며, 또한 하나의 유전자가 아닌 여러 유전자의 상호작용의 영향을 받는다고 알려져 있다. 본 논문에서는 선형회귀모형을 활용하여 환경적인 요인을 보정한 자료로 한우의 맛과 육질에 영향을 준다고 밝혀진 지방산합성효소의 단일염기다형성 5개를 이용해 한우의 경제 형질에 영향을 미치는 우수 유전자 조합을 선별하고 우수 유전자형을 밝힌다. 이를 위해 데이터마이닝 기법인 인공신경망, 로지스틱 회귀모형, C5.0, CART 기법을 이용하였다. 공정한 모형 평가를 위해 전체 데이터를 훈련용 데이터 (60%)와 검증용 데이터 (40%)로 나누었고, 훈련용 데이터에서 설정된 모형을 검증용 데이터에 적용시켜 정확도를 비교하였다. 그 결과 C5.0이 최적 모형으로 선정되었으며, C5.0의 의사결정나무를 통해 우수 유전자 조합을 선별하였다.

로지스틱 회귀모형을 이용한 산불발생확률모형 개발 (Development of Forest Fire Occurrence Probability Model Using Logistic Regression)

  • 이병두;유계선;김선영;김경하
    • 한국산림과학회지
    • /
    • 제101권1호
    • /
    • pp.1-6
    • /
    • 2012
  • 산불의 빠른 탐지와 진화를 위해서는 산불이 발생할 가능성이 높은 곳에 산불예방과 진화를 위한 자원을 집중적으로 배치하여야 한다. 이를 위해 임상, 지형 인자, 사회-공간 인자를 이용하여 산불발생확률을 추정할 수 있는 로지스틱 회귀모형을 개발하고, 이를 통해 전국 산불발생확률지도를 작성하였다. 모형 추정 결과 산림 및 묘지와의 거리, 과거의 산불빈도, 침엽수림, 낮은 고도, 급경사에서 산불발생확률이 높은 것으로 나타났으며, 분류정확도는 63% 이었다. 개발된 모형과 지도는 한정된 산불자원을 최적으로 배치하는데 참고자료로 활용될 수 있을 것이다.

정수장 생산량 예측모델 개발 (A Development of Water Supply Prediction Model in Purification Plant)

  • 소병진;권현한;박래건;최병규
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2011년도 학술발표회
    • /
    • pp.171-171
    • /
    • 2011
  • 상수도의 합리적인 운용과 관리를 위해서는 급수량 예측이 매우 중요하다. 기존 급수량 예측은 신경망과 칼만 필터법을 사용한 연구들이 대부분이었다. 이러한 연구결과들은 높은 상관결과를 갖고 있지만 이는 자기상관계수에 대한 높은 의존도에 따른 결과로 볼 수 있다. 즉, 예측의 결과가 전날 수요량을 거의 그대로 따라오는 경향을 띄어, 급수량 예측 그래프가 기존 그래프를 오른쪽으로 이동시킨 것과 같이 나타난다. 본 연구에서는 이러한 문제점들을 해결하기 위해서 물수요량을 예측하는데 있어서 효과적인 예측인자를 도출하는 것이 우선되어야 할 것으로 판단되었다. 이에, 물수요량 특성을 효과적으로 나타내어 줄 수 있는 예측인자로서 강수량, 최저온도, 최고온도, 평균온도 등을 1차적으로 선정하였다. 이들 예측인자들과 서울시 물수요량과의 상관성을 평가하여 최적의 예측인자 Set과 지체시간 등을 산정하였다. 이렇게 선정된 예측인자와 Bayesian 통계기법 기반의 회귀분석 모형을 구축하여 물수요량을 예측하였다. 본 연구에서 적용하고자 하는 계층적 Bayesian 모형은 유사한 특성을 가지는 자료계열들 사이에서 서로 보완이 될 수 있는 정보들을 추출함으로써 모형이 갖는 불확실성을 상당히 줄일 수 있는 방법이다. 이러한 모형적 특징은 생산량 예측에 대한 불확실성 저감 측면에서 장점이 있을 것으로 판단된다. 본 연구에서는 광암, 암사, 구의, 뚝도, 영등포, 강북 정수장을 대상으로 모형의 적합성을 평가하였다. 이러한 연구결과는 향후 정수장 운영계획 및 동일한 시스템을 갖는 상수도 급수량 예측 시 유용하게 사용할 수 있을 것이다.

  • PDF

저류함수모형 매개변수 산정 개선방법의 한강유역 적용 (Improved Parameter Computation Method Applications of Storage Function Model for the Han River Basin)

  • 정동국;전용운;이범희
    • 한국방재학회 논문집
    • /
    • 제8권2호
    • /
    • pp.149-158
    • /
    • 2008
  • 본 연구에서는 저류함수모형을 이용한 홍수유출분석의 시행에서 즘 더 정확한 모의가 가능할 수 있도록 유역에 대한 매개변수를 재 산정하였다. 매개변수의 산정을 위해 민감도분석을 실시하고, 한강유역을 대상으로 각 유역별 지형인자를 새로 추출하였으며, 이를 기준으로 홍수 모의를 통해 유역모형의 유출상수를 홍수직전유출고와의 관계로 회귀분석 하였다. 유역모형의 저류상수는 유역별 홍수사상에 따른 최적의 저류봉수식으로 도출하였으며, 산정된 매개변수를 이용한 보형의 수행 결과를 한국수자원공사의 K-Water(기준상수) 모형 및 한강홍수통제소 형과 비교하여 본 연루의 결과가 관측 수문곡선과 더 유사함을 제시하였다.

매개변수와 유역특성인자의 상호연관성을 고려한 강우-유출 모형 지역화에 관한 연구 (A Study on the Regionalization of Rainfall-Runoff Model Considering the Interrelationship between Parameters and Watershed Characteristics)

  • 김진국;손경환;홍성훈;권현한
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2020년도 학술발표회
    • /
    • pp.311-311
    • /
    • 2020
  • 가뭄·홍수 등 수재해 대응대책 수립 측면에서 유역의 자연유출량 산정은 가장 핵심적인 사항이라 할 수 있다. 우리나라는 전국적으로 수위-유량관측소를 설치하여 실시간 유출량 모니터링을 통해 수문정보를 수집하며, 주요지점을 제외한 유역에서는 주기적으로 강우-유출모형의 매개변수 최적화를 통해 산정된 장기유출량 결과를 자연유출으로 가정하여 수자원 계획 수립시 활용하고 있다. 그러나 강우-유출모형의 최적 매개변수 추정을 위해 활용되는 관측 수문자료는 상대적으로 자료의 연한이 짧고, 계절·공간적인 특성으로 인해 매우 제한적이며, 유역의 특성을 충분히 고려하지 못해 미계측유역의 매개변수 추정시 모형의 자료에서 기인한 불확실성이 크게 발생한다는 단점이 있다. 이에 본 연구에서는 관측자료에 대한 신뢰성이 유의하며, 공간적으로 고르게 분포된 12개 댐 유역을 대상으로 매개변수 지역화 연구를 수행하였다. SCEM-UA기법을 통해 GR4J 강우-유출모형의 매개변수를 최적화 하였으며, 매개변수와의 상관관계 및 선형회귀분석을 통해 유역특성인자를 선별하여 Copula 함수를 통해 지역화된 매개변수를 추정하였다. 최종적으로 본 연구에서 제시된 방법론에 대한 적합성을 평가하기 위하여 매개변수 최적화가 수행된 유역을 미계측 유역으로 가정하여 교차검증 관점에서 적합성을 검토하였으며, 통계적으로 유의한 결과가 도출되는 것을 확인하였다.

  • PDF

시뮬레이션을 통한 다양한 로버스트 회귀추정량의 비교 연구 (A comparison study of various robust regression estimators using simulation)

  • 장수희;윤정연;전희주
    • 응용통계연구
    • /
    • 제29권3호
    • /
    • pp.471-485
    • /
    • 2016
  • 회귀모형의 대표적인 추정법인 최소제곱법은 오차항의 분포가 정규분포를 따르고 이상치가 없는 상황에서는 최적이지만, 자료가 회귀모형의 가정을 만족하지 않을 경우 또는 이상치를 포함하는 경우와 같이 자료가 오염된 상황에서는 왜곡된 추정 결과를 준다. 따라서 이상치에 민감한 최소제곱법의 단점을 보완하기 위해 다양한 로버스트 추정방법이 제안되었다. 본 논문에서는 MLE를 기반으로 제안된 M 추정량, 순서형 통계량을 기반으로 제안된 L 추정량, 잔차의 순위를 기반으로 제안된 R 추정량 계열에서 높은 붕괴점 또는 높은 효율을 갖는 대표적인 추정량들을 다양한 모의실험을 통해 비교 연구하였다. 추정량의 성능을 비교하는데 효율성 뿐만 아니라 편의, 분산을 포함한 분포를 살펴보았다. 그 결과 실제 데이터 적용에는 MM 추정량과 GR 추정량이 좋은 성능을 가진 것으로 보였다.

한계와 이상치가 있는 결측치의 로버스트 다중대체 방법 (Robust multiple imputation method for missings with boundary and outliers)

  • 박유성;오도영;권태연
    • 응용통계연구
    • /
    • 제32권6호
    • /
    • pp.889-898
    • /
    • 2019
  • 항목 무응답(item missing)이 발생한 설문조사에서 결측이 포함된 변수에 이상치(outlier)의 존재와 다른 설문문항 항목과의 논리적 한계(boundary) 조건들이 유의미하다면 결측치 대체문제는 매우 복잡해진다. 한계가 있는 결측값들을 포함한 변수에 이상치가 존재하는 경우, 기존의 회귀분석에 근거한 결측치 대체방법은 편향된 대체값 그리고 한계를 만족하지 않은 대체값을 제시할 가능성이 있다. 이에 본 논문은 회귀모형에 기반을 두고 결측치들을 대체를 함에 있어 이상치와 논리적 한계조건이 자료에 존재하는 경우, 다양한 로버스트 회귀모형과 다중대체 방법의 조합을 통해 해결점을 모색하고자 한다. 이를 위해 이들 방법들의 최적의 조합을 다양한 시나리오별로 모의실험을 통하여 찾아보고 이에 대하여 논의하였다.