• 제목/요약/키워드: 표본선택 모형

검색결과 119건 처리시간 0.024초

강우사상 이변량 빈도해석을 위한 Peaks Over Threshold (POT) 방법을 이용한 적정 확률표본 선택 연구 (Appropriate Sample Size for Bivariate Frequency Analysis of Rainfall Event using Peaks Over Threshold (POT))

  • 주경원;김한빈;안현준;허준행
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2018년도 학술발표회
    • /
    • pp.304-304
    • /
    • 2018
  • 이변량 빈도해석은 일반적으로 고정지속기간 강우량에 대해 빈도해석하는 단변량 빈도해석에 비해 지속기간을 확률변수로 이용하여 강우량과 동시에 확률변수로 사용할 수 있다는 장점이 있다. 하지만 확률분포형의 차원이 증가하기 때문에 기존 단변량 빈도해석에서 요구되던 표본크기보다 더 많은 표본이 필요하다. 우리나라 강우관측소의 경우 오래된 관측소의 경우에도 기록년수가 60년을 넘지 않아 연최대계열로 확률표본을 작성할 경우 이변량 빈도해석을 수행하기에 부족할 수 있다. 따라서 본 연구에서는 Peaks Over Threshold (POT) 방법을 이용하여 적정 확률표본을 선택하는 연구를 진행하였다. 서울 기상청 지점의 강우자료로부터 최소무강우시간을 이용하여 모든 강우사상을 추출하였으며 각 강우사상의 강우량과 지속기간이 확률변수로 사용되었다. 기존에 알려진 POT 방법들과 Anderson-Darling 적합도 검정을 이용한 절단값 산정방법등을 적용하여 확률표본 개수의 변화에 따른 주변분포형의 적합도 검정과 이변량 확률모형의 적합성을 살펴보았다.

  • PDF

수정 결정계수를 사용한 로지스틱 회귀모형에서의 변수선택법 (Variable Selection for Logistic Regression Model Using Adjusted Coefficients of Determination)

  • 홍종선;함주형;김호일
    • 응용통계연구
    • /
    • 제18권2호
    • /
    • pp.435-443
    • /
    • 2005
  • 로지스틱 회귀모형에서 결정계수는 선형 회귀모형보다 다양하게 정의되며 그 값들도 매우 작아 로지스틱 회귀모형 평가기준으로 사용되는 통계량이 라고 할 수 없다. Liao와 McGee(2003)는 부적절한 설명변수의 추가 또는 표본크기의 변화에 민감하지 않은 두 종류의 수정 결정계수를 제안하였다. 본 연구에서는 실제자료에 적용한 로지스틱 회귀모형에서 수정 결정계수를 포함한 네 종류의 결정계수들을 변수선택의 기준으로 사용하여 기존의 변수선택 방법인 전진선택, 후진제거, 단계적 선택방법, AIC 통계량 등을 사용한 방법들과 비교하여 그 적절함과 효율성을 토론한다.

이변량 프로빗모형을 이용한 미결정자 추론 (Undecided inference using bivariate probit models)

  • 홍종선;정미향
    • Journal of the Korean Data and Information Science Society
    • /
    • 제22권6호
    • /
    • pp.1017-1028
    • /
    • 2011
  • 신용평가를 판단하기 어렵기 때문에 평가를 유보하고 특별한 전문가에게 재심사를 의뢰하기 위하여 결정이 보류된 미결정자에 대한 미결정자 추론은 신용평가 분야 이외에도 의학통계와 스포츠통계등 대부분의 통계적 모형에서 발생하는 문제이다. 본 연구에서는 미결정자 추론을 비임의결측 가정하에서의 결측자료 유형으로 간주하고, 표본선택모형 중의 하나인 이변량 프로빗모형을 이용한다. 결정된 차주의 특성을 나타내는 확률변수를 사용하여 미결정자를 추론하는 방법과 보다 정확한 정보를 수집한 후 추가적인 확률변수를 사용하여 추론하는 방법을 제안한다. 실증예제를 통하여 특성변수의 조합과 다양한 미결정 구간, 그리고 절단점의 변동에 따라 미결정자와 전체 오분류율을 비교한다. 미결정구간을 확대하거나 정확한 신용정보를 모형에 추가하여 사용하면 정상 집단과 부도 집단의 정보를 더욱 정확하게 반영할 수 있기 때문에 미결정자와 전체 오분류율의 큰 감소효과를 기대할 수 있다.

Nonstationary Frequency Analysis for Annual Maximum Data

  • 김수영
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2017년도 학술발표회
    • /
    • pp.4-4
    • /
    • 2017
  • 수문자료의 빈도해석은 자료의 독립성(independence)와 정상성(stationarity)를 가정하여 이뤄진다. 그러나 관측 수문자료에서 비정상성 현상이 발생하고 있다는 사실이 관측되면서 수문자료에 대한 비정상성 빈도해석에 대한 필요성도 커지고 있다. 본 연구의 목적은 수문자료의 빈도해석에서 가장 널리 사용되고 있는 Gumbel 및 GEV 분포에 대한 비정상성 빈도해석 모형을 개발하는 것으로, 이를 위해 비정상성 Gumbel과 GEV 모형의 매개변수를 시간에 따라 변하는 형태로 정의하였다. 비정상성 Gumbel 및 GEV 모형의 정확도를 알아보기 위해 비정상성 모형과정상성 모형을 이용하여 Monte Carlo 모의실험을 수행하였다. 모의실험은 다양한 조건의 재현기간, 표본크기, 매개변수 조건을 고려하여 수행되었다. 그 결과 비정상성 모형의 오차는 비교적 표본크기가 클 때 가장 작은 것으로 나타났다. 또한 복잡한 매개변수의 조합을 가지는 비정상성 모형은 모두 동일한 경향성을 가질 때 가장 작은 오차를 보이는 것으로 나타났다. 비정상성 GEV 모형의 경우는 확률수문량 산정에 음(-)의 형상 매개변수가 큰 영향을 끼치는 것으로 나타났다. 또한 본 연구에서는 비정상성 조건에서 다양하게 존재하는 비정상성 모형 중 어떠한 모형이 주어진 자료에 대해 가장 적절한 모형인지 결정하기 위해 모의실험을 수행하였다. 널리 적용되고 있는 AIC, BIC, likelihood ratio test에 대해 정상성 및 비정상성 Gumbel 모형을 이용하여 모의실험을 수행한 결과, AIC가 비정상성 모형 중 적정 모형 선택에 가장 효과적인 것으로 나타났다. 개발된 비정상성 Gumbel 및 GEV 모형의 적용성을 알아보기 위해 우리나라 연최대강우 자료에 적용한 결과, 위치 매개변수에 시간항을 고려하는 Gumbel 모형이 최적모형으로 가장 많이 선택되는 것으로 나타났다. 따라서 현재 우리나라의 연최대강우자료 중 경향성이 나타나는 자료에 대해서는 위치 매개변수가 시간에 따라 변하는 특성이 가장 많이 나타나고 있는 것으로 판단된다.

  • PDF

모형 선택 기준들에 대한 LASSO 회귀 모형 편의의 영향 연구 (A study on bias effect of LASSO regression for model selection criteria)

  • 유동현
    • 응용통계연구
    • /
    • 제29권4호
    • /
    • pp.643-656
    • /
    • 2016
  • 고차원 자료(high dimensional data)는 변수의 수가 표본의 수보다 많은 자료로 다양한 분야에서 관측 또는 생성되고 있다. 일반적으로, 고차원 자료에 대한 회귀 모형에서는 모수의 추정과 과적합을 피하기 위하여 변수 선택이 이루어진다. 벌점화 회귀 모형(penalized regression model)은 변수 선택과 회귀 계수의 추정을 동시에 수행하는 장점으로 인하여 고차원 자료에 빈번하게 적용되고 있다. 하지만, 벌점화 회귀 모형에서도 여전히 조율 모수 선택(tuning parameter selection)을 통한 최적의 모형 선택이 요구된다. 본 논문에서는 벌점화 회귀 모형 중에서 대표적인 LASSO 회귀 모형을 기반으로 모형 선택의 기준들에 대한 LASSO 회귀 추정량의 편의가 어떠한 영향을 미치는지 모의실험을 통하여 수치적으로 연구하였고 편의의 보정의 필요성에 대하여 나타내었다. 실제 자료 분석에서의 영향을 나타내기 위하여, 폐암 환자의 유전자 발현량(gene expression) 자료를 기반으로 바이오마커 식별(biomarker identification) 문제에 적용하였다.

확률효용모형 분석을 통한 국립공원의 경제적 가치 평가 (Random Utility Models and the Value of National Parks in Korea)

  • 권오상
    • 자원ㆍ환경경제연구
    • /
    • 제14권1호
    • /
    • pp.51-73
    • /
    • 2005
  • 소비자들이 실제로 선택한 행위를 분석하여 국립공원과 같은 자연생태계에 대한 수요를 분석하고 그 경제적 가치를 도출하는 대표적인 방법은 여행비용법과 이산선택모형을 이용하는 방법이다. 한국에서는 여행비용법의 적용사례는 상당히 많이 있으나, 상대적으로 많은 장점을 가짐에도 불구하고 이산선택모형을 적절히 적용한 연구사례는 아직 없는 실정이다. 본 연구는 전국적인 표본조사를 통해 18개 국립공원 가운데 방문지를 선택하는 행위를 조건부로짓모형과 계층로짓모형을 추정해 실증분석하고, 그 결과를 이용해 각 국립공원별 경제적 가치와 국립공원 특성별 경제적 가치를 도출한다.

  • PDF

시민지불의사에 기초한 태화강 수질개선의 사회적 편익 (Social Benefits of Improved Water Quality at the Taehwa River Based on Citizen's Willingness-to-Pay)

  • 김재홍
    • 환경정책연구
    • /
    • 제6권1호
    • /
    • pp.83-109
    • /
    • 2007
  • 본 연구는 이중양분선택형 조건부가치측정 법을 이용하여 태화강 수질개선의 편익에 대한 울산시민의 지불의사를 계량화하였다. 이변량 프로빗 모형으로 추정한 태화강 수질개선의 편익은 가구당 월평균 3,458.5원(표준편차 1,553.4원)으로 추정되어 울산광역시 전체로는 연평균 147.6억 원(140.4억 원$\sim$155.5억 원)에 이른다. 이러한 추정치는 태화강 수질을 개선하지 않을 경우의 수질오염으로 인한 사회적 비용 또는 수질개선에 의한 사회적 편익에 해당한다. 본 연구는 태화강 수질개선의 사회적 편익을 화폐가치로 추정함으로써 다양한 태화강 수질 개선사업의 타당성 검정을 위한 비용편익분석의 기초 자료로 활용될 수 있을 것이다. 또한 방법론적 측면에서 표본선택모형을 이용하여 이중양분선택형 설문을 이용한 조건부가치측정법에서 발생 가능한 두 응답 간 상호의존성 유무를 검정하였으며, 본 연구에서 사용한 자료에서는 지속성 가설, 정박가설, 비용기대가설, 긍정응답가설, 프레임가설 등 모든 종류의 두 응답 간 상호의존성이 통계적으로는 유의하지 않은 것으로 나타났다.

  • PDF

우리나라 소비자물가상승률 예측 (Forecasting Korean CPI Inflation)

  • 강규호;김정성;신세림
    • 경제분석
    • /
    • 제27권4호
    • /
    • pp.1-42
    • /
    • 2021
  • 우리나라 소비자물가상승률에 대한 예측은 한국은행의 물가안정목표제 운용, 채권시장 참가자의 만기 포트폴리오 최적화, 부동산 시장 및 민간의 소비와 투자 등 경제 전반에 지대한 영향을 미친다. 본 연구는 향후 3년간 우리나라 소비자물가상승률 예측결과를 제시한다. 이를 위해 우선 자기회귀시차(Autoregressive Distributed Lag, ADL) 모형, AR 모형, 소규모 벡터자기회귀(VAR) 모형, 대규모 VAR 모형의 표본외 예측력을 기준으로 모형선택을 실시한다. 물가상승률에는 다수의 잠재적인 예측변수가 존재하기 때문에 12개의 거시변수를 대상으로 ADL 모형에 베이지안 변수선택기법을 도입하고, 예측력 향상을 위한 정밀한 튜닝과정을 고안하고 적용하였다. VAR 모형에는 미네소타 사전분포를 설정하여 차원의 저주 문제를 극복하고자 하였다. 최근 5년을 대상으로 한 장단기 표본외 예측결과, ADL 모형이 점예측과 분포예측 모두에서 여타 경쟁모형에 비해 전반적으로 우월하였다. 예측조합을 통한 예측결과, 우리나라 소비자물가상승률이 2022년 하반기까지는 현재 비슷한 2% 내외의 수준을 유지할 것으로 보이며, 2023년 상반기부터는 1% 내외로 하락할 것으로 전망된다. 80% 신용구간은 예측치의 대략 ±1%p이다.

메타버스 이용자의 심리 특성 탐색 연구 (An Exploratory Study of Psychological Characteristics of Metaverse Users)

  • 김현정;김현중;김범수;노환호
    • 지식경영연구
    • /
    • 제24권4호
    • /
    • pp.63-85
    • /
    • 2023
  • 본 연구는 코로나-19 시대를 거치며 증가한 메타버스 공간에 관한 관심을 바탕으로 주된 이용층을 확인하고 이를 예측하는 변인을 탐색하고자 했다. 온라인 활동을 예측하기 위해서는 이용자 이용 목적과 동기 및 관련된 인구통계적 요인을 확인해야 하므로 이를 예측 변인으로 모형 분석을 진행했다. 2022년 한국미디어패널조사 데이터를 바탕으로 메타버스 이용자를 예측하는 Heckman 2단계 표본선택모형 분석을 수행했다. 분석 결과 1단계 선택모형에서 메타버스 이용을 결정하는 주된 요인으로는 오프라인 활동, 개방성, OTT 이용 여부, 그리고 유료 콘텐츠 구입 여부가 확인되었다. 또한 2단계 결과모형에서는 개방성, 성별, 유료 콘텐츠 구입 여부가 메타버스 이용 시간을 높이는 주된 변인으로 확인되었다. 이 연구 결과는 코로나-19 시대 온라인 활동 증가와 함께 메타버스 서비스에 관한 관심이 높아지고 있는 상황에서, 메타버스 이용자를 이해하고 예측하는 데 기여할 수 있을 것이다. 또한 메타버스 플랫폼 관련 기업과 개발자에게 유용한 정보를 제공할 수 있을 것이다.

세그먼트 변화를 추적하는 다차원척도법

  • 김주영
    • Asia Marketing Journal
    • /
    • 제1권4호
    • /
    • pp.1-23
    • /
    • 1999
  • 포지셔닝맵은 마케팅전략의 핵심인 STP전략을 세우는데 유용한 도구이나 포지셔닝맵을 그리기 위해서는 여러 가지 분석도구를 혼합하여 사용하여야 하였다. 본 논문에서는 완벽하지 않은 소비자 pick any/N자료와 상표의 특성자료를 이용하여, 세분시장을 모델 내에서 구분하고, 이들의 이상점을 찾아주고, 나아가서 시간의 흐름에 따라 이상점의 변화를 찾아주면서 포지셔닝맵을 그려주는 새로운 external 다차원척도모형을 제시하고 있다. 모델의 성과를 확인하기 위해서 차원의 변화, 세분시장변화, 상표구성의 변화 및 소비자표본의 변화를 임의로 만들어서 가상의 자료를 통해서 검증하였다. 실제로 사용해 보려면 저자의 홈페이지에서 프로그램을 다운 받을 수도 있다.

  • PDF