• Title/Summary/Keyword: 변수분석

Search Result 17,134, Processing Time 0.05 seconds

Data Mining for Road Traffic Accident Type Classification (데이터 마이닝을 이용한 교통사고 심각도 분류분석)

  • 손소영
    • Proceedings of the KOR-KST Conference
    • /
    • 1998.10a
    • /
    • pp.373-381
    • /
    • 1998
  • 본 연구는 교통사고 심각도와 관련된 중요변수를 찾고 이들 변수를 바탕으로 신경망, Decision Tree, 로지스틱 회귀분석을 이용하여 사고 심각도 분류 예측모형을 추정하였다. 다수의 범주형 변수로 이루어진 교통사고 통계원표상의 설명변수 들로부터 사고 심각도변화에 영향력 있는 변수선택을 위하여 $X^2$ 독립성 검정과 Decision Tree를 이용하였고, 선택된 변수들은 신경망과 로지스틱 회귀분석의 기초로 이용되었다. 분석결과 세가지기법간에 분류정확도에는 유의한 차이가 없는 것으로 나타났다. 그러나 decision Tree가 설명변수 선택능력과 분석수행시간, 사고 심각도 결정요인 식별의 용이함 측면에서 범주형 종속변수인 사고 심각도의 분석에 적합합 것으로 보이며 사고 심각도에는 보호장구가 가장 큰 영향을 미치는 것으로 재입증되었다.

  • PDF

Representing variables in the latent space (분석변수들의 잠재공간 표현)

  • Huh, Myung-Hoe
    • The Korean Journal of Applied Statistics
    • /
    • v.30 no.4
    • /
    • pp.555-566
    • /
    • 2017
  • For multivariate datasets with large number of variables, classical dimensional reduction methods such as principal component analysis may not be effective for data visualization. The underlying reason is that the dimensionality of the space of variables is often larger than two or three, while the visualization to the human eye is most effective with two or three dimensions. This paper proposes a working procedure which first partitions the variables into several "latent" clusters, explores individual data subsets, and finally integrates findings. We use R pakacage "ClustOfVar" for partitioning variables around latent dimensions and the principal component biplot method to visualize within-cluster patterns. Additionally, we use the technique for embedding supplementary variables to figure out the relationships between within-cluster variables and outside variables.

Regional Characterization Analysis of Drought in Korea Using Multivariate Analyses (다변량 분석을 통한 우리나라 가뭄의 지역적 특성 분석)

  • Yoo, Ji-Young;Choi, Min-Ha;Kim, Tae-Woong
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2009.05a
    • /
    • pp.1462-1466
    • /
    • 2009
  • 우리나라 가뭄의 지역적 특성은 수문학적으로 동질한 지역의 구분 결과에 따라 달라진다. 지역의 구분에는 가뭄에 영향을 미치는 다양한 변수들이 사용될 수 있다. 가뭄을 특징짓는 요소로서 지속기간, 심도, 이외의 통계적 특성들이 있으며, 이 변수들을 정보화하여 변수의 유형을 구분지어 모든 변수들을 요약된 정보로 활용하여 가뭄의 특성을 구분할 수 있다. 본 연구에서는 우리나라 기상청 강우자료 75개 관측지점 중 30년 미만의 강우기록이 있는 17개의 지점을 제외한 58개 강우 관측 지점을 대상으로 가뭄지수(SPI)를 산정하여 가뭄사상의 특성을 정량화 과정으로 남한지역 가뭄특성을 분류하였다. SPSS를 활용한 다변량 분석기법인 주성분 분석(principal component analysis)을 통해 가뭄특성인자의 상관관계가 높은 변수들을 조합하여 그 변수들 중 가뭄정보를 가능한 많이 함축하고 있는 새로운 특성 변수를 만들어 내었으며, 선정된 변수들을 바탕으로 요인분석(factor analysis)의 직각회전 방식(Varimax)을 이용하여 변수들의 표준화를 통해 가뭄특성요인을 찾아내었다. 이를 통해 지역간 동질성을 파악하여 K-means기법을 적용하여 군집해석(clustering analysis)을 실시하였다.

  • PDF

Identification of Homogeneous Regions based on Multivariate Techniques (다변량 분석 기법을 활용한 동질 지역 구분)

  • Nam, Woo-Sung;Kim, Tae-Soon;Heo, Jun-Haeng
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2007.05a
    • /
    • pp.1568-1572
    • /
    • 2007
  • 지역빈도해석은 우리나라와 같이 자료 기간이 짧은 경우 지점빈도해석보다 더 정확한 확률강우량을 산정할 수 있는 기법이다. 지역빈도해석을 통한 확률강우량 산정 결과는 수문학적으로 동질한 지역의 구분 결과에 따라 달라진다. 지역을 구분할 때에는 강우에 영향을 미치는 다양한 변수들이 사용될 수 있다. 변수의 유형과 개수가 지역 구분의 효율성을 좌우하기 때문에 활용 가능한 모든 변수들의 정보를 요약할 수 있는 변수들을 선택하는 것이 지역 구분의 효율성 면에서 유리하다고 할 수 있다. 이런 면에서 지역 구분의 효율성을 증대시킬 목적으로 다변량 분석 기법이 활용될 수 있다. 본 연구에서는 주성분 분석, 요인 분석, Procrustes analysis와 같은 다변량 분석 기법을 활용하여 42개의 강우 관련 변수들을 33개의 변수로 줄일 수 있었다. 분석 결과 변수 개수 감소로 인한 정보 손실은 크지 않은 것으로 나타났다. 따라서 이러한 기법에 의한 변수 차원의 축소는 지역 구분의 효율성 향상에 기여할 수 있는 것으로 판단된다. 선정된 변수들을 바탕으로 군집해석을 수행하여 지역을 구분하였고, L-모멘트에 근거한 이질성척도(H)를 활용하여 구분된 지역의 동질성을 검토하였다. 또한 L-모멘트에 근거한 적합성 척도(Z)를 적용하여 구분된 지역에 적합한 확률분포형을 선정하였고, 선정된 적정 확률분포형을 바탕으로 각 지역에 대한 성장 곡선(growth curve)을 유도하였다.

  • PDF

A Suggestion of Two-Way Variable Algorism for Least-Squares Regression Analysis (상호변수 최소자승 회귀분석 방법의 제안)

  • Lee, Chang-Hae
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2005.05b
    • /
    • pp.189-193
    • /
    • 2005
  • 기존의 회귀식을 사용하거나 새로 유도하여 사용하는 경우 모두 일반적으로 회귀분석의 특성을 간과하고 사용하는 경우가 종종 발생한다. 일반적으로 자료들에서 구해진 회귀식은 분명히 독립변수와 종속변수가 구분되어 유도되었음에도 불구하고 이 식을 사용함에 있어서는 간혹 그 구분을 무시하고 역으로 적용하는 경향이 있었다. 그러나, 독립$\cdot$종속변수가 서로 바뀌면, 연직거리의 잔차들로부터 유도되는 기존의 회귀분석에 의하여, 회귀식이 서로 달라지기 때문에 역으로 적용하여서는 안된다. 이를 해결하기 본 연구에서는 상호변수 최소자승 회귀분석법을 제안하였다. 이론적 내용을 검토를 위해 임진강 영평천의 영중수위표 지점의 2001-2003년의 유량측정자료와 수위-유량곡선을 비교 분석하였다. 결론적으로 상호변수 회귀분석을 사용하면, 기존의 잘못 사용해온 관행을 해소할 수 있을 것이다.

  • PDF

금리와 물가간의 인과관계 ("깁슨의 역설")분석 : VAR 및 VARMA 모형분석

  • Nam, Ju-Ha;Park, Jae-Cheol
    • The Korean Journal of Financial Management
    • /
    • v.10 no.2
    • /
    • pp.161-179
    • /
    • 1993
  • 본 논문은 벡터자기상관(VAR) 모형과 벡터자기상관이동평균(VARMA) 모형을 사용하여 명목금리와 물가(도매물가)사이의 동태적 관계를 분석한다. 명목금리와 물가사이의 정(+)의 상관관계는 소위 $\ulcorner$깁슨의 역설$\lrcorner$로 불리워지고 있는데, 실증분석 결과에 의하면 한국의 경우 깁슨의 역설은 존재하지 않는 것으로 보여진다. 과거의 많은 연구들이 $\ulcorner$깁슨의 역설$\lrcorner$을 지지하는 실증결과들을 발견한 것은 관련변수들의 안정성(stationarity)을 고려치 않은 것으로 판단된다. 본 논문에서처럼 관련변수들의 안정성을 얻기위해 수준변수(예를들면, 도매물가지수) 대신에 차분되거나 증가율을 사용하고, 금리 및 물가이외에 두변수에 영향을 줄 수 있는 변수(예를들면, 통화변수)들을 포함하는 다변수 모형을 이용한다면 우리나라에서는 $\ulcorner$깁슨의 역설$\lrcorner$은 발견되지 않은 것으로 보여진다. 즉, 회사채 수익율과 도매물가상승율을 명목금리와 물가변수로 각각 사용하고, $1972.III{\sim}1991.III$사이의 분기별 자료를 대상으로 분석한 결과, 두변수 사이의 관계는 일방적 인과관계보다는 독립적인 관계로 나타나고 있다.

  • PDF

A Study on Parameter Computation of Storage Function Model for the Han River Basin (한강유역에 대한 저류함수모형의 매개변수 산정에 관한 연구)

  • Jeon Yong Woon;Jeong Dong Kug;Lee Bae Sung;Jeon Kyong Soo
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2005.05b
    • /
    • pp.725-730
    • /
    • 2005
  • 본 연구에서는 저류함수모형을 이용하여 홍수유출분석을 좀더 정확하게 모의하기 위해 선행되어야 하는 유역에 대한 매개변수를 산정하였다. 매개변수를 산정함에 앞서 민감도분석을 실시하고, 연구 대상유역인 한강유역에 대하여 유역별 지형인자를 새로이 추출하였다. 저류함수모형의 중요 매개변수인 유출상수는 홍수직전유출고와의 관계를 이용하여 추정하였으며, 저류상수는 유역별 호우사상에 따른 최적의 저류상수식을 도출함으로써 호우의 특성 및 유역에 대한 물리적인 특성을 반영한 매개변수를 산정하였다. 재산정된 매개변수의 개선효과를 살펴보기 위해 KOWACO 모형과 한강홍수통제소 모형의 기존 매개변수를 이용한 모형 수행결과를 비교분석하였다. 분석결과 기존의 매개변수를 이용할 경우 한강홍수통제소 모형보다는 KOWACO 모형이 우수하며, 개선된 매개변수를 이용할 경우 관측 유출수문곡선에 좀더 근사한 모의결과를 나타내었다.

  • PDF

요인분석을 이용한 대체방법

  • Lee, Jae-Gap;Lee, U-Ri;Jeong, Jae-Gu;Lee, Sang-Eun
    • Proceedings of the Korean Statistical Society Conference
    • /
    • 2003.05a
    • /
    • pp.143-148
    • /
    • 2003
  • 표본조사에서 발생되는 무응답에 대한 대체법은 매우 다양하게 연구 되고 있다. 특히 모형을 기반으로 하는 회귀 대체법은 매우 활용도가 높다. 이 때 일반적으로 종속변수가 결측값의 변수가 되며 독립변수는 주어지게 된다. 주어지 주어진 종속변수와 독립변수의 값을 이용하여 모델을 설정하고 그에 따라 결측값을 예측하여 대체하게 된다. 이 때 예측값 즉 결측값을 구하는 과정에서 독립변수 값 자체에도 결측값이 생기게 된다는 것이다. 이때 여러 가지 방법으로 독립변수의 결측값을 대체하고 모형을 활용할 수 있다. 그러나 이 연구에서는 독립변수들을 같은 특성끼리 그룹화 시키는 요인분석(factor analysis)을 이용하여 독립변수의 결측값에따른 예측된 결측값의 변동을 최소화 하고자했다.

  • PDF

시차종속변수(時差從屬變數)에 의한 우리 나라 원목수요분석(原木需要分析)

  • Kim, Jun-Sun
    • Environmental and Resource Economics Review
    • /
    • v.8 no.1
    • /
    • pp.131-147
    • /
    • 1998
  • 본 논문은 시차종속변수를 이용한 우리 나라 원목수요분석을 통해 장기원목수요의 변화를 예측하는 데 그 목적이 있다. 원목수요는 재화의 특성상 파생수요를 전제하여 분석하였다. 분석에서는 1970년부터 1996년까지 27년간의 원목수요 자료를 이용하였다. 원목수요는 1980년대 들어서면서 1970년대와 같은 빠른 증가는 아니지만 지속적으로 완만히 증가하다가 1991년을 정점으로 하향 안정세를 보이고 있다. 분석에서는 적응적 기대모형과 부분적 조정모형을 사용하였다. 1977년에서 1979년까지 원목수요량의 급격한 증가를 설명하기 위하여 모형내에 더미변수를 사용하였다. 설명변수는 원목가격, 더미변수, 파생재화(목재 및 나무제품)의 가격과 시차종속변수를 이용하였다. 분석 결과, 적응적 기대모형은 시차종속변수를 사용해야 할 만큼 유의한 결과를 얻을 수 없었다. 하지만 부분적 조정모형에서는 각 변수의 추정치가 전반적으로 유의하게 나타났다. 특히, 시차종속변수 추정치에 대한 t값이 2.07로 유의하게 나옴으로써 모형의 설명력을 높여 주었다. 부분적 조정모형의 수정계수는 0.74 정도로 나타났다. 부분적 조정모형의 가정하에 2010년까지 매년 원목가격지수 6.7%와 국내 목제품가격지수 5.8% 상승률에 근거한 방법과 원목가격지수 6.8%와 목제품가격지수 5.6%로 전제하여 원목수요를 전망하였다. 그 결과, 원목수요는 지속적으로 상승하는 것으로 나타났다. 일정한 가격상승률을 전제한 예측수요량이 일정한 가격지수의 상승을 전제한 경우보다 높게 나타났다.

  • PDF

건강 관련 삶의 질의 사회인구학적 상관요인에 대한 공간분석

  • Jo, Dong-Gi
    • Korea journal of population studies
    • /
    • v.32 no.3
    • /
    • pp.1-20
    • /
    • 2009
  • 본 연구는 지리정보시스템(GIS)과 지리적 가중 회귀(GWR)를 이용하여 건강 관련 삶의 질(HRQoL)의 사회인구학적 상관요인에 대한 공간분석을 시도한다. 관찰의 독립성과 오차의 동분산성을 가정하는 전통적 회귀분석과 달리, 지리적 가중 회귀분석은 속성정보뿐만 아니라 공간정보를 활용하는 공간분석 기법이다. 분석모형은 건강 관련 삶의 질을 종합적으로 측정하는 EQ-5D를 종속변수로 하고 지역의 사회인구학적 특성인 노령인구비율, 조이혼율, 병상수, 재정자주도를 독립변수로 하여 구성하였다. 종속변수는 질병관리본부에서 실시한 <지역사회건강조사>의 자료를 이용하였고, 독립변수는 통계청 온라인 DB에 수록된 지역별 자료를 이용하였다. 모형을 추정해 본 결과 전반적으로 사회적 특성보다는 노령인구비율이나 조이혼율과 같은 인구학적 특성이 건강 관련 삶의 질에 더 많은 영향을 미치는 것으로 나타났다. 공간적 변이를 고려하는 지역모형은 전역모형에서 드러나지 않았던 중요한 유형을 보여주는데, 노령인구비율 변수와 조이혼율 변수의 지역별 추정치를 지도상으로 살펴본 결과 변수들의 효과가 공간적 위치에 따라 차이를 보인다는 점이 확인되었다. 분석 결과는 또한 지리적 가중 회귀분석이 전통적 회귀분석에 비해 공간적 자기상관의 문제를 극복하고 모형의 부합도를 증가시킨다는 것을 보여준다.