• Title/Summary/Keyword: 이상자료 검정

Search Result 594, Processing Time 0.027 seconds

Applications of Diamond Graph (다이아몬드 그래프의 활용 방법)

  • Hong C.S.;Ko Y.S.
    • The Korean Journal of Applied Statistics
    • /
    • v.19 no.2
    • /
    • pp.361-368
    • /
    • 2006
  • There are lots of two and three dimensional graph representing two dimensional categorical data. Among them, Li, et al. (2003) proposed Diamond Graph that projects three dimensional graph into two dimension whereby the third dimension is replaced with a diamond shape whose area and middle and vertical and horizontal lengths represent the outcome. In this paper, we use the Diamond graph to test the independence of two predictor variables for two dimensional data. And this graph could be applied for finding the best fitted log-linear model to three dimensional data.

Analysis of the Variability of Water Quality Data in Nakdong River Basin (낙동강수계의 수질자료 변화특성 분석)

  • Kim, Gwang-Seob;Kang, Dong-Jin
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2007.05a
    • /
    • pp.1094-1097
    • /
    • 2007
  • 낙동강 유역의 가용한 최장기 수량 및 수질자료를 획득하여 자료의 적합성 및 QC과정을 통하여 분석 가능한 자료를 생산하고 자료의 분석에 적합한 통계기법을 선정 각 변수의 변동특성과 변동 상관성을 정밀 분석하였다. 본 연구에서는 낙동강 수질자료의 변동특성을 분석하고 수질개선 필요성을 파악하기 위하여 Mann-Kendall 검정을 사용하여 수질변화의 경향성을 분석하였다. 낙동강 수계의 수질변화 특성을 분석하기 위하여 수온$(^{\circ}C)$, $DO(mg/{\ell}),\;BOD(mg/{\ell}),\;COD(mg/{\ell}),\;SS(mg/{\ell}),\;TN(mg/{\ell}),\;TP(mg/{\ell})$ 이상 7가지의 가용자료를 선택하였다. 수질자료는 환경부에서 운영하는 물 환경 정보 시스템의 수질측정망 자료인 월 단위 자료를 대상으로 Mann-Kendall 검정을 수행하였다. 분석에 사용된 자료 기간은 강우량자료와 유출량자료의 동기간인 1989년${\sim}$2000년까지이다. BOD의 변화를 살펴보면 전반적으로 감소하는 것을 알 수 있다. 가장 큰 감소 경향을 보인 지점은 금호강6 지점으로 $-39.1mg/{\ell}/20yr$로 나타났다. 증가지점으로는 안동과, 구미, 달성, 반변천 등이고 증가량은 약 $1.1mg/{\ell}{\sim}0.03mg/{\ell}/20yr$ 정도이다. COD의 변화를 살펴보면 대부분 지점에서 증가하는 것을 알 수 있다. 감소하는 지역은 고령과 현동, 대암, 금호강3${\sim}$6등이다. 특이사항은 금호강6의 감소분이 $-30.2mg/{\ell}$로 타 지점에 비해 상당히 크다는 것이다. DO의 경우는 증가지점과 감소지점의 수가 비슷하였고 주로 상류쪽이 감소하고 하류로 오면서 증가함을 알 수 있다. DO 또한 금호강6 지점이 가장 큰 폭으로 증가하고 있는 것을 볼 수 있다. pH는 함양위천과 덕천강1을 제외한 모든 지역이 증가 하였다. SS 또한 금호강5, 6, 거창 위천2를 제외한 모든 지역에서 증가하였다. SS항목도 금호강6 지점이 가장 큰 폭으로 감소하였다. 샘플지점(금호강6)의 BOD/COD/DO/pH/SS/TEMP/TN/TP 시계열을 통해 자료분석기간 동안 수처리시설 등의 확장으로 인한 금호강유역의 급격한 수질개선을 알 수 있다.

  • PDF

Comparison of Principal Component Regression and Nonparametric Multivariate Trend Test for Multivariate Linkage (다변량 형질의 유전연관성에 대한 주성분을 이용한 회귀방법와 다변량 비모수 추세검정법의 비교)

  • Kim, Su-Young;Song, Hae-Hiang
    • The Korean Journal of Applied Statistics
    • /
    • v.21 no.1
    • /
    • pp.19-33
    • /
    • 2008
  • Linear regression method, proposed by Haseman and Elston(1972), for detecting linkage to a quantitative trait of sib pairs is a linkage testing method for a single locus and a single trait. However, multivariate methods for detecting linkage are needed, when information from each of several traits that are affected by the same major gene are available on each individual. Amos et al. (1990) extended the regression method of Haseman and Elston(1972) to incorporate observations of two or more traits by estimating the principal component linear function that results in the strongest correlation between the squared pair differences in the trait measurements and identity by descent at a marker locus. But, it is impossible to control the probability of type I errors with this method at present, since the exact distribution of the statistic that they use is yet unknown. In this paper, we propose a multivariate nonparametric trend test for detecting linkage to multiple traits. We compared with a simulation study the efficiencies of multivariate nonparametric trend test with those of the method developed by Amos et al. (1990) for quantitative traits data. For multivariate nonparametric trend test, the results of the simulation study reveal that the Type I error rates are close to the predetermined significance levels, and have in general high powers.

Utilization Evaluation of Water Level Data for Agricultural Reservoir Flood Analysis (저수지 홍수분석을 위한 저수위 자료의 활용성 평가)

  • Lee, Jaenam;Shin, Hyungjin;Lee, Jaeju;Kang, Munsung
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2019.05a
    • /
    • pp.383-383
    • /
    • 2019
  • 우리나라는 전국에 약 17,500여개의 크고 작은 농업용저수지가 있으며, 이 중 약 89%는 설치된 지 40년이 지나 노후화가 이뤄지고 있다. 최근에는 기후변화 영향으로 홍수피해가 대형화되고 있어 농촌지역의 홍수재해 발생시 저수지 하류부의 인명피해 및 농경지 침수피해는 증가될 것으로 예상된다. 한국농어촌공사는 농업용저수지의 효율적인 물관리 및 재해방지를 위해 자동수위계측기를 활용한 실시간 저수위 자료를 구축하고 있다. 기후변화에 따른 홍수피해를 신속하게 대응하기 위해서는 과거 홍수사상에 대한 저수지 모델링을 수행하고 그 결과를 농촌지역 풍수해 방지를 위한 의사결정 자료로 활용하게 된다. 기상예측정보의 활용에 앞서 농업용저수지의 홍수모의가 과거 수문사상을 현실적으로 재현하는지를 검토할 필요가 있어 본 연구에서는 저수지 홍수분석의 검정자료인 저수위 자료에 대한 활용성 평가를 수행하였다. 대상저수지는 ${{\circ}{\circ}}$농촌용수구역 내 위치한 ${{\circ}{\circ}}$저수지로 하고, 10분 단위의 저수위 자료를 활용하였다. 연도별 원시자료에 대한 결측, 불량자료, 이상치 등을 검토하고, 그 결과에 대한 유형분석을 수행하였다. 본 연구결과는 과거 홍수사상에 대한 농업용저수지 홍수모의 분석 및 검정을 통해 강우레이더 등 기상예측정보 기반의 농촌지역 홍수피해 산정결과의 신뢰도를 향상시킬 수 있을 것으로 기대한다.

  • PDF

A Consideration on the Lactation Persistency Evaluation in Korean Holstein Dairy Cattle (국내 홀스타인 젖소의 비유지속성 평가에 대한 고찰)

  • Cho, Kwang-Hyun;Yoon, Ho-Baek;Cho, Chung-Il;Min, Hong-Ryp;Lee, Joon-Ho;Kong, Hong-Sik;Lee, Hak-Kyo;Park, Kyung-Do
    • Journal of Animal Science and Technology
    • /
    • v.55 no.3
    • /
    • pp.173-178
    • /
    • 2013
  • The characteristics of lactation persistency was investigated for new evaluation trait using 4,366,900 milk yield records from 436,690 heads of Korean Holstein dairy cattle. The average lactation persistencies of first parity, second parity and over third parity were 97.5%, 95.1% and 94.6%, respectively and there was a trend that after the peak yield, lactation persistency decreased collectively. The average days of peak milk yields after calving was about 50 days, but only 33.2% of cows reached peak yields at 36~66 days (second test day). Also, there was a difference between the milk yield of cows which reached peak yields at first test day by lactation days and that of cows which reached peak yields at second to fourth test day. The estimates of heritabilty and repeatability for mean lactation persistency were 0.16 and 0.35, respectively. The genetic correlation between cumulative lactation persistency from third to tenth test day and that from third to seventh test day was 0.91 and while it increased in later test day, it decreased sharply in earlier test day. The breeding value correlations of Data II and III for Data I were 0.80 and 0.72, respectively, while the rank correlations were 0.78 and 0.71, respectively. Based on the results, the breeding value and rank correlations decreased when more data were added.

Causal Relation Between Stock Markets and Foreign Exchange Market : The International Evidence (환율과 주가의 관계 : 국제적 실증비교)

  • Chi, Ho-Joon;Kim, Young-Il
    • The Korean Journal of Financial Management
    • /
    • v.16 no.1
    • /
    • pp.261-281
    • /
    • 1999
  • 본 연구는 우리나라를 비롯한 미국, 영국, 독일, 일본시장을 대상으로 환율과 주가의 선후행 결합관계를 검정해 보고 선행변수가 원인변수가 될 수 있는가에 대한 인과관계를 검정해 보고자 시도되었다. 이를 위해서 1980년부터 1997년까지를 분석기간으로 교차상관관계검정과 인과 관계검정을 시도해 보았다. 우선 AIC에 따른 최적시차를 대상으로 교차상관관계에 대한 Ljung-Box Q 통계량 검정을 실시한 결과 한국, 영국, 독일의 경우에는 환율이 주가에 선행결합하는 것으로 나타났으나 미국, 일본은 유의적인 관계가 도출되지 않았다. 또한 안정적 시계열자료를 대상으로 Granger, Sims, Geweke-Meese-Dent 모형에 따라 인과관계를 검정해 본 결과에서는 한국, 영국, 독일의 경우에는 환율변동률이 주식수익률에 대한 일방적 원인변수로 나타났다. 이를 환율변동의 크기에 따라 루브르 협정 이전과 이후로 구분해서 검정해 본 결과 환율변동이 매우 심했던 협정 이전 기간에는 한국과 영국의 일부 모형에서만 환율변수가 유의적인 원인변수로 작용하였지만 환율변동이 작았던 협정 이후 기간에는 한국, 영국, 독일을 대상으로 모든 검정모형에서 유의적인 인과관계가 나타났다. 반면에 미국, 일본의 경우에는 분석기간 전체뿐만 아니라 루브르 협정 이전과 이후를 구분하더라도 유의적인 인과관계가 나타나지 않았다. 이는 미국, 일본의 대외무역의존도가 20%대 수준에 머물고 있어서 상대적으로 40%대 이상의 대외무역의존도를 기록하고 있는 한국, 영국, 독일과는 다른 결과가 도출된 것이라고 볼 수 있다. 따라서 대외무역의존도가 높은 한국, 영국, 독일에서는 환율이 주가에 비해 선행하여 변동한다고 볼 수 있다.

  • PDF

Development of Forecasting Model for the Initial Sale of Apartment Using Data Mining: The Case of Unsold Apartment Complex in Wirye New Town (데이터 마이닝을 이용한 아파트 초기계약 예측모형 개발: 위례 신도시 미분양 아파트 단지를 사례로)

  • Kim, Ji Young;Lee, Sang-Kyeong
    • Journal of Digital Convergence
    • /
    • v.16 no.12
    • /
    • pp.217-229
    • /
    • 2018
  • This paper aims at applying the data mining such as decision tree, neural network, and logistic regression to an unsold apartment complex in Wirye new town and developing the model forecasting the result of initial sale contract by house unit. Raw data are divided into training data and test data. The order of predictability in training data is neural network, decision tree, and logistic regression. On the contrary, the results of test data show that logistic regression is the best model. This means that logistic regression has more data adaptability than neural network which is developed as the model optimized for training data. Determinants of initial sale are the location of floor, direction, the location of unit, the proximity of electricity and generator room, subscriber's residential region and the type of subscription. This suggests that using two models together is more effective in exploring determinants of initial sales. This paper contributes to the development of convergence field by expanding the scope of data mining.

Predicting Runoff and Sediment Yield on a Forest Dominated Watershed using HSPF and SWAT Models (HSPF와 SWAT 모형을 이용한 산림유역의 유출 및 유사량 추정)

  • Im Sang-Jun;Brannan Kevin M.;Mostaghimi Saied;Cho, Jae-Pil
    • Journal of Korean Society of Rural Planning
    • /
    • v.9 no.4 s.21
    • /
    • pp.59-64
    • /
    • 2003
  • U.S. EPA의 BASINS (Better Assessment Science Integrating Point and Nonpoint Sources)에 통합되어 있는 HSPF (Hydrologic Simulation Program-Fortran)와 SWAT (Soil and Water Assessment Tool) 모형을 이용하여 Polecat Creek 유역의 유출과 유사량을 모의하였다. 모형의 보정을 위하여 1996년 9월부터 2000년 6월까지의 하천 유량 및 유사 농도 자료를 이용하였으며, 1994년 10월부터 1995년 12월까지의 관측자료를 이용하여 모형의 검정을 실시하였다. HSPF 모형에 의해 추정된 연 평균 유출량의 상대오차는 보정 및 검정기간에 각각 0.8%, 0.5%이었으며, S WAT 모형에 의해 추정된 연평균 유출량은 실측치와 각각 2.1%, 16.1%의 오차를 보였다. 연 평균 유사량을 비교하면, HSPF 모형이 보정 및 검정기 간에 각각 8.8%와 7.2%의 오차를 보인 반면에 SWAT 모형은 각각 40.0%, 188.4%의 차이를 보였다. HSPF 모형에 의해 추정된 월 평균 유출량 및 유사량의 상관계수는 보정기간에 대하여 0.94와 0.52이었으며, SWAT 모형에 의한 결과는 상관계수가 각각 0.84와 0.39이었다. 이상의 연구 결과에 의하면, HSPF 모형이 SWAT 모형보다 유출과 유사량을 관측치와 유사하게 모의함을 알 수 있었다. 하지만 입력 자료의 구축 및 모형의 적용에는 SWAT모형보다 많은 시간과 노력을 필요로 하였다.

Ring Chart for Categorical Data (다차원 범주형 자료에 대한 링차트)

  • 오민권;홍종선;이종철
    • The Korean Journal of Applied Statistics
    • /
    • v.12 no.1
    • /
    • pp.225-239
    • /
    • 1999
  • 범주형 자료에 대하여 탐색적 자료분석을 할 수 있는 기존의 여러 그림들을 변수의 수가 많아지면 시각적인 식별이 어렵다는 단점이 있다. 본 논문에서는 삼차원이상의 다차원 범주형 자료를 이차원 평면성에 표현할 수 있는 링차트(ring chart)를 제안한다. 각 칸의 확률값을 표현하는 링차트는 범주형 자료의 구조 전체를 시각적으로 파악할 수 있으며, 관측값을 표준화한 링차트는 변수들간의 연관성 여부를 시각적으로 판단하는데 유용한 정보를 제공한다. 삼차원이상의 자료에서는 이중 링차트(조건부 링차트)를 개발하여 일차 및 이차교호작용 검정까지도 가능하다. 또한, 관측값과 잔차를 동시에 표현한 잔차 링차트는 설정된 모형의 적합성 여부를 시각적으로 평가할 수 있는 장점이 있다.

  • PDF

Effect of Genetic Correlations on the P Values from Randomization Test and Detection of Significant Gene Groups (유전자 연관성이 랜덤검정 P값과 유의 유전자군의 탐색에 미치는 영향)

  • Yi, Mi-Sung;Song, Hae-Hiang
    • The Korean Journal of Applied Statistics
    • /
    • v.22 no.4
    • /
    • pp.781-792
    • /
    • 2009
  • At an early stage of genomic investigations, a small sample of microarrays is used in gene expression experiments to identify small subsets of candidate genes for a further accurate investigation. Unlike the statistical analysis methods for a large sample of microarrays, an appropriate statistical method for identifying small subsets is a randomization test that provides exact P values. These exact P values from a randomization test for a small sample of microarrays are discrete. The possible existence of differentially expressed genes in the sample of a full set of genes can be tested for the null hypothesis of a uniform distribution. Subsets of smaller P values are of prime interest for a further accurate investigation and identifying these outlier cells from a multinomial distribution of P values is possible by M test of Fuchs et al. (1980). Above all, the genome-wide gene expressions in microarrays are correlated, but the majority of statistical analysis methods in the microarray analysis are based on an independence assumption of genes and ignore the possibly correlated expression levels. We investigated with simulation studies the effect that correlated gene expression levels could have on the randomization test results and M test results, and found that the effects are often not ignorable.