• 제목/요약/키워드: LOWESS regression

검색결과 11건 처리시간 0.021초

Robust Nonparametric Regression Method using Rank Transformation

    • Communications for Statistical Applications and Methods
    • /
    • 제7권2호
    • /
    • pp.574-574
    • /
    • 2000
  • Consider the problem of estimating regression function from a set of data which is contaminated by a long-tailed error distribution. The linear smoother is a kind of a local weighted average of response, so it is not robust against outliers. The kernel M-smoother and the lowess attain robustness against outliers by down-weighting outliers. However, the kernel M-smoother and the lowess requires the iteration for computing the robustness weights, and as Wang and Scott(1994) pointed out, the requirement of iteration is not a desirable property. In this article, we propose the robust nonparametic regression method which does not require the iteration. Robustness can be achieved not only by down-weighting outliers but also by transforming outliers. The rank transformation is a simple procedure where the data are replaced by their corresponding ranks. Iman and Conover(1979) showed the fact that the rank transformation is a robust and powerful procedure in the linear regression. In this paper, we show that we can also use the rank transformation to nonparametric regression to achieve the robustness.

Robust Nonparametric Regression Method using Rank Transformation

  • Park, Dongryeon
    • Communications for Statistical Applications and Methods
    • /
    • 제7권2호
    • /
    • pp.575-583
    • /
    • 2000
  • Consider the problem of estimating regression function from a set of data which is contaminated by a long-tailed error distribution. The linear smoother is a kind of a local weighted average of response, so it is not robust against outliers. The kernel M-smoother and the lowess attain robustness against outliers by down-weighting outliers. However, the kernel M-smoother and the lowess requires the iteration for computing the robustness weights, and as Wang and Scott(1994) pointed out, the requirement of iteration is not a desirable property. In this article, we propose the robust nonparametic regression method which does not require the iteration. Robustness can be achieved not only by down-weighting outliers but also by transforming outliers. The rank transformation is a simple procedure where the data are replaced by their corresponding ranks. Iman and Conover(1979) showed the fact that the rank transformation is a robust and powerful procedure in the linear regression. In this paper, we show that we can also use the rank transformation to nonparametric regression to achieve the robustness.

  • PDF

New Normalization Methods using Support Vector Machine Regression Approach in cDNA Microarray Analysis

  • Sohn, In-Suk;Kim, Su-Jong;Hwang, Chang-Ha;Lee, Jae-Won
    • 한국생물정보학회:학술대회논문집
    • /
    • 한국생물정보시스템생물학회 2005년도 BIOINFO 2005
    • /
    • pp.51-56
    • /
    • 2005
  • There are many sources of systematic variations in cDNA microarray experiments which affect the measured gene expression levels like differences in labeling efficiency between the two fluorescent dyes. Print-tip lowess normalization is used in situations where dye biases can depend on spot overall intensity and/or spatial location within the array. However, print-tip lowess normalization performs poorly in situation where error variability for each gene is heterogeneous over intensity ranges. We proposed the new print-tip normalization methods based on support vector machine regression(SVMR) and support vector machine quantile regression(SVMQR). SVMQR was derived by employing the basic principle of support vector machine (SVM) for the estimation of the linear and nonlinear quantile regressions. We applied our proposed methods to previous cDNA micro array data of apolipoprotein-AI-knockout (apoAI-KO) mice, diet-induced obese mice, and genistein-fed obese mice. From our statistical analysis, we found that the proposed methods perform better than the existing print-tip lowess normalization method.

  • PDF

장기간의 서울지점 강우자료에 나타난 월간 기후변화 특성 (Characteristics of Inter-monthly Climatic Change Appeared in Long-term Seoul Rainfall)

  • 황석환;김중훈;유철상;이정호
    • 대한토목학회논문집
    • /
    • 제30권1B호
    • /
    • pp.1-11
    • /
    • 2010
  • 본 논문에서는 측우기 관측 자료계열(CWK)과 근대우량계 관측 자료계열(MRG)의 월별 장기변화 특성을 파악하기 위하여 통계적 경향성 검정방법 5가지를 이용하여 각 자료계열의 경향성 여부를 검정하였다. 더불어 각 자료계열별로 연도별 시간축과 월별 시간축을 동시에 고려한 2차원 LOWESS 회귀분석을 실시하여 강우의 변동 특성을 분석하였다. 경향성 분석결과 검정방법별로 95% 신뢰수준에서 경향성에 대해 큰 유의성이 있다고 보기는 어려웠다. 4가지 강우특성에 대한 2차원 LOWESS 회귀분석 결과, 1980년 이후부터 강우의 양적 증가추세와 더불어 강우의 월간 변화폭도 급격한 증가추세를 보이고 있는 것으로 나타났다.

Epidemiological application of the cycle threshold value of RT-PCR for estimating infection period in cases of SARS-CoV-2

  • Soonjong Bae;Jong-Myon Bae
    • Journal of Medicine and Life Science
    • /
    • 제20권3호
    • /
    • pp.107-114
    • /
    • 2023
  • Epidemiological control of coronavirus disease 2019 (COVID-19) is needed to estimate the infection period of confirmed cases and identify potential cases. The present study, targeting confirmed cases for which the time of COVID-19 symptom onset was disclosed, aimed to investigate the relationship between intervals (day) from symptom onset to testing the cycle threshold (CT) values of real-time reverse transcription-polymerase chain reaction. Of the COVID-19 confirmed cases, those for which the date of suspected symptom onset in the epidemiological investigation was specifically disclosed were included in this study. Interval was defined as the number of days from symptom onset (as disclosed by the patient) to specimen collection for testing. A locally weighted regression smoothing (LOWESS) curve was applied, with intervals as explanatory variables and CT values (CTR for RdRp gene and CTE for E gene) as outcome variables. After finding its non-linear relationship, a polynomial regression model was applied to estimate the 95% confidence interval values of CTR and CTE by interval. The application of LOWESS in 331 patients identified a U-shaped curve relationship between the CTR and CTE values according to the number of interval days, and both CTR and CTE satisfied the quadratic model for interval days. Active application of these results to epidemiological investigations would minimize the chance of failing to identify individuals who are in contact with COVID-19 confirmed cases, thereby reducing the potential transmission of the virus to local communities.

마코프 연쇄를 이용한 서울지점 일강우의 발생특성 변화 연구 (A Study on the Change of Occurrence Characteristics of Daily Seoul Rainfall using Markov Chain)

  • 황석환;김중훈;유철상;정성원;주진걸
    • 한국수자원학회논문집
    • /
    • 제42권9호
    • /
    • pp.747-758
    • /
    • 2009
  • 본 논문에서는 연속자료로서 세계 최장의 기록을 보유하고 있는 서울지점의 강우량 자료를 이용하여 강우 발생특성의 장기 변동성을 분석하였다. 우선 마코프 연쇄에 근거한 전이확률 및 발생특성을 분석하여 측우기 자료의 정확성을 강우의 발생확률적 측면에서 평가하였다. 그리고 2차원 LOWESS 회귀방법을 이용하여 전이확률의 월간 장기변화특성을 분석하였다. 전이확률 및 발생특성 분석결과 원자료 계열의 CWK와 MRG는 발생특성이 다르게 나타났다. 강우사상의 특성은 과거에 비해 강우사상의 발생빈도가 높아지고 있으며 각 강우사상의 지속기간은 짧아지고 있는 것으로 나타났다. 그리고 전이확률의 월간 장기 변화특성을 분석한 결과, M20을 기준으로 CWK와 MRG의 무강우지속기간은 크게 차이를 보이지 않고 있으며, 강우지속기간은 1830년대 이후 지속적으로 감소하는 경향을 보이고 있는 것으로 나타났다. 특히 최근 9월 강우지속기간의 감소 경향이 두드러지게 나타났다. 이러한 결과를 최근 강우량의 증가양상과 더불어 고려하면 강우사상의 빈도와 심도(강우강도)가 증가하는 추세라고 해석할 수 있다.

Number of sampling leaves for reflectance measurement of Chinese cabbage and kale

  • Chung, Sun-Ok;Ngo, Viet-Duc;Kabir, Md. Shaha Nur;Hong, Soon-Jung;Park, Sang-Un;Kim, Sun-Ju;Park, Jong-Tae
    • 농업과학연구
    • /
    • 제41권3호
    • /
    • pp.169-175
    • /
    • 2014
  • Objective of this study was to investigate effects of pre-processing method and number of sampling leaves on stability of the reflectance measurement for Chinese cabbage and kale leaves. Chinese cabbage and kale were transplanted and cultivated in a plant factory. Leaf samples of the kale and cabbage were collected at 4 weeks after transplanting of the seedlings. Spectra data were collected with an UV/VIS/NIR spectrometer in the wavelength region from 190 to 1130 nm. All leaves (mature and young leaves) were measured on 9 and 12 points in the blade part in the upper area for kale and cabbage leaves, respectively. To reduce the spectral noise, the raw spectral data were preprocessed by different methods: i) moving average, ii) Savitzky-Golay filter, iii) local regression using weighted linear least squares and a $1^{st}$ degree polynomial model (lowess), iv) local regression using weighted linear least squares and a $2^{nd}$ degree polynomial model (loess), v) a robust version of 'lowess', vi) a robust version of 'loess', with 7, 11, 15 smoothing points. Effects of number of sampling leaves were investigated by reflectance difference (RD) and cross-correlation (CC) methods. Results indicated that the contribution of the spectral data collected at 4 sampling leaves were good for both of the crops for reflectance measurement that does not change stability of measurement much. Furthermore, moving average method with 11 smoothing points was believed to provide reliable pre-processed data for further analysis.

낙동강 본류 측정소들의 생물학적 산소요구량 수치에 대한 비모수적 회귀분석과 특이점분석 (Lowess and outlier analysis of biological oxygen demand on Nakdong main stream river)

  • 김종태
    • Journal of the Korean Data and Information Science Society
    • /
    • 제25권1호
    • /
    • pp.119-130
    • /
    • 2014
  • 본 연구는 국립환경과학원의 물환경정보시스템에서 제공한 자료를 사용하였다. 자료는 낙동강 본류 (낙본, nb)의 수질측정소 A지역에서 측정소 N지역까지 2003년 1월부터 2013년 8월까지 측정한 월별 수질데이터를 이용하였다. 생물학적 산소요구량 BOD (biological oxygen demand)의 통계학적 수질분석은 월별, 연도별, 지역별로 R 프로그래밍을 이용하여 구체화 하였다. 낙본지역 측정소들의 BOD에 대하여 탐색적 자료분석 (exploratory data analysis) 방법과 비모수 회귀분석방법 중 하나인 Lowess (locally weighted scatter plot smoother) 경향분석법을 이용하여 장기수질경향과 지역별 수질분포의 현황을 분석하였다. 그리고 특이점 (outlier)이 가장 많이 발생하는 시기와 낙본 측정지역들을 분석하였다. 그 결과 낙본하류지역인 부산광역시 강서구 명지동 측정소 nbM의 BOD 수질환경 보다 낙본중류지역인 대구광역시 달성군 구지면의 측정소 nbG와 경상남도 창원시의 측정소 nbI 지역의 수질오염이 보다 심각한 문제점들이 있는 것으로 나타난다.

Monitoring of Gene Regulations Using Average Rank in DNA Microarray: Implementation of R

  • Park, Chang-Soon
    • Journal of the Korean Data and Information Science Society
    • /
    • 제18권4호
    • /
    • pp.1005-1021
    • /
    • 2007
  • Traditional procedures for DNA microarray data analysis are to preprocess and normalize the gene expression data, and then to analyze the normalized data using statistical tests. Drawbacks of the traditional methods are: genuine biological signal may be unwillingly eliminated together with artifacts, the limited number of arrays per gene make statistical tests difficult to use the normality assumption or nonparametric method, and genes are tested independently without consideration of interrelationships among genes. A novel method using average rank in each array is proposed to eliminate such drawbacks. This average rank method monitors differentially regulated genes among genetically different groups and the selected genes are somewhat different from those selected by traditional P-value method. Addition of genes selected by the average rank method to the traditional method will provide better understanding of genetic differences of groups.

  • PDF

시변동의 동질성 증가에 의한 비단조적 시계열자료의 경향성 탐지력 향상 (Improved Trend Estimation of Non-monotonic Time Series Through Increased Homogeneity in Direction of Time-variation)

  • 오경두;박수연;이순철;전병호;안원식
    • 한국수자원학회논문집
    • /
    • 제38권8호
    • /
    • pp.617-629
    • /
    • 2005
  • 본 논문은 비단조적으로 변동하는 시계열자료를 단조적으로 변화하는 구간으로 분할하여 경향성을 분석함으로써 자료의 시변동에 대한 동질성을 향상시키고 그에 따라 경향성 분석기법의 탐지력을 향상시킬 수 있다는 가설을 전제로 하고 있다. 이를 검토하기 위한 기법으로서 시계열자료의 변동경향을 파악하기 위한 필터링 방법으로 LOWESS smoothing을 적용하였고, 시계열자료의 경향성분석은 seasonal Kendall test를 적용하였다. 인위적으로 발생시킨 시계열자료와 대청호의 수온, 유량, 기온, 일사량 등의 시계열자료를 대상으로 검토한 결과 비단조적인 변화를 보이는 시계열자료를 단조적인 변화구간으로 분할하여 경향성을 분석함으로써 자료의 변동 경향성과 기울기 판정의 정확도를 높일 수 있었다. 그리고, 자료의 시변동에 대한 동질성 향상은 계절 변동성의 동질성에 대한 변화를 보다 정확하게 분석하는데 도움을 주는 것으로 보였으며 이것은 자연현상에 대한 인간활동의 영향을 고찰할 수 있는 자료로서 앞으로 이에 대한 연구가 더 필요할 것으로 보인다. 본 논문에서 제시한 방법은 시계열자료의 단조적인 경향성을 분석하는 기법들에 대해 적용 가능하며, 이를 통하여 환경변화의 경향성에 대한 보다 정확한 분석과 판단이 가능해질 것으로 기대한다.