• 제목/요약/키워드: Quantile Normalization

검색결과 7건 처리시간 0.03초

Comparison of Normalization Methods for Defining Copy Number Variation Using Whole-genome SNP Genotyping Data

  • Kim, Ji-Hong;Yim, Seon-Hee;Jeong, Yong-Bok;Jung, Seong-Hyun;Xu, Hai-Dong;Shin, Seung-Hun;Chung, Yeun-Jun
    • Genomics & Informatics
    • /
    • 제6권4호
    • /
    • pp.231-234
    • /
    • 2008
  • Precise and reliable identification of CNV is still important to fully understand the effect of CNV on genetic diversity and background of complex diseases. SNP marker has been used frequently to detect CNVs, but the analysis of SNP chip data for identifying CNV has not been well established. We compared various normalization methods for CNV analysis and suggest optimal normalization procedure for reliable CNV call. Four normal Koreans and NA10851 HapMap male samples were genotyped using Affymetrix Genome-Wide Human SNP array 5.0. We evaluated the effect of median and quantile normalization to find the optimal normalization for CNV detection based on SNP array data. We also explored the effect of Robust Multichip Average (RMA) background correction for each normalization process. In total, the following 4 combinations of normalization were tried: 1) Median normalization without RMA background correction, 2) Quantile normalization without RMA background correction, 3) Median normalization with RMA background correction, and 4) Quantile normalization with RMA background correction. CNV was called using SW-ARRAY algorithm. We applied 4 different combinations of normalization and compared the effect using intensity ratio profile, box plot, and MA plot. When we applied median and quantile normalizations without RMA background correction, both methods showed similar normalization effect and the final CNV calls were also similar in terms of number and size. In both median and quantile normalizations, RMA backgroundcorrection resulted in widening the range of intensity ratio distribution, which may suggest that RMA background correction may help to detect more CNVs compared to no correction.

New Normalization Methods using Support Vector Machine Regression Approach in cDNA Microarray Analysis

  • Sohn, In-Suk;Kim, Su-Jong;Hwang, Chang-Ha;Lee, Jae-Won
    • 한국생물정보학회:학술대회논문집
    • /
    • 한국생물정보시스템생물학회 2005년도 BIOINFO 2005
    • /
    • pp.51-56
    • /
    • 2005
  • There are many sources of systematic variations in cDNA microarray experiments which affect the measured gene expression levels like differences in labeling efficiency between the two fluorescent dyes. Print-tip lowess normalization is used in situations where dye biases can depend on spot overall intensity and/or spatial location within the array. However, print-tip lowess normalization performs poorly in situation where error variability for each gene is heterogeneous over intensity ranges. We proposed the new print-tip normalization methods based on support vector machine regression(SVMR) and support vector machine quantile regression(SVMQR). SVMQR was derived by employing the basic principle of support vector machine (SVM) for the estimation of the linear and nonlinear quantile regressions. We applied our proposed methods to previous cDNA micro array data of apolipoprotein-AI-knockout (apoAI-KO) mice, diet-induced obese mice, and genistein-fed obese mice. From our statistical analysis, we found that the proposed methods perform better than the existing print-tip lowess normalization method.

  • PDF

A Noise-Reduced Risk Aversion Index

  • Park, Beum-Jo;Cho, Hong Chong
    • Journal of Information Technology Applications and Management
    • /
    • 제25권1호
    • /
    • pp.67-85
    • /
    • 2018
  • We propose a noise reduced risk aversion index for measuring risk aversion through a laboratory experiment to overcome disadvantages of the multiple pricing list format developed by Holt and Laury (2002). We use randomized multiple list choices with coarser classification and reward weighting, supplement the rank of risk aversion with extra individual characteristics of risk attitude, and construct an index of risk aversion by standardizing the risk aversion ranking with quantile normalization. Our method reduces multiple switching problems that noisy decision makers mistakenly commit in experimental approaches, so that it is free of the framing effect which severely occurred in the HL. Furthermore, the index doesn't utilize any specific utility function or probability weighting, which allows researcher to hold the independence axiom. Since our noise reduced index of risk aversion has many good traits, it is widely used and applied to reveal fundamental characteristics of risk-related behaviors in economics and finance regardless of experimental environment.

Monitoring of Gene Regulations Using Average Rank in DNA Microarray: Implementation of R

  • Park, Chang-Soon
    • Journal of the Korean Data and Information Science Society
    • /
    • 제18권4호
    • /
    • pp.1005-1021
    • /
    • 2007
  • Traditional procedures for DNA microarray data analysis are to preprocess and normalize the gene expression data, and then to analyze the normalized data using statistical tests. Drawbacks of the traditional methods are: genuine biological signal may be unwillingly eliminated together with artifacts, the limited number of arrays per gene make statistical tests difficult to use the normality assumption or nonparametric method, and genes are tested independently without consideration of interrelationships among genes. A novel method using average rank in each array is proposed to eliminate such drawbacks. This average rank method monitors differentially regulated genes among genetically different groups and the selected genes are somewhat different from those selected by traditional P-value method. Addition of genes selected by the average rank method to the traditional method will provide better understanding of genetic differences of groups.

  • PDF

천연가스 누출 예측을 위한 OrdinalEncoder 기반 DNN (OrdinalEncoder based DNN for Natural Gas Leak Prediction)

  • 홍고르출;이상무;김미혜
    • 한국융합학회논문지
    • /
    • 제10권10호
    • /
    • pp.7-13
    • /
    • 2019
  • 대부분의 천연가스(NG)는 공기 중으로 누출 되며 그중에서도 메탄가스의 누출은 기후에 많은 영향을 준다. 미국 도시의 거리에서 메탄가스 누출 데이터를 수집하였다. 본 논문은 메탄가스누출 정도를 예측하는 딥러닝(Deep Neural Network)방법을 제안하였으며 제안된 방법은 OrdinalEncoder(OE) 기반 K-means clustering과 Multilayer Perceptron(MLP)을 활용하였다. 15개의 특징을 입력뉴런과 오류역전파 알고리즘을 적용하였다. 데이터는 실제 미국의 거리에서 누출되는 메탄가스농도 오픈데이터를 활용하여 진행하였다. 우리는 OE 기반 K-means알고리즘을 적용하여 데이터를 레이블링 하였고 NG누출 예측을 위한 정규화 방법 OE, MinMax, Standard, MaxAbs. Quantile 5가지 방법을 실험하였다. 그 결과 OE 기반 MLP의 인식률이 97.7%, F1-score 96.4%이며 다른 방법보다 상대적으로 높은 인식률을 보였다. 실험은 SPSS 및 Python으로 구현하였으며 실제오픈 데이터를 활용하여 실험하였다.

다층퍼셉트론 기반 리 샘플링 방법 비교를 위한 마이크로어레이 분류 예측 에러 추정 시스템 (Classification Prediction Error Estimation System of Microarray for a Comparison of Resampling Methods Based on Multi-Layer Perceptron)

  • 박수영;정채영
    • 한국정보통신학회논문지
    • /
    • 제14권2호
    • /
    • pp.534-539
    • /
    • 2010
  • 게놈 연구에서 수천 개의 특징들은 비교적 작은 샘플들로부터 모아진다. 게놈 연구의 목적은 미래 관찰들의 결과를 예측하는 분류기를 만드는 것이다. 분류기를 만들기 위해서는 특징 선택, 모델 선택 그리고 예측 평가 등의 3단계 과정을 거친다. 본 논문은 예측 평가에 초점을 맞추고 모든 슬라이드의 사분위수를 똑같게 맞추는 quantilenormalization 적용하여 마이크로어레이 데이터를 표준화 한 후 특징 선택에 앞서 예측 모델의 '진짜' 예측 에러를 평가하기 위해 몇 개의 방법들을 비교하는 시스템을 고안하고 방법들의 예측 에러를 비교 분석 하였다. LOOCV는 전체적으로 작은 MSE와 bias를 나타내었고, 크기가 작은 샘플에서 split 방법과 2-fold CV는 매우 좋지 않는 결과를 보였다. 계산적으로 번거로운 분석에 대해서는 10-fold CV가 LOOCV보다 오히려 더 낳은 경향을 보였다.

확률강우량 산정을 위한 EDA 기법의 적용 (Application of EDA Techniques for Estimating Rainfall Quantiles)

  • 박현근;오세정;유철상
    • 대한토목학회논문집
    • /
    • 제29권4B호
    • /
    • pp.319-328
    • /
    • 2009
  • 본 연구에서는 자료의 구조를 이용하는 통계방법인 EDA 기법을 적용하여 자료를 정량화 하고, 이를 이용하여 빈도해석을 실시하였다. 모멘트법을 이용하는 전통적 방법이 극치값에 민감하게 반응하는 통계치를 주지만, EDA 기법은 변동이 적은 안정적인 통계치를 주는 장점이 있다. 빈도해석에 EDA 기법를 적용하는 경우에는 자료의 왜곡도를 반영하기 위해 원자료의 정규화 변환 및 역변환 과정을 거쳐야 한다. 즉, 원자료를 정규화 변환하고, EDA 기법을 적용하여 변환된 자료의 통계치를 추정하며, 이를 다시 역변환하여 원자료의 통계치를 결정해야 한다. 이렇게 결정된 통계치는 주어진 확률밀도함수를 이용한 빈도해석에 적용된다. 본 연구에서는 서울 및 포항지점의 연최대치 1시간 강우자료를 대상으로 분석을 수행하였다. 그 결과 EDA 기법을 적용하는 경우 극치값에 덜 민감한 안정적인 확률강우량의 산정이 가능한 것으로 확인되었다. 이러한 방법론은 특히 기후변화 등의 원인으로 강수자체의 경년변동이 매우 큰 지점의 빈도해석에 유용하게 사용될 수 있을 것이다.