• 제목/요약/키워드: sub-data re-sampling

검색결과 2건 처리시간 0.016초

How Many SNPs Should Be Used for the Human Phylogeny of Highly Related Ethnicities? A Case of Pan Asian 63 Ethnicities

  • Ghang, Ho-Young;Han, Young-Joo;Jeong, Sang-Jin;Bhak, Jong;Lee, Sung-Hoon;Kim, Tae-Hyung;Kim, Chul-Hong;Kim, Sang-Soo;Al-Mulla, Fahd;Youn, Chan-Hyun;Yoo, Hyang-Sook;The HUGO Pan-Asian SNP Consortium, The HUGO Pan-Asian SNP Consortium
    • Genomics & Informatics
    • /
    • 제9권4호
    • /
    • pp.181-188
    • /
    • 2011
  • In planning a model-based phylogenic study for highly related ethnic data, the SNP marker number is an important factor to determine for relationship inferences. Genotype frequency data, utilizing a sub sampling method, from 63 Pan Asian ethnic groups was used for determining the minimum SNP number required to establish such relationships. Bootstrap random sub-samplings were done from 5.6K PASNPi SNP data. DA distance was calculated and neighbour-joining trees were drawn with every re-sampling data set. Consensus trees were made with the same 100 sub-samples and bootstrap proportions were calculated. The tree consistency to the one obtained from the whole marker set, improved with increasing marker numbers. The bootstrap proportions became reliable when more than 7,000 SNPs were used at a time. Within highly related ethnic groups, the minimum SNPs number for a robust neighbor-joining tree inference was about 7,000 for a 95% bootstrap support.

수온 관측 자료의 효율적인 이상 자료 탐지 (Efficient Outlier Detection of the Water Temperature Monitoring Data)

  • 조홍연;정신택;고동휘;손경표
    • 한국해안·해양공학회논문집
    • /
    • 제26권5호
    • /
    • pp.285-291
    • /
    • 2014
  • 연안의 수온 모니터링 자료는 이상자료 및 결측을 포함하고 있기 때문에 통계정보를 왜곡할 수 있다. 다양한 이상자료 감지 기법이 제안되고 있으나 결측이 없고 이상자료에 대한 사전정보를 가정하고, 어떤 적용기법은 과도한 계산시간이 소요되기 때문에 적용에 제한이 따른다. 본 연구에서는 방대한 자료에서도 효과적으로 이상자료를 감지할 수 있는 실용적인 Robust 모형을 제안하였다. 이 모형은 계산시간을 크게 저감하는 부분자료 추출기법을 이용한 어림성분 추정과정 및 어림성분으로부터 계산되는 잔차성분으로부터 이상자료를 반복적으로 진단하여 제거하는 부분으로 구성되어 있다. 이 모형의 성능평가는 새만금호에서 5분 간격으로 관측한 2년 동안의 수온 자료를 이용하여 수행하였다. 모형 적용결과, 이상자료가 전체자료에서 차지하는 비율은 1.6-3.7% 정도로 파악되었으며, 전체적으로 대부분의 이상자료가 제거되는 것으로 파악되었다. 또한 어림성분 추정과정의 반복적용은 Long-span 조건을 먼저 적용하는 것이 효과적인 것으로 파악되었다.