• 제목/요약/키워드: 일배체형 조합문제

검색결과 4건 처리시간 0.021초

개선된 분기한정 알고리즘을 이용한 인간 유전체의 일배체형 조합문제 해결 (Solving the Haplotype Assembly Problem for Human Using the Improved Branch and Bound Algorithm)

  • 최문호;강승호;임형석
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제2권10호
    • /
    • pp.697-704
    • /
    • 2013
  • 인간의 한쪽 염색체상에 나타나는 SNP의 서열인 일배체형을 식별해내면 효과적인 유전질병 연관검사를 할 수 있다. 주어진 SNP 단편들로부터 계산적인 방법으로 한 쌍의 일배체형을 조합하기 위해 제시된 모델 중 하나인 최소오류수정 모델은 단편에 손실이 없는 경우조차 NP-hard임이 증명되었다. 기존의 분기한정 알고리즘은 많은 계산시간을 요구함에 따라 실제 응용에 사용하기 어려웠다. 그러나 최근에 개선된 분기한정 알고리즘이 제시되었고, 꿀벌(Apis mellifera)의 유전자형 데이터를 대상으로 성능을 분석해봄으로써 개선된 알고리즘이 기존 분기한정 알고리즘보다 효율적임을 보였다. 본 논문에서는 인간의 유전자형 데이터를 대상으로 개선된 분기한정 알고리즘을 적용해 일배체형 조합문제를 수행한다. 실험을 통한 성능분석 결과, 개선된 분기한정 알고리즘이 인간 유전체에 대해서도 성공적으로 적용됨을 확인함으로써 다양한 생명체의 일배체형 조합문제에 적용 가능함을 보인다.

신뢰도를 가진 SNP 단편들과 유전자형으로부터 일배체형 조합 (Haplotype Assembly from Weighted SNP Fragments and Related Genotype Information)

  • 강승호;정인선;최문호;임형석
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제35권11호
    • /
    • pp.509-516
    • /
    • 2008
  • Minimum Letter Flips(MLF) 모델과 Weighted Minimum Letter Flips(WMLF) 모델은 일배체형 조합문제(haplotype assembly problem)를 해결하기 위한 모델들이다. 그러나 MLF 모델이나 WMLF 모델은 SNP(Single Nucleotide Polymorphism) 단편들에 손실과 오류가 적은 경우에만 효과적이다. 본 논문은 WMLF 모델의 개선을 목적으로 유전자형 정보를 추가한 WMLF/GI 모델과 문제를 제시한다. 새로 제시한 문제가 NP-hard임을 증명하고, 정확성이 높고 효율적인 문제 해결을 위해 유전자 알고리즘을 설계한다. 실험 결과를 통해 새로운 모델이 기존의 모델들에 비해 SNP 단편들에 손실과 오류가 많은 경우에도 높은 정확성을 가짐과 유전자형 정보가 유전자 알고리즘의 수렴속도를 크게 개선함을 보인다.

일배체형 재조합을 위한 MCIH 모델과 WMLF/GI 모델의 정확도 비교 (The Correctness Comparison of MCIH Model and WMLF/GI Model for the Individual Haplotyping Reconstruction)

  • 정인선;강승호;임형석
    • 정보처리학회논문지B
    • /
    • 제16B권2호
    • /
    • pp.157-161
    • /
    • 2009
  • 일배체형 조합 문제를 해결하기 위해 제시된 MLF(Minimum Letter Flips) 모델이나 WMLF(Weighted Minimum Letter Flips) 모델은 유전자형 정보를 도입함으로써 오류와 손실이 많을 때에도 높은 정확도를 얻을 수 있다. 그리고 MLF 모델에 비해 가중치 버전인 WMLF모델의 정확도가 높다는 사실도 밝혀졌다. 본 논문에서는 유전자형 정보상의 동형(homozygous)의 분포 비율과 유전자 서열판독기계의 성능에 따른 신뢰도의 차이를 매개변수로 하여 두 모델을 구체적으로 비교, 분석한다. 두 모델의 성능 비교를 위해 신경망과 유전자 알고리즘을 사용한다. 실험결과 동형의 비율이 크고 판독기계의 성능이 좋으면 특히 손실율과 오류율이 높은 경우에 WMLF/GI 모델의 정확도가 더 우수함을 보인다.

MarSel : 대용량 SNP 일배체형 데이터에 대한 연관불균형기반의 tagSNP 선택 시스템 (MarSel : LD based tagSNP Selection System for Large-scale SNP Haplotype Dataset)

  • 김상준;여상수;김성권
    • 정보처리학회논문지A
    • /
    • 제13A권1호
    • /
    • pp.79-86
    • /
    • 2006
  • 최근 인간의 다양성과 SNP과의 연관연구에 드는 비용을 줄이기 위해서, 최소의 tagSNP을 선택하는 문제를 해결하기 위한 연구가 이루어지고 있다. 일반적으로 많은 수의 SNP들을 여러 블록으로 분할하여 각 블록 내에서 tagSNP을 선택하는 접근방법이 사용되고 있다. 본 논문에서 구현된 MarSel은 기존의 블록분할 접근 방법의 문제로 볼 수 있는 생물학적 의미의 부족을 해결하고자, 연관불균형(Linkage Disequilibrium, LD)의 개념을 도입한 시스템이다. 기존의 접근방법에서는 생물학적으로 재조합(recombination)이 일어나지 않는 연속된 구간에서도 여러 블록으로 나누어지는 문제가 생겼던 반면, MarSel에서는 연관불균형 계수 |D'|에 의해서 연속된 구간이 하나의 블록으로 유지된 상태에서 tagSNP을 선택하게 된다. 또한 MarSel에서는 각 블록 내에서 tagSNP을 선택 할 때에 엔트로피(entropy) 기반의 최적해 알고리즘을 이용함으로써 최소한의 tagSNP 선택을 보장하게 되며, 기존의 구현된 시스템들보다 더 많은 양의 데이터를 효율적으로 처리할 수 있도록 구현되었기 때문에 염색체 레벨의 연관 연구도 가능하게 해준다.