• 제목/요약/키워드: 유전체 단위반복변이

검색결과 6건 처리시간 0.023초

단백질 상호작용 네트워크를 통한 유전체 단위반복변이와 트랜스유전자 발현과의 연관성 분석 (Genome-Wide Association Study between Copy Number Variation and Trans-Gene Expression by Protein-Protein Interaction-Network)

  • 박치현;안재균;윤영미;박상현
    • 정보처리학회논문지D
    • /
    • 제18D권2호
    • /
    • pp.89-100
    • /
    • 2011
  • 인간 유전체에 존재하는 유전적 구조 변이(genetic structural variation) 중 하나인 유전체 단위반복변이(Copy Number Variation, CNV)은 유전자의 기능 발현과 밀접한 관련이 있다. 특히 특정 유전 질병이 있는 사람들을 대상으로 CNV와 유전자발현의 관계를 밝히는 연구가 계속 진행되고 있지만, 정상인 유전체에 대한 CNV의 기능적 분석은 아직 활발히 이루어지고 있지 않다. 본 논문에서는 다수의 정상인 샘플에서 찾아낸 공통된 CNV에 대하여 유전자들과의 기능적 관계를 유전자의 분자적 위치와 상관없이 밝힐 수 있는 분석 방법을 제시한다. 이를 위해 서로 다른 이질적인 생물학데이터를 통합하는 방법을 제시하고 공통된 CNV와 유전자와의 연관성을 분자적 위치와 상관없이 계산할 수 있는 새로운 방법을 제시한다. 제안된 방법의 유의성을 보이기 위해서 유전자 온톨로지 (Gene Ontology) 데이터베이스를 이용한 다양한 검증 실험들을 수행하였다. 실험결과 새롭게 제안된 연관성 측정방법은 유의성이 있으며 공통된 CNV와 강한 연관성을 갖는 유전적 기능의 후보들을 시스템적으로 제시할 수 있는 것으로 나타났다.

맵리듀스 기반의 암 특이적 유전자 단위 반복 변이 추출 (Highly accurate detection of cancer-specific copy number variations with MapReduce)

  • 신재문;홍상균;이은주;윤지희
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(C)
    • /
    • pp.19-21
    • /
    • 2012
  • 모든 암 세포는 체세포 변이를 동반한다. 따라서 암 유전체 변이 분석에 의하여 암을 발생시키는 유전자 및 진단/치료법을 찾아낼 수 있다. 본 연구에서는 차세대 시퀀싱 데이터를 이용하여 암 특이적 단이 반복 변이(copy number variation, CNV) 유형을 밝히는 새로운 알고리즘을 제안한다. 제안하는 방식은 암 환자의 정상 세포와 암세포로부터 얻어진 정상 유전체와 암 유전체를 동시 분석하여 각각 CNV 후보 영역을 추출하며, 통계적 유의성 분석을 통하여 암 특이적 CNV 후보 영역을 선별하고, 다음 후처리 과정에서 참조 표준 서열(reference sequence)에 존재하는 오류 영역 보정 작업을 수행하여 정확한 암 특이적 CNV 영역을 추출해 낸다. 또한 다수의 대용량 유전체 데이터 동시 분석을 위하여 맵리듀스(MapReduce) 기법을 기반으로 하는 병렬 수행 알고리즘을 제안한다.

유전체 단위 반복 변이(CNV) 발견을 위한 개선된 SW-ARRAY (An Enhanced SW-ARRAY Method for Detecting Copy Number Variations(CNVs))

  • 문명진;안재균;윤영미;박치현;박상현
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2008년도 한국컴퓨터종합학술대회논문집 Vol.35 No.1 (C)
    • /
    • pp.208-211
    • /
    • 2008
  • 최근 유전체 단위 반복 변이(CNV)의 중요성이 부각되고 있다. CNV란 DNA가 복제될 때 일부가 만들어지지 않거나 혹은 많이 만들어져 그 양이 차이가 나게 되는 것으로, 인간의 질병이나 형질과 밀접한 관련을 가진다고 알려져 있다. 이에 따라 CNV와 관련된 연구가 활발히 진행되었으며, CNV를 찾기 위한 다양한 방법들이 나오게 되었다. 본 논문에서는 CNV를 찾아내는 대표적인 기법 중 하나인 SW-ARRAY에 대해서 알아보고, 여기에 페널티 값과 점수에 따른 가변 임계값을 적용하여 보정함으로써 기존 SW-ARRAY의 문제점을 해결하는 방법을 제안한다. 이를 실제 Array-CGH 데이터에 적용한 결과 긍정 오류 값이 줄어들어 기존의 방식에 비해 정확한 값을 얻게 되었다.

  • PDF

CNVDAT : 차세대 시퀀싱 데이터를 위한 유전체 단위 반복 변이 검출 및 분석 도구 (CNVDAT: A Copy Number Variation Detection and Analysis Tool for Next-generation Sequencing Data)

  • 강인호;공진화;신재문;이은주;윤지희
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제41권4호
    • /
    • pp.249-255
    • /
    • 2014
  • 유전체 단위 반복 변이(CNV)는 유전적 구조변이의 하나로서, 암을 포함하는 인간의 질병과 밀접한 연관성이 있는 것으로 알려져 있다. 암 유전자를 규명하기 위하여, 연구자는 특정 암 환자의 대규모 유전체 데이터를 분석하여 CNV를 찾아내야하며, 동시에 대규모 유전/임상 데이터를 연계 분석하여야 한다. 본 연구는 NGS 데이터로부터 CNV를 추출하고, 추출된 CNV와 관련된 유전/임상 정보를 체계적으로 연계 분석하는 기능을 제공하는 새로운 분석 툴 CNVDAT를 제안한다. CNV 추출 모듈은 스케일 스페이스 필터링 기법을 이용하여 CNV를 추출하며, 리드 데이터에 잡음이 포함된 경우에도 CNV의 타입/위치를 정확히 추출해낸다. 또한 시퀀스 분석 모듈은 변이 영역의 브라우징 및 상호 비교를 지원하는 사용자 친화적 프로그램으로서, 암/정상 샘플의 변이 영역의 동시 분석 기능과 refGene, OMIM DB를 기반으로 하는 CNV-유전자-표현형 매핑의 연관성 분석 기능을 제공한다. 본 프로그램의 소스 코드와 샘플프로그램은 http://dblab.hallym.ac.kr/CNVDAT/에서 다운 받을 수 있다.

레퍼런스 시퀀스의 특성을 고려한 HLA 영역에서의 CNVR 탐지 (CNVR Detection Reflecting the Properties of the Reference Sequence in HLA Region)

  • 이종근;홍동완;윤지희
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권6호
    • /
    • pp.712-716
    • /
    • 2010
  • 본 논문에서는 레퍼런스 시퀀스에 기가 시퀀싱데이터를 매핑하여 얻어지는 커버리지 데이터를 이용한 모양 기반의 단위반복변이 영역 (CNVR) 추출 방식을 제안한다. 제안하는 CNVR 검색 알고리즘은 후보 영역 추출 단계와 후처리 단계로 이루어진다. 후보 영역 추출 단계에서는 추출하고자 하는 CNV의 모양을 입력 변수로 조절하여 다양한 높이 및 크기를 갖는 CNV 후보 영역을 추출한다. 다음, 후처리 단계에서는 레퍼런스 시퀀스와 기가 시퀀싱 데이터에 포함되어 있는 시퀀싱 에러 문제를 보완하기 위하여, 레퍼런스 시퀀스의 에러 영역 보정, GC-content 영역 보정 등의 정제 과정을 거친 후, 최종 CNVR을 추출한다. 제안된 방식의 유용성을 보이기 위하여 "1000 게놈 프로젝트"에 의하여 공개된 실 데이터를 이용한 다양한 실험을 수행하였으며, DGV를 이용하여 추출된 CNVR의 정확도를 검증하였다. 실험 결과에 의하면 제안된 방식은 HLA 영역에 존재하는 반복되거나 결실되는 다양한 모양의 CNV를 효율적으로 검출하였다.

정렬된 리드의 통계적 분석을 기반으로 하는 CNV 검색 알고리즘 (A CNV detection algorithm based on statistical analysis of the aligned reads)

  • 홍상균;홍동완;윤지희;김백섭;박상현
    • 정보처리학회논문지D
    • /
    • 제16D권5호
    • /
    • pp.661-672
    • /
    • 2009
  • 인간의 유전체 서열에는 유전체 단위반복변위(copy number variation, CNV)를 포함하는 다양한 유전적 구조 변이(genetic structural variation)가 존재하며, 이는 기능적으로 질병에 대한 감수성, 치료에 대한 반응, 유전적 특성 등과 밀접한 관련이 있다. 본 논문에서는 기가 시퀀싱(giga sequencing)의 결과 산출되는 대량의 짧은 길이의 DNA 서열 데이터를 이용한 새로운 CNV 검색 방식을 제안한다. 제안하는 알고리즘에서는 레퍼런스 시퀀스에 DNA 서열 데이터를 서열 정렬시켜 각 레퍼런스 시퀀스의 위치에 대한 서열 데이터의 출현 빈도 정보를 얻은 후, 출현 빈도 정보의 패턴을 분석하여 통계적 유의성을 갖는 1kbp 이상의 연속 영역을 CNV 후보 영역으로 추출한다. 또한 제안된 알고리즘을 효율적으로 지원하기 위한 서열 정렬 방식에 대한 비교 및 분석을 수행한다. 제안된 기법의 유용성을 규명하기 위하여 다양한 실험을 수행하였다. 실험 결과에 의하면, 제안된 기법은 비교적 낮은 커버리지의 기가 시퀀싱 데이터를 이용하여 반복되거나 결실되는 다양한 형태의 CNV 영역을 효율적으로 검출하며, 또한 작은 사이즈의 CNV 영역에서부터 큰 사이즈의 CNV 영역까지 다양한 크기의 CNV 영역을 효율적으로 검출 할 수 있는 것으로 나타났다.