• 제목/요약/키워드: 보존서열 추출

검색결과 21건 처리시간 0.037초

모티프 서열에서의 특징추출 및 빈발패턴 분석 (Feature selection and frequent pattern analysis in protein motif sequence)

  • 김대성;이범주;류근호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2007년도 춘계학술발표대회
    • /
    • pp.10-13
    • /
    • 2007
  • 모티프는 진화과정을 거치면서 단백질 서열상에서 부분적으로 높게 보존된 지역을 의미한다. 이러한 모티프는 단백질의 기능과 구조를 예측하거나 생물학적으로 관련성이 있는 단백질의 공통적인 특성을 기술하는데 사용된다. 또한, 모티프와 단백질 서열의 상관관계는 생물학적 기능 예측에 필수적이며, 이러한 예측 문제는 모티프 검색을 통해 서열에 존재하는 빈발한 서열패턴과 구조패턴을 통해 단백질 서열에 대한 분석이 가능하다. 이 논문에서는 단백질 서열에 존재하는 2차 구조 특성과 빈발패턴을 검색하고 추출된 정보를 이용하여 단백질 기능 분류에 활용하고자 한다.

  • PDF

생물학적 데이터 서열들에서 빈번한 최대길이 연속 서열 마이닝 (Mining Maximal Frequent Contiguous Sequences in Biological Data Sequences)

  • 강태호;유재수
    • 정보처리학회논문지D
    • /
    • 제15D권2호
    • /
    • pp.155-162
    • /
    • 2008
  • DNA 염기 서열이나 단백질 아미노산 서열과 같은 생물학적 서열 데이터들은 일반적으로 많은 수의 항목들을 가지고 있다. 생물학적 데이터 서열들에는 보통 빈번하게 발생하는 수 백개의 항목으로 이루어진 연속된 서열들이 존재한다. 이들 서열들에서 빈번하게 발생하는 연속 서열을 검색하는 것은 생물학적 서열 분석에서 중요한 부분을 차지하고 있다. 이전에는 순차 패턴을 효과적으로 발견하고자 하는 많은 연구들이 수행되었으며 대부분의 기존 순차패턴 마이닝 기법들은 Apriori 알고리즘을 기반으로 한다. PrefixSpan 알고리즘은 Apriori 기반의 가장 효율적인 순차패턴 마이닝 기법이다. 하지만 이 알고리즘은 길이-1인 빈발 패턴들로 부터 서열 패턴을 확장해나가는 방식이다. 따라서 길이가 긴 연속 서열을 포함하는 생물학적 데이터서열들에 대한 검색방법으로는 적합하지 않다. 최근에는 기존의 PrefixSpan방식을 이용하면서도 반복적인 처리과정을 줄인 MacosVSpan이 제안되었다. 하지만 이 알고리즘 또한 길이가 긴 생물학적 데이터 서열들로부터 빈번하게 발생하는 연속 서열들을 검색하기에는 효율적이지 않다. 본 논문에서는 많은 양의 생물학적 데이터 서열들로부터 빈번한 연속서열을 고정길이 확장 트리를 이용하여 효과적으로 찾아내는 방법을 제안한다. 그리고 다양한 환경에서 실험을 통해 제안하는 방식이 MacosVSpan알고리즘에 비해 검색성능이 보다 우수함을 보인다.

pfhrp2/pfhrp3 유전자 결여 열대열 말라리아 특이 진단을 위한 생물정보학 기반 차세대 항원 단백질 선정 (Selection of next-generation antigen protein for diagnosis of pfhrp2/pfhrp3 gene deleted plasmodium falciparum based on bioinformatics)

  • 서승환;이지후;최재원;김학용
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2016년도 춘계 종합학술대회 논문집
    • /
    • pp.187-188
    • /
    • 2016
  • 열대열 말라리아(Plasmodium falciparum, P. falciparum, P. f) 신속진단키트의 경우, P. falciparum에 특이적인 단백질로써 Histidine Rich Protein 2 (PfHRP2)가 사용되고 있다. 그러나 최근 연구에서 남아메리카와 중앙아메리카를 중심으로 pfhrp2/pfhrp3 유전자가 결여된 P. falciparum 열원충이 나타나는 것으로 보고된 바 있다. 본 연구에서는 생물정보학을 기반으로 PfHRP2 항원 단백질을 대체할 수 있는 새로운 P. falciparum 특이 항원 단백질을 선정하고자, PlasmoDB에서 5,777개의 P. falciparum 관련 단백질 리스트를 얻었다. 이후 NCBI BLAST를 통해 단백질 아미노산 서열을 분석하고 정상인에게 존재하지 않으며, 동시에 다른 말라리아 열원충(P. vivax, P. ovale, P. malariae, P. knowlesi)에도 존재하지 않는 P. falciparum 특이 아미노산 서열을 가진 단백질 15개를 추출하였다. IEDB analysis를 이용하여 에피토프, 수용성, 베타-턴, 접근성, 유연성, 면역원성을 분석하여 높은 평균값을 갖는 상위 3개 단백질을 선별하였다. KEGG pathway와 EMBL-EBI를 통해 선별된 3개 단백질의 혈액내 검출 가능성 및 아미노산 서열의 보존성을 분석하여 최종적으로 Glutamate-Rich Protein (GLURP)을 선정하였다. AIDA를 통해 단백질 아미노산 서열을 이용한 3차 구조 예측으로 GLURP의 구조 및 항체와의 결합을 도식화하였다. 최종적으로 선정한 GLURP는 pfhrp2/pfhrp3 유전자 결여 P. falciparum까지 특이적으로 진단이 가능하여 차세대 P. falciparum 특이 신속진단키트 개발에 도움이 될 수 있을 것으로 기대한다.

  • PDF

출토 인골 DNA의 real-time PCR 정량에 의한 보존상태 평가 연구 - 부여 오수리 출토 인골을 중심으로 - (Evaluation of the preservation state of human skeletal remains using real-time PCR)

  • 권은실;조은민;김수훈;강소영
    • 보존과학연구
    • /
    • 통권32호
    • /
    • pp.171-183
    • /
    • 2011
  • 본 연구는 충청남도 부여군 규암면 오수리 유적에서 발굴된 인골 4개체를 대상으로 조직학, 분자유전학, 골화학 분석 등 종합적인 연구를 통해 이들의 상관관계를 규명하고자 하였다. 실체현미경을 통해 인골 시료의 골조직 단면 구조를 관찰함으로써 각 시료의 조직학적 보존 상태를 단계별로 구분하였고, 잔존하는 단백질의 보존 상태는 콜라겐을 추출하여 수율을 측정함으로써 평가하였다. 또한 미토콘드리아 cytochrome b 유전자를 이용한 실시간 유전자 증폭법을 이용하여 각각의 인골 시료에 잔존하는 미토콘드리아 DNA의 상대적 보존량 및 복제수를 분석하였으며, 미토콘드리아 과변위부위의 염기서열을 동정하였다. 본 연구 결과 인골 시료의 조직학적 보존정도, 콜라겐 단백질의 잔존량, 미토콘드리아 DNA의 복제수는 상호 긍정적인 연관관계로 나타났다. 이 연구는 출토 인골의 생물 화학적 분석 가능성을 예측하기 위한 특성지표 연구의 중요자료로 활용 될 수 있을 것이다.

  • PDF

팔딱이 지렁이(Perionyx excavatus) DDX3 유전자의 동정 및 특성 (Identification and characteristics of DDX3 gene in the earthworm, Perionyx excavatus)

  • 박상길;배윤환;박순철
    • 유기물자원화
    • /
    • 제23권1호
    • /
    • pp.70-81
    • /
    • 2015
  • Helicase는 NTP 결합의 화학적 에너지를 이용하여 이중가닥의 DNA와 RNA를 단일가닥으로 분해하여 다양한 생체반응에 기여하는 단백질로 알려져 있으며, 이 중 DEAD-box의 단백질은 주로 RNA와 관련된 대부분의 생화학적 반응에 작용하는 ATP 의존성 helicase로 알려져 있다. 또한 이 단백질 부류에 속하는 DEAD-box3 (DDX3) gene은 척추동물뿐만 아니라 무척추동물에서의 유성 생식과 무성 생식에서 생식세포 발달 및 재생과정 중 줄기세포 분화에 중요한 역할을 하는 인자로 알려져 있다. 이에 본 연구는 강한 재생능력을 가진 것으로 알려져 있는 팔딱이 지렁이(Perionyx excavatus)에서 DDX3 gene을 동정하고 그 발현양상을 알아보고자 환대를 포함하는 성체 지렁이의 두부를 절단하여 total RNA를 추출하고, 이를 주형으로 RT-PCR을 수행하여 full length의 DDX3 gene인 Pe-DDX3를 검출하였다. Pe-DDX3는 607개 아미노산 서열로 이루어져 있으며, DEAD-box 단백질 그룹 내에서 특이적으로 보존되어 있는 9개의 motif가 존재하고 있다. 다른 분류군에 속하는 동물들과의 multiple alignment를 통해 서열 내에 보존되어 있는 아미노산 서열을 확인할 수 있었으며, 아미노산 차원에서의 계통수 분석을 통해 DDX3 (PL10) 하부그룹에 속하는 것을 알 수 있었으며, 또한, 같은 그룹에 속하는 동물 중 P. dumerilii의 PL10a, b 단백질과 가장 가까운 유연관계를 확인 할 수 있었다.

부여 큰독골 유적 출토 인골 조직 및 외부 토양의 세균 군집의 비교연구 (Comparative Study of Soil Bacterial Populations in Human Remains and Soil from Keundokgol Site at Buyeo)

  • 김윤지;김수훈;권은실;조은민;강소영
    • 헤리티지:역사와 과학
    • /
    • 제47권4호
    • /
    • pp.92-105
    • /
    • 2014
  • 인골과 인골 주변 토양에 분포하는 세균의 군집구조를 비교하기 위해 부여 오수리 큰독골 유적에서 발굴된 조선시대 회곽묘 인골 중 상대적으로 시료 상태가 좋지 않은 4호 인골과 상태가 양호한 5호 인골 및 주변 토양에서 DNA를 추출하였다. 추출한 DNA의 16S rDNA 염기서열 분석을 수행한 결과, 4호 인골에서 구축된 319개 클론은 ${\alpha}$, ${\beta}$, ${\gamma}$-Proteobacteria, Acidobacteria, Actinobacteria, Planctomycetes, Chloroflexi, Chlorobi, Bacteroidetes, Firmicutes 그리고 novel gene group 등 총 11개의 계통군이 확인되었다. 인골 주변 토양에서 구축된 462개 콜론은 ${\alpha}$, ${\beta}$, ${\gamma}$, ${\delta}$-Proteobacteria, Acidobacteria, Actinobacteria, Bacteroidetes, Verrucomicrobia, Planctomycetes, Chloroflexi, Chlorobi, Firmicutes, Thermodesulfobacteria, Fibrobacteres, Gemmatimonadetes, Verrucomicrobia 그리고 novel gene group 등 총 16개 계통군이 확인되었다. 5호 인골에서 구축된 271개 클론은 ${\alpha}$, ${\gamma}$-Proteobacteria, Acidobacteria, Actinobacteria, Planctomycetes, Chloroflexi, Bacteroidetes, Firmicutes 그리고 novel gene group 등 총 10개의 계통군이 확인되었으며, 인골 주변 토양에서 구축된 497개 클론은 ${\alpha}$, ${\beta}$, ${\gamma}$-Proteobacteria, Actinobacteria, Acidobacteria, Chloroflexi, Firmicutes, Gemmatimonadetes, Planctomycetes, Bacteroidetes 그리고 Verrucomicrobia 등 총 11개 계통군으로 확인되었다. 4호, 5호의 모든 시료에서 Actinobacteria 계통군이 가장 높은 비율을 차지하고 있으며, ${\alpha}$-Proteobacteria 계통군 또한 높은 비율을 차지하는 것으로 분석되었다. 인골은 주변 토양 세균의 군집에 의해 광범위하게 오염되어 있다는 것이 확인되었으며, 본 결과는 인골의 보존과 관리를 위한 중요 자료로 활용될 것이다.

벼의 arginine decarboxylase DNA clone의 재조합 및 염기서열 분석 (Molecular Cloning and Nucleotide Sequencing of a DNA Clone Encoding Arginine Decarboxylase in Rice (Oryza sativa L.))

  • 홍성희;정지웅;옥승한;신정섭
    • Applied Biological Chemistry
    • /
    • 제39권2호
    • /
    • pp.112-117
    • /
    • 1996
  • ADC는 diamine인 putrescine 생합성의 두가지 경로중에서 식물계에서 특히 중요한 효소이며, ADC 유전자는 E. coli, 귀리, 토마토 genome에서 이미 cloning된 바 있다. 벼 (Oryza sativa L.) 게놈 DNA의 PCR 증폭을 위해서 토마토와 E. coli의 ABC cDNA의 보존된 부분과 일치하는 두개의 degenerate oligonucleotides (17mer)를 인위 합성하였으며, 증폭의 결과 약 1 kbp 크기의 DNA가 관찰되었다. 증폭된 DNA 절편은 1,022bp 염기서열을 포함하고 있는 ORE (open reading frame)으로 확인되었다. 이 PCR product는 POEM-originated T vector에 재조합하였으며 PstI 제한효소로 약 500bp 크기로 절단하여 pGEM-3Zf(+/-) vector에 subcloning하였다. 벼 ADC clone의 염기서열은 귀리와 토마토 ADC cDNA 서열의 같은 부분과 각각 74%와 70%의 동질성을 갖는 것으로 나타났으며, 예상되는 아미노산 서열은 귀리와 토마토 ADC 단백질과 각각 45%와 62%의 동질성이 관찰되었다. 귀리와 E. coli, 토마토와 귀리 그리고 토마토와 E. coli ADC 아미노산 서열에서 각각 34%, 47%, 그리고 38%의 유사성 정도가 보고된 것을 비교하여 볼 때, 벼와 귀리 및 토마토 사이의 유사성 정도는 다른 비교 보다도 월등히 높았다. 벼 유묘기 잎조직에서 추출한 RNA를 이용한 Northern blot 분석에서 ADC는 약 2.5kbp의 전사체로 발현됨이 확인되었다.

  • PDF

고대 DNA의 분석과 검증 (Analysis and Verification of Ancient DNA)

  • 지상현;서민석
    • 헤리티지:역사와 과학
    • /
    • 제40권
    • /
    • pp.387-411
    • /
    • 2007
  • 고대 DNA분석은 인류학, 고고학, 생물학자뿐만 아니라 대중의 관심사가 될 정도로 점차 중요성이 강조되고 있다. 고고학자와 생물학자는 인류의 기원과 집단의 이주, 민족의 형성 그리고 고대인의 질병과 매장문화를 규명하는데 있어 고대 DNA분석을 접목하고 있으며, 이미 멸종된 동물의 계통진화학적인 연구에도 이를 활용하고 있다. 고대 DNA분석의 새로운 전기가 마련된 계기는 고대 시료에서 추출되는 미량의 DNA 증폭을 가능하게 한 종합효소연쇄반응(Polymerase chain reaction, PGR)법이 개발되면서였다. 그러나 고대 DNA는 탈아미노화나 절편화 등의 분자 손상 정도가 심한데 이것은 PCR에서 중합효소의 정확한 DNA 증폭을 방해하는 요인으로 작용한다. 시토신이 탈아미노화되어 우라실을 형성하는 것은 DNA의 염기치환오류를 일으킬 수 있으며, 이런 현상은 증폭 과정에서 고유의 염기서열에 대한 고정치환($C{\rightarrow}T$, $G{\rightarrow}A$)을 유도하게 된다. 또한 대부분의 고대시료는 외부 오염물에 노출되어 있는데, 특히 외부 DNA의 오염은 고대 DNA의 염기서열을 결정함에 있어서 부정확한 결과를 도출시키는 심각한 문제를 초래하곤 한다. 이와 같이 고대 시료는 오랜 기간 동안 자연 분해과정과 다양한 오염물질에 노출되어 있어 그 훼손 정도가 심한 것이 일반적이다. 고대 DNA 연구에 있어서 많은 생화학적 손상과 외부 DNA의 오염을 극복하기 위해서는 보통의 분자생물학적인 방법과 기준보다 더욱더 엄격한 검증 절차에 의하여 연구가 진행되어야 하며, 연구 결과의 신뢰성을 확보하는 것이 무엇보다 중요하다. 따라서 본 글에서는 고대 DNA의 손상과 오염물질에 의한 부정확한 염기서열결정과 오류를 보정하고 예방할 수 있는 연구 기준과 실험적 절차를 설명하고자 한다.

Small CNN-RNN Engraft Model Study for Sequence Pattern Extraction in Protein Function Prediction Problems

  • Lee, Jeung Min;Lee, Hyun
    • 한국컴퓨터정보학회논문지
    • /
    • 제27권8호
    • /
    • pp.49-59
    • /
    • 2022
  • 본 논문에서는 2020년 기준 단백질 서열을 이용한 기능과 구조 예측 분야에서 가장 많이 사용되고 있는 딥러닝 모델인 CNN과 LSTM/GRU 모델을 동일한 조건 하에 비교 평가한 연구를 토대로 새로운 효소 기능 예측 모델인 PSCREM을 설계하였다. CNN 합성곱 시 누락되는 세부 패턴을 보존하기 위하여 서열 진화정보를 이용하였으며 중첩 RNN을 통해 기능적으로 중요한 의미를 가지는 아미노산 간의 관계 정보를 추출하고 특징 맵 제작에 참조하였다. 사용된 RNN 계열의 알고리즘은 LSTM과 GRU로 보통 stacked RNN 기법으로 100 units 이상 2~3회 쌓는 것이 일반적이나 본 논문에서는 10, 20 unit으로 구성한 뒤 중첩시켜서 특징 맵 제작에 사용하였다. 모델에 들어가는 데이터는 단백질 서열 데이터로 PSSM profile로 가공한 뒤 사용되었다. 실험 결과 효소 번호 첫 번째 자리를 예측하는 문제에 대해 86.4%의 정확도를 나타냄을 입증하였고, 효소 번호 3번째 자리까지 예측 정확도 84.4%의 성능을 내는 것을 확인하였다. PSCREM은 Overlapped RNN을 통해 단백질 기능에 관련된 고유 패턴을 더 잘 파악하며 Overlapped RNN은 단백질 기능 및 구조 예측 추출 분야에 새로운 방법론으로서 제안된다.

다중 관계 그래프를 이용한 유전체 보존영역의 계층적 시각화와 개략적 전사 annotation 도구 (Rough Computational Annotation and Hierarchical Conserved Area Viewing Tool for Genomes Using Multiple Relation Graph.)

  • 이도훈
    • 생명과학회지
    • /
    • 제18권4호
    • /
    • pp.565-571
    • /
    • 2008
  • 생물정보학의 발전으로 다양한 형태의 생물정보가 컴퓨터 프로그램에 의해 양산되고 있다. 단순한 서열간의 비교나 작은 규모의 자료를 처리하기 보다는 다각화된 정보와 대규모의 생물정보를 취급하고 있다. 그 중에서 시각화와 annotation를 위한 도구개발은 지난 10년간 많은 연구가 되고 있는 분야이다. 그럼에도 일반화된 도구 개발은 생물정보의 다양성과 사용자 요구의 다양화로 인해 매우 어렵다. 본 논문에서는 유전체간 알려진 정보와 다중 관계 그래프를 이용하여 이를 annotation하고 시각화하는 GenoVA 시스템을 제안한다. 다중 정렬을 위한 몇 개의 프로그램이 존재하지만 그 방법들이 서열내의 복잡성 때문에 많은 정보가 누락된다. 따라서 제안된 방법에서는 pairwise alignment를 확장하여 모든 유전체간 비교를 통해 연관성 도출한다. 유전체간 보존되는 영역의 빈도수와 BLAST 점수가 높은 것을 블록노드라 하고 이들 간의 연관관계를 다중 관계 그래프로 표현하였다. 또한 GenoVA는 알려진 정보, COG, 유전자를 시각화하고 다중 관계 그래프의 한 영역을 중심으로 클러스터링된 경로를 계층적으로 보여주었다. 이때 누락되거나 알려지지 않은 유전자나 다른 annotation정보 추출할 수 있다. 본 논문의 실험을 위해 열 개의 박테리아 유전체가 사용되었고 시각화와 annotation을 위한 자료로 활용하였다. GenoVA는 새로운 유전체에 대한 개략적이고 전산적 annotation을 직관적이고 편리하게 제공한다.