• 제목/요약/키워드: 서열

검색결과 3,677건 처리시간 0.029초

Random forest를 이용한 RNA에서의 단백질 결합 영역 예측 (Prediction of protein binding regions in RNA using random forest)

  • 최대식;박병규;채한주;이욱;한경숙
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2016년도 추계학술발표대회
    • /
    • pp.583-586
    • /
    • 2016
  • 단백질과 RNA의 상호작용 데이터가 대량으로 늘어남에 따라, 단백질과 RNA의 결합부위를 예측하는 계산학적인 방법들이 많이 개발되고 있다. 하지만, 많은 계산학적인 방법들은 단백질에서 단백질과 RNA 결합부위를 예측한다는 한계점이 있었다. 본 논문에서는 RNA와 단백질의 서열정보를 모두 사용하여, 단백질과 결합하는 RNA 결합부위를 예측하는 기법과 그 결과를 논한다. WEKA random forest(http://www.cs.waikato.ac.nz/ml/weka/)를 이용하여 예측 모델을 개발하였고, RNA 서열의 서열 프로파일, 서열 composition, 결합 상대방의 단백질의 특성 등을 특정으로 표현하였다. Random forest 기법을 사용한 cross validation의 결과로서 1:1 모델에서 제일 높은 성능인 92.4% sensitivity, 92.0% specificity, 92.2% accuracy를 보였고, independent test에서는 72.5% sensitivity, 90.0% specificity, 2.1% accuracy를 보였다.

Hamiltonian Path Problem을 위한 DNA 컴퓨팅의 코드 최적화 (Code optimization of DNA computing for Hamiltonian path problem)

  • 김은경;이상용
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (2)
    • /
    • pp.241-243
    • /
    • 2002
  • DNA 컴퓨팅은 생체 분자들이 갖는 막대한 병렬성을 정보 처리 기술에 적용한 기술이다. Adleman의 DNA 컴퓨팅은 랜덤한 고정길이의 형태로 문제를 표현하기 때문에 해를 찾지 못하거나 시간이 많이 걸리는 단점을 갖고 있다. 본 논문은 DNA 컴퓨팅에 DNA 코딩 방법을 적용하여 DNA 서열을 효율적으로 표현하고 반응횟수 만큼 합성과 분리 과정을 거쳐 최적의 코드를 생성하는 ACO(Algorithm for Code Optimization)를 제안한다. DNA 코딩 방법은 변형된 유전자 알고리즘으로 DNA 기능을 유지하며, 서열의 길이를 줄일 수 있으므로 최적의 서열을 생성할 수 있는 특징을 갖는다. ACO를 NP-complete 문제 중 Hamiltonian path problem에 적용하여 실험한 결과, Adleman의 DNA 컴퓨팅 보다 초기 문제 표현에서 높은 적합도 값을 갖는 서열을 생성했으며, 경로의 변화에도 능동적으로 대처하여 최적의 결과를 빠르게 탐색할 수 있었다.

  • PDF

한국산 가리비 2종의 28S rRNA 유전자 염기서열에 의한 유전적 특성 (Genetic Characterization based on Partial 28S rRNA Gene Sequence of Korean Two Scallops)

  • Park, Gab-Man
    • 한국패류학회지
    • /
    • 제13권1호
    • /
    • pp.1-7
    • /
    • 1997
  • 한국산 가리비, 큰가리비(Patinopecten yessoensis)와 주문진가리비(Chlamys swifti), 2종에 대한 28S ribosomal RNA 유전자의 PCR- 산물을 이용 RFLP 및 염기서열을 밝히고, 이미 보고된 2과 3종의 염기서열과 상동성을 비교 분석하였다. 그 결과 28S rRNA유전자를 이용하여 7가지 제한효소를 처리한 PCR-RFLP의 종간 차이에서 Taq I 제한효소에서만 차이를 볼 수 있었다. 한편 두종간에 28S rRNA유전자의 D1 부위의 염기서열에서 231개 부위 중 14군데에서 변이를 보였다.

  • PDF

다중서열수집 및 변환을 위한 효과적인 바이오인포메틱스 도구 (An Effective Bioinformatics Tool for Multiple Sequence Acquisition and Translation)

  • 이혜리;이승희;이건명;김성수;이찬희;이성덕
    • 한국지능시스템학회논문지
    • /
    • 제18권1호
    • /
    • pp.27-31
    • /
    • 2008
  • 많은 바이오인포매틱스 관련 데이터베이스와 도구가 네트워크를 통해서 제공되고 있고, 이들을 효과적으로 활용하면 생물학적 분석을 적은 비용으로 우수한 결과를 얻을 수 있다. 이 논문에서는 주어진 질의에 대해서 잠재적으로 관련된 DNA 서열 정보를 획득하고, 분석자가 관심 있는 항목을 선택하면, 선택된 항목에 대한 모든 DNA 서열 정보를 확보하고, 이들에 대해서 아미노산 서열로 자동변환하여 ORF라는 정보를 활용하여 가장 가능성이 큰 것을 추천하는 도구를 소개한다. 해당 도구에는 웹 로봇 기법과 ORF 검색등을 위한 생물학적 지식을 활용한다.

3D 단백질 구조 데이터베이스 및 유사성 검색 시스템 구축 (Building of Protein 3-D Structure Database and Similarity Search System)

  • 이영화;박성희;류근호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 춘계학술발표논문집 (상)
    • /
    • pp.79-82
    • /
    • 2002
  • 단백질 3차 구조 정보는 PDB에서 플랫화일 형태로 제공되고 있으며 이러한 플랫화일 각각의 엔트리들은 단백질 3차 분자 구조를 구성하는 원자들의 공간좌표정보, 서열정보, 실험정보 및 참조정보 등으로 구성된다. 이러한 정보들을 포함하고 있는 플랫파일로부터 필수적인 구조정보 및 서열정보 등의 효율적 검색을 위해서는 플랫파일을 데이터베이스로 구축함과 동시에, 구축된 데이터베이스를 위한 유사성 검색시스템 구축이 요구된다. 따라서, 이 논문에서는 Protein DataBank에서 제공하는 플랫파일을 공간객체 모델링기법에 기반한 관계형 데이터베이스로 구축하고 PSI-BLAST를 적용하여 단백질 서열 유사성 검색 시스템을 구축한다. 이렇게 함으로써 단백질 3자 구조 분자를 구성하는 원자에 대한 검색과 구조에 대한 서열 유사성 검색을 통하여 단백질 3차 구조 분류 및 구조 예측 시스템 구축에 활용할 수 있다.

  • PDF

근원세포 융합과 관련된 새로운 유전자의 확인 (A New Gene of Protein Related to Myoblast Fusion detected by Monoclonal antibidy)

  • 박수정;이영주
    • 한국동물학회지
    • /
    • 제38권1호
    • /
    • pp.49-54
    • /
    • 1995
  • 본 연구자들은 근원세포를 면역시켜 얻은 hybidoma들을 검색하여. 계배 근원세포의 분화와 관련된 단백질을 인지하여 분화를 억제하는 대과가 있는 monoclonal antibody 3H35를 선별하여 그 항원을 확인한 바 있다(Kim et af.. (1992), Korean J. Zool 35 29-36) 본 연구에서는 λZAP에 cloning된 chicken muscle CDNA library들을 lacZ fusion protein으로 발현시켜 항체 3H35로 검색하여 그 유전자를 찾아내었다. 선별한 CDNA clone 중 C59의 삽입 절편은 1.6 kb이었고, 발현시킨 facE fusion protein 은 60 kDa로, f-galactosidase에 대한 항체에 반응하며 3H35와도 반응함을 immunoaffinitv adsorbant와 immunoblot으로 확인하였다 Clone C59의 삽입 절편의 염기서열을 분석한 결과, 실제 유전자는 1.6 kb 이상이며, 알려진 어느 다른 유전자와도 관련이 없는 새로운 근특이 유전자로 판단되었다. 아미노산으로 전환시켰을 때 31개의 특이한 서열이 7차례 반복된 부분이 나타났으며 이 서열의 23개가 일정하게 보존되어있고 나머지 서열의 아미노산의 polarity도 매우 유사하게 효존되어있다. 이들의 보존성이 극히 높은 것으로 보아 독특한 기능을 수행하는 domain으로 추정된다.

  • PDF

다중 효소를 이용한 질량분석기법에 기반한 단백질의 아미노산 서열 분석 (In Sitilico Protein Sequencing Based on Mass Spectrometry Using Multiple Pretenses)

  • 문석현;이도헌;이광형
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2002년도 추계학술대회 및 정기총회
    • /
    • pp.473-477
    • /
    • 2002
  • 세포내에서 특정 단백질이 합성되어 이용되는 것을 단백질의 발현이라 한다. 이러한 단백질의발현을 조사하는 작업은 세포내 대사과정을 밝혀내는 데 있어서 매우 중요한 역할을 담당하고 있다. 단백질의 발현을 조사하기 위해서는 세포로부터 추출하여 정제한 단백질이 어떤 단백질인지를 확인하는 작업이 필요한데 현재로써는 확인하고자 하는 단백질 효소로 분해하여 분해된 조각들의 질량을 측정하여 기존에 알려진 단백질들을 분해했을 때 이론상 나을 수 있는 조각들의 무게와 비교하여 가장 근접한 단백질을 찾아내는 질량분석기법(mass Spectrometry)이 널리 사용된다. 그러나 이 방법은 확인하고자 하는 단백질의 아미노산 서열이 알려져 있을 경우에만 사용할 수 있다는 한계점을 가지고 있다. 본 논문에서는 이러한 한계를 계산적인 방법으로 극복하고자 동일단백질을 여러가지 효소로 분해하여 나오는 조각들의 질량을 측정하고 이들을 조합하여 원래 단백질의 아미노산 서열을 알아낼 수 있는 알고리즘을 제안한다.

웹2.0 기반 DNA서열 분석도구 구현에 대한 연구 (A Study on Implementation of DNA Sequence Analysis Tool in Web2.0)

  • 김명관;조충효
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2007년도 가을 학술발표논문집 Vol.34 No.2 (B)
    • /
    • pp.11-16
    • /
    • 2007
  • 최근 컴퓨터를 이용한 유전자 해석 기술이 급속히 발전함에 따라 DNA서열분석도구의 필요성도 늘어나고 있다. 그러나 DNA서열분석에 필요한 데이터베이스는 다양한 형태의 포맷이 제공되어 지고 있고, 유전자 서열 데이터의 처리를 위한 애플리케이션에서도 서로 다른 양식의 포맷이 사용되고 있다. 이로 인해 다른 형태의 포맷이 필요한 경우 별도의 파서를 구현 하는 문제가 발생한다. 이러한 단점을 보안하는 하나의 방법으로 GenBank에서 제공되는 XML파일을 이용한 웹2.0 환경인 RIA(Rich Internet Application)개발방식을 제안한다. RIA개발방식은 XML파서와 XML을 처리할 수 있는 E4X(ECMAScript for XML)와 같은 API를 제공 하여 XML로 리턴 되는 데이터를 쉽게 처리하여 화면으로 보여준다.

  • PDF

큰졸방제비꽃(Viola kusanoana)의 엽록체 염기서열 분석 (The chloroplast genome sequence of Viola kusanoana )

  • 고아름;유기억
    • 한국자원식물학회:학술대회논문집
    • /
    • 한국자원식물학회 2021년도 춘계학술대회
    • /
    • pp.22-22
    • /
    • 2021
  • 큰졸방제비꽃(Viola kusanoana)의 엽록체 DNA 염기서열을 밝히고자 차세대염기서열분석법(NGS)을 이용하여 분석하였다. 재료는 경상북도 울릉군 나리분지에 자생하는 개체의 잎을 사용하였다. 염기서열 분석결과, 총 길이는 158,644 bp 였고, GC함량은 36.3%로 분석되었다. 구간별로는 LSC (Large single copy)지역이 86,999 bp (GC content: 33.9%)였고 SSC (Small single copy)지역은 17,439 bp (GC content: 29.9%)으로 분석되었으며 IR (Invertied repeats)지역은 27,103 bp (GC content: 42.2%)로 확인되었다. 유전자는 protein coding gene 77개, tRNA gene 30개, rRNA 4개 등 총 111개로 이는 선행 연구된 제비꽃속 8개 분류군과 유전자의 순서와 방향이 모두 일치하였다. 이를 통해 제비꽃속의 엽록체 게놈의 유전자는 상당히 보존되어 있음을 확인하였다.

  • PDF

CNV 영역 검색 알고리즘 (A CNV Detection Algorithm)

  • 홍상균;홍동완;윤지희
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2008년도 추계학술발표대회
    • /
    • pp.356-359
    • /
    • 2008
  • 최근 생물정보학 분야에서 인간 유전체에 존재하는 CNV(copy number variation)에 관한 연구가 주목 받고 있다. CNV 영역은 1kbp-3Mbp 사리의 서열이 반복되거나 결실되는 변이 영역으로 정의된다. 우리는 선행연구에서 기가 시퀀싱(giga sequencing)의 결과 산출되는 DNA 서열조각인 리드(read)를 레퍼런스 시퀀스에 서열 정렬하여 CNV 영역을 찾아내는 새로운 CNV 검색 방식을 제안하였다. 후속 연구로서 본 논문에서는 DNA 서열에 존재하는 repeat 영역 문제를 해결하기 위한 새로운 방안을 제안하고, 리드의 출현 빈도 정보를 분석하여 CNV 영역을 찾아내는 CNV 영역 검색 알고리즘을 보인다. 제안된 알고리즘 Gaussian 분포를 갖는 출현 빈도 정보로부터 통계적 유의성을 갖는 영역을 추출하여 CNV 영역후보로 하고, 다음 경제 과정을 거쳐 최종의 CNV 영역을 추출한다. 성능 평가를 위하여 프로토타임 시스템을 개발하였으며, 시뮬레이션 실험을 수행하였다. 실험 결과에 의하여 제안된 방식은 반복되거나 결실되는 형태의 CNV 영역을 효율적으로 검출하며, 또한 다양한 크기의 CNV 영역을 효율적으로 검출할 수 있음을 입증한다.