• 제목/요약/키워드: 유전자 데이터베이스

검색결과 182건 처리시간 0.022초

균형 표본 유전 알고리즘과 극한 기계학습에 기반한 바이오표지자 검출기와 파킨슨 병 진단 접근법 (Bio-marker Detector and Parkinson's disease diagnosis Approach based on Samples Balanced Genetic Algorithm and Extreme Learning Machine)

  • ;;최용수
    • 디지털콘텐츠학회 논문지
    • /
    • 제17권6호
    • /
    • pp.509-521
    • /
    • 2016
  • 본 논문에서는 파킨슨 병 진단 및 바이오 표지자 검출을 위한 극한 기계학습을 결합하는 새로운 균형 표본 유전 알고리즘(SBGA-ELM)을 제안하였다. 접근법은 정확한 파킨슨 병 진단 및 바이오 표지자 검출을 위해 공개 파킨슨 병 데이터베이스로부터 22,283개의 유전자의 발현 데이터를 사용하며 다음의 두 가지 주요 단계를 포함하였다 : 1. 특징(유전자) 선택과 2. 분류단계이다. 특징 선택 단계에서는 제안된 균형 표본 유전 알고리즘에 기반하고 파킨스병 데이터베이스(ParkDB)의 유전자 발현 데이터를 위해 고안되었다. 제안된 제안 된 SBGA는 추가적 분석을 위해 ParkDB에서 활용 가능한 22,283개의 유전자 중에서 강인한 서브셋을 찾는다. 특징분류 단계에서는 정확한 파킨슨 병 진단을 위해 선택된 유전자 세트가 극한 기계학습의 훈련에 사용된다. 발견 된 강인한 유전자 서브세트는 안정된 일반화 성능으로 파킨슨 병 진단을 할 수 있는 ELM 분류기를 생성하게 된다. 제안된 연구에서 강인한 유전자 서브셋은 파킨슨병을 관장할 것으로 예측되는 24개의 바이오 표지자를 발견하는 데도 사용된다. 논문을 통해 발견된 강인 유전자 하위 집합은 SVM이나 PBL-McRBFN과 같은 기존의 파킨슨 병 진단 방법들을 통해 검증되었다. 실시된 두 가지 방법(SVM과 PBL-McRBFN)에 대해 모두 최대 일반화 성능을 나타내었다.

메타분석을 통한 반려견 분변 박테리아 군집 조사 (A Meta-Analysis of Fecal Bacterial Diversity in Dogs)

  • 정진영;김민석
    • 한국산학기술학회논문지
    • /
    • 제18권1호
    • /
    • pp.141-147
    • /
    • 2017
  • 본 연구에서는 클로닝과 생어 염기서열 분석으로 획득된 16S rRNA 유전자 염기서열을 메타분석하여 반려견 분변 박테리아를 조사하였다. 이러한 메타분석을 위해서 RDP 데이터베이스(Release 11, Update 3)에 등록되어 있는 반려견 분변 박테리아 유래 16S rRNA 유전자 염기서열 검색하여 획득하였다. RDP 데이터베이스에서 총 420개의 반려견 분변 박테리아 유래 16S rRNA 유전자 염기서열이 확인되었고, 그 중에서 42개 유전자 염기서열이 배양가능한 박테리아에서 유래한 것으로 확인되었다. 이러한 420개의 유전자 염기서열은 박테리아 분류학상의 '문'(phylum)에서 총 5개(Firmicutes, Bacteroidetes, Actinobacteria, Fusobacteria, Proteobacteria)로 분류되었다. 그 중에서 Firmicutes가 가장 우점하는 '문'이었고, 총 420개 유전자 중에서 55.2%를 차지하였다. Bacteroidetes는 32.1%로 두 번째로 우점하는 '문'이였고, 다음으로 Actinobacteria(6.4%), Fusobacteria(3.8%), Proteobacteria(2.4%)가 우점하였다. 박테리아 분류학상의 '속'(genus)에서는 Bacteroidetes의 하위 단계인 Bacteroides가 가장 우점하였고 총 420개 유전자 중에서 30.0%를 차지하였다. 반면에 Firmicutes의 하위 단계인 Clostridium XI는 두 번째로 우점하는 '속'으로 총 420개 유전자 중에서 27.4%를 차지하였다. 추정상의 '종'(species)인 Operational taxonomic units의 수는 82개로 확인되었다. 본 연구의 결과는 반려견 분변 내 미생물 다양성을 이해하는데 도움을 줄 수 있을 것이고, 향후 반려견의 건강과 웰빙에 관한 연구에 활용될 수 있을 것이다.

스키마 통합 기반 생명정보 검색시스템(BIRS) 설계에 관한 연구 (A Study on Design of Schema Integration based Biological Information Retrieval System)

  • 한건;이상호;안부영
    • 정보관리연구
    • /
    • 제40권1호
    • /
    • pp.217-234
    • /
    • 2009
  • 컴퓨터로 옮겨 놓은 생물학 실험실에서 생명과학을 연구하는 연구자가 생명정보를 확인하려면 1차적으로 생물다양성 관련 데이터베이스에서 생명체에 관한 종정보, 생태정보, 분포정보를 검색해야 한다. 그리고 그 생명체를 구성하는 유전자 서열정보와 단백질 구조정보를 Genbank, PDB 등의 유전자/단백질 데이터베이스에서 검색해야 한다. 또한 그 생명체에 관한 학술적 내용이 수록된 학술논문까지 별도로 검색해야만 그 생명체에 관한 포괄적이고도 정확한 정보를 획득하여 연구에 활용할 수 있다. 이런 일련의 과정은 연구자에게 불편함과 함께 많은 시간이 소요됨으로 인해 연구의 효율성을 저하시키는 요인이 되고 있다. 이런 불편함을 해결하기 위하여 통합검색하기 위한 여러 방법을 분석하고, 그중 스키마 통합을 선택하였다. 또한 스키마 통합을 위하여 각각의 데이터베이스의 스키마를 분석하고 메타데이터를 추출하여 Mediated 스키마를 설계하였다. 본 논문에서 설계한 생명정보 검색시스템(BIRS, Biological Information Retrieval System)과 인터페이스를 사용하여 생명과학을 연구하는 연구자들의 연구의 효율성을 향상시킬 수 있을 것이다.

Kalanchoe 식물의 영양 번식에 영향을 줄 수 있는 유전자들의 선발 (Screening of Genes Which are Able to Affect Kalanchoe Vegetative Reproduction)

  • 정유철;정영재;김동균
    • 생명과학회지
    • /
    • 제21권6호
    • /
    • pp.865-874
    • /
    • 2011
  • Bryophyllum 속에서 그것들의 잎으로부터 소식물체를 생산하는 능력을 갖고 있는 많은 종들이 잘 알려졌다. 이러한 현상은 또한 식물 영양생식으로 알려져 있다. DEG 유전자 감지 기술이 소식물체 형성을 위한 무성생식과정에 관련된 유전자의 조사에 적용되었다. 탐색 된 유전자들은 NCBI 데이터베이스를 사용한 검색 법을 기반으로, 총 69 DEGs에서 38 유전자가 발견되었다. 대부분의 이러한 DEGs는 호르몬(cytokinin과 에틸렌) 신호, 세포 신호 전달, 그리고 세포 분열과 관련 된 유전자들이였다.

분산 데이타베이스에서의 질의실행시간 최소화를 위한 유전자알고리즘: 총 시간 대 반응시간 (A Genetic Algorithm for Minimizing Query Processing Time in Distributed Database Design: Total Time Versus Response Time)

  • 송석규
    • 정보처리학회논문지D
    • /
    • 제16D권3호
    • /
    • pp.295-306
    • /
    • 2009
  • 질의실행시간최소화는 분산 데이타베이스 설계에 있어 가장 중요한 목적중의 하나이다. 총시간최소화는 온라인거래처리시스템의 목적인 반면, 반응시간최소화는 의사결정지원 질의시스템의 목적이다. 본 논문에서는 질의실행시간최소화를 달성하기 위해 질의를 세분화하여 최적의 데이터베이스 사이트에 할당하는 분석모델을 개발하였으며, 문제해결방법으로 유전자알고리즘을 채택하였다. 총시간최소화 관점에서의 질의실행 계획은 반응시간최소화 관점의 질의실행계획에는 적합하지 않다는 것을 증명하였으며, 그 반대의 경우도 증명하였다. 최대 20개의 조인이 포함되는 질의를 설계하여 시뮬레이션 실험을 통해 테스트를 수행하였고, 유전자알고리즘과 완전한 전수조사와의 결과를 비교함으로써 모든 경우에 유전자알고리즘을 채택한 해결책이 최적의 결과를 도출하였음을 증명하였다.

데이터 마이닝의 능률적인 군집화를 위한 유전자 알고리즘 적용에 관한 연구 (A Study on Gene Algorithm Application for Efficient Clustring of Data Mining)

  • 최호진;홍성표
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2008년도 제39차 동계학술발표논문집 16권2호
    • /
    • pp.41-44
    • /
    • 2009
  • 데이터 마이닝의 대표적인 기법인 군집화는 군집내의 유사성을 최대화하고, 군집들간의 유사성을 최소화 시키도록 데이터의 집합을 분할하는 것이다. 대용량의 데이터베이스에서 최적의 효율화를 내기 위해서는 원시데이터에 대한 접근 횟수를 줄이고, 이것을 알고리즘 적용 대상이 데이터 구조의 크기를 줄이는 군집화 기법에 많은 관심이 보이고 있다. 본 논문에서는 유전자 알고리즘을 이용하여 자동으로 군집의 개수를 결정하는 군집화 알고리즘을 제안하는 적합도 함수는 보다 양질의 군집을 찾아내는 것으로 평가 되었다. 또한 유전자 알고리즘 중 8가지를 세부 분석하여 평가하였다.

  • PDF

생화학적 네트워크 데이터의 효율적인 통합을 위한 시스템 (A System To Integrate The Biochemical Network Data Efficiently)

  • 정태성;안명상;조완섭
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 한국컴퓨터종합학술대회 논문집 Vol.32 No.1 (B)
    • /
    • pp.238-240
    • /
    • 2005
  • 유전자의 생물학적 기능을 밝히고 세포 내 상호작용을 이해하는 것은 post-genome era의 가장 중요한 작업 중 하나이다. 세포는 서로 다른 컴포넌트들의 상호작용에 의해 아주 복잡한 네트워크를 구성한다. 생화학적 네트워크에는 metabolic, regulatory, signal transduction과 같은 세포의 프로세스를 포함한다. 이러한 생화학적 네트워크들은 서로 다른 정보체계를 가지고 각기 다른 데이터베이스에 분산되어 저장관리 되고 있다. 따라서 생화학적 네트워크 데이터를 체계적으로 효율적으로 저장, 관리하기 위한 데이터베이스에 대한 필요성이 증대되고 있다. 본 논문에서는 기존의 생화학적 네트워크 데이터베이스의 장.단점을 분석하고 객체지향 방식에 입각한 새로운 생화학적 네트워크 데이터의 통합을 위한 시스템 모델을 제시한다. 제안된 시스템 모델은 생화학적 네트워크 데이터에 대한 생물학전 관계를 자연스럽게 표현할 수 있는 객체지향 모델을 사용하였다. 또한 생화학적 네트워크 모델을 묘사하기 위한 응용프로그램 사이의 데이터 교환의 표준언어인 SBML[2]스키마를 기반으로 하고 있다.

  • PDF

miRNA, PPI, Disease 정보의 통합 모델 설계 (Integrated Model design of miRNA, PPI and Disease Information)

  • 하경식;임진묵;김홍기
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(B)
    • /
    • pp.492-494
    • /
    • 2012
  • MicroRNAs(miRNAs)는 mRNA의 발현량을 조절하여 단백질 생성량에 영향을 주는 것으로 잘 알려져있다. miRNA의 데이터베이스는 실험으로 증명된 결과를 중심으로 구성되어 있다. 하지만 miRNA 데이터베이스는 miRNA가 대상으로 하는 유전자 정보에 초점을 맞추고 있어서 그 이상의 질병정보를 얻기에는 어려움이 있다. 본 논문에서는 miRNA와 Protein-Protein Interaction(PPI) 통합 모델을 설계하여 miRNA의 의미적 확장 방법을 제시하고 있다. 또한 Online Mendelian Inheritance in Man(OMIM)을 이용한 miRNA, PPI, 관련 질병, 질병 표준화 관계의 확장방법을 찾아보았다. 이러한 접근 방법은 이형 데이터베이스를 연결하여 하나의 생물학적 시야를 제공할 수 있을 것으로 기대된다.

생물정보 데이터베이스 구축을 위한 XML 적용 기법

  • 이범주;박성희;류근호
    • 한국정보기술응용학회:학술대회논문집
    • /
    • 한국정보기술응용학회 2001년도 춘계학술대회 E-Business 활성화를 위한 첨단 정보기술
    • /
    • pp.101-103
    • /
    • 2001
  • 최근 셍물정보 분야에서 웹상에서 단백질과 유전자의 서열정보 및 이와 관련된 실험과 참조정보를 다른 유전체 데이터베이스 시스템과 상호교환을 위한 표준 형식으로 XML을 이용하기 시작하였다. 더불어 웹에서 데이터전송을 위한 표준 형식인 XML을 생물정보응용 분야에서 이용하기 위한 BioML을 정의하였다. 그러나 BioML에서는 서열의 소스 및 참조정보, 갱신정보와 XML문서사이의 참조정보를 포함하지 않고 있다. 따라서 이 논문에서는 BioML에서 포함하지 않는 이러한 정보를 XLink와 XPointer를 이용하여 나타낼 수 있도록 BioML을 확장하고 BioML에 포함된 서열 정보에 대한 메타정보를 RDF를 적용하여 제시하였다. 이렇게 함으로써 이질적인 생명정보데이터베이스 시스템에서 서열에 대한 복잡한 링크 정보와 서열의 변경정보를 효율적으로 교환이 가능하다.

  • PDF

단백질 상호작용 네트워크를 통한 유전체 단위반복변이와 트랜스유전자 발현과의 연관성 분석 (Genome-Wide Association Study between Copy Number Variation and Trans-Gene Expression by Protein-Protein Interaction-Network)

  • 박치현;안재균;윤영미;박상현
    • 정보처리학회논문지D
    • /
    • 제18D권2호
    • /
    • pp.89-100
    • /
    • 2011
  • 인간 유전체에 존재하는 유전적 구조 변이(genetic structural variation) 중 하나인 유전체 단위반복변이(Copy Number Variation, CNV)은 유전자의 기능 발현과 밀접한 관련이 있다. 특히 특정 유전 질병이 있는 사람들을 대상으로 CNV와 유전자발현의 관계를 밝히는 연구가 계속 진행되고 있지만, 정상인 유전체에 대한 CNV의 기능적 분석은 아직 활발히 이루어지고 있지 않다. 본 논문에서는 다수의 정상인 샘플에서 찾아낸 공통된 CNV에 대하여 유전자들과의 기능적 관계를 유전자의 분자적 위치와 상관없이 밝힐 수 있는 분석 방법을 제시한다. 이를 위해 서로 다른 이질적인 생물학데이터를 통합하는 방법을 제시하고 공통된 CNV와 유전자와의 연관성을 분자적 위치와 상관없이 계산할 수 있는 새로운 방법을 제시한다. 제안된 방법의 유의성을 보이기 위해서 유전자 온톨로지 (Gene Ontology) 데이터베이스를 이용한 다양한 검증 실험들을 수행하였다. 실험결과 새롭게 제안된 연관성 측정방법은 유의성이 있으며 공통된 CNV와 강한 연관성을 갖는 유전적 기능의 후보들을 시스템적으로 제시할 수 있는 것으로 나타났다.