• Title/Summary/Keyword: 유전자 데이터베이스

Search Result 182, Processing Time 0.028 seconds

Bio-marker Detector and Parkinson's disease diagnosis Approach based on Samples Balanced Genetic Algorithm and Extreme Learning Machine (균형 표본 유전 알고리즘과 극한 기계학습에 기반한 바이오표지자 검출기와 파킨슨 병 진단 접근법)

  • Sachnev, Vasily;Suresh, Sundaram;Choi, YongSoo
    • Journal of Digital Contents Society
    • /
    • v.17 no.6
    • /
    • pp.509-521
    • /
    • 2016
  • A novel Samples Balanced Genetic Algorithm combined with Extreme Learning Machine (SBGA-ELM) for Parkinson's Disease diagnosis and detecting bio-markers is presented in this paper. Proposed approach uses genes' expression data of 22,283 genes from open source ParkDB data base for accurate PD diagnosis and detecting bio-markers. Proposed SBGA-ELM includes two major steps: feature (genes) selection and classification. Feature selection procedure is based on proposed Samples Balanced Genetic Algorithm designed specifically for genes expression data from ParkDB. Proposed SBGA searches a robust subset of genes among 22,283 genes available in ParkDB for further analysis. In the "classification" step chosen set of genes is used to train an Extreme Learning Machine (ELM) classifier for an accurate PD diagnosis. Discovered robust subset of genes creates ELM classifier with stable generalization performance for PD diagnosis. In this research the robust subset of genes is also used to discover 24 bio-markers probably responsible for Parkinson's Disease. Discovered robust subset of genes was verified by using existing PD diagnosis approaches such as SVM and PBL-McRBFN. Both tested methods caused maximum generalization performance.

A Meta-Analysis of Fecal Bacterial Diversity in Dogs (메타분석을 통한 반려견 분변 박테리아 군집 조사)

  • Jeong, Jin Young;Kim, Minseok
    • Journal of the Korea Academia-Industrial cooperation Society
    • /
    • v.18 no.1
    • /
    • pp.141-147
    • /
    • 2017
  • In this study, a meta-analysis of fecal bacteria in dogs was conducted using 16S rRNA gene sequences that have been recovered from cloning and Sanger sequencing. For this meta-analysis, we retrieved all 16S rRNA gene sequences recovered from fecal bacteria in dogs in the RDP database (Release 11, Update 3). A total of 420 sequences were identified from the RDP database, 42 of which were also recovered from cultured isolates. The 420 sequences were assigned to five phyla, of which Firmicutes was the most predominant phylum, accounting for 55.2% of all 420 sequences. Bacteroidetes was the second most predominant phylum, accounting for 32.1% of the 420 sequences, followed by Actinobacteria (6.4%), Fusobacteria (3.8%), and Proteobacteria (2.4%). The genus Bacteroides within Bacteroidetes was the largest, representing 30.0% of all 420 sequences, while the putative genus Clostridium XI within Firmicutes was the second largest, representing 27.4% of all 420 sequences. A total of 82 operational taxonomic units (OTUs) that are putative species were identified from the retrieved sequences. The results of this study will improve understanding of the diversity of fecal bacteria in dogs and guide future studies on the health and well-being of dogs.

A Study on Design of Schema Integration based Biological Information Retrieval System (스키마 통합 기반 생명정보 검색시스템(BIRS) 설계에 관한 연구)

  • Han, Keon;Lee, Sang-Ho;Ahn, Bu-Young
    • Journal of Information Management
    • /
    • v.40 no.1
    • /
    • pp.217-234
    • /
    • 2009
  • In computer-based virtual lab, a bioscience researcher who wants to obtain bio information first uses a biodiversity-related database to retrieve information on species, ecology and distribution of an organism. The researcher also needs to access gene/protein databases such as GenBank or PDB to find information on the organism's genetic sequence and protein structure. Furthermore, the researcher should search for academic papers containing the information on the organism so that his research is based on comprehensive and accurate information. This series of activities often undermines research efficiency as it takes a lot of time and causes inconvenience on the part of researchers. To solve such inconvenience, we analyzed various methods for integrated search and chosen schema integration. In addition, we analyzed each databases and extracted metadata for designing schema integration. This paper introduces a biological information retrieval system(BIRS) using schema integration and it's interface that will increase research efficiency for bioscience.

Screening of Genes Which are Able to Affect Kalanchoe Vegetative Reproduction (Kalanchoe 식물의 영양 번식에 영향을 줄 수 있는 유전자들의 선발)

  • Jung, Yu-Chul;Chung, Young-Jae;Kim, Dong-Giun
    • Journal of Life Science
    • /
    • v.21 no.6
    • /
    • pp.865-874
    • /
    • 2011
  • The genus Bryophyllum is best known for many of its species having the ability to produce plantlets on their leaves. This phenomenon is also known as vegetative reproduction. Differential expressed gene (DEG) detecting technique was applied in order to survey the genes involved in the process of asexual reproduction for plantlet formation. Based on homology search using the NCBI database after screening of genes, 38 genes were identified from a total of 69 DEGs. Most of these DEGs were related to cell division, to intercellular signal transduction, and to hormone (cytokinin and ethylene) signaling.

A Genetic Algorithm for Minimizing Query Processing Time in Distributed Database Design: Total Time Versus Response Time (분산 데이타베이스에서의 질의실행시간 최소화를 위한 유전자알고리즘: 총 시간 대 반응시간)

  • Song, Suk-Kyu
    • The KIPS Transactions:PartD
    • /
    • v.16D no.3
    • /
    • pp.295-306
    • /
    • 2009
  • Query execution time minimization is an important objective in distributed database design. While total time minimization is an objective for On Line Transaction Processing (OLTP), response time minimization is for Decision Support queries. We formulate the sub-query allocation problem using analytical models and solve with genetic algorithm (GA). We show that query execution plans with total time minimization objective are inefficient from response time perspective and vice versa. The procedure is tested with simulation experiments for queries of up to 20 joins. Comparison with exhaustive enumeration indicates that GA produced optimal solutions in all cases in much less time.

A Study on Gene Algorithm Application for Efficient Clustring of Data Mining (데이터 마이닝의 능률적인 군집화를 위한 유전자 알고리즘 적용에 관한 연구)

  • Choi, Ho-Jin;Hong, Sung-Pye
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2009.01a
    • /
    • pp.41-44
    • /
    • 2009
  • 데이터 마이닝의 대표적인 기법인 군집화는 군집내의 유사성을 최대화하고, 군집들간의 유사성을 최소화 시키도록 데이터의 집합을 분할하는 것이다. 대용량의 데이터베이스에서 최적의 효율화를 내기 위해서는 원시데이터에 대한 접근 횟수를 줄이고, 이것을 알고리즘 적용 대상이 데이터 구조의 크기를 줄이는 군집화 기법에 많은 관심이 보이고 있다. 본 논문에서는 유전자 알고리즘을 이용하여 자동으로 군집의 개수를 결정하는 군집화 알고리즘을 제안하는 적합도 함수는 보다 양질의 군집을 찾아내는 것으로 평가 되었다. 또한 유전자 알고리즘 중 8가지를 세부 분석하여 평가하였다.

  • PDF

A System To Integrate The Biochemical Network Data Efficiently (생화학적 네트워크 데이터의 효율적인 통합을 위한 시스템)

  • Jung, Tae-Sung;Ahn, Myung-Sang;Cho, Wan-Sup
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.07b
    • /
    • pp.238-240
    • /
    • 2005
  • 유전자의 생물학적 기능을 밝히고 세포 내 상호작용을 이해하는 것은 post-genome era의 가장 중요한 작업 중 하나이다. 세포는 서로 다른 컴포넌트들의 상호작용에 의해 아주 복잡한 네트워크를 구성한다. 생화학적 네트워크에는 metabolic, regulatory, signal transduction과 같은 세포의 프로세스를 포함한다. 이러한 생화학적 네트워크들은 서로 다른 정보체계를 가지고 각기 다른 데이터베이스에 분산되어 저장관리 되고 있다. 따라서 생화학적 네트워크 데이터를 체계적으로 효율적으로 저장, 관리하기 위한 데이터베이스에 대한 필요성이 증대되고 있다. 본 논문에서는 기존의 생화학적 네트워크 데이터베이스의 장.단점을 분석하고 객체지향 방식에 입각한 새로운 생화학적 네트워크 데이터의 통합을 위한 시스템 모델을 제시한다. 제안된 시스템 모델은 생화학적 네트워크 데이터에 대한 생물학전 관계를 자연스럽게 표현할 수 있는 객체지향 모델을 사용하였다. 또한 생화학적 네트워크 모델을 묘사하기 위한 응용프로그램 사이의 데이터 교환의 표준언어인 SBML[2]스키마를 기반으로 하고 있다.

  • PDF

Integrated Model design of miRNA, PPI and Disease Information (miRNA, PPI, Disease 정보의 통합 모델 설계)

  • Ha, Kyung-Sik;Lim, Jin-Muk;Kim, Hong-Gee
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2012.06b
    • /
    • pp.492-494
    • /
    • 2012
  • MicroRNAs(miRNAs)는 mRNA의 발현량을 조절하여 단백질 생성량에 영향을 주는 것으로 잘 알려져있다. miRNA의 데이터베이스는 실험으로 증명된 결과를 중심으로 구성되어 있다. 하지만 miRNA 데이터베이스는 miRNA가 대상으로 하는 유전자 정보에 초점을 맞추고 있어서 그 이상의 질병정보를 얻기에는 어려움이 있다. 본 논문에서는 miRNA와 Protein-Protein Interaction(PPI) 통합 모델을 설계하여 miRNA의 의미적 확장 방법을 제시하고 있다. 또한 Online Mendelian Inheritance in Man(OMIM)을 이용한 miRNA, PPI, 관련 질병, 질병 표준화 관계의 확장방법을 찾아보았다. 이러한 접근 방법은 이형 데이터베이스를 연결하여 하나의 생물학적 시야를 제공할 수 있을 것으로 기대된다.

생물정보 데이터베이스 구축을 위한 XML 적용 기법

  • 이범주;박성희;류근호
    • Proceedings of the Korea Society of Information Technology Applications Conference
    • /
    • 2001.05a
    • /
    • pp.101-103
    • /
    • 2001
  • 최근 셍물정보 분야에서 웹상에서 단백질과 유전자의 서열정보 및 이와 관련된 실험과 참조정보를 다른 유전체 데이터베이스 시스템과 상호교환을 위한 표준 형식으로 XML을 이용하기 시작하였다. 더불어 웹에서 데이터전송을 위한 표준 형식인 XML을 생물정보응용 분야에서 이용하기 위한 BioML을 정의하였다. 그러나 BioML에서는 서열의 소스 및 참조정보, 갱신정보와 XML문서사이의 참조정보를 포함하지 않고 있다. 따라서 이 논문에서는 BioML에서 포함하지 않는 이러한 정보를 XLink와 XPointer를 이용하여 나타낼 수 있도록 BioML을 확장하고 BioML에 포함된 서열 정보에 대한 메타정보를 RDF를 적용하여 제시하였다. 이렇게 함으로써 이질적인 생명정보데이터베이스 시스템에서 서열에 대한 복잡한 링크 정보와 서열의 변경정보를 효율적으로 교환이 가능하다.

  • PDF

Genome-Wide Association Study between Copy Number Variation and Trans-Gene Expression by Protein-Protein Interaction-Network (단백질 상호작용 네트워크를 통한 유전체 단위반복변이와 트랜스유전자 발현과의 연관성 분석)

  • Park, Chi-Hyun;Ahn, Jae-Gyoon;Yoon, Young-Mi;Park, Sang-Hyun
    • The KIPS Transactions:PartD
    • /
    • v.18D no.2
    • /
    • pp.89-100
    • /
    • 2011
  • The CNV (Copy Number Variation) which is one of the genetic structural variations in human genome is closely related with the function of gene. In particular, the genome-wide association studies for genetic diseased persons have been researched. However, there have been few studies which infer the genetic function of CNV with normal human. In this paper, we propose the analysis method to reveal the functional relationship between common CNV and genes without considering their genomic loci. To achieve that, we propose the data integration method for heterogeneity biological data and novel measurement which can calculate the correlation between common CNV and genes. To verify the significance of proposed method, we has experimented several verification tests with GO database. The result showed that the novel measurement had enough significance compared with random test and the proposed method could systematically produce the candidates of genetic function which have strong correlation with common CNV.