• 제목/요약/키워드: sequence databases

검색결과 226건 처리시간 0.031초

GWB: 유전자 서열 데이터의 관리와 분석을 위한 통합 소프트웨어 시스템 (GWB: An integrated software system for Managing and Analyzing Genomic Sequences)

  • 김인철;진훈
    • 인터넷정보학회논문지
    • /
    • 제5권5호
    • /
    • pp.1-15
    • /
    • 2004
  • 본 논문에서는 효율적인 유전자 서열 데이터의 관리와 분석을 위한 웹 기반의 통합 시스템인 GWB(Gene WorkBench)의 설계와 구현에 대해 설명한다. 유전자 서열을 다루는 기존의 시스템들은 서열 데이터의 관리 기능과 분석 기능을 동시에 지원하는 경우가 드물고, 또한 분석 기능 역시 일부 혹은 단일 분석 기능만을 제공하는 단위 프로그램들이 대부분이다. 또 이러한 분석 프로그램들마저 서로 분산되어 있고 다른 수행환경을 필요로 한다. 따라서 이러한 프로그램들을 함께 이용하기 위해서는 많은 수작업과 변환작업을 필요로 하는 등 유전자 서열 데이터를 다루는 많은 생명과학 연구자들이 불편을 겪어왔다. 본 논문에서는 기존 시스템들의 단점을 보완하고 유전자 서열 연구에 효과적으로 도움을 줄 수 있는 보다 편리한 시스템을 구현하고자, 서열 데이터베이스 관리 기능과 다양한 분석 기능들을 하나의 시스템인 GWB로 동합하였다. GWB 시스템 설계의 가상 중요한 이슈는 서로 상이한 분석 프로그램들을 어떻게 하나의 시스템으로 통합할 것이며, 또 이들 프로그램들이 요구하는 서로 다른 서열 데이터 및 서열 데이터베이스 형태를 어떻게 제공할 수 있느냐는 것이다. GWB는 이 문제들을 해결하기 위해 공통의 입출력 인터페이스인 포장기를 이용하여 서로 다른 분석 프로그램들을 시스템에 통합시켰고, 공통 서열 데이터 형식인 KSF를 제안하였으며, 로컬 서열 데이터베이스를 관계형 데이터베이스부분과 색인 순차파일부분으로 나누어 구성하였고, 서로 상이한 서열 데이터 형식간의 변환 기능과 XML 파일로의 변환 기능을 제공하도록 하였다.유의하게 높았다 (P<0.01). 고형물질별 피복지수는 red clover는 V나 V+T(1 : 1)로 피복한 종자에서 높았으며 tall fescue는 T, V, V + T(1 : 1로 피복한 종자)에서 가장 높게 나타났다(P<0.01). 종자피복에 있어서 red clover와 tall fescue 공히 접착제는 CF나 PVA로 하고 고형물질은 V나 V+T(1:1)로 피복함으로서 가장 좋은 피복효과를 얻을 수 있었다.. 쟁점 및 과제들이 제시되었다. cells of these species contained considerable to large amount of neutral mucin, and small to considerable amount of acid mucin, Most of the medium sized and small mucous cells contained neutral mucin and sialomucin, but a few mucous cells contained neutral mucin and strongly sulfomucin or neutral combined with strongly sulfomucin and sialomucin. Most of the esophageal mucous cells pf Bryzoichthys lysimus contained small amount of neutral mucin, while on the other hand a feww mucous cells contained small amount of neutral mucin and minimal

  • PDF

시계열 데이타베이스에서 서브시퀀스 매칭의 성능 병목 : 관찰, 해결 방안, 성능 평가 (The Performance Bottleneck of Subsequence Matching in Time-Series Databases: Observation, Solution, and Performance Evaluation)

  • 김상욱
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제30권4호
    • /
    • pp.381-396
    • /
    • 2003
  • 서브시퀀스 매칭은 주어진 질의 시퀀스와 변화의 추세가 유사한 서브시퀀스들을 시계열 데이타베이스로부터 검색하는 연산이다. 본 논문에서는 서브시퀀스 매칭 처리의 성능 병목을 파악하고, 이를 해결함으로써 전체 서브시퀀스 매칭의 성능을 크게 개선하는 방안에 관하여 논의한다. 먼저, 사전 실험을 통하여 전체 서브시퀀스 매칭의 처리 시간 중 인덱스 검색 단계와 후처리 단계에서 디스크 액세스 시간 및 CPU 처리 시간이 차지하는 비중을 분석한다. 이를 바탕으로 후처리 단계가 서브시퀀스 매칭의 성능 병목이며, 후처리 단계의 최적화가 기존의 서브시퀀스 매칭 기법들이 간과한 매우 중요한 이슈임을 지적한다. 이러한 서브시퀀스 매칭의 성능 병목을 해결하기 위하여 후처리 단계를 최적으로 처리할 수 있는 간단하면서도 매우 효과적인 기법을 제안한다. 제안된 기법은 후처리 단계에서 후보 서브시퀀스들이 질의 시퀀스와 실제로 유사한가를 판단하는 순서를 조정함으로써 기존의 후처리 단계의 처리에서 발생하는 많은 디스크 액세스의 중복과 CPU 처리의 중복을 완전히 제거한 수 있다 제안된 기법이 착오 기각을 발생시키지 않음과 후처리 단계를 처리하기 위한 최적의 기법임을 이론적으로 증명한다. 또한, 실제 데이타와 생성 데이타를 이용한 다양한 실험들을 통하여 제안된 기법의 성능 개선 효과를 정량적으로 검증한다. 실험 결과에 의하면, 제안된 기법은 기존 기법의 후처리 단계 수행 시간을 실제 주식 데이타를 이용한 실험의 경우 ,3.91 배에서 9.42배까지, 대규모의 생성 데이터를 이용한 실험의 경우 4.97 배에서 5.61배까지 개선시키는 것으로 나타났다. 또한, 제안된 기법을 채택함으로써 전체 서브시퀀스 매칭 처리 시간의 90%에 이르던 후처리 단계의 비중을 70%이하로 내릴 수 있었다. 이것은 제안된 기법이 서브시퀀스 매칭의 성능 병목을 성공적으로 해결하였음을 보여주는 것이다. 이 견과, 제안된 기법은 전체 서브시퀀tm 매칭의 성능을 실제 주식 데이타를 사용한 실험의 경우 3.05 배에서 5.60 배까지, 대규모의 생성 데이타를 이용한 실험의 경우 3.68 배에서 4.21 배까지 개선시킬 수 있었다.

시계열 이동평균 변환을 이용한 노이즈 제어 윤곽선 이미지 매칭 (Noise Control Boundary Image Matching Using Time-Series Moving Average Transform)

  • 김범수;문양세;김진호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제36권4호
    • /
    • pp.327-340
    • /
    • 2009
  • 본 논문에서는 윤곽선 이미지 매칭에서 노이즈 제거 정도를 제어하기 위해 시계열 매칭의 이동평균 변환을 이용한다. 이동평균 변환을 윤곽선 이미지 매칭에 적용하게 된 동기는 이동평균 변환이 시계열의 노이즈를 감소시키므로, 이를 사용하면 윤곽선 이미지 매칭에서도 노이즈 제어 효과를 얻을 수 있을 것이라는 직관에 기반한다. 본 논문에서는 우선 윤곽선 이미지 매칭에 이동평균 변환을 적용한 $\kappa$-계수 이미지 매칭($\kappa$-order image matching)을 제안한다. 제안한 $\kappa$-계수 이미지 매칭은 윤곽선 이미지가 변환된 시계열에 $\kappa$-이동평균 변환을 적용하여 시계열(이미지) 간의 유사성을 판단한다. 다음으로, 대용량 이미지 데이터베이스를 대상으로 $\kappa$-계수 이미지 매칭을 수행하기 위한 인덱스 기반 매칭 방법을 제안하고, 그 정확성을 정형적으로 증명한다. 또한, 계수 $\kappa$와 매칭 결과와의 관계를 정형적으로 분석하고, 이에 기반하여 계수 $\kappa$를 변화시키면서 노이즈 제거 정도를 제어하는 방안을 제시한다. 실험 결과, $\kappa$-계수 이미지 매칭이 노이즈 제거 효과를 가짐을 확인하였으며, 제안한 인덱스 기반 매칭 방법은 순차 스캔에 비해 수 배 에서 수십 배 빠른 성능을 보이는 것으로 나타났다.

Genomic and Proteomic Analysis of Microbial Function in the Gastrointestinal Tract of Ruminants - Review -

  • White, Bryan A.;Morrison, Mark
    • Asian-Australasian Journal of Animal Sciences
    • /
    • 제14권6호
    • /
    • pp.880-884
    • /
    • 2001
  • Rumen microbiology research has undergone several evolutionary steps: the isolation and nutritional characterization of readily cultivated microbes; followed by the cloning and sequence analysis of individual genes relevant to key digestive processes; through to the use of small subunit ribosomal RNA (SSU rRNA) sequences for a cultivation-independent examination of microbial diversity. Our knowledge of rumen microbiology has expanded as a result, but the translation of this information into productive alterations of ruminal function has been rather limited. For instance, the cloning and characterization of cellulase genes in Escherichia coli has yielded some valuable information about this complex enzyme system in ruminal bacteria. SSU rRNA analyses have also confirmed that a considerable amount of the microbial diversity in the rumen is not represented in existing culture collections. However, we still have little idea of whether the key, and potentially rate-limiting, gene products and (or) microbial interactions have been identified. Technologies allowing high throughput nucleotide and protein sequence analysis have led to the emergence of two new fields of investigation, genomics and proteomics. Both disciplines can be further subdivided into functional and comparative lines of investigation. The massive accumulation of microbial DNA and protein sequence data, including complete genome sequences, is revolutionizing the way we examine microbial physiology and diversity. We describe here some examples of our use of genomics- and proteomics-based methods, to analyze the cellulase system of Ruminococcus flavefaciens FD-1 and explore the genome of Ruminococcus albus 8. At Illinois, we are using bacterial artificial chromosome (BAC) vectors to create libraries containing large (>75 kbases), contiguous segments of DNA from R. flavefaciens FD-1. Considering that every bacterium is not a candidate for whole genome sequencing, BAC libraries offer an attractive, alternative method to perform physical and functional analyses of a bacterium's genome. Our first plan is to use these BAC clones to determine whether or not cellulases and accessory genes in R. flavefaciens exist in clusters of orthologous genes (COGs). Proteomics is also being used to complement the BAC library/DNA sequencing approach. Proteins differentially expressed in response to carbon source are being identified by 2-D SDS-PAGE, followed by in-gel-digests and peptide mass mapping by MALDI-TOF Mass Spectrometry, as well as peptide sequencing by Edman degradation. At Ohio State, we have used a combination of functional proteomics, mutational analysis and differential display RT-PCR to obtain evidence suggesting that in addition to a cellulosome-like mechanism, R. albus 8 possesses other mechanisms for adhesion to plant surfaces. Genome walking on either side of these differentially expressed transcripts has also resulted in two interesting observations: i) a relatively large number of genes with no matches in the current databases and; ii) the identification of genes with a high level of sequence identity to those identified, until now, in the archaebacteria. Genomics and proteomics will also accelerate our understanding of microbial interactions, and allow a greater degree of in situ analyses in the future. The challenge is to utilize genomics and proteomics to improve our fundamental understanding of microbial physiology, diversity and ecology, and overcome constraints to ruminal function.

Reinterpretation of the protein identification process for proteomics data

  • Kwon, Kyung-Hoon;Lee, Sang-Kwang;Cho, Kun;Park, Gun-Wook;Kang, Byeong-Soo;Park, Young-Mok
    • Interdisciplinary Bio Central
    • /
    • 제1권3호
    • /
    • pp.9.1-9.6
    • /
    • 2009
  • Introduction: In the mass spectrometry-based proteomics, biological samples are analyzed to identify proteins by mass spectrometer and database search. Database search is the process to select the best matches to the experimental mass spectra among the amino acid sequence database and we identify the protein as the matched sequence. The match score is defined to find the matches from the database and declare the highest scored hit as the most probable protein. According to the score definition, search result varies. In this study, the difference among search results of different search engines or different databases was investigated, in order to suggest a better way to identify more proteins with higher reliability. Materials and Methods: The protein extract of human mesenchymal stem cell was separated by several bands by one-dimensional electrophorysis. One-dimensional gel was excised one by one, digested by trypsin and analyzed by a mass spectrometer, FT LTQ. The tandem mass (MS/MS) spectra of peptide ions were applied to the database search of X!Tandem, Mascot and Sequest search engines with IPI human database and SwissProt database. The search result was filtered by several threshold probability values of the Trans-Proteomic Pipeline (TPP) of the Institute for Systems Biology. The analysis of the output which was generated from TPP was performed. Results and Discussion: For each MS/MS spectrum, the peptide sequences which were identified from different conditions such as search engines, threshold probability, and sequence database were compared. The main difference of peptide identification at high threshold probability was caused by not the difference of sequence database but the difference of the score. As the threshold probability decreases, the missed peptides appeared. Conversely, in the extremely high threshold level, we missed many true assignments. Conclusion and Prospects: The different identification result of the search engines was mainly caused by the different scoring algorithms. Usually in proteomics high-scored peptides are selected and low-scored peptides are discarded. Many of them are true negatives. By integrating the search results from different parameter and different search engines, the protein identification process can be improved.

노각나무(Stewartia koreana Nakai)의 cDNA library 제작 및 EST 분석 (Construction of a Full-length cDNA Library from Korean Stewartia (Stewartia koreana Nakai) and Characterization of EST Dataset)

  • 임수빈;김준기;최영인;최선희;권혜진;송호경;임용표
    • 원예과학기술지
    • /
    • 제29권2호
    • /
    • pp.116-122
    • /
    • 2011
  • 본 연구에서는 지리산에서 자생하는 한국 특산종인 노각나무(Stewartia koreana Nakai)의 EST library를 제작하고 서열을 분석하였다. 노각나무의 유엽을 재료로 cDNA library 만들었고 1,392개의 cDNA에 대한 부분 서열 분석을 진행하였다. EST와 unigene 서열의 분석은 컴퓨터를 기반으로한 filtering과 수작업 그리고 NCBI의 BLAST 분석을 통해 수행하였다. 벡터 서열과 100bp 이하의 서열을 제거한 후 1,301개의 EST를 분석하였다. 전체 150개의 contig와 743개의 singleton을 분리하여 총 893개의 unigene을 분리해냈으며 서열 분석을 통해 95개의 microsatellite를 확인하였다. NCBI 데이터베이스의 BLASTX로 상동성을 검색한 결과 EST의 65%는 기능을 알고 있는 유전자와 11.6%의 EST는 아직까지 기능이 보고되지 않은 유전자와 높은 상동성을 보였다. 남아 있는 23.2%의 EST는 기존에 데이터베이스에 보고된 유전자와 상동성을 보이지 않는 유전자로 밝혀졌다. 다양한 데이터베이스를 기반으로 한 유사성 기반 기능 분석은 노각나무의 EST가 포도나무와 포플러와 높은 유사성을 보인 것을 확인하였다. 기능에 따른 분류에 있어 molecular function은 nucleotide binding, biological process는 transport, cellular component는 plastid가 가장 높은 비율로 나왔다. 본 연구를 통해 얻어진 EST 자료는 노각나무의 새로운 유전자원에 대한 연구의 기본 자료로 유용하게 활용될 것이다.

An Integrated Genomic Resource Based on Korean Cattle (Hanwoo) Transcripts

  • Lim, Da-Jeong;Cho, Yong-Min;Lee, Seung-Hwan;Sung, Sam-Sun;Nam, Jung-Rye;Yoon, Du-Hak;Shin, Youn-Hee;Park, Hye-Sun;Kim, Hee-Bal
    • Asian-Australasian Journal of Animal Sciences
    • /
    • 제23권11호
    • /
    • pp.1399-1404
    • /
    • 2010
  • We have created a Bovine Genome Database, an integrated genomic resource for Bos taurus, by merging bovine data from various databases and our own data. We produced 55,213 Korean cattle (Hanwoo) ESTs from cDNA libraries from three tissues. We concentrated on genomic information based on Hanwoo transcripts and provided user-friendly search interfaces within the Bovine Genome Database. The genome browser supported alignment results for the various types of data: Hanwoo EST, consensus sequence, human gene, and predicted bovine genes. The database also provides transcript data information, gene annotation, genomic location, sequence and tissue distribution. Users can also explore bovine disease genes based on comparative mapping of homologous genes and can conduct searches centered on genes within user-selected quantitative trait loci (QTL) regions. The Bovine Genome Database can be accessed at http://bgd.nabc.go.kr.

시퀀스 유사도에 기반한 유전체 데이터베이스 압축 및 영향 분석 (The Analysis of Genome Database Compaction based on Sequence Similarity)

  • 권선영;이병한;박승현;조정희;윤성로
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제23권4호
    • /
    • pp.250-255
    • /
    • 2017
  • 유전체 데이터의 급증 및 정밀의료 등 응용 분야 확대에 따라 유전체 데이터베이스의 효율적 관리에 대한 중요성이 커지고 있다. 전통적인 압축 기법을 통해 유전체 데이터를 압축할 경우, 압축효과는 크지만, 압축된 상태에서 데이터베이스를 비교하거나 검색하는 등의 작업이 용이하지 않게 된다. 유전체 데이터 분석에 소요되는 시간은 데이터베이스에 존재하는 시퀀스 수에 비례하며, 중복되거나 유사한 시퀀스가 다수 존재한다는 점에 착안하여, 본 논문에서는 유전체 데이터베이스 상에 존재하는 유사 시퀀스를 제거함으로써 전체 데이터베이스 크기를 줄이는 기법을 제안한다. 실험을 통해 시퀀스 유사도 1% 기준으로도 전체의 약 84% 시퀀스가 제거되며, 약 10배 빠른 분류분석이 가능함을 보인다. 또한 큰 폭의 압축효과에도 불구하고, 범주 다양성 및 분류 분석 등에 미치는 변화가 미미함을 확인함으로써, 시퀀스 유사도 기반의 제안 압축 기법이 유전체 데이터베이스 압축에 효과적인 방법임을 제시한다.

유효한 XML 문서에 대한 경계 로킹에 기반한 시퀀스 그룹 검증 기법 (Sequence Group Validation based on Boundary Locking for Valid XML Documents)

  • 최윤상;박석
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제32권6호
    • /
    • pp.628-640
    • /
    • 2005
  • 많은 웹 응용 영역에 XML이 적용되면서 트랜잭션의 변경과 접근에 대한 고립성을 만족시키는 XML 문서에 대한 병행수행은 중요한 이슈가 되고 있다. DTD(혹은 XML 스키마)의 규칙을 잘 지키는 문서를 유효한 XML 문서라 하는데, 유효한 XML 문서에 대한 갱신 연산은 연산 후의 XML 문서가 원래 DTD의 규칙을 그대로 유지해야하는 유효성 문제를 앉고 있다. 일반적인 유효성 검증 방법은 갱신 후의 XML 문서 전체에 대해 유효성을 검증하는 방법이다. 그러나, 위에서 언급한 유효성 검증 방법은 낮은 병행수행의 결과를 낳는다. 따라서, XML 문서의 유효성 검증 범위를 최소화하면서 높은 병행수행 정도를 보이는 새로운 유형성 검증 방법과 로킹 방법이 요구된다. 본 논문은 유효성 검증의 검증 범위를 최소화 시켜 유효성 검증이 효율적으로 수행될 수 있는 시퀀스 그룹 검증 기법을 제안한다. 또한 이 검증 기법의 정확성을 보장하면서 로킹되는 데이타 아이템의 수를 최소화 할 수 있는 경계 로킹 기법을 제안한다. 마지막으로 제안된 유효성 검증 기법과 경계 로킹 기법이 기존의 방법에 비해 트랜잭션의 병행수행 성능을 향상시키고 있음을 실험을 통해 보인다.

Assessment of the Potential Allergenicity of Genetically Modified Soybeans and Soy-based Products

  • Kim, Jae-Hwan;Lieu, Hae-Youn;Kim, Tae-Woon;Kim, Dae-Ok;Shon, Dong-Hwa;Ahn, Kang-Mo;Lee, Sang-Il;Kim, Hae-Yeong
    • Food Science and Biotechnology
    • /
    • 제15권6호
    • /
    • pp.954-958
    • /
    • 2006
  • A comprehensive safety evaluation was conducted to assess the potential allergenicity of newly introduced proteins in genetically modified (GM) crops. We assessed the allergenicity of CP4 5-enolpyruvylshikimate-3-phosphate synthase (EPSPS) in GM soybeans. This assessment was performed by IgE immunoblotting with soy-allergic children's sera, amino acid sequence homology with known allergens, and the digestibility of CP4 EPSPS. No differences in IgE-antigen binding by immunoblotting were found between GM soy samples and the corresponding non-GM samples. Based on the comparison of EPSPS amino acid sequence homology with current allergen databases, no known allergen was found. In addition, CP4 EPSPS protein was rapidly digested by simulated gastric fluid (SGF). Taken together, these results indicate that GM soybeans have no allergenicity in children and are as safe as conventional soybeans.