• Title/Summary/Keyword: NGS data analysis

검색결과 57건 처리시간 0.029초

Integrative Comparison of Burrows-Wheeler Transform-Based Mapping Algorithm with de Bruijn Graph for Identification of Lung/Liver Cancer-Specific Gene

  • Ajaykumar, Atul;Yang, Jung Jin
    • Journal of Microbiology and Biotechnology
    • /
    • 제32권2호
    • /
    • pp.149-159
    • /
    • 2022
  • Cancers of the lung and liver are the top 10 leading causes of cancer death worldwide. Thus, it is essential to identify the genes specifically expressed in these two cancer types to develop new therapeutics. Although many messenger RNA (mRNA) sequencing data related to these cancer cells are available due to the advancement of next-generation sequencing (NGS) technologies, optimized data processing methods need to be developed to identify the novel cancer-specific genes. Here, we conducted an analytical comparison between Bowtie2, a Burrows-Wheeler transform-based alignment tool, and Kallisto, which adopts pseudo alignment based on a transcriptome de Bruijn graph using mRNA sequencing data on normal cells and lung/liver cancer tissues. Before using cancer data, simulated mRNA sequencing reads were generated, and the high Transcripts Per Million (TPM) values were compared. mRNA sequencing reads data on lung/liver cancer cells were also extracted and quantified. While Kallisto could directly give the output in TPM values, Bowtie2 provided the counts. Thus, TPM values were calculated by processing the Sequence Alignment Map (SAM) file in R using package Rsubread and subsequently in python. The analysis of the simulated sequencing data revealed that Kallisto could detect more transcripts and had a higher overlap over Bowtie2. The evaluation of these two data processing methods using the known lung cancer biomarkers concludes that in standard settings without any dedicated quality control, Kallisto is more effective at producing faster and more accurate results than Bowtie2. Such conclusions were also drawn and confirmed with the known biomarkers specific to liver cancer.

RNA-Seq 데이터를 이용한 선택 스플라이싱 유형 분석 (Alternative Splicing Pattern Analysis from RNA-Seq data)

  • 공진화;이종근;이은주;윤지희
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2011년도 한국컴퓨터종합학술대회논문집 Vol.38 No.1(A)
    • /
    • pp.37-40
    • /
    • 2011
  • 선택 스플라이싱 (alternative splicing)은 mRNA (messenger RNA)의 전구체인 pre-mRNA가 mRNA로 전사될 때 pre-mRNA의 엑손 영역들 (exons)이 여러 가지 유형 (pattern)으로 다시 연결되는 과정을 말한다. 선택 스플라이싱에 의해 하나의 유전자로부터 서로 다른 mRNA가 만들어 지고 서로 다른 이소형의 단백질 (protein isoforms)이 생성된다. 현재까지 알려진 선택 스플라이싱의 유형은 약 7가지 종류가 있으며, 유전자의 돌연변이 및 질병과 밀접한 연관성을 가지고 있는 것으로 알려져 있다. 본 연구에서는 차세대 시퀀싱 (Next Generation Sequencing : NGS) 기술로 생성된 RNA-Seq 데이터로부터 각 유전자 영역에 대한 선택 스플라이싱 유형을 분류/추출하는 새로운 알고리즘을 제안한다. 제안된 알고리즘에서는 RNA-Seq 데이터를 DNA 시퀀스와 mRNA 트랜스크립트 시퀀스에 동시 매핑하고, 각 엑손 영역에 정렬된 RNA-Seq 데이터의 커버리지 정보 및 엑손의 접합 (junction) 정보를 이용하여 발현된 트랜스크립트 (transcript)의 종류와 양을 측정한다. 알고리즘의 유효성을 보이기 위하여 시뮬레이션 데이터를 이용한 인간 유전자 영역에서의 선택 스플라이싱 유형 추출 실험을 수행하였으며, 검증된 선택 스플라이싱 DB와 비교, 검증하였다.

두경부암에서 정밀의료 (Precision Medicine in Head and Neck Cancer)

  • 박혜성;강진형
    • 대한두경부종양학회지
    • /
    • 제39권1호
    • /
    • pp.1-9
    • /
    • 2023
  • Technological advancement in human genome analysis and ICT (information & communication technologies) brought 'precision medicine' into our clinical practice. Precision medicine is a novel medical approach that provides personalized treatments tailored to each individual by precisely segmenting patient populations, based on robust data including a person's genetic information, disease information, lifestyle information, etc. Precision medicine has a potential to be applied to treating a range of tumors, in addition to non-small cell lung cancer, in which precision oncology has been actively practiced. In this article, we are reviewing precision medicine in head and neck cancer (HNC) with focus on tumor agnostic biomarkers and treatments such as NTRK, MSI-H/dMMR, TMB-H and BRAF V600E, all of which were recently approved by U.S. Food and Drug Administration (FDA).

차세대염기서열분석법을 이용한 잔대의 SSR 마커 개발 (Development of Simple Sequence Repeat Markers from Adenophora triphylla var. japonica (Regel) H. Hara using Next Generation Sequencing)

  • 박기찬;김영국;황보경;길진수;정희;박신기;홍창표;이이
    • 한국약용작물학회지
    • /
    • 제25권6호
    • /
    • pp.411-417
    • /
    • 2017
  • Background: Adenophora triphylla var. japonica (Regel) H. Hara shows vegetative growth with radical leaves during the first year and shows reproductive growth with cauline leaves and bolting during the second year. In addition, the shape of the plant varies within the same species. For this reason, there are limitations to classifying the species by visual examination. However, there is not sufficient genetic information or molecular tools to analyze the genetic diversity of the plant. Methods and Results: Approximately 34.59 Gbp of raw data containing 342,487,502 reads was obtained from next generation sequencing (NGS) and these reads were assembled into 357,211 scaffolds. A total of 84,106 simple sequence repeat (SSR) regions were identified and 14,133 primer sets were designed. From the designed primer sets, 95 were randomly selected and were applied to the genomic DNA which was extracted from five plants and pooled. Thirty-nine primer sets showing more than two bands were finally selected as SSR markers, and were used for the genetic relationship analysis. Conclusions: The 39 novel SSR markers developed in this study could be used for the genetic diversity analysis, variety identification, new variety development and molecular breeding of A. triphylla.

중학교 과학교과서 생명과학 단원의 탐구 활동 분석: 과학탐구 기능과 8가지 과학 실천을 중심으로 (Analysis of inquiry activities in the life science chapters of middle school 'science' textbooks: Focusing on Science Process Skills and 8 Scientific Practices)

  • 김미정;홍준의;김성하;임채성
    • 과학교육연구지
    • /
    • 제41권3호
    • /
    • pp.318-333
    • /
    • 2017
  • 본 연구에서는 2009개정 교육과정의 중학교 과학교과서에 포함된 탐구 활동이 기존 과학교육에서 강조되어왔던 탐구 기능과 구체적 학생 활동이 강조되는 NGSS의 8가지 과학 실천 측면에서 상호 분석되었을 때 어떤 특성을 나타내는지 생명과학 단원을 중심으로 분석하였다. 분석 결과 학년 구분 없이 탐구 기능에서는 '추리', 관찰', '분류' 순으로 많이 치중되었고, 과학 실천에서는 '자료 분석하고 해석하기'와 '설명구성하고 문제해결 고안하기'에 치우쳐 있었다. 이를 통해 중학교 교과서 내 생명과학 탐구 활동이 탐구 기능뿐만 아니라 과학 실천 요소에서도 다양성이 부족하며 제시하는 활동의 목표가 한정적이라는 것을 보여주었다. 또한 과학탐구 기능과 과학 실천 요소 각 상호 매칭작업을 통해 탐구 기능 중심에서 과학 실천으로의 이행 시 내용 관련성을 검토하고 교과서의 탐구 활동에서 보이는 결과와 비교 분석한 결과 사전 매칭분석에 비해 교과서 내 탐구 활동의 결과가 대체적으로 기초탐구-자료해석/기초탐구-설명고안에 치우쳐 있어서 단조롭게 매칭 되었다. 이는 교과서에 제시된 활동내용의 다양성이 부족함을 보여주는 결과라고 할 수 있다. 본 연구에서는 2009개정 교육과정의 교과서 분석을 통해 단순하고 다양성이 부족한 탐구 활동에서 벗어나 2015개정 교육과정을 구현해나가는 과정에 다양한 과학 실천 요소를 포함시키도록 하는 노력이 절실하게 요구됨을 제언한다.

Development of SNP marker set for marker-assisted backcrossing (MABC) in cultivating tomato varieties

  • Park, GiRim;Jang, Hyun A;Jo, Sung-Hwan;Park, Younghoon;Oh, Sang-Keun;Nam, Moon
    • 농업과학연구
    • /
    • 제45권3호
    • /
    • pp.385-400
    • /
    • 2018
  • Marker-assisted backcrossing (MABC) is useful for selecting offspring with a highly recovered genetic background for a recurrent parent at early generation unlike rice and other field crops. Molecular marker sets applicable to practical MABC are scarce in vegetable crops including tomatoes. In this study, we used the National Center for Biotechnology Information- short read archive (NCBI-SRA) database that provided the whole genome sequences of 234 tomato accessions and selected 27,680 tag-single nucleotide polymorphisms (tag-SNPs) that can identify haplotypes in the tomato genome. From this SNP dataset, a total of 143 tag-SNPs that have a high polymorphism information content (PIC) value (> 0.3) and are physically evenly distributed on each chromosome were selected as a MABC marker set. This marker set was tested for its polymorphism in each pairwise cross combination constructed with 124 of the 234 tomato accessions, and a relatively high number of SNP markers polymorphic for the cross combination was observed. The reliability of the MABC SNP set was assessed by converting 18 SNPs into Luna probe-based high-resolution melting (HRM) markers and genotyping nine tomato accessions. The results show that the SNP information and HRM marker genotype matched in 98.6% of the experiment data points, indicating that our sequence analysis pipeline for SNP mining worked successfully. The tag-SNP set for the MABC developed in this study can be useful for not only a practical backcrossing program but also for cultivar identification and F1 seed purity test in tomatoes.

Experimental Infection of Different Tomato Genotypes with Tomato mosaic virus Led to a Low Viral Population Heterogeneity in the Capsid Protein Encoding Region

  • Sihelska, Nina;Vozarova, Zuzana;Predajna, Lukas;Soltys, Katarina;Hudcovicova, Martina;Mihalik, Daniel;Kraic, Jan;Mrkvova, Michaela;Kudela, Otakar;Glasa, Miroslav
    • The Plant Pathology Journal
    • /
    • 제33권5호
    • /
    • pp.508-513
    • /
    • 2017
  • The complete genome sequence of a Slovak SL-1 isolate of Tomato mosaic virus (ToMV) was determined from the next generation sequencing (NGS) data, further confirming a limited sequence divergence in this tobamovirus species. Tomato genotypes Monalbo, Mobaci and Moperou, respectively carrying the susceptible tm-2 allele or the Tm-1 and Tm-2 resistant alleles, were tested for their susceptibility to ToMV SL-1. Although the three tomato genotypes accumulated ToMV SL-1 to similar amounts as judged by semiquantitative DAS-ELISA, they showed variations in the rate of infection and symptomatology. Possible differences in the intra-isolate variability and polymorphism between viral populations propagating in these tomato genotypes were evaluated by analysis of the capsid protein (CP) encoding region. Irrespective of genotype infected, the intra-isolate haplotype structure showed the presence of the same highly dominant CP sequence and the low level of population diversity (0.08-0.19%). Our results suggest that ToMV CP encoding sequence is relatively stable in the viral population during its replication in vivo and provides further demonstration that RNA viruses may show high sequence stability, probably as a result of purifying selection.

DNA 서열 분석을 위한 클라우드 컴퓨팅 기반 지능형 미들웨어 설계 (A Framework of Intelligent Middleware for DNA Sequence Analysis in Cloud Computing Environment)

  • 오준석;이윤재;이봉규
    • 인터넷정보학회논문지
    • /
    • 제15권1호
    • /
    • pp.29-43
    • /
    • 2014
  • 차세대 유전체 해독 기술과 자동화 기술이 발전하면서 DNA 서열 분석 환경이 개선되고 있지만, 아직까지 제한된 컴퓨팅 리소스는 분석시간 단축의 장애요인으로 작용하고 있다. 대부분의 과학 워크플로우 시스템은 수 많은 기능들이 특정 시스템 환경에 맞추어 구현되어 있기 때문에 복잡하고 유동적이지 못하며, 이로 인해 기존 시스템의 컴포넌트들을 클라우드 환경의 새로운 시스템에 적용하기 어려운 한계를 지니고 있다. 본 연구에서는 대량의 DNA 데이터를 동시적으로 분석할 수 있는 가상 인스턴스 제공이 가능하며 시스템간의 상호 운용성을 개선시키기 위하여 웹 서비스, DBMS, 클라우드 컴퓨팅 기능을 지원하는 DNA 서열 분석용 미들웨어를 개발하였다. 본 연구에서 개발된 지능형 미들웨어는 DBMS를 사용하여 파이프라인 정보를 관리하고, 클라우드 환경에서 경량의 가상 인스턴스를 제공하며, 상호운용성 개선을 위하여 단순 URI와 XML을 기반으로 한 RESTful 웹서비스 기능을 제공한다.

차세대 염기서열 분석법을 이용한 우리나라 중부지방과 남부지방의 김치 미생물 군집의 분포 및 다양성 분석 (Analysis of the Distribution and Diversity of the Microbial Community in Kimchi Samples from Central and Southern Regions in Korea Using Next-generation Sequencing)

  • 노윤정;하광수;김진원;이수영;정도연;양희종
    • 생명과학회지
    • /
    • 제33권1호
    • /
    • pp.25-33
    • /
    • 2023
  • 한국 전통 음식으로 알려진 김치의 발효는 다양한 미생물에 의해 일어나며, 주로 Leuconostoc 속, Weissella 속, Lactobacillus 속 유산균들이 관여한다. 또한 김치의 미생물 군집은 김치의 종류, 발효 조건, 재료 및 성분 등에 따라 분포와 차이가 다르게 나타난다. 본 연구는 중부지방(강원도, 경기도)과 남부지방 (전라도, 경상도) 김치에 대한 미생물 군집을 분석하기 위해 16S rRNA 유전자를 증폭하여 차세대 염기서열 분석법을 실시하였다. 모든 시료가 99% 이상의 Good's coverage of library를 보여 비교분석을 하는데 충분한 신뢰성을 얻었으며, α-diversity 분석에서 종 풍부도와 다양성은 시료 간 유의미한 차이가 나타나지 않았다. 중부지방과 남부지방 김치에 공통적으로 분포하고 있는 주요 세균 문은 Frimicutes 이었으며, 속 수준에서 Weissella kandleri 가 각 46.5%(중부지방), 30.8%(남부지방)로 가장 우점하였다. 마지막으로 중부지방과 남부지방의 미생물 군집을 대표하는 바이오마커를 확인하기 위해 LEfSe 분석을 실시한 결과, 중부지방에서 Leuconostocaceae (71.4%) 과, 남부지방에서 Lactobacillaceae (61.0%) 과가 통계적으로 유의미한 빈도 차이를 보였다. 따라서, 본 연구는 중부지방과 남부지방에서 나타나는 김치 미생물 군집의 분포와 차이를 규명하였으며, 이를 바탕으로 지역별 유사점과 차이점에 대한 미생물 군집의 분포를 연구하기 위한 과학적 기초자료를 제공할 것으로 예상된다.

Determining the doses of probiotics for application in Scylla tranquebarica (Fabricius 1798) larvae to produce crablet

  • Gunarto, Gunarto;Yustian Rovi Alfiansah;Muliani Muliani;Bunga Rante Tampangalo;Herlinah Herlinah;Nurbaya Nurbaya;Rosmiati Rosmiati
    • Fisheries and Aquatic Sciences
    • /
    • 제27권3호
    • /
    • pp.180-194
    • /
    • 2024
  • Mass mortalities of mud crab Scylla spp. larvae due to pathogenic Vibrio spp. outbreaks have frequently occurred in hatcheries. To overcome this problem, probiotics containing Bacillus subtilis bacteria are applied to inhibit pathogenic ones. We tested different doses of probiotic-containing B. subtilis (108 CFU/g) on the Scylla tranquebarica larvae and investigated the microbiota population, including Vibrio. Water quality, larvae development, and crablet production were also monitored. The recently hatched larvae were grown in twelve conical fiber tanks filled with 200 L sterile seawater, with a salinity of 30 ppt at a stocking density of 80 ind/L. Four different doses of probiotics were applied in the larvae rearing, namely, A = 2.5 mg/L, B = 5 mg/L, C = 7.5 mg/L, and D = 0 mg/L, with three replicates. Next-generation sequencing analysis was used to obtain the abundance of microbes in the whole body of megalopa and the water media for larvae rearing after applying probiotics. Sixteen Raw Deoxyribonucleic Acid samples (eight from a whole body of megalopa extraction from four treatments of probiotics defined as A, B, C, D, and eight from water media extraction from four treatments of probiotic defined as E, F, G, H) were prepared. Then, they were sent to the Genetics Science Laboratory for NGS analysis. Ammonia, nitrite, total organic matter (TOM), larvae, and crablet production were monitored. Based on the Next-generation sequencing analysis data, the Vibrio spp. decreased significantly (p < 0.05) than control test (D) in megalopa-applied probiotics at the doses of 2.5 mg/L (A) and 7.5 mg/L (C) and in the water media for megalopa rearing treated with probiotics at the dosage of 5.0 mg/L (F). Ammonia in the zoea stage in B treatment and TOM in the zoea and megalopa stage in B and C treatments were decreased significantly (p < 0.05). It impacts the higher number of zoea survival in treatments B and C. Finally, it results in a significantly high crablet production in treatments B and C. Therefore, the dosage of 5 mg/L to 7.5 mg/L improves crablet S. tranquebarica production significantly.