• 제목/요약/키워드: Next Generation Sequence

검색결과 174건 처리시간 0.03초

차세대 염기서열분석을 통한 밀 기능유전체 연구의 현황과 전망 (Current Status and Prospect of Wheat Functional Genomics using Next Generation Sequencing)

  • 최창현;윤영미;손재한;조성우;강천식
    • 한국육종학회지
    • /
    • 제50권4호
    • /
    • pp.364-377
    • /
    • 2018
  • 차세대 염기 서열 분석 기술의 적용은 빠르게 식물 유전체학의 지식을 확장시킴으로 기능유전자 연구의 발전을 도모하고 있다. 특히, 밀의 기능유전체학의 발전은 기존의 염기서열 분석 기술로는 가능성이 없어 보였다. 하지만 NGS의 발전은 고품질 보통밀의 RefSeq를 완성뿐만 아니라 다양한 밀 계통들의 재염기서열분석을 가능하게 한다. 현재 이렇게 얻어진 고품질 유전정보와 유전적 다형성이 밝혀진 유전자원의 이용으로 밀 기능유전체 연구가 새로운 단계로 접어들고 있다. NGS 기술 및 reverse genetics의 발전은 앞으로 전세계에 펼쳐져 있는 야생형 밀과 재배종 밀 계통들의 유전적인 다양성 분석을 가능케 하고 밀의 유전과 진화 과정을 깊게 이해하는데 큰 도움이 될 것이다. NGS 기술의 사용과 생물정보학의 결합은 타 작물에 비해 뒤쳐진 밀의 기능유전체 연구 속도를 가속화할 것이다. 기능유전체 연구를 활용한 밀 육종의 시대가, 애기장대 및 벼 분야와 같이, 다가오고 있다.

순환신경망을 이용한 자기장 기반 실내측위시스템 (Indoor Positioning System using Geomagnetic Field with Recurrent Neural Network Model)

  • 배한준;최린;박병준
    • 한국차세대컴퓨팅학회논문지
    • /
    • 제14권6호
    • /
    • pp.57-65
    • /
    • 2018
  • BLE 또는 Wi-Fi 기반 지문인식과 같은 기존의 RF 신호 기반 실내 위치인식 기술은 RF 신호의 불안정한 수신 신호 세기로 인해 소규모 실내 환경에서도 작지 않은 오차를 발생시키며 공항, 백화점과 같은 대규모 실내 환경에 적용하기가 어렵다. 이 논문에서는 RF 신호보다 안정적인 신호 강도를 갖는 자기장 신호를 이용한 실내측위 시스템을 제안한다. 유사한 자기장 값이 같은 실내 공간에 여럿 존재하지만, 사용자의 이동이 계속됨에 따라 자기장 신호는 고유 시퀀스를 가지게 된다. 본 논문에서는 시간에 따라 변화하는 센서 데이터 시퀀스를 인식하는 데 효과적인 순환 신경망 (Recurrent neural network, RNN)이라 불리는 심층 신경망 모델을 사용하여 사용자의 현재 위치와 이동 경로를 추적한다. 제안된 신경망 기반의 지자기 실내측위시스템의 평가를 위해 약 $94m{\times}26$ 크기의 교내 테스트베드에서 자기장 맵을 구축하고 자기장맵으로부터 추출한 다양한 이동 경로와 위치 정보를 이용하여 RNN을 학습한 결과, 테스트베드에서 제안된 시스템은 평균 1.20 미터의 테스트 측위 오차를 달성할 수 있었다.

다양한 데이터 전처리 기법 기반 침입탐지 시스템의 이상탐지 정확도 비교 연구 (Comparative Study of Anomaly Detection Accuracy of Intrusion Detection Systems Based on Various Data Preprocessing Techniques)

  • 박경선;김강석
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제10권11호
    • /
    • pp.449-456
    • /
    • 2021
  • 침입 탐지 시스템(IDS: Intrusion Detection System)은 보안을 침해하는 이상 행위를 탐지하는 기술로서 비정상적인 조작을 탐지하고 시스템 공격을 방지한다. 기존의 침입탐지 시스템은 트래픽 패턴을 통계 기반으로 분석하여 설계하였다. 그러나 급속도로 성장하는 기술에 의해 현대의 시스템은 다양한 트래픽을 생성하기 때문에 기존의 방법은 한계점이 명확해졌다. 이런 한계점을 극복하기 위해 다양한 기계학습 기법을 적용한 침입탐지 방법의 연구가 활발히 진행되고 있다. 본 논문에서는 다양한 네트워크 환경의 트래픽을 시뮬레이션 장비에서 생성한 NGIDS-DS(Next Generation IDS Dataset)를 이용하여 이상(Anomaly) 탐지 정확도를 높일 수 있는 데이터 전처리 기법에 관한 비교 연구를 진행하였다. 데이터 전처리로 패딩(Padding)과 슬라이딩 윈도우(Sliding Window)를 사용하였고, 정상 데이터 비율과 이상 데이터 비율의 불균형 문제를 해결하기 위해 AAE(Adversarial Auto-Encoder)를 적용한 오버샘플링 기법 등을 적용하였다. 또한, 전처리된 시퀀스 데이터의 특징벡터를 추출할 수 있는 Word2Vec 기법 중 Skip-gram을 이용하여 탐지 정확도의 성능 향상을 확인하였다. 비교실험을 위한 모델로는 PCA-SVM과 GRU를 사용하였고, 실험 결과는 슬라이딩 윈도우, Skip-gram, AAE, GRU를 적용하였을 때, 더 좋은 성능을 보였다.

엽록체 전장유전체 정보를 이용한 감자 야생종 Solanum stoloniferum 구별 분자 마커 개발 (Comparison of the complete chloroplast genome sequence of Solanum stoloniferum with other Solanum species generates PCR-based markers specific for Solanum stoloniferum)

  • 김수정;박태호
    • Journal of Plant Biotechnology
    • /
    • 제47권2호
    • /
    • pp.131-140
    • /
    • 2020
  • Solanum stoloniferum은 가지과에 속하는 4배체 감자 야생종 중의 하나로 감자 육종에서 다양한 병원균에 대한 저항성으로 인하여 좋은 재료로 활용되고 있다. 하지만, 감자와의 생식적 장벽으로 인하여 감자와 직접적인 교배를 통해 육종을 할 수 없어 이를 극복하기 위해 체세포 융합 등의 방법이 이용될 수 있다. 세포 융합 이후에는 분자마커를 이용하여 적합한 융합체 선발이 필요한데 이를 위해 본 연구에서는 S. stoloniferum 특이적 마커를 개발하기 위하여 S. stoloniferum의 엽록체 전장 유전체 정보를 분석하고 이를 기반으로 한 마커를 개발하였다. S. stoloniferum의 cpDNA 총 길이는 155,567 bp이고, 6개의 다른 Solanum 종과의 비교를 통해 S. stoloniferum가 S. berthaultii와 가장 가까운 유연관계인 것을 확인하였다. 다섯 종의 Solanum과의 엽록체 전장 유전체 다중 정렬에서는 S. stoloniferum 특이적인 6개의 InDel과 39개의 SNP를 구명하였으며, 이 정보를 이용하여 최종적으로 네개의 S. stoloniferum 특이적인 PCR 기반의 분자마커를 개발하였다. 이 마커들은 적절한 체세포 융합체를 선발하고 S. stoloniferum을 이용한 감자 품종 육성에 기여할 수 있을 것이다.

개 회충 게놈 응용 사례에서 공개용 분석 툴을 사용한 드래프트 게놈 어셈블리 생성 (Workflow for Building a Draft Genome Assembly using Public-domain Tools: Toxocara canis as a Case Study)

  • 원정임;공진화;허선;윤지희
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제20권9호
    • /
    • pp.513-518
    • /
    • 2014
  • NGS 기술의 발달로 시퀀싱 비용이 급격히 하락됨에 따라 대규모 크기의 유전체 염기 서열해독을 소규모의 실험실에서 수행할 수 있게 되었다. 디노버 어셈블리는 표준 유전체가 없는 새로운 종을 시퀀싱하는 경우 리드들의 염기 서열 정보를 이용하여 재구성함으로써 원래의 전체 시퀀스를 복원하는 것이다. 최근 이와 관련된 많은 연구 결과가 보고되고 있으나, 충분한 분석 노하우와 명확한 가이드라인 등이 공개되어 있지 않기 때문에 이들 연구에서 제시하는 동일한 어셈블리 수행 과정 및 분석 툴들을 사용하더라도 만족할만한 수준의 어셈블리 결과를 얻지 못하는 경우가 발생한다. 본 연구에서는 이러한 문제점을 해결하기 위하여 NGS 기술과 디노버 어셈블리 기술을 이용하여 아직 밝혀지지 않은 생물체의 전체 DNA의 염기 서열을 밝히기 위한 일련의 과정들을 단계별로 소개하고, 각 단계에서 필요로 하는 공개용 분석 툴의 장단점을 분석하여 제시한다. 이러한 과정별 단계를 구체적으로 설명하기 위하여 본 연구에서는 350Mbp 크기의 개 회충 게놈을 응용 사례로 사용한다. 또한 디노버 어셈블리 과정을 통해 새롭게 어셈블리된 시퀀스와 다른 유사 종과의 상동성 분석을 수행하여 어셈블리된 시퀀스에서의 유전자 영역 추출과 추출된 유전자의 기능을 예측한다.

CNVDAT : 차세대 시퀀싱 데이터를 위한 유전체 단위 반복 변이 검출 및 분석 도구 (CNVDAT: A Copy Number Variation Detection and Analysis Tool for Next-generation Sequencing Data)

  • 강인호;공진화;신재문;이은주;윤지희
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제41권4호
    • /
    • pp.249-255
    • /
    • 2014
  • 유전체 단위 반복 변이(CNV)는 유전적 구조변이의 하나로서, 암을 포함하는 인간의 질병과 밀접한 연관성이 있는 것으로 알려져 있다. 암 유전자를 규명하기 위하여, 연구자는 특정 암 환자의 대규모 유전체 데이터를 분석하여 CNV를 찾아내야하며, 동시에 대규모 유전/임상 데이터를 연계 분석하여야 한다. 본 연구는 NGS 데이터로부터 CNV를 추출하고, 추출된 CNV와 관련된 유전/임상 정보를 체계적으로 연계 분석하는 기능을 제공하는 새로운 분석 툴 CNVDAT를 제안한다. CNV 추출 모듈은 스케일 스페이스 필터링 기법을 이용하여 CNV를 추출하며, 리드 데이터에 잡음이 포함된 경우에도 CNV의 타입/위치를 정확히 추출해낸다. 또한 시퀀스 분석 모듈은 변이 영역의 브라우징 및 상호 비교를 지원하는 사용자 친화적 프로그램으로서, 암/정상 샘플의 변이 영역의 동시 분석 기능과 refGene, OMIM DB를 기반으로 하는 CNV-유전자-표현형 매핑의 연관성 분석 기능을 제공한다. 본 프로그램의 소스 코드와 샘플프로그램은 http://dblab.hallym.ac.kr/CNVDAT/에서 다운 받을 수 있다.

해양 해면체로부터 분리한 세균으로 항알러지성물질을 생산하는 Bacillus safensis KCTC 12796BP의 유전체 해독 (The complete genome sequence of a marine sponge-associated bacteria, Bacillus safensis KCTC 12796BP, which produces the anti-allergic compounds)

  • 한 응엔 판 기우;김수희;김금진;최혁재;남두현
    • 미생물학회지
    • /
    • 제54권4호
    • /
    • pp.448-452
    • /
    • 2018
  • 제주도 성산리 앞 바다 속 해면체로부터 분리한 Bacillus safensis KCTC 12796BP의 유전체를 분석하였다. 그 결과 3,935,874 bp의 환형 염색체와 36,690 bp의 plasmid 염기 서열을 확인하였다. 염색체는 G + C 함량이 41.4%로 75개의 위유 전자를 포함한 3,980개의 코딩 서열을, plasmid는 G + C 함량이 37.3%로 36개의 코딩 서열을 포함하고 있었다. 염색체 코딩 서열 중에는 81개의 tRNA 유전자, 24개 rRNA 유전자와 1개의 tmRNA 유전자가 있었다. 또한 포자 생성에 필요한 30개의 유전자, 포자피를 지령하는 16개의 유전자, 그리고 발아에 필요한 20개의 유전자도 발견되었다. 이외에 협막 다당체 생합성에 필요한 유전자와 편모 생합성 및 주화성에 필요한 유전자, 그리고 염 내성에 필요한 glycine-choline betaine 수송체에 관한 유전자도 존재하였다. 무엇보다도 항알러지활성을 보이는 이차대사산물 seongsanamide의 생합성을 지령하는 비리보좀성 펩타이드 합성효소 유전자를 확인할 수 있었다.

가지속 식물의 엽록체 전장유전체 비교를 통한 PCR 기반의 Solanum demissum 특이적 분자마커 개발 (PCR-based markers for discriminating Solanum demissum were developed by comparison of complete chloroplast genome sequences of Solanum species)

  • 박태호
    • Journal of Plant Biotechnology
    • /
    • 제48권1호
    • /
    • pp.18-25
    • /
    • 2021
  • 멕시코로부터 유래한 Solanum demissum은 감자 야생종 중의하나로 감자 역병에 대해 저항성을 가지고 있어 감자 육종에서 중요한 재료로 이용되고 있다. S. demissum의 EBN은 4배 체인 감자와 같은 4로 직접적인 교배로 육종에 활용될 수 있다. 본 연구에서는 NGS 기술에 의해 완성된 S. demissum의 엽록체 전장 유전체(cpDNA)와 이를 다른 Solanum종과의 비교를 통해 개발한 분자마커에 대해 보고하였다. S. demissum의 전체 cpDNA의 크기는 155,558 bp였으며 그 구조는 다른 Solanum종과 매우 유사하였다. S. demissum의 cpDNA와 가지과에 속하는 10개 종의 cpDNA 코딩서열을 이용하여 분석한 계통수에서는 S. demissum이 S. hougasii 및 S. stoloniferum과 거의 동일한 유전체 구성을 보였으며, 다음으로 S. berthaultii 및 S. tuberosum과 유연관계가 가까운 것으로 확인되었다. S. demissum과 다른 7종의 Solanum과의 전체 cpDNA 다중 정렬을 통해 S. demissum 특이적인 두 개의 InDel 영역을 구명하였으며 이를 기반으로 최종적으로 PCR을 기반으로 한 두 개의 S. demissum 특이적 마커를 개발하였다. 본 연구의 결과는 Solanum 종들을 대상으로 한 조금 더 세부적인 진화적 그리고 육종적 측면에서의 연구에 기여를 할 수 있을 것이다.

의미 중의성을 고려한 온톨로지 기반 메타데이타의 자동 생성 (Ontology-based Automated Metadata Generation Considering Semantic Ambiguity)

  • 최정화;박영택
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제33권11호
    • /
    • pp.986-998
    • /
    • 2006
  • 인터넷의 발전으로 방대해진 정보를 컴퓨터가 이해하고 효율적으로 관리하기 위해서는 시맨틱 웹 기반의 메타데이타가 반드시 필요하다. 그러나 메타데이타 생성 시 의미 중의성을 가진 정보가 존재하며 이 문제의 해결책이 필요하다. 본 논문에서는 순차적으로 존재할 수 있는 단어들의 확률 모델을 이용하여 문서와 같은 정보에 포함된 의미가 애매한 단어를 관련성이 높은 모델의 개념으로 메타데이타를 생성하는 방법을 제안한다. 제안한 방법에서 메타데이타를 생성 할 때, 온톨로지에 정의된 개념들 간의 중의성을 고려하고 명칭(named entity)의 일부 단어에 대한 인식을 위해 은닉 마르코프 모델(Hidden Markov Model)을 사용한다. 먼저 온톨로지에 정의된 각 클래스(class)의 인스턴스(instance)를 인식하기 위한 마르코프 모델을 생성한다. 다음으로 문서로부터 의미가 애매한 단어의 의미를 파악할 수 있는 상황정보(Context)를 생성하고, 상황정보에 포함된 단어들의 순서에 대응하는 최적의 마르코프 모델을 찾아 메타데이타 생성시의 중의성 문제를 해결한다. 제안한 방법으로 전산학관련 논문에 대해 의미가 애매한 7개의 단어를 추출하여 실험하였다. 그 결과 상황정보에 존재하는 개체(entity)의 의미부류들 중 가장 빈번한 의미 부류로 애매한 단어의 의미를 선정한 SemTag보다 정확도 면에서 38%정도의 나은 성능을 나타내었다.

An assessment of the taxonomic reliability of DNA barcode sequences in publicly available databases

  • Jin, Soyeong;Kim, Kwang Young;Kim, Min-Seok;Park, Chungoo
    • ALGAE
    • /
    • 제35권3호
    • /
    • pp.293-301
    • /
    • 2020
  • The applications of DNA barcoding have a wide range of uses, such as in taxonomic studies to help elucidate cryptic species and phylogenetic relationships and analyzing environmental samples for biodiversity monitoring and conservation assessments of species. After obtaining the DNA barcode sequences, sequence similarity-based homology analysis is commonly used. This means that the obtained barcode sequences are compared to the DNA barcode reference databases. This bioinformatic analysis necessarily implies that the overall quantity and quality of the reference databases must be stringently monitored to not have an adverse impact on the accuracy of species identification. With the development of next-generation sequencing techniques, a noticeably large number of DNA barcode sequences have been produced and are stored in online databases, but their degree of validity, accuracy, and reliability have not been extensively investigated. In this study, we investigated the extent to which the amount and types of erroneous barcode sequences were deposited in publicly accessible databases. Over 4.1 million sequences were investigated in three largescale DNA barcode databases (NCBI GenBank, Barcode of Life Data System [BOLD], and Protist Ribosomal Reference database [PR2]) for four major DNA barcodes (cytochrome c oxidase subunit 1 [COI], internal transcribed spacer [ITS], ribulose bisphosphate carboxylase large chain [rbcL], and 18S ribosomal RNA [18S rRNA]); approximately 2% of erroneous barcode sequences were found and their taxonomic distributions were uneven. Consequently, our present findings provide compelling evidence of data quality problems along with insufficient and unreliable annotation of taxonomic data in DNA barcode databases. Therefore, we suggest that if ambiguous taxa are presented during barcoding analysis, further validation with other DNA barcode loci or morphological characters should be mandated.