• 제목/요약/키워드: 서열정렬법

검색결과 8건 처리시간 0.023초

지문법과 서열정렬법을 결합한 다단계 정렬 방법의 문서 유사도 비교 (A method for comparing documents using fingerprinting and sequence alignment.)

  • 서종규;옥창석;조환규
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 추계학술발표대회
    • /
    • pp.576-579
    • /
    • 2012
  • 문서유사도를 비교하는 방법은 지문법과 서열 정렬법이 널리 알려져 있다. 지문법은 계산속도가 빠른 대신 정확도가 떨어지며, 서열정렬법은 계산속도가 느린 대신 정확도가 높다. 다단계 정렬은 두 방법의 비중을 조절하여 문서 유사도를 비교할 수 있는 방법으로, 각 방법의 장점을 얻으면서 단점을 보완하도록 고안되었다[1]. 이 논문에서는 다단계 정렬방법에 대해 설명하고, 다단계정렬 방법에서 발생 가능한 단편화 문제를 제거하여 정확도를 향상시키는 방법에 대해 소개한다.

계산속도 및 정확도의 적응적 제어가 가능한 다단계 문서 비교 시스템 (Multi-Level Sequence Alignment : An Adaptive Control Method Between Speed and Accuracy for Document Comparison)

  • 서종규;탁해성;조환규
    • 정보과학회 논문지
    • /
    • 제41권9호
    • /
    • pp.728-743
    • /
    • 2014
  • 유사한 문서를 비교하는 방법으로는 지문법과 서열 정렬법이 널리 알려져 있다. 지문법은 계산속도가 빠른 대신 정확도가 떨어지며, 서열정렬법은 계산속도가 느린 대신 정확도가 높다. 다단계 정렬은 두 방법의 비중을 조절하여 문서 유사도를 비교할 수 있는 새로운 방법의 문서 유사도 측정 방법으로, 각 방법의 장점을 얻으면서 동시에 단점을 보완하도록 고안되었다. 특히 두 비교 방법의 비중을 "블록크기"라는 단일 변수를 이용하여 조절할 수 있도록 한 것이 제안 시스템의 핵심이다. 다단계 정렬은 문서를 일정한 길이의 블록으로 나누어 지문을 추출하고 블록간의 유사도를 계산한 다음 그 결과를 서열정렬법으로 다시 한 번 탐색하는 과정을 거친다. 이때 문서가 분할되는 과정에서 유사구간이 두 개 이상의 블록으로 나누어지는 현상이 발생하기도 한다. 이 논문에서는 다단계 정렬방법에 대해 설명하고, 유사도 비교 성능 개선을 위한 단편화 제거 기법과 휴리스틱 비교법에 대해 설명하고 실험적으로 그 결과를 보인다.

다단계정렬을 활용한 효율적인 문서 유사도 비교법 (An effective method for comparing similarity of document with Multi-Level alignment)

  • 서종규;황혜련;조환규
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 춘계학술발표대회
    • /
    • pp.402-405
    • /
    • 2012
  • 문서와 문서간의 유사도들 측정하는 방법 은 크게 지문법 (fingerprint)을 이용한 방법과 서열 정렬(sequence alignment)알고리즘을 이용한 방법이 있다. 두 방법은 각각 속도와 정확도라는 장점을 가지고 있다. 다단계정렬(MLA, Multi-Level alignment))는 이러한 두 방법을 조합하여 탐색 속도와 정확도 사이의 비중을 사용자가 결정할 수 있도록 하기 위한 방법이다.[1] 다단계 정렬은 두 문서를 단위 블록(basis block)로 나누고 블록 간의 벡터를 비교하여 유사도를 측정하게 되는데, 본 연구에서는 초성 추출 및 어간 추출을 통해 단위 블록의 벡터를 빠른 시 간에 생성하고 비교하는 방법과 다단계 탐색을 통해 정확도를 유지하면서 빠르게 유사도를 측정하는 방식에 대해 설명한다. 실험결과 제안 방법을 통해 다단계 정렬 방법을 이용한 대용량 문서 비교의 속도가 2 배 이상 빨라짐을 보인다.

유전체 서열의 정렬 기법을 이용한 소스 코드 표절 검사 (Applying Genomic Sequence Alignment Methodology for Source Codes Plagiarism Detection)

  • 강은미;황미녕;조환규
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제9권3호
    • /
    • pp.352-367
    • /
    • 2003
  • 일반적인 컴퓨터 프로그램의 구성적, 구문적 특징은 소스 코드로부터 추출한 키워드들의 서열로 나타낼 수 있다. 따라서 추출한 키워드의 서열을 비교하면 두 프로그램의 유사성과 상이점에 대해서 잘 파악할 수 있다. 서열의 유사성을 측정하는 여러 가지 방법은 생물학적 유전자 서열을 다루는 생물정보학에서 활발한 연구가 이루어져왔다. 본 논문에서 우리는 두 프로그램간의 유사성을 측정하고 서열 정렬 방법을 이용하여 부분 표절 검출을 하는 새로운 방법을 제안한다. 제시한 방법의 성능을 평가하기 위해서, 2001년 자료구조 수업에 참석한 수강생들이 제출한 프로그램을 실험 데이타로 사용하여 표절을 검사하였다. 실험결과는 제안된 기법이 표절 검사에 있어 가장 널리 사용되는 지문법(fingerprint)보다 더 효과적임을 보여 주었다.

바이오인포매틱스 기법을 활용한 SARS 코로나바이러스의 유전정보 연구 (A Study on the Genomic Patterns of SARS coronavirus using Bioinformtaics Techniques)

  • 안인성;정병진;손현석
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2007년도 추계 종합학술대회 논문집
    • /
    • pp.522-526
    • /
    • 2007
  • 중중급성호흡기증후군(SARS, Severe Acute Respiratory Syndrome)은 전 세계적으로 알려진 바가 없었던 신종 급성 전염성 질환으로써, 2003년 아시아로부터 북미와 유럽지역까지 빠른 속도로 전파되어 나간 이후로부터 많은 과학자들의 연구의 대상이 되어오고 있다. 계통발생학적인 관점에서 SARS 바이러스는 Coronavirus 속에 속하는 것으로 알려져 있으나, 전체적인 유전정보 면에서는 다른 코로나바이러스들에 비하여 진화상으로 보존된 부분들이 현저하게 적은 경향을 나타낸다. 자연계에서의 SARS 코로나바이러스(SARS-CoV)의 숙주생물종에 대해서는 아직까지도 명확히 알려지지 않고 있다. 본 연구에서는 SARS-CoV의 유전서열들을 대상으로 다중서열정렬법, 계통발생학적 분석기법 및 다변량 통계분석법 등과 같은 바이오인포매틱스 분석기법들을 활용하여 이 바이러스의 유전정보 패턴을 분석하였다. Relative synonymous codon usage(RSCU)값을 포함하는 여러 유전정보 파라미터들은 Coronavirus와 Lentivirus 속과 Orthomyxoviridae과로부터 수집된 총 30,305개의 암호화 서열들로부터 계산이 되었으며 이 모든 계산은 KISTI 슈퍼컴퓨팅센터의 SMP 클러스터 상에서 수행되었다. 분석 결과, SARS-CoV는 feline 코로나바이러스와 매우 유사한 RSCU 패턴을 나타내었는데, 이것은 기존에 보고되었던 혈청학적인 연구결과와 일치하는 결과였다. 또한 SARS-CoV와 human immunodeficiency virus 및 influenza A virus는 공통적으로 각각이 속한 속이나 과내에서 상대적으로 낮은 RSCU bias를 나타내어서 이와 같은 현상이 이들 바이러스들이 종 간 장벽을 뛰어넘어 전파되는 과정에 영향을 미쳤을 가능성을 시사하였다. 결론적으로 이와 같은 바이오인포매틱스 분석기법들을 활용한 대용량의 유전정보 분석은 유전체 역학 연구에 효과적으로 사용될 수 있을 것으로 기대된다.

  • PDF

부분표절구간 검출을 위한 질의문서의 분할 및 탐색 기법 (A Fragmentation and Search Method of Query Document for Partially Plagiarized Section Detection)

  • 옥창석;서종규;조환규
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 추계학술발표대회
    • /
    • pp.586-589
    • /
    • 2012
  • 표절과 관련된 이슈가 주목받고 있는 상황에서 표절을 검출하는 방법에 대한 연구가 활발히 진행되고 있다. 일반적으로 표절구간 검출을 위해 복잡한 자연어처리와 같은 의미론적 접근방법이 아닌 비교적 단순한 어휘기반의 문자열 처리 방법을 사용한다. 대표적인 방법으로는 지문법 (Fingerprinting)과 서열정렬 (Sequence alignment) 등이 있다. 하지만 이 방법들을 이용하여 대용량 문서에 대한 표절검사를 수행하기에는 시공간적 복잡도의 문제가 발생한다. 본 논문에서는 이러한 단점을 극복하기 위해 NGS (Next Generation Sequencing)에서 사용하는 BWT (Burrows-Wheeler Transform)[1]를 이용한 탐색방법을 응용한다. 또한 부분표절구간을 검출하고 정확도를 향상시키기 위해 질의문서를 분할하여 작은 조각으로 만든 뒤, 조각들에 대한 질의탐색을 수행한다. 본 논문에서는 질의문서를 분할하는 두 가지 방법을 소개한다. 두 가지 방법은 k-mer analysis를 이용한 방법과 random-split analysis를 이용한 방법으로, 각 방법의 장단점을 실험을 통해 분석하고 실제 부분표절구간의 검출 정확도를 측정하였다.

로젯사철란(Goodyera rosulacea: Orchidaceae)의 분류학적 위치: ITS와 trnL 염기서열에 의한 분자적 증거 (Taxonomic status of Goodyera rosulacea (Orchidaceae): molecular evidence based on ITS and trnL sequences)

  • 이창숙;엄상미;이남숙
    • 식물분류학회지
    • /
    • 제36권3호
    • /
    • pp.189-207
    • /
    • 2006
  • 로젯사철란(G. rosulacea Y. Lee)은 애기사철란과 유사하나 로젯트형의 잎, 짧은 땅속줄기와 서식지 등의 특징에 의해 한국산 사철란속(Goodyera R. Br.) 내의 신종으로 기재된 바 있다. 로젯사철란의 분류군의 실체와 근연종간의 유연관계를 파악하기 위하여 군외군을 포함한 24개의 사철난속 식물을 대상으로 핵 리보좀(ribosomal)의 DNA internal transcribed spacer와 엽록체 DNA의 trnL 구간의 염기서열을 분석하였다. 분류군의 실체와 근연종간의 유연관계는 정렬된 염기서열을 바탕으로 최대절약분석(Maximum parsimony analysis)와 근연결합법(Neibour Joining method)에 의한 계통수 및 고유 표지유전자 여부로 추정하였다. 분석 결과 로젯사철란은 다수의 고유한 표지유전자를 가지며, ITS와 trnL 계통수에서 모두 단계통군을 형성하였다. 로젯사철란과 한국산 사철란속 내 각 분류군간의 유전적 거리(pairwise distance)는 ITS에서 3.49-6.68, trnL에서 5.05-9.53으로서 독립된 종으로 간주하기에 무리가 없었다. 따라서 분자적 결과는 로젯사철란을 사철란속내 독립된 종으로 처리하는 것을 지지하였다. 계통수에서 로젯사철란은 형태적으로 유사한 애기사철란(G. repens)과 동일한 분계조를 형성하였고, 유전적 거리도 조사한 분류군들 중 가장 낮은 값을 나타냈으므로 가장 가까운 근연분류군임을 나타내었다.

딸기 흰가루병 저항성 계통 선발을 위한 분자마커 개발 (Development of Cleaved Amplified Polymorphic Sequence (CAPS) Marker for Selecting Powdery Mildew-Resistance Line in Strawberry (Fragaria×ananassa Duchesne))

  • 제희정;안재욱;윤혜숙;김민근;류재산;홍광표;이상대;박영훈
    • 원예과학기술지
    • /
    • 제33권5호
    • /
    • pp.722-729
    • /
    • 2015
  • 딸기 흰가루병은 Podosphaera aphanis에 의해 발병되며 수확기에 가장 큰 피해를 주는 병으로 현재 유황, 농약으로 주로 방제 되고 있는 실정이다. 본 연구에서는 딸기 흰가루병 저항성 품종 육성을 위한 흰가루병 저항성 특이마커 개발로 내병성 육종효율을 높이고자 하였다. 흰가루병 저항성 계통 선발을 위한 분자마커를 개발하기 위해 아키히메${\times}$설향 집단을 대상으로 자가수분을 통해 후대 양성 후 병저항성을 검정하였다. 마커분석은 RAPD primer 200 세트 중 OPE10 331bp에서부터 흰가루병 저항성 특이 마커 선발하였다. 흰가루병 저항성 특이밴드만 선발하기 위하여 클로닝 후 유전자정보 분석하여 SP1F/R의 Primer를 제작하였다. 그러나 SP1F/R을 이용하여 PCR한 결과 저항성, 감수성간에 다형성이 확인되지 않아 염기서열을 정렬한 후 SNP, In/del의 다형성 유무를 확인한 결과 6개의 SNP를 확인하였다. 이들 PCR 산물을 해당 사이트와 연관된 제한효소로 절단한 결과 그 중 Eae I(Y/GGCCR)의 절단으로 231bp 위치에서 저항성과 감수성간의 다형성을 확인함으로써 흰가루병 저항성 계통선발을 위한 분자마커를 선발하였다. 이러한 과정을 통해 딸기 흰가루병 저항성 품종 육성을 위한 MAS(marker assisted selection) 체계 확립으로 내병성 육종효율 증진에 기여를 할 수 있을 것으로 기대된다.