• 제목/요약/키워드: Smith-Waterman 알고리즘

검색결과 13건 처리시간 0.053초

Smith-Waterman 정렬 알고리즘을 이용한 온라인 필기체 숫자인식 (Online Handwritten Digit Recognition by Smith-Waterman Alignment)

  • 문원호;최연석;이상걸;차의영
    • 한국컴퓨터정보학회논문지
    • /
    • 제16권9호
    • /
    • pp.27-33
    • /
    • 2011
  • 본 논문에서는 필기체 문자의 Convex-Concave한 곡선 특징을 문자로 변환하고 추출된 문자를 Smith-Waterman 정렬 알고리즘을 이용하여 온라인 필기체 숫자 인식 방법을 제안한다. 필기체 숫자 인식을 위한 입력 데이터는 시간에 순서적인 좌표로 순서화하고 전처리의 입력데이터로 적용된다. 필기자의 개성이 표현된 필기체 문자는 크기, 회전, 곡선 비율이 다양한 형태로 나타난다. 따라서 본 논문에서는 곡선의 Convex-Concave 특징을 이용하여 크기, 회전에 강인한 특징을 추출한다. 추출된 특징은 문자로 변환하고 Smith-Waterman 정렬 알고리즘의 입력데이터로 적용한다. 본 논문에서는 실시간 필기체 숫자를 대상으로 실험한 결과, 오류역전파 신경 회로망을 적용한 것과 비교하여 제안된 방법이 좋은 성능을 보였다.

품질 정보를 이용한 서열 배치 알고리즘 (Sequence Alignment Algorithm using Quality Information)

  • 노강호;박근수
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (1)
    • /
    • pp.730-732
    • /
    • 2002
  • 서열 배치 문제는 두 개의 서열에서 가장 유사한 부분을 찾는 문제이다. 이 문제를 푸는 알고리즘으로 가장 많이 쓰이는 것은 Smith-Waterman 알고리즘이다. Smith-Waterman 알고리즘은 동적 프로그래밍을 이용하여 두 서열에서 유사한 부분을 찾아낸다. 그러나 Smith-Waterman 알고리즘은 서열을 이루는 문자들의 품질 정보를 사용하지는 않는다. 각 문자가 얼마 정도의 신뢰도를 가지고 있는지를 나타내는 품질 정보는 생물학에서는 중요한 정보이다. 본 논문에서는 각 문자에 주어지는 품질이 서로 다를 때에, 품질 정보를 이용하여 가장 적합한 부분 배치를 찾아내는 알고리즘을 제시한다. 실제로 현재 서열 배치에 가장 많이 사용되고 있는 프로그램 중 하나인, Phred/Phrap에서 사용하는 LLR 값을 이용해서 비교했을 때, 본 논문에서 제시한 알고리즘은 기존의 Smith-Waterman 알고리즘보다 더 좋은 결과를 얻었다.

  • PDF

Banded Smith-Waterman 알고리즘을 이용하여 정규화된 부분배치를 찾는 새로운 알고리즘 (A new algorithm for finding normalized local alignment using handed Smith-Waterman algorithm)

  • 김상태;심정섭;박희진;박근수;박현석;서정선
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (1)
    • /
    • pp.592-594
    • /
    • 2001
  • 두 문자열의 부분배치(local alignment)를 찾는 대표적인 알고리즘인 Smith-Waterman 알고리즘(SW 알고리즘)은 정규화된 최적부분배치를 찾지 못하는 단점이 있다. 최근에 fractional programming 기법을 이용하여 여러 번의 SW 알고리즘을 수행함으로써 정규화된 최적부분배티를 찾는 알고리즘이 제시되었지만 이는 매우 많은 시간이 걸린다. 본 논문에서는 fractional programming 기법을 이용하여 정규화된 최적부분배치를 찾는 알고리즘에, 완전매치(Exact Match)을 이용한 휴리스틱 기법인 Banded SW 알고리즘을 적용하여, 낮은 오차를 가지면서 실용적으로 매우 빠른 정규화된 최적부분배치를 찾는 알고리즘을 제시하고 이 알고리즘과 제시하고 이 알고리즘과 기존의 알고리즘을 직접 구현하여 실험한 결과를 비교 분석한다.

  • PDF

다중 지역 정렬 알고리즘 구현 및 응용 (Implementation and Application of Multiple Local Alignment)

  • 이계성
    • 문화기술의 융합
    • /
    • 제5권3호
    • /
    • pp.339-344
    • /
    • 2019
  • 서열 정렬에 있어서 전체를 비교하여 두 서열 사이의 최대의 유사성 또는 상동성을 찾는 전역 정렬은 넓은 범위를 선호하게 되는 편향성을 갖게 된다. 비일치 부분을 과감히 제거하고 높은 일치도를 갖는 부분 영역을 정렬하게 되면 정렬점수를 높이는 효과를 갖게 된다. 여러 개의 부분 지역 정렬을 탐색하게 하는 다중 지역정렬 방법을 적용하여 다수의 지역정렬을 수행하는 알고리즘을 구현하고 결과를 분석해 본다. 지역 정렬에 일반적으로 사용되는 Smith-Waterman 알고리즘의 제한점 중 하나인 서열이 길어지는 것을 방지하고, sub-optimal sequence를 찾기 위한 방법을 응용하여 다중지역 정렬을 수행한다.

대용량 유전체를 위한 효율적인 유사성 검색 알고리즘 (An Efficient Algorithm for Similarity Search in Large Biosequence Database)

  • 정인선;박경욱;임형석
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2005년도 추계종합학술대회
    • /
    • pp.1073-1076
    • /
    • 2005
  • 유전자 데이터베이스의 크기는 매년 기하급수적으로 증가하기 때문에 기존의 Smith-Waterman 알고리즘으로 정확한 서열의 유사성을 검색하는 것은 비효율적이다. 따라서 빠른 유사성 검색을 위해 데이터베이스에 저장된 문자열에 대해 특정 길이의 모든 부분문자열에 나타나는 문자의 출현 빈도를 이용한 휴리스틱 방법들이 제안되었다. 그러나 이 방법은 문자의 출현 빈도만을 사용하므로 서로 다른 서열을 같은 서열로 취급하는 단점이 있어 정화도가 Smith-Waterman 알고리즘에 비해 현저히 떨어진다. 본 논문에서는 문자가 부분문자열에 나타나는 위치 정보를 포함하여 문자의 출현빈도를 색인함으로써 질의 처리를 효율적으로 수행하는 알고리즘을 제안한다. 실험결과 제안된 알고리즘은문자 빈도만을 사용하는 휴리스틱 알고리즘들에 비해 5${\sim}$20%정도 정확성이 향상되었다.

  • PDF

DNA 서열의 위치 정보를 이용한 효율적인 유사성 검색 알고리즘 (An Efficient Algorithm for Similarity Search using Positional Information of DNA Sequences)

  • 정인선;박경욱;임형석
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 가을 학술발표논문집 Vol.32 No.2 (1)
    • /
    • pp.970-972
    • /
    • 2005
  • 유전자 데이터베이스의 서열의 길이가 수백만에서 수백억 정도의 대용량 텍스트이기 때문에 기존의 Smith-waterman 알고리즘으로 정확한 서열의 유사성을 검색하는 것은 매우 비효율적이다. 따라서 빠른 유사성 검색을 위해 데이터베이스에 저장된 문자열에 대해 특정 길이의 모든 부분문자열에 나타나는 문자의 출현 빈도를 이용한 휴리스틱 방법들이 제안되었다. 이러한 방법들은 질의 서열과 일치될 가능성이 높은 후보들만을 추출한 후 이들 각각에 대하여 질의 서열과의 일치 여부를 조사하므로 빠르게 유사성 검색을 할 수 있다. 그러나 이 방법은 문자의 출현 빈도만을 사용하므로 서로 다른 서열을 같은 서열로 취급하는 단점이 있어 정확도가 Smith-Waterman 알고리즘에 비해 떨어진다. 본 논문에서는 문자가 부분문자열에 나타나는 위치 정보를 포함하여 문자의 출현빈도를 인덱싱함으로써 질의 처리를 효율적으로 수행하는 알고리즘을 제안한다. 실험결과 제안된 알고리즘은 문자 빈도만을 사용하는 알고리즘에 비해 $5\~15\%$정도 정확성이 향상되었다.

  • PDF

Apache Spark을 이용한 병렬 DNA 시퀀스 지역 정렬 기법 구현 (Implementation of Parallel Local Alignment Method for DNA Sequence using Apache Spark)

  • 김보성;김진수;최도진;김상수;송석일
    • 한국콘텐츠학회논문지
    • /
    • 제16권10호
    • /
    • pp.608-616
    • /
    • 2016
  • Smith-Waterman(SW) 알고리즘은 DNA 시퀀스 분석에서 중요한 연산 중 하나인 지역 정렬을 처리하는 알고리즘이다. SW 알고리즘은 동적 프로그래밍 방법으로 최적의 결과를 도출할 수 있지만 수행시간이 매우 길다는 문제가 있다. 이를 해결하기 위해서 다수의 노드를 이용한 병렬 분산 처리 기반의 SW 알고리즘이 제안되었다. Apache Spark을 기반으로 하는 병렬 분산 DNA 처리 프레임워크인 ADAM에서도 SW 알고리즘을 병렬로 처리하고 있다. 하지만, ADAM의 SW 알고리즘은 Smith-Waterman 이 동적프로그래밍 기법이라는 특성을 고려하지 않고 있어 최대의 성능을 얻지 못하고 있다. 이 논문에서는 ADAM의 병렬 SW 알고리즘을 개선한다. 제안하는 병렬 SW 기법은 두 단계에 걸쳐 실행된다. 첫 번째 단계에서는 지역정렬 대상인 DNA 시퀀스를 다수의 파티션(partition)으로 분할하고 분할된 각 파티션에 대해서 SW 알고리즘을 병렬로 수행한다. 두 번째 단계에서는 파티션 각각에 대해서 독립적으로 SW를 적용함으로써 발생하는 오류를 보완하는 과정을 역시 병렬로 수행한다. 제안하는 병렬 SW 알고리즘은 ADAM을 기반으로 구현하고 기존 ADAM의 SW와 비교를 통해서 성능을 입증한다. 성능 평가 결과 제안하는 병렬 SW 알고리즘이 기존의 SW에 비해서 2배 이상의 좋은 성능을 내는 것을 확인하였다.

Local chaining 알고리즘의 단점 및 개선 방법 (Improving Weaknesses of Local Chaining Algorithms)

  • 이선호;박근수
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (A)
    • /
    • pp.976-978
    • /
    • 2004
  • Chaining 알고리즘은 주어진 match 정보로부터 좋은 match 조합을 찾아내는 일종의 alignment 알고리즘으로 유전체 서열을 비교하는데 다양하게 응용되고 있다. 특히 서열 전체를 비교하는 대신 부분 서열을 비교할 때 사용할 수 있는 local chaining 알고리즘이 제안되었는데 본 논문은 이 기본적인 알고리즘이 Smith-waterman 알고리즘과 유사하며 따라서 비슷한 단점을 가지고 있음을 지적한다. 그리고 이를 해결하기 위해 X-drop과 정규화 된 정수를 고려하는 두 가지 기법을 적용하고 실험을 통해 개선 효과를 보인다.

  • PDF

다중 지역 정렬을 위한 알고리즘 (An Algorithm for multiple local alignment)

  • 장석봉;이계성
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 추계학술발표논문집 (하)
    • /
    • pp.2337-2340
    • /
    • 2002
  • 본 연구는 생물정보학(Bioinformatics)의 가장 기초적인 분야중 하나인, 새롭게 밝혀진 유전자 서열과 이미 밝혀진 유전자 서열 사이의 유사성(similarity)이나 상동성(homology)을 찾기 위한 방법에 대한 연구 중 지역 서열정렬로 사용하는 알고리즘인 Smith-Waterman 알고리즘이 갖고 있는 문제를 파악한다. 긴 서열에 대한 선호를 막고 대신 부분적인 지역 정렬을 다수 개 찾아 정렬시키는 알고리즘을 제안하기로 한다.

  • PDF

정규화된 지역 정렬 알고리즘을 적용한 다중 지역 정렬 알고리즘 (An Algorithm for multiple local alignment with Normalized Local Alignment Algorithm)

  • 장석봉;이계성
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2003년도 춘계학술발표논문집 (중)
    • /
    • pp.1019-1022
    • /
    • 2003
  • 두 서열을 비교하여 유사성(similarity)이나 상동성(homology)를 찾기 위한 서열 정렬 방법 중에서 지역 정렬에 많이 사용되는 Smith-Waterman 알고리즘의 제한점인 Mosaic effect와 Shadow effect를 극복하기 위한 효율적인 방법을 살펴보고, 하나의 최대 값이 아닌 다수개의 최대 값을 찾아 다수개를 정렬함으로써 서열내에 존재 할 수 있는 다수개의 지역 정렬을 찾고 Normalized sequence alignment 알고리즘을 이용하여 서열 정렬된 결과들의 우선 순위를 매겨본다.

  • PDF