• Title/Summary/Keyword: 정렬 문제

Search Result 295, Processing Time 0.025 seconds

An effcient algorithm for multiple sequence alignment (복수 염기서열 정렬을 위한 한 유용성 알고리즘)

  • Kim, Jin;Song, Min-Dong
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1998.10c
    • /
    • pp.51-53
    • /
    • 1998
  • 3개 이상의 DNA 혹은 단백질의 염기서열을 정렬하는 복수 염기서열 정렬(multiple sequence alignment)방법은 염기서열들 사이의 진화관계, gene regulation, 단백질의 구조와 기능에 관한 연구에 필수적인 도구이다. 복수 염기서열 정렬문제는 NP-complete 문제군에 속하며, 이 문제를 해결하기 위하여 가장 유용하게 사용되는 알고리즘으로는 dynamic programming이 있다. Dynamic programming은 주어진 입력 염기서열 군들에 대한 최적의 정렬을 생산할 수 있다. 그러나 dynamic programming의 단점은 오랜 실행시간이 요구되며, 때로는 dynamic programming의 속성 때문에 이 알고리즘을 사용하여도 주어진 입력 염기서열 군들에 대한 최적의 정렬을 얻어내지 못하는 경우가 있다. 본 연구에서는 이러한 dynamic programming의 문제를 해결하기 위하여 genetic algorithm을 복수 염기서열 정렬문제에 적용하였다. 본 논문에서는 genetic algorithm의 design과 적용방법을 기술하였다. 본 연구에서 제안된 genetic algorithm을 사용하여 dynamic programming의 단점이었던 오랜 실행시간을 줄일 수 있었으며, dynamic programming이 제공하지 못하는 최적의 염기서열 정렬을 제공할 수 있었다.

  • PDF

Flexible Pattern Alignment Problem (연성 패턴 정렬 문제)

  • 서진택;김삼묘
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1999.10a
    • /
    • pp.655-657
    • /
    • 1999
  • 본 논문에서는 1차원 스트링과 2차원 텍스트를 유동적으로 정렬하는 소위 1-2차 연성 정렬 문제를 정의하고, 이 문제를 위한 동적 알고리즘을 제시하고, 응용 예를 보인다. 문제의 패턴은 그 길이가 주어져 있지만 그 형체가 유연성을 갖고 있어 변형될 수 있다는 점이 지금까지 연구되어온 패턴 매칭 문제와 다르다.

  • PDF

Source code Plagiarism Detection with Recursive Local Alignments (재귀적 지역정렬을 이용한 프로그램 표절 탐색)

  • 전명재;이평준;조환규
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04a
    • /
    • pp.946-948
    • /
    • 2004
  • 지역정렬(local alignment)과 전체정렬(global alignment)로 대표되는 정렬 문제는 전산학 분야의 전형적인 문제로, 두 서열의 전체적인 또는 부문적인 유사성(similarity)을 찾아 주기 위한 방법이다. 특히 정렬은 두 문자열에서 유사하게 나타나는 유사 서브스트링을 찾아내는 문제라든가 근래의 생물정보학에서 두 DNA시퀀스간의 유사도를 판별하는 문제 등에서 매우 중요란 기법이다. 본 논문에서는 두 서열들을 유사하게 매칭 시켜 주는 기존의 정렬 방법을 응용, 변형하여 C, C++. JAVA등으로 짜여진 프로그램 소스들의 유사도를 측정하는 방법을 제시하였다. 실제로 이런 프로그램 소스의 표절은 대학교육 수업과정 등에서 빈번하게 발생되는 문제점으로서 본 논문에서는 프로그램 소스표절을 검사, 탐지할 수 있는 방법론 및 구체적인 프로그램과 그 결과를 제시하고 있다. 아울러 두 프로그램간의 유사성을 비교하기 위해 기존의 지역정렬 방법을 보다 효율적으로 적절히 변형시키는 방법을 제시하고 있다.

  • PDF

Speed Improvement of Sentence Aligner for Parallel Text (병렬 코퍼스 구축을 위한 문장 자동 정렬 프로그램의 속도 개선)

  • Jeong, Seon-Yi;Lee, Kong Joo
    • Annual Conference on Human and Language Technology
    • /
    • 2012.10a
    • /
    • pp.163-168
    • /
    • 2012
  • 문서 또는 문장 단위의 정렬이 통계적 기계 번역에 활발히 이용되고 있다. 문장 정렬은 통계 기반의 기계 번역에서 가장 중요한 작업으로 정렬의 정확도와 속도는 기계 번역 시스템의 성능을 좌우할 수 있다. 문장 정렬을 수행 할 때 대용량의 문서입력이 있을 경우 처리 속도가 상당히 늦어지는 문제를 지적하고 그 문제를 해결하는 두 가지 방법을 제안한다. 문서의 구조적 특성을 이용하여 문서의 경계정보를 추출하거나 또는 단어 출현 빈도의 따른 경계 추출방법을 이용하여 문제를 해결한다. 상기의 방법이 정렬 속도 저하 개선에 비교적 효과가 있고 그에 따른 성능 저하가 없음을 실험을 통하여 확인하였다.

  • PDF

Sorting $\kappa^-mer$ Table in DNA Fragment Assembly (DNA Fragment Assembly에서$\kappa^-$글자 테이블의 정렬)

  • 홍순철;박근수
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10c
    • /
    • pp.733-735
    • /
    • 2002
  • DNA fragment assembly 프로그램인 Phrap에서는 exact match를 찾기 위해 정렬된 k-글자 테이블 자료구조를 사용한다. 이것은 접미사 배열의 간단한 형태로서, DNA fragment assembly와 같은 응용에서는 접미사 배열보다 더 유용한 자료구조이다. 본 논문에서는 k-글자 테이블을 정렬하는 Manber-Myers, Quicksort, Radix sort 알고리즘을 살펴보고, 실험을 통해 그 중에서 가장 뛰어난 성능을 가지는 것이 Quicksort 알고리즘임을 보였다 또한 k-글자 테이블의 정렬 문제에 있어서는, 캐쉬-메모리 아키텍쳐에 최적화되어 계산복잡도 속에 숨어있는 상수를 최소화하는 것이 중요한 문제임을 밝힌다.

  • PDF

A Parallel Algorithm for merging in the Postal Model (우편 모델 상에서 병렬 합병 알고리즘)

  • 이인규;이동규;유관우
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1998.10b
    • /
    • pp.661-663
    • /
    • 1998
  • 합병 문제는 크기가 각각 l, m(l+m=n)인 두 개의 정렬된 리스트를 하나의 정렬된 리스트로 만드는 문제로 정렬 문제와 그래프 문제 등과 같은 여러 가지 문제를 해결하는데 필요한 중요한 문제이다. p($\theta${{{{ LEFT ( {λlogp} over {log(λ+1)} RIGHT ) }}}}).

Seed기반의 short read aligner 구현에 관한 연구

  • Ji, Mingeun;Kim, Jeongkyu;Yi, Gangman
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2019.10a
    • /
    • pp.1107-1109
    • /
    • 2019
  • 차세대 게놈 시퀀싱(NGS) 기술이 발전하면서 방대하게 축적된 유전체 데이터를 분석하기 위해 다양한 시퀀스 정렬 연구가 진행되고 있다. 시퀀스 정렬 중 잘 알려진 BLAST에서는 휴리스틱 기반의 시퀀스 정렬을 수행하여 긴 리드 시퀀스에 대해 속도와 안정성이 보장되지만 짧은 리드 시퀀스에 대해서는 성능이 저하되는 문제가 있다. 이 문제를 해결하기 위해 본 논문에서는 레퍼런스 시퀀스와 쿼리 시퀀스를 Seed 기반으로 분리하여 정렬을 수행한다. 최종적으로는 contig를 추출하고 레퍼런스-쿼리간 유효한 contig만 선별하여 빠르게 짧은 리드 시퀀스들의 정렬을 수행할 수 있는 정렬기를 구현하고자 한다.

A Study on Algorithm Learning Support System for the Information-Gifted in Elementary Schools (초등학교 정보영재를 위한 알고리즘 학습 지원 시스템 연구)

  • Lee, Kil-Bok;Jun, Woo-Chun
    • 한국정보교육학회:학술대회논문집
    • /
    • 2004.01a
    • /
    • pp.296-303
    • /
    • 2004
  • 급속도로 변화하는 정보화 시대에 영재를 조기에 발굴하여 교육하는 것은 매우 중요한 일이다. 이에 부응하여 영재교육에 대한 관심이 커지고 있으며 특히 초등학교 정보 영재에 대한 교육의 필요성도 커지고 있다. 특히 자기 주도적 학습 능력과 문제해결력은 정보영재의 특징으로 매우 중요하다. 또한 문제해결력 교육에 있어 알고리즘 교육은 매우 중요한 부분을 차지하고 있다. 정렬 알고리즘은 자료처리에서 사용빈도가 높고 종류가 다양하며 초등 정보 영재 알고리즘 교육에서 다양한 문제 해결력을 길러 줄 수가 있다. 본 논문은 초등학교 정보 영재를 위한 알고리즘 학습 지원 시스템에 관한 연구이며, 특히 정렬 알고리즘을 중심으로 학습 지원 시스템을 설계하고 구현하고자 하였다. 본 시스템은 첫째, 정렬 알고리즘 학습을 영재의 특성에 맞게 자기 주도적으로 학습하는데 도움을 준다. 둘째, 정렬알고리즘의 개념형성을 위해 알고리즘의 종류별로 그 과정을 보여준다. 셋째, 형성평가를 통해 개념형성을 확인하고 적용하였다.

  • PDF

Korean-English Non-Autoregressive Neural Machine Translation using Word Alignment (단어 정렬을 이용한 한국어-영어 비자기회귀 신경망 기계 번역)

  • Jung, Young-Jun;Lee, Chang-Ki
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.629-632
    • /
    • 2021
  • 기계 번역(machine translation)은 자연 언어로 된 텍스트를 다른 언어로 자동 번역 하는 기술로, 최근에는 주로 신경망 기계 번역(Neural Machine Translation) 모델에 대한 연구가 진행되었다. 신경망 기계 번역은 일반적으로 자기회귀(autoregressive) 모델을 이용하며 기계 번역에서 좋은 성능을 보이지만, 병렬화할 수 없어 디코딩 속도가 느린 문제가 있다. 비자기회귀(non-autoregressive) 모델은 단어를 독립적으로 생성하며 병렬 계산이 가능해 자기회귀 모델에 비해 디코딩 속도가 상당히 빠른 장점이 있지만, 멀티모달리티(multimodality) 문제가 발생할 수 있다. 본 논문에서는 단어 정렬(word alignment)을 이용한 비자기회귀 신경망 기계 번역 모델을 제안하고, 제안한 모델을 한국어-영어 기계 번역에 적용하여 단어 정렬 정보가 어순이 다른 언어 간의 번역 성능 개선과 멀티모달리티 문제를 완화하는 데 도움이 됨을 보인다.

  • PDF

Construction of Linearly Aliened Corpus Using Unsupervised Learning (자율 학습을 이용한 선형 정렬 말뭉치 구축)

  • Lee, Kong-Joo;Kim, Jae-Hoon
    • The KIPS Transactions:PartB
    • /
    • v.11B no.3
    • /
    • pp.387-394
    • /
    • 2004
  • In this paper, we propose a modified unsupervised linear alignment algorithm for building an aligned corpus. The original algorithm inserts null characters into both of two aligned strings (source string and target string), because the two strings are different from each other in length. This can cause some difficulties like the search space explosion for applications using the aligned corpus with null characters and no possibility of applying to several machine learning algorithms. To alleviate these difficulties, we modify the algorithm not to contain null characters in the aligned source strings. We have shown the usability of our approach by applying it to different areas such as Korean-English back-trans literation, English grapheme-phoneme conversion, and Korean morphological analysis.