• 제목/요약/키워드: Sequence Search

검색결과 654건 처리시간 0.029초

직접대역확산 시스템에서 프리덤프 상관 에너지를 사용하는 PN코드 획득 기술 (PN Code Acquisition Technique using A Pre-Dump Correlation Energy in DS-SS Systems)

  • 염수남;이성주
    • 대한전자공학회논문지TC
    • /
    • 제48권6호
    • /
    • pp.22-27
    • /
    • 2011
  • 본 논문은 직접 대역 확산(Direct sequence spread spectrum : DS-SS) 시스템에서 적응형 임계값을 적용하여 초기 동기 성능을 향상 시키는 알고리즘을 제안한다. 제안된 알고리즘은 탐색 모드(search mode) 이전에 프리덤프 모드(pre-dump mode)를 추가하고, 상관 에너지를 이용해 탐색 모드와 확인 모드(verification mode)의 임계값을 결정한다. 이를 통해 확인 모드뿐만 아니라 탐색 모드에서까지 거부 성능(rejection performance)을 향상시킬 수 있다. 제안된 방법은 기존 기술과 비교할 때 하드웨어 증가 없이 평균 코드 획득 시간(mean code acquisition time)을 약 40% 단축시킬 수 있다.

Efficient Accessing and Searching in a Sequence of Numbers

  • Seo, Jungjoo;Han, Myoungji;Park, Kunsoo
    • Journal of Computing Science and Engineering
    • /
    • 제9권1호
    • /
    • pp.1-8
    • /
    • 2015
  • Accessing and searching in a sequence of numbers are fundamental operations in computing that are encountered in a wide range of applications. One of the applications of the problem is cryptanalytic time-memory tradeoff which is aimed at a one-way function. A rainbow table, which is a common method for the time-memory tradeoff, contains elements from an input domain of a hash function that are normally sorted integers. In this paper, we present a practical indexing method for a monotonically increasing static sequence of numbers where the access and search queries can be addressed efficiently in terms of both time and space complexity. For a sequence of n numbers from a universe $U=\{0,{\ldots},m-1\}$, our data structure requires n lg(m/n) + O(n) bits with constant average running time for both access and search queries. We also give an analysis of the time and space complexities of the data structure, supported by experiments with rainbow tables.

Sequence-to-Sequence 모델 기반으로 한 한국어 형태소 분석의 재순위화 모델 (A Reranking Model for Korean Morphological Analysis Based on Sequence-to-Sequence Model)

  • 최용석;이공주
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제7권4호
    • /
    • pp.121-128
    • /
    • 2018
  • Sequence-to-sequence(Seq2seq) 모델은 입력열과 출력열의 길이가 다를 경우에도 적용할 수 있는 모델로 한국어 형태소 분석에서 많이 사용되고 있다. 일반적으로 Seq2seq 모델을 이용한 한국어 형태소 분석에서는 원문을 음절 단위로 처리하고 형태소와 품사를 음절 단위로 출력한다. 음절 단위의 형태소 분석은 사전 미등록어 문제를 쉽게 처리할 수 있다는 장점이 있는 반면 형태소 단위의 사전 정보를 반영하지 못한다는 단점이 있다. 본 연구에서는 Seq2seq 모델의 후처리로 재순위화 모델을 추가하여 형태소 분석의 최종 성능을 향상시킬 수 있는 모델을 제안한다. Seq2seq 모델에 빔 서치를 적용하여 K개 형태소 분석 결과를 생성하고 이들 결과의 순위를 재조정하는 재순위화 모델을 적용한다. 재순위화 모델은 기존의 음절 단위 처리에서 반영하지 못했던 형태소 단위의 임베딩 정보와 n-gram 문맥 정보를 활용한다. 제안한 재순위화 모델은 기존 Seq2seq 모델에 비해 약 1.17%의 F1 점수가 향상되었다.

SSR-Primer Generator: A Tool for Finding Simple Sequence Repeats and Designing SSR-Primers

  • Hong, Chang-Pyo;Choi, Su-Ryun;Lim, Yong-Pyo
    • Genomics & Informatics
    • /
    • 제9권4호
    • /
    • pp.189-193
    • /
    • 2011
  • Simple sequence repeats (SSRs) are ubiquitous short tandem duplications found within eukaryotic genomes. Their length variability and abundance throughout the genome has led them to be widely used as molecular markers for crop-breeding programs, facilitating the use of marker-assisted selection as well as estimation of genetic population structure. Here, we report a software application, "SSR-Primer Generator " for SSR discovery, SSR-primer design, and homology-based search of in silico amplicons from a DNA sequence dataset. On submission of multiple FASTA-format DNA sequences, those analyses are batch processed in a Java runtime environment (JRE) platform, in a pipeline, and the resulting data are visualized in HTML tabular format. This application will be a useful tool for reducing the time and costs associated with the development and application of SSR markers.

생물정보시스템을 이용한 Local Animal BLAST Search System 구축 (Development of Local Animal BLAST Search System Using Bioinformatics Tools)

  • 김병우;이근우;김효선;노승희;이윤호;김시동;전진태;이지웅;조용민;정일정;이정규
    • Bioinformatics and Biosystems
    • /
    • 제1권2호
    • /
    • pp.99-102
    • /
    • 2006
  • BLAST(Basic Local Alignment Search Tool)는 서열 데이터베이스 탐색을 위하여 가장 많이 사용되는 프로그램이다. 전체 서열간의 최적 글로벌 정렬을 수행하는 대신에 지역적 유사성이 있는 부분을 찾아 서열 짝짓기를 수행하는 특징을 갖는다. 일반적인 연구자들은 서열 상동성 검색을 위해 NCBI에 접속하여 웹 브라우저를 통해 온라인으로 BLAST를 수행하게 되는데, 이 경우 사용자 각각의 네트워크 환경이나 입력할 데이터양에 따른 검색속도의 지연 및 제한 등과 같은 여러 문제에 부딪히게 되고, 또한 보안유지가 필요한 서열 데이터의 유출 가능성이 존재한다. 그러므로 대량의 서열 데이터에 대하여 빠르고 안전하게 BLAST 상동성 검색이 가능한 Local BLAST 검색 시스템의 필요성이 증대되고 있다. 본 연구에서는 NCBI의 Genbank에서 공개된 동물의 발현 유전자 단편들(ESTs)에 대한 데이터를 이용하여 소, 돼지, 닭, 등의 경제형질과 연관된 유용 유전자만을 추출하여 이들만으로 구성된 새로운 데이터베이스를 구축하였고, 또한 이들을 사용할 수 있는 새로운 검색시스템을 개발하였다 자체 제작한 Perl script를 사용하여 필요한 데이터를 축종별로 추출 하여 새로운 DB를 구축하였으며 이 속에는 소의 경우 650,046개, 돼지의 경우 368,120개, 닭의 경우 693,005개의 발현 유전자 단편들(ESTs)이 포함된다. 또한 이들 DB 분석이 가능한 Local Animal BLAST Web 검색시스템(http://bioinfo.kohost.net)을 고성능 병렬 PC Cluster 시스템과 연동하도록 자체 구축함으로써 본 시스템이 보다 효율적인 생물정보학 연구수행이 기여할 것으로 기대된다.

  • PDF

클러스터 환경에서의 MPI 기반 병렬 서열 유사성 검색에 관한 연구 (Study on MPI-based parallel sequence similarity search in the LINUX cluster)

  • 홍창범;차정호;이성훈;신승우;박근준;박근용
    • 한국컴퓨터정보학회논문지
    • /
    • 제11권6호
    • /
    • pp.69-78
    • /
    • 2006
  • 생물정보학 연구 있어서 아미노산이나 염기서열에 대한 유사성이나 상동성을 찾아내는 작업은 유전자의 기능에 대한 예측이나 단백질 구조를 예측하는 연구의 기반이 된다. 이러한 서열 데이터는 컴퓨터의 도입으로 매우 빠르게 증가하고 있다. 이러한 시점에서 서열에 대한 검색 속도는 매우 중요한 요소이기 때문에 대량의 서열정보를 다루기 위해서는 SMP(Sysmmetric Multi-Processors) 컴퓨터나 클러스터를 이용하고 있다. 본 논문에서는 서열 검색에 사용되는 BLAST(Basic Local Alignment Search Tool)의 속도향상을 위한 방법으로 클러스터 환경에서 병렬화 하는 nBLAST 알고리즘의 병렬화에 대해 제안한다. nBLAST는 기존의 BLAST 소스코드에 대한 수정 없이 병렬라이브러리인 MPI(Message Passing Interface)를 이용하여 질의를 분할하여 병렬화 하기 때문에 환경설정 등의 복잡한 과정을 거치지 않고 손쉽게 BLAST에 알고리즘에 대한 병렬화를 할 수 있다. 또한, 실험을 통하여 28대의 리눅스 클러스터에서 nBLAST를 수행하여 노드 수의 증가에 따른 성능 향상을 확인하였다.

  • PDF

DNA 시퀀스 데이타베이스를 위한 실용적인 유사 서브 시퀀스 검색 기법 (A Practical Approximate Sub-Sequence Search Method for DNA Sequence Databases)

  • 원정임;홍상균;윤지희;박상현;김상욱
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제34권2호
    • /
    • pp.119-132
    • /
    • 2007
  • 유사 서브 시퀀스 검색은 분자 생물학 분야에서 사용되는 매우 중요한 연산이다. 본 논문에서는 대규모 DNA 시퀀스 데이타베이스를 처리 대상으로 하여 효율성과 정확도를 보장하는 실용적인 유사 서브 시퀀스 검색 기법을 제안한다. 제안된 기법은 이진 트라이를 인덱스 구조로 채택하여 DNA 시퀀스로부터 추출한 일정 길이의 윈도우 서브 시퀀스를 인덱싱 대상으로 한다. 유사 서브 시퀀스 검색 알고리즘은 기본적으로 다이나믹 프로그래밍 기법에 근거하여 이진 트라이를 루트로부터 너비 우선(breadth-first)방식으로 운행하며, 경로 상에 존재하는 모든 유사 서브 시퀀스를 검색해 낸다. 그러나 질의 길이가 윈도우의 크기보다 큰 일반적인 경우에는 질의를 일정 길이의 서브 시퀀스로 분해하여 각 서브 시퀀스에 대하여 유사 서브 시퀀스 검색을 수행한 후, 후처리 과정에 의하여 정확도에 손상 없이 이들 결과를 결합하는 분할 질의 처리 방식을 채택한다. 제안된 기법의 우수성을 검증하기 위하여, 실험을 통한 성능 평가를 수행한다. 실험 결과에 의하면 제안된 인덱스 기법은 접미어 트리에 비하여 약 40%의 작은 저장 공간을 가지고도 약 4-17배의 검색 성능의 개선 효과를 나타낸다. 또한 분할 질의 처리 방식에 의한 유사 서브 시퀀스 검색 알고리즘은 질의 길이가 긴 경우에도 효율적으로 동작하여 Suffix와 Smith-Waterman 알고리즘에 비하여 각각 수배에서 수십배의 검색 성능의 개선 효과를 나타낸다.

시퀀스 유틸리티 리스트를 사용하여 높은 유틸리티 순차 패턴 탐사 기법 (Mining High Utility Sequential Patterns Using Sequence Utility Lists)

  • 박종수
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제7권2호
    • /
    • pp.51-62
    • /
    • 2018
  • 높은 유틸리티 순차 패턴 탐사는 데이터 마이닝에서 중요한 연구 주제로 간주되고 있다. 이 주제에 대해 몇 개의 알고리즘들이 제안되었지만, 그것들은 높은 유틸리티 순차 패턴 탐사의 탐색 공간이 커지는 문제에 부딪히게 된다. 한 시퀀스의 더 엄격한 유틸리티 상한 값은 탐색 공간에서 초기에 유망하지 않은 패턴들을 더 가지치기할 수 있다. 본 논문에서 새로운 유틸리티 상한 값을 제안하는데, 그것은 한 시퀀스와 그 자손 시퀀스들의 최대 예상 유틸리티인 sequence expected utility (SEU)이다. 높은 유틸리티 순차 패턴들을 탐사하는데 필수적인 정보를 유지하기 위해 각 패턴에 대한 시퀀스 유틸리티 리스트를 새로운 자료구조로 사용한다. SEU를 활용하여 높은 유틸리티 순차 패턴들을 찾아내는 알고리즘인 High Sequence Utility List-Span (HSUL-Span)을 제안한다. 서로 다른 영역의 합성 데이터세트와 실제 데이터세트에 대한 실험 결과는 HSUL-Span이 상당히 적은 수의 후보 패턴들을 생성하고 실행 시간 면에서 다른 알고리즘들보다 우수한 것을 보여준다.

이전 프레임의 움직임 정보와 탐색 구간별 예측 후보점을 이용하는 블록 정합 (A Block Matching using the Motion Information of Previous Frame and the Predictor Candidate Point on each Search Region)

  • 곽성근;위영철;김하진
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제10권3호
    • /
    • pp.273-281
    • /
    • 2004
  • 동영상의 현재 블록의 움직임 벡터와 이전 블록의 움직임 벡터는 시간적 상관성을 갖고 있다. 본 논문에서는 영상의 시간적인 특성과 움직임 벡터의 가운데 중심 분포 특성을 이용하는 예측 탐색 알고리즘을 제안한다. 제안된 알고리즘은 이전 프레임 블록으로부터 예측된 움직임 벡터와 분할된 탐색 구간에 속하는 후보 벡터 중에서 가장 작은 SAD 값을 갖는 점을 정확한 움직임 벡터를 찾기 위한 초기 탐색점 위치로 결정한다. 실험 결과 제안된 방식은 FS를 제외한 기존의 대표적인 고속 탐색 방식들에 비해 PSNR 값에 있어서 평균적으로 0.19∼0.46㏈ 개선되고 영상에 따라 최고 1.06㏈ 정도 우수한 결과를 나타내었다.

사용자 검색 질의 단어의 순서 및 단어간의 인접 관계에 기반한 검색 기법의 구현 (Implementation of Search Method based on Sequence and Adjacency Relationship of User Query)

  • 소병철;정진우
    • 한국지능시스템학회논문지
    • /
    • 제21권6호
    • /
    • pp.724-729
    • /
    • 2011
  • 정보 검색은 다수 자료에서 사용자가 원하는 부분을 찾는 과정을 의미한다. 일반적으로 대규모 자료 집합의 관리를 위해서는 데이터베이스가 사용되는데 인터넷과 같은 복잡한 문서구조들이 공존하는 환경에서는 한 번에 사용자가 원하는 문서를 정확히 찾아내는 것이 어렵기 때문에, 문서에 순위를 부여하여 사용자에게 제시하는 방법이 일반적으로 많이 사용된다. 본 논문에서는 자료에 포함되어 있는 단어들을 단순히 검색하는 것 뿐만 아니라 단어들 간의 순서 및 인접성을 고려한 검색방법을 용어빈도-역문헌빈도 및 n-gram 기법을 응용하여 구현하였다. 그 결과 19,000개 이상의 다수 문서 집합에서 73%의 정확율로 보다 정확한 검색이 가능하게 되었다.