• 제목/요약/키워드: String algorithms

검색결과 105건 처리시간 0.025초

접미사 배열을 이용한 Suffix-Prefix가 일치하는 모든 쌍 찾기 (Finding All-Pairs Suffix-Prefix Matching Using Suffix Array)

  • 한선미;우진운
    • 정보처리학회논문지A
    • /
    • 제17A권5호
    • /
    • pp.221-228
    • /
    • 2010
  • 최근 문자열 연산들이 계산 생물학 및 인터넷의 보안, 검색 분야에 응용되면서 효율적인 문자열 연산을 위한 다양한 자료구조와 알고리즘이 연구되고 있다. suffix-prefix가 일치하는 모든 쌍 찾기는 두 개 이상의 문자열이 주어질 때 각 쌍의 문자열에 대해 가장 긴 suffix와 일치하는 prefix를 찾는 것으로 가장 짧은 슈퍼스트링을 검출하는 근사 알고리즘에서 사용될 뿐만 아니라 생물정보학, 데이터 압축 분야에서도 중요하게 사용된다. 본 논문에서는 접미사 배열을 이용하는 suffix-prefix가 일치하는 모든 쌍 찾기 알고리즘을 제안하며 O($k{\cdot}m$) 시간 복잡도를 가진다. 접미사 배열 알고리즘이 접미사 트리 알고리즘 보다 소요 시간과 메모리 면에서 더 우수함을 실험을 통해서 제시한다.

DNA 서열을 위한 빠른 매칭 기법 (Fast Matching Method for DNA Sequences)

  • 김진욱;김은상;안융기;박근수
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제36권4호
    • /
    • pp.231-238
    • /
    • 2009
  • DNA 서열은 각 종을 나타내는 근본적인 정보이며, 다른 종 간의 DNA 서열 비교는 중요한 작업이다. DNA 서열은 길이가 매우 길며 또 종의 종류도 다양하기 때문에, DNA 서열 비교에서는 빠른 매칭 뿐만 아니라 효율적인 저장도 중요한 요소이다. 즉, 인코딩 된 DNA 서열에 적합한 빠른 문자열 매칭 방법이 필요하다. 본 논문에서는 매칭 시 디코딩이 필요하지 않은 인코딩 된 DNA 서열을 위한 빠른 매칭 알고리즘을 제시한다. 제시하는 알고리즘은 네 문자 한 바이트 인코딩을 이용하며 서픽스 기법과 다중 패턴 매칭 기법을 접목하고 있다. 실험 결과로는 본 논문에서 제시하는 방법이 AGREP보다 약 다섯배 빠름을 보이는데, 이는 알려진 알고리즘들 중에서 가장 빠른 결과이다.

Segmentation Algorithm for Wafer ID using Active Multiple Templates Model

  • Ahn, In-Mo;Kang, Dong-Joong;Chung, Yoon-Tack
    • 제어로봇시스템학회:학술대회논문집
    • /
    • 제어로봇시스템학회 2003년도 ICCAS
    • /
    • pp.839-844
    • /
    • 2003
  • This paper presents a method to segment wafer ID marks on poor quality images under uncontrolled lighting conditions of the semiconductor process. The active multiple templates matching method is suggested to search ID areas on wafers and segment them into meaningful regions and it would have been impossible to recognize characters using general OCR algorithms. This active template model is designed by applying a snake model that is used for active contour tracking. Active multiple template model searches character areas and segments them into single characters optimally, tracking each character that can vary in a flexible manner according to string configurations. Applying active multiple templates, the optimization of the snake energy is done using Greedy algorithm, to maximize its efficiency by automatically controlling each template gap. These vary according to the configuration of character string. Experimental results using wafer images from real FA environment are presented.

  • PDF

Nearest L- Neighbor Method with De-crossing in Vehicle Routing Problem

  • Kim, Hwan-Seong;Tran-Ngoc, Hoang-Son
    • 한국항해항만학회지
    • /
    • 제33권2호
    • /
    • pp.143-151
    • /
    • 2009
  • The field of vehicle routing is currently growing rapidly because of many actual applications in truckload and less than truckload trucking, courier services, door to door services, and many other problems that generally hinder the optimization of transportation costs in a logistics network. The rapidly increasing number of customers in such a network has caused problems such as difficulty in cost optimization in terms of getting a global optimum solution in an acceptable time. Fast algorithms are needed to find sufficient solutions in a limited time that can be used for real time scheduling. In this paper, the nearest L-method (NLNM) is proposed to obtain a vehicle routing solution. String neighbors of different lengths were chosen, tested and compared. The applied de crossing procedure is meant to solve the routes by NLNM by giving a better solution and shorter computation time than that of NLNM with long string neighbors.

환형문자열에 대한 대표문자열을 찾는 병렬 알고리즘 (Parallel Algorithms for Finding Consensus of Circular Strings)

  • 김동희;심정섭
    • 정보과학회 논문지
    • /
    • 제42권3호
    • /
    • pp.289-294
    • /
    • 2015
  • 대표문자열 문제는 k개의 문자열로 구성된 집합 S가 주어졌을 때 S를 대표하는 한 문자열인 대표문자열을 찾는 문제이다. 환형문자열은 일반적인 문자열과는 달리 문자열의 첫 글자와 마지막 글자가 연결되어 원 모양을 이루는 문자열이다. 본 논문에서는 먼저 k=3이고 길이 n인 환형문자열들로 구성된 S에 대해, 거리반경과 거리합을 동시에 고려한 대표문자열 문제를 O(n)개의 쓰레드를 사용하여 $O({\mid}{\Sigma}{\mid}nlogn)$ 시간에 병렬적으로 해결하는 알고리즘을 제시한다. 이때, ${\Sigma}$는 각 문자열을 구성하는 문자집합이다. 다음으로 k=4이고 길이 n인 환형문자열들로 구성된 S에 대해 거리합 기반 대표문자열 문제를 O(n)개의 쓰레드를 사용하여 $O({\mid}{\Sigma}{\mid}n^2logn)$ 시간에 병렬적으로 해결하는 알고리즘을 제시한다. 이후 두 문제에 대한 병렬 알고리즘들을 CUDA를 이용하여 구현하고 순차 알고리즘들과의 실행 속도를 비교한 결과를 제시한다.

유전자 알고리즘에서 선택 기법을 이용한 해의 수렴 과정에 관한 연구 (A Study on the Convergence of Optimal Value using Selection Method in Genetic Algorithms)

  • 김용범;김병재;박명규
    • 산업경영시스템학회지
    • /
    • 제20권42호
    • /
    • pp.171-179
    • /
    • 1997
  • Genetic Algorithms face an inherent conflict between exploitation and exploration. Exploitation refers to taking advantage of information already obtained in the search. Exploration show that a pattern in bits coupled with another pattern elsewhere in the string is more effective. In this paper shows that the selection method has a major impact on the balance between exploitation and exploration. A more heavy-handed approach seeks to exploit the available information. If decisions must be made quickly, especially those in real-time trading environments, then quicker convergence through exploitation may be more desirable. Also this paper we present some theoretical and empirical the selection method in genetic algorithms for a GA-hard problem.

  • PDF

A Novel Cryptosystem Based on Steganography and Automata Technique for Searchable Encryption

  • Truong, Nguyen Huy
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제14권5호
    • /
    • pp.2258-2274
    • /
    • 2020
  • In this paper we first propose a new cryptosystem based on our data hiding scheme (2,9,8) introduced in 2019 with high security, where encrypting and hiding are done at once, the ciphertext does not depend on the input image size as existing hybrid techniques of cryptography and steganography. We then exploit our automata approach presented in 2019 to design two algorithms for exact and approximate pattern matching on secret data encrypted by our cryptosystem. Theoretical analyses remark that these algorithms both have O(n) time complexity in the worst case, where for the approximate algorithm, we assume that it uses ⌈(1-ε)m)⌉ processors, where ε, m and n are the error of our string similarity measure and lengths of the pattern and secret data, respectively. In searchable encryption, our cryptosystem is used by users and our pattern matching algorithms are performed by cloud providers.

순서를 고려하는 k-키워드 근접도 문제를 위한 빠른 알고리즘 (A Fast Algorithm for the k-Keyword Ordered Proximity Problem)

  • 김진욱
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권3호
    • /
    • pp.281-288
    • /
    • 2010
  • 웹 검색 엔진들은 질의에 대한 문서의 적합성을 판단하기 위한 방법의 하나로 근접도를 사용한다. 근접도는 키워드의 순서를 고려하지 않는 방식과 순서를 고려하는 방식이 모두 연구되어왔다. 본 논문에서는 k개 키워드의 순서를 모두 고려하는 근접도 문제를 위한 O(n) 시간 알고리즘을 제시한다. 이때, n은 k개의 키워드가 문서에 나타난 전체 횟수이다. 또한 실험을 통해 이전 연구 결과보다 k=2인 경우는 약 1.2배의 속도 향상을, k=5인 경우는 3배 이상의 속도 향상이 있음을 보인다.

극대 증가 부분서열을 찾는 선형 알고리즘 (Linear-time algorithms for computing a maximal increasing subsequence)

  • 나중채
    • 스마트미디어저널
    • /
    • 제12권6호
    • /
    • pp.9-14
    • /
    • 2023
  • 최장 증가 부분서열(longest increasing subsequence)은 컴퓨터 과학 분야에서 오랫동안 연구되어온 주요 문제이다. 본 논문에서는 최장 조건을 극대로 완화한 극대 증가 부분서열(maximal increasing subsequence) 문제를 고려한다. 본 논문에서는 두 가지 버전의 증가 개념(단조증가, 순증가)에 대해, 알파벳 Σ 에 대한 서열의 극대 증가 부분서열을 구하는 선형시간 알고리즘을 제안한다. 극대 단조증가 부분서열을 구하는 알고리즘은 O(1) 공간을 사용하고, 극대 순증가 부분서열을 구하는 알고리즘은 O(|Σ|) 공간을 사용한다.

연산자 LIKE의 새로운 한글 탐색 패턴 (A New Korean Search Pattern of the Operator LIKE)

  • 박성철;노은향;박영철;박종철
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제34권3호
    • /
    • pp.244-260
    • /
    • 2007
  • 데이타베이스 언어인 SQL의 연산자 LIKE는 문자열을 탐색하기 위한 연산자로서 문자열 양식을 설정함으로써 그에 부합하는 칼럼값들을 식별할 수 있게 한다. 표음문자인 한글의 각 음절은 초성과 중성으로 구성되거나 초성, 중성, 그리고 종성으로 구성된다. 본 논문은 연산자 LIKE의 한글 음절의 탐색 양식으로서 한글 음절로 표현되는 기존 양식에 추가하여 한글의 초성과 중성에 기반한 새로운 양식을 제안한다. 제안하는 한글 탐색 양식은 특정 초성을 가지는 한글 음절들, 특정 중성을 가지는 한글 음절들, 또는 특정 초성과 중성을 가지는 한글 음절들을 탐색할 수 있게 한다. 제안하는 한글 탐색 양식을 SQL의 기존 연산자들로 표현하는 것은 실질적으로 많은 불편을 수반하며 DBMS의 문자 집합에 따라 응용 프로그램의 호환성 문제를 초래할 수 있다. 본 논문은 제안하는 한글 탐색 양식을 고려한 연산자 LIKE의 수행 알고리즘을 한글과 한자에 대한 정보 교환용 부호계의 국가 표준인 KS X 1001로 표현된 문자들을 기반으로 제시한다.