최장공통비상위 문자열을 찾는 새로운 알고리즘

A New Algorithm for the Longest Common Non-superstring

  • 최시원 (인하대학교 컴퓨터정보공학부) ;
  • 이도경 (서울대학교 컴퓨터공학부) ;
  • 김동규 (한양대학교 전자통신컴퓨터공학부) ;
  • 나중채 (세종대학교 컴퓨터공학과) ;
  • 심정섭 (인하대학교 컴퓨터정보공학부)
  • 발행 : 2009.01.15

초록

문자열 불포함 문제에 대한 연구는 최근 들어 여러 분야에서 활발히 진행되어 왔다. 문자열 집합 F가 주어질 때, F 내의 어떤 문자열도 포함하지 않는 문자열을 F에 대한 공통비상위문자열이라 하고 공통비상위문자열 중에서 가장 긴 유한길이의 문자열을 최장공통비상위문자열이라한다. 본 논문에서는 공통비상위문자열과 관련된 연구 결과들을 제시한다. 먼저 기존의 공통비상위문자열에 대한 접미사 그래프 모델과 달리 접두사를 이용하여 직관적인 그래프 모델링이 가능함을 증명한다. 다음으로, 상수 크기의 알파벳에 대해 정의된 문자열 집합 F의 모든 문자열들의 길이의 합을 N라 할 때 O(N)시간에 접두사 그래프를 생성하고 이를 이용하여 최장공통비상위문자열을 찾는 알고리즘을 제시한다.

Recently, the string non-inclusion related problems have been studied vigorously. Given a set of strings F over a constant size alphabet, consider a string x such that x does not include any string in F as a substring. We call x a Common Non-SuperString(CNSS for short) of F. Among the CNSS's of F, the longest one with finite length is called the Longest Common Non-SuperString(LCNSS for short) of F. In this paper, we first propose a new graph model using prefixes of F. Next, we suggest an O(N)-time algorithm for finding the LCNSS of F, where N is the sum of the lengths of all the strings in F.

키워드

참고문헌

  1. J. Gallant, D. Maier, and J. Storer, On finding minimal length superstrings, Journal of computer and System Sciences, 20, 50-58, 1980 https://doi.org/10.1016/0022-0000(80)90004-5
  2. A. Blum, T. Jiang, M. Li, J. Tromp, and M. Yannakakis, Linear approximation of shortest superstrings, In Proceedings of the 23rd Annual ACM Symposium on Theory of Computing, 328-336, 1991 https://doi.org/10.1145/103418.103455
  3. D. S. Hirschberg, Algorithms for the Longest Common Subsequence Problem, Journal of the ACM, 24, 4, 664-675, 1977 https://doi.org/10.1145/322033.322044
  4. V. G. Timkovsky, Complexity of common subse-quence and supersequence problems and related problems, Cybernetics and Systems Analysis 25, 5, 565-580, 1990 https://doi.org/10.1007/BF01075212
  5. A. H. Rubinov, and V. G. Timkovsky, String noninclusion optimization problems, SIAM Journal on Discrete Mathematics 11, 3, 456-467, 1998 https://doi.org/10.1137/S0895480192234277
  6. T. Jiang, and V. G. Timkovsky, Shortest consistent superstrings computable in polynomial time, Theo-retical Computer Science 143, 1, 113-122, 1995 https://doi.org/10.1016/0304-3975(95)80013-1
  7. M. R. Garey, and D. S. Johnson, Computers and Intractability, Freeman, 1979
  8. P. A. Pevzner, and R. J. Lipshutz, Towards DNA Sequencing Chips, Proceedings of the 19th International Symposium on Mathematical Foundations of Computer Science 1994, August 22-26, 143-158, 1994
  9. T. Jiang, and M. Li, DNA Sequencing and String Learning, Mathematical Systems Theory 29, 4, 387-405, 1996 https://doi.org/10.1007/BF01192694
  10. M. Li. Towards a DNA sequencing theory. 31st IEEE Symposium on Foundations of Computer Science, 125-134, 1990 https://doi.org/10.1109/FSCS.1990.89531