An Effective Algorithm for Checking Subsumption Relation on String Data Containing Wildcard Characters

와일드카드 문자를 포함하는 스트링 데이터 사이의 포함관계 확인을 위한 효율적인 알고리즘

  • 김도한 (서울시립대학교 기계정보공학과) ;
  • 박희진 (한양대학교 정보통신대학) ;
  • 백은옥 (서울시립대학교 기계정보공학과)
  • Published : 2005.10.01

Abstract

String data containing wildcard characters may represent certain patterns in texts. A subsumption relation between two patterns can be defined by a subset relation between sets of strings that match those patterns. Thus, the subsumption relation check is important to determine whether each pattern represents a set of strings without any overlap with another pattern. In this paper, we propose an effective algorithm that can determine subsumption relation between strings with wildcard characters. First, we consider a simple extension of the suffix tree algorithm so that it nay include wildcard characters and then we propose another method that checks the subsumption relation by dividing a suffix tree structure at each location of string data.

와일드카드 문자를 포함하는 스트링 데이타는 텍스트에 나타나는 특정 패턴을 표현하는 데에 사용될 수 있다. 임의의 두 패턴 사이의 포함 관계는 각 패턴과 매칭이 가능한 모든 스트링의 집합 사이의 포함관계로 나타낼 수 있으며, 포함 관계를 결정하는 것은 패턴이 나타내는 스트링의 집합을 중복성없이 표현하기 위해 필요하다. 본 논문에서는 이와 같이 패턴의 중복성을 판단하기 위해 와일드카드 문자를 포함하는 스트링 데이타 사이의 포함 관계를 결정하기 위한 효율적인 알고리즘을 제안한다. 먼저 기존의 접미사 트리 알고리즘을 단순하게 확장하여 와일드카드 문자를 포함하는 스트링 데이타 사이의 포함 관계를 확인할 수 있도록 하는 방법과 이러한 접미사 트리를 스트링 데이타의 각 위치 별로 나누어 구성하여 포함 관계를 확인하는 방법을 제안한다.

Keywords

References

  1. I. Horrocks and P. F. Patel-Schneider, Optimising description logic subsumption, Journal of Logic and Computation, 9(3), 267-293, 1999 https://doi.org/10.1093/logcom/9.3.267
  2. G. M. Kuper and J. Simeon, Subsumption for XML types, Proc. Of International Conference on Database Theory, London, 2001
  3. C. Chang and R. Lee, Symbolic logic and mechanical theorem proving, Academic Press, 1973
  4. C. Sigrist, L. Cerutti, N. Hulo, A. Gattiker, L. Falquet, M. Pagni, A. Bairoch, and P. Bucher, PROSITE: A documented database using patterns and profiles as motif descriptors, Brief Bioinformatics, Vol. 3 no. 3, 265-274, 2002 https://doi.org/10.1093/bib/3.3.265
  5. Inge Jonassen, Efficient discovery of conserved patterns using a pattern graph, CABIOS, 13, 509-522, 1997
  6. Andrea Califano, SPLASH: structural pattern localization analysis by sequential histograms, Bioinformatics, Vol. 16 no. 4, 341-357, 2000 https://doi.org/10.1093/bioinformatics/16.4.341
  7. E. M. McCreight, 'A space-economical suffix tree construction algorithms,' J. ACM 23, pp. 262-272, 1976 https://doi.org/10.1145/321941.321946
  8. P. Weiner, Linear pattern matching algorithms, Proc. 14th IEEE Symp. Switching and Automata Theory, 1-11, 1973
  9. M.T. Chen and J. Seiferas, Efficient and elegant subword tree construction, In A. Apostolico and Z. Galil, editors, Combinatorial Algorithms on Words, NATO ASI Series F: Computer and System Sciences, 97-107, 1985
  10. M. Farach, Optimal suffix tree construction with large alphabets, FOCS, 137-143, 1997 https://doi.org/10.1109/SFCS.1997.646102
  11. M. Farach-Colton, P. Ferragina and S. Muthukrishnan, On the sorting-complexity of suffix tree construction, JACM 47, 987-1011, 2000 https://doi.org/10.1145/355541.355547
  12. S. Kurtz, Reducing the space requirement of suffix trees, Software Practice and Experience, 29, 1149-1171, 1999 https://doi.org/10.1002/(SICI)1097-024X(199911)29:13<1149::AID-SPE274>3.0.CO;2-O
  13. E. Ukkonen, 'On-line construction of suffix trees,' Algorithmica 14, pp. 353-364, 1993 https://doi.org/10.1007/BF01206331
  14. Dan Gusfield, Algorithms on Strings, Trees and Sequences, Cambridge University Press, 1997