An Index Structure for Substructure Searching In Chemical Databases

화학 데이타베이스에서 부분구조 검색을 위한 인덱스 구조

  • 이환구 (한양대학교 소프트웨어공학) ;
  • 차재혁 (한양대학교 정보통신학부)
  • Published : 2004.12.01

Abstract

The relationship between chemical structures and biological activities is researched briskly in the area of 'Medicinal Chemistry' At the base of these structure-based drug design tries, medicinal chemists search the existing drugs of similar chemical structure to target drug for the development of a new drug. Therefore, it is such necessary that an automatic system selects drug files that have a set of chemical moieties matching a user-defined query moiety. Substructure searching is the process of identifying a set of chemical moieties that match a specific query moiety. Testing for substructure searching was developed in the late 1950s. In graph theoretical terms, this problem corresponds to determining which graphs in a set are subgraph isomorphic to a specified query moiety. Testing for subgraph isomorphism has been proved, in the general case, to be an NP- complete problem. For the purpose of overcoming this difficulty, there were computational approaches. On the 1990s, a US patent has been granted on an atom-centered indexing scheme, used by the RS3 system; this has the virtue that the indexes generated can be searched by direct text comparison. This system is commercially used(http://www.acelrys.com/rs3). We define the RS3 system's drawback and present a new indexing scheme. The RS3 system treats substructure searching with substring matching by means of expressing chemical structure aspredefined strings. However, it has insufficient 'rerall' and 'precision‘ because it is impossible to index structures uniquely for same atom and same bond. To resolve this problem, we make the minimum-cost- spanning tree for one centered atom and describe a structure with paths per levels. Expressing 2D chemical structure into 1D a string has limit. Therefore, we break 2D chemical structure into 1D structure fragments. We present in this paper a new index technique to improve recall and precision surprisingly.

약물의 화학적 구조와 그 약물의 약리작용간의 연관성은, 'Medicinal Chemistry' 분야에서 활발히 연구된다. 이는 화학구조를 기반으로 하여 신약을 설계하려는 시도로서, 약학자는 신약 개발 시 만들고자 하는 약물과 비슷한 화학구조를 가지고 있는 기존 약물들에는 어떠한 것들이 있는지 조사하며, 특정 화학구조가 어떤 약물들에서 나타나는지 신속히 검색하기를 원한다. 이처럼 어떤 화차구조에서, 특정한 부분구조가 존재하는지를 검사하는 것을 부분구조검색(Substructure Searching)이라 하며, 이는 그래프 이론에서 NP-complete인 동형성 판정(Subgraph Isomorphism) 문제로 귀결된다. 검색 시간을 단축시키고자 여러 다른 전근방법들이 연구되었는데, 1990년대에는 구조에 대한 인덱스를 미리 만들어 RDBMS에 저장한 후, 검색시 이론 이용하여 성능을 높이는 방법으로 미국 특허를 획득한 RS3 시스템(http://www.acelrys.com/rs3)이 현재 상용화되어 쓰이고 있다. 본 논문에서는 RS3 시스템의 문제점을 규명하고, 이의 개선방안으로서 새로운 인덱스를 제안한다 RS3 시스템은 각 원자를 중심으로 다른 원자와의 구조를 문자연로 표현하고, 부분구조검색 쿼리를 부분문자열 검색을 실행함으로써 수행하는데, 이의 화학구조를 기술하는 인덱스에는 동일 원자, 동릴 결합에 대한 정렬이 불가능하여 재현율(Recall)과 정도(Precision)가 낮다. 이론 개선하기 위하여 본 논문에서는 2차원의 화학구조를 나누어 1차원의 구조 단편으로 만들고 이를 문자열로 기술하는 방안을 제시하며 구체적인 방법으로 한 인자를 중심으로 최소비용신장트리를 구성한 다음 레벨별로 경로를 나누어 기술하는 방안을 제안하며, 이와 같은 방법의 새로운 인덱스로 재현율과 정도가 급격히 향상됨을 보인다.

Keywords

References

  1. Alfred Burger, A Guide to the Chemical Basis of Drug Design, John Wiley & Sons Inc., July 1983
  2. R. C. Read and D. G. Corneil, 'The graph isomorphism disease,' J. Graph Theory, 1, 339-363, 1977 https://doi.org/10.1002/jgt.3190010410
  3. P. G. Dittmar, N. A. Farmer, W. Fisanik, R. C. Haines, J. Mockus, 'The CAS ONLINE Search system 1. General system design and selection, generation, and use of search screens,' Journal of Chemical Information and Computer Sciences, vol.23, no.3, pp.93-102, 1983 https://doi.org/10.1021/ci00039a002
  4. Daylight, http://www.daylight.com, Daylight Chemical Information Systems, Inc., 27401 Los Altos, Suite 370, Mission Viejo, CA 92691, USA.
  5. G. A. Hopkinson, 'The Accord Component Software Approach,' J. Chem. Inf. Comput. Sci., 37, 143-145, 1997 https://doi.org/10.1021/ci960083w
  6. L. C. Ray and R. A. Kirsch, 'Finding chemical records by digital computers,' Science, 126, 814-819, 1957 https://doi.org/10.1126/science.126.3278.814
  7. J. R. Ullmann, 'An algorithm for subgraph isomorphism,' Journal of ACM, vol. 23, 31-42, 1976 https://doi.org/10.1145/321921.321925
  8. M. F. Lynch, 'R&D in chemical information science : Retrospect and prospect,' Chemical Structures : The international language of chemistry, W. A. Warr ed., pp. 1-10, Springer-Verlag, 1988
  9. W. Graf, H. K. Kaindl, H. Kniess, and R. Warszawski, 'The third BASIC fragment search dictionary,' J. Chem. Inf. Comput. Sci., 22, 177-181, 1982 https://doi.org/10.1021/ci00036a001
  10. A. P. Johnson and A. P. Cook, 'Automatic keyword generation for reaction searching,' 'Modern Approaches to Chemical Reaction Searching,' ed. P. Willett, Gower, Aldershot, pp. 184-193, 1985
  11. R. J. Feldmann, G. W. A. Milne, S. R. Heller, A. Fein, J. A. Miller, and B. Koch, 'An interactive substructure search system,' J. Chem. Inf. Comput. Sci., 17, 157-163, 1977 https://doi.org/10.1021/ci60011a011
  12. R. Attias, 'DARC substructure search system : a new approach to chemical information,' J. Chem. Inf. Comput. Sci., 23, 102-108, 1983 https://doi.org/10.1021/ci00039a003
  13. Z. M. Nagy, S. Kozics, T. Veszpremi, and P. Bruck, 'Substructure Search on Very Large Files Using Tree-structured Databases,' 'Chemical Structures: The International Language of Chemistry,' ed. W. A. Warr, Springer-Verlag, Heidelberg, pp. 127-130, 1988
  14. Z. M. Nagy, 'How can parallel algorithms help to find new sequential algorithms?,' J. Chem. Inf. Comput Sci., 33, 542-544, 1993 https://doi.org/10.1021/ci00014a003
  15. A. Bartmann, H. Maier, D. Walkowiak, B. Roth, and M. G. Hicks, 'substructure searching on very large files by using multiple storage techniques,' J. Chem. Inf. Comput. Sci., 33, 539-541, 1993 https://doi.org/10.1021/ci00014a002
  16. RS3, http://www.accelrys.com/rs3
  17. J. Moore and J. R. Hoover, US Patent 5 577 239, 1996