DOI QR코드

DOI QR Code

Semantic Dependency Link Topic Model for Biomedical Acronym Disambiguation

의미적 의존 링크 토픽 모델을 이용한 생물학 약어 중의성 해소

  • 김선호 (서강대학교 컴퓨터공학과) ;
  • 윤준태 (다음소프트 연구소 CIO) ;
  • 서정연 (서강대학교 컴퓨터공학과)
  • Received : 2014.02.20
  • Accepted : 2014.07.23
  • Published : 2014.09.15

Abstract

Many important terminologies in biomedical text are expressed as abbreviations or acronyms. We newly suggest a semantic link topic model based on the concepts of topic and dependency link to disambiguate biomedical abbreviations and cluster long form variants of abbreviations which refer to the same senses. This model is a generative model inspired by the latent Dirichlet allocation (LDA) topic model, in which each document is viewed as a mixture of topics, with each topic characterized by a distribution over words. Thus, words of a document are generated from a hidden topic structure of a document and the topic structure is inferred from observable word sequences of document collections. In this study, we allow two distinct word generation to incorporate semantic dependencies between words, particularly between expansions (long forms) of abbreviations and their sentential co-occurring words. Besides topic information, the semantic dependency between words is defined as a link and a new random parameter for the link presence is assigned to each word. As a result, the most probable expansions with respect to abbreviations of a given abstract are decided by word-topic distribution, document-topic distribution, and word-link distribution estimated from document collection though the semantic dependency link topic model. The abstracts retrieved from the MEDLINE Entrez interface by the query relating 22 abbreviations and their 186 expansions were used as a data set. The link topic model correctly predicted expansions of abbreviations with the accuracy of 98.30%.

생물학 도메인은 약어 표현이 빈번하며, 실제로 문서에서 중요한 의미를 지니는 개체명들이 약어로 표현되는 경우가 많다. 본 연구에서는 토픽과 링크 정보를 이용하여 약어 중의성을 해결하고 동일한 의미를 가지는 다양한 형태의 약어 원형들(variant forms)에 대한 그룹핑을 시도한다. 이를 위하여 LDA(latent Dirichlet allocation) 기반 의미적 의존 링크 토픽 모델(semantic dependency topic model)을 제안한다. 해당 모델은 생성 모델(generative model)의 일종으로 문서 집합의 각 문서에 등장하는 단어들은 문서에서 발생하는 토픽 분포와 토픽 당 단어 분포에 의해 생성되어 있는 것으로 가정하고, 관측 가능한 문서 집합의 단어들로부터 문서에 내재된 숨어있는 토픽 구조를 추론하여 단어 생성과 토픽 파라미터를 연결시킨다. 본 연구에서는 토픽 정보 외에 단어들 사이에 존재하는 의미적 의존성(semantic dependency)을 링크로 정의하고, 단어 간에 존재하는 링크 정보, 특히 원형과 문장에서 공기하는 단어들 사이의 링크를 파라미터화하여 중의성 해결에 이용하였다. 결과적으로 주어진 문서에 등장하는 약어에 대해 가장 가능성 있는 원형은 해당 모델을 이용하여 추론된 단어-토픽, 문서-토픽, 단어-링크 확률에 의해서 결정된다. 제안하는 모델은 MEDLINE 초록으로부터 Entrez 인터페이스를 이용해 22개의 약어 집합과 186개의 가능한 약어 원형을 이용하여 질의를 생성하고, 이를 이용해 검색된 문서들을 대상으로 학습과 테스트에 이용하였다. 실험은, 주어진 문서에 등장하는 해당 약어에 대한 원형이 무엇인지 예측하는 방식으로 98.3%의 정확률의 높은 성능을 보였다.

Keywords

Acknowledgement

Supported by : 한국연구재단

References

  1. Liu, H. et al., Automatic resolution of ambiguous terms based on machine learning and conceptual relations in the UMLS, J. Am. Med. Inform. Assoc., Vol. 9, No. 6, pp. 621-636, 2002. https://doi.org/10.1197/jamia.M1101
  2. Bodenreider,O. (2007) The Unified Medical Language System: What is it and how to use it? In Tutorial at Medinfo 2007.
  3. Xu, H. et al., Machine learning and word sense disambiguation in the biomedical domain: design and evaluation issues, BMC Bioinformatics, 7, 334, 2006. https://doi.org/10.1186/1471-2105-7-334
  4. Okazaki, N. et al., Building a high-quality sense inventory for improved abbreviation disambiguation, Bioinformatics, Vol. 26, No. 9, pp. 1246-1253, 2010. https://doi.org/10.1093/bioinformatics/btq129
  5. Schuemie, M.J. et al., Distribution of information in biomedical abstracts and full-text publications, Bioinformatics, 20, pp. 2597-2604, 2004. https://doi.org/10.1093/bioinformatics/bth291
  6. Xu, H. et al., Gene symbol disambiguation using knowledge-based profiles, Bioinformatics, Vol. 23, No. 8, pp. 1015-1022, 2007. https://doi.org/10.1093/bioinformatics/btm056
  7. Blei, D. M. et al., Latent Dirichlet Allocation, Journal of Machine Learning Research, 3, pp. 993-1022, 2003.
  8. Wallach, H. M. et al., Rethinking LDA: why priors matter, In Proceedings NIPS 2009, pp. 1973-1981, 2009.
  9. Pakhomov, S., Semi-supervised maximum entropy based approach to acronym and abbreviation normalization in medical texts, In Proceedings ACL 2002, pp. 160-167, 2002.
  10. Stevenson, M. et al., Disambiguation of biomedical abbreviations, In Proceedings Workshop on BioNLP, pp. 71-79, 2009.
  11. Gaudan, S. et al., Resolving abbreviations to their senses in MEDLINE, Bioinformatics, Vol. 21, No. 18, pp. 3658-3664, 2005. https://doi.org/10.1093/bioinformatics/bti586
  12. Zhang, W. et al., Entity linking with effective acronym expansion, instance selection and topic modeling, In Proceedings IJCAI 2011, pp. 1909-1914, 2011.
  13. Wallach, H. M., Topic modeling: beyond bag-of-words, In Proceedings ICML 2006, pp. 977-984, 2006.
  14. Wang, X. et al., Topical n-grams: phrase and topic discovery, with an application to information retrieval, In Proceedings IEEE ICDM 2007, pp. 697-702, 2007.
  15. Griffiths, T. et al., Topics in semantic representation, Psychological Review, Vol. 114, No. 2, pp. 211-244, 2007. https://doi.org/10.1037/0033-295X.114.2.211
  16. Cohn, D. and Hofmann, T., The missing link - a probabilistic model of document content and hypertext connectivity, Advances in Neural Information Processing Systems, Vol. 13, pp. 430-436, 2001.
  17. Nallapati, R. et al., Joint latent topic models for text and citations, In Proceedings ACM SIGKDD ICKDDM 2008, pp. 542-550, 2008.
  18. Liu, Y. et al., Joint models of topic and author community, In Proceedings ICML 2009, 382, 84, 2009.
  19. Hofmann, T., Probabilistic latent semantic analysis, In Proceedings UAI 1999, pp. 289-296, 1999.
  20. Heinrich, G., Parameter estimation for text analysis, Technical Note, 2008.