DOI QR코드

DOI QR Code

Knowledge Trend Analysis of Uncertainty in Biomedical Scientific Literature

생의학 학술 문헌의 불확실성 기반 지식 동향 분석에 관한 연구

  • 허고은 (연세대학교 문헌정보학과) ;
  • 송민 (연세대학교 문헌정보학과)
  • Received : 2019.05.20
  • Accepted : 2019.06.24
  • Published : 2019.06.30

Abstract

Uncertainty means incomplete stages of knowledge of propositions due to the lack of consensus of information and existing knowledge. As the amount of academic literature increases exponentially over time, new knowledge is discovered as research develops. Although the flow of time may be an important factor to identify patterns of uncertainty in scientific knowledge, existing studies have only identified the nature of uncertainty based on the frequency in a particular discipline, and they did not take into consideration of the flow of time. Therefore, in this study, we identify and analyze the uncertainty words that indicate uncertainty in the scientific literature and investigate the stream of knowledge. We examine the pattern of biomedical knowledge such as representative entity pairs, predicate types, and entities over time. We also perform the significance testing using linear regression analysis. Seven pairs out of 17 entity pairs show the significant decrease pattern statistically and all 10 representative predicates decrease significantly over time. We analyze the relative importance of representative entities by year and identify entities that display a significant rising and falling pattern.

불확실성이란 정보의 합의나 현존하는 지식 부족으로 인해 명제의 지식이 불완전한 상태를 의미한다. 과학적 지식의 불확실성을 연구하는 학술문헌의 양은 시간이 흐름에 따라 기하급수적으로 증가하고 있으며, 이에 따라 새로운 지식이 발견되고 연구가 발전하고 있다. 이처럼 시간의 흐름은 지식의 불확실성의 패턴을 발견하는데 중요한 요인이 될 수 있음에도 불구하고 기존의 연구들은 불확실성 단어의 단순 출현 빈도를 기반으로 특정 학문 영역에서 불확실성의 특성을 파악해왔다. 따라서, 본 연구에서는 구축한 불확실성 단어를 생의학 영역의 불확실성 연구에 적용하여 시간의 흐름에 따른 불확실성의 변화와 패턴을 파악하고자 한다. 시간의 흐름에 따른 생의학 지식의 패턴을 분석하기 위해 대표 개체 페어, 동사 유형, 대표 개체의 패턴을 살펴보았으며 선형회귀 분석을 통해 유의성 검증을 수행했다. 개체 페어 분석에서는 17건 중 7건의 개체 페어가 유의하게 감소하는 패턴을 보였다. 10개의 대표적인 동사 유형은 모두 시간이 흐름에 따라 유의하게 감소했다. 대표 개체의 연도별 상대적 중요도 분석에서는 유의하게 상승과 하강 패턴을 보이는 개체들의 불확실성 증감을 분석했다.

Keywords

JBGRBQ_2019_v36n2_175_f0001.png 이미지

<그림 1> 연구 개요

JBGRBQ_2019_v36n2_175_f0002.png 이미지

<그림 2> 불확실성 단어 기반 데이터 집합의 통계 그래프

JBGRBQ_2019_v36n2_175_f0003.png 이미지

<그림 3> 시계열적 상이한 특성을 보이는 6개 페어의 연도별 출현 비율

JBGRBQ_2019_v36n2_175_f0004.png 이미지

<그림 4> 10개 동사 유형의 연도별 출현 비율

JBGRBQ_2019_v36n2_175_f0005.png 이미지

<그림 5> 대표적인 4개 개체의 연도별 출현 비율

<표 1> 불확실성 단어 기반 데이터 집합의 통계

JBGRBQ_2019_v36n2_175_t0001.png 이미지

<표 2> SemMed DB를 이용한 생의학 지식 추출 결과

JBGRBQ_2019_v36n2_175_t0002.png 이미지

<표 3> 불확실성 단어 데이터 집합의 부정 표현 문장

JBGRBQ_2019_v36n2_175_t0003.png 이미지

<표 4> 17개의 대표적인 개체 페어

JBGRBQ_2019_v36n2_175_t0004.png 이미지

<표 5> 대표 개체 페어의 기술 통계

JBGRBQ_2019_v36n2_175_t0005.png 이미지

<표 6> 17개 개체 페어의 선형 회귀 분석 결과

JBGRBQ_2019_v36n2_175_t0006.png 이미지

<표 7> 상위 10개 동사 유형의 기술 통계

JBGRBQ_2019_v36n2_175_t0007.png 이미지

<표 8> 상위 10개 동사 유형의 선형 회귀 분석 결과

JBGRBQ_2019_v36n2_175_t0008.png 이미지

<표 9> 버스티니스 기반 대표적인 4개 개체의 기술 통계

JBGRBQ_2019_v36n2_175_t0009.png 이미지

<표 10> 대표적인 4개 개체의 선형 회귀 분석 결과

JBGRBQ_2019_v36n2_175_t0010.png 이미지

References

  1. Heo, G. E. (2019). The stream of uncertainty in scientific knowledge using topic modeling. Journal of the Korean Society for Information Management, 36(1), 191-213. http://dx.doi.org/10.3743/KOSIM.2019.36.1.191
  2. Bodenreider, O. (2004). The unified medical language system (UMLS): Integrating biomedical terminology. Nucleic Acids Research, 32(suppl_1), D267-D270. https://doi.org/10.1093/nar/gkh061
  3. Bourdieu, P. (1975). The specificity of the scientific field and the social conditions of the progress of reason. Information (International Social Science Council), 14(6), 19-47. https://doi.org/10.1177/053901847501400602
  4. Chapman, W. W., Bridewell, W., Hanbury, P., Cooper, G. F., & Buchanan, B. G. (2001). A simple algorithm for identifying negated findings and diseases in discharge summaries. Journal of Biomedical Informatics, 34(5), 301-310. https://doi.org/10.1006/jbin.2001.1029
  5. Chen, C., Song, M., & Heo, G. E. (2018). A scalable and adaptive method for finding semantically equivalent cue words of uncertainty. Journal of Informetrics, 12(1), 158-180. https://doi.org/10.1016/j.joi.2017.12.004
  6. Church, K. W., & Gale, W. A. (1995). Poisson mixtures. Natural Language Engineering, 1(2), 163-190. https://doi.org/10.1017/S1351324900000139
  7. Cordner, A., & Brown, P. (2013). Moments of uncertainty: Ethical considerations and emerging contaminants. In Sociological Forum, 28(3), 469-494. https://doi.org/10.1111/socf.12034
  8. Falahati, R. (2006, February). The use of hedging across different disciplines and rhetorical sections of research articles. In Proceedings of the 22nd NorthWest Linguistics Conference (NWLC22), 99-112.
  9. Friedman, C., Alderson, P. O., Austin, J. H., Cimino, J. J., & Johnson, S. B. (1994). A general natural-language text processor for clinical radiology. Journal of the American Medical Informatics Association, 1(2), 161-174. https://doi.org/10.1136/jamia.1994.95236146
  10. Hyland, K. (1998). Hedging in scientific research articles (Vol. 54). John Benjamins Publishing.
  11. Ioannidis, J. P., & Trikalinos, T. A. (2005). Early extreme contradictory estimates may appear in published research: The proteus phenomenon in molecular genetics research and randomized trials. Journal of Clinical Epidemiology, 58(6), 543-549. https://doi.org/10.1016/j.jclinepi.2004.10.019
  12. Katz, S. M. (1996). Distribution of content words and phrases in text and language modelling. Natural Language Engineering, 2(1), 15-59. https://doi.org/10.1017/S1351324996001246
  13. Kuhn, T. S. (1970). The structure of scientific revolutions. University of Chicago Press.
  14. Madsen, R. E., Kauchak, D., & Elkan, C. (2005). Modeling word burstiness using the dirichlet distribution. In Proceedings of the 22nd International Conference on Machine Learning, (August): 545-552. https://doi.org/10.1145/1102351.1102420
  15. Mikolov, T., Sutskever, I., Chen, K., Corrado, G. S., & Dean, J. (2013). Distributed representations of words and phrases and their compositionality. In Advances in neural information processing systems, 3111-3119.
  16. Palmer, F. R. (2014). Modality and the English modals. Routledge.
  17. Rindflesch, T. C., & Fiszman, M. (2003). The interaction of domain knowledge and linguistic structure in natural language processing: Interpreting hypernymic propositions in biomedical text. Journal of Biomedical Informatics, 36(6), 462-477. https://doi.org/10.1016/j.jbi.2003.11.003
  18. Rizomilioti, V. (2006). Exploring epistemic modality in academic discourse using corpora. In Information Technology in Languages for Specific Purposes, 53-71. Springer, Boston, MA. https://doi.org/10.1007/978-0-387-28624-2_4
  19. Russell, S., Norvig, P., & Intelligence, A. (1995). Artificial intelligence: A modern approach prentice-hall. Englewood cliffs, NJ.
  20. Shwed, U., & Bearman, P. S. (2010). The temporal structure of scientific consensus formation. American Sociological Review, 75(6): 817-840. https://doi.org/10.1177/0003122410388488
  21. Solti, I., Cooke, C. R., Xia, F., & Wurfel, M. M. (2009, November). Automated classification of radiology reports for acute lung injury: comparison of keyword and machine learning based natural language processing approaches. In 2009 IEEE International Conference on Bioinformatics and Biomedicine Workshop, 314-319. IEEE. https://doi.org/10.1109/BIBMW.2009.5332081
  22. Szarvas, G., Vincze, V., Farkas, R., & Csirik, J. (2008, June). The BioScope corpus: Annotation for negation, uncertainty and their scope in biomedical texts. In Proceedings of the Workshop on Current Trends in Biomedical Natural Language Processing, 38-45. Association for Computational Linguistics.
  23. Szarvas, G., Vincze, V., Farkas, R., Mora, G., & Gurevych, I. (2012). Cross-genre and cross-domain detection of semantic uncertainty. Computational Linguistics, 38(2), 335-367. https://doi.org/10.1162/COLI_a_00098
  24. Thompson, P., Nawaz, R., McNaught, J., & Ananiadou, S. (2011). Enriching a biomedical event corpus with meta-knowledge annotation. BMC bioinformatics, 12(1), 393. https://doi.org/10.1186/1471-2105-12-393
  25. Vincze, V. (2013). Weasels, hedges and peacocks: Discourse-level uncertainty in Wikipedia articles. International Joint Conference on Natural Language Processing, (October): 383-391. Nagoya, Japan.
  26. Vincze, V., Szarvas, G., Farkas, R., Mora, G., & Csirik, J. (2008). The BioScope corpus: Biomedical texts annotated for uncertainty, negation and their scopes. BMC Bioinformatics, 9(11), S9. https://doi.org/10.1186/1471-2105-9-S11-S9
  27. Vold, E. T. (2006). Epistemic modality markers in research articles: A cross-linguistic and cross-disciplinary study. International Journal of Applied Linguistics, 16(1), 61-87. https://doi.org/10.1111/j.1473-4192.2006.00106.x
  28. Wilbur, W. J., Rzhetsky, A., & Shatkay, H. (2006). New directions in biomedical text annotation: Definitions, guidelines and corpus construction. BMC Bioinformatics, 7(1), 356. https://doi.org/10.1186/1471-2105-7-356