DOI QR코드

DOI QR Code

Detecting Local Text Reuse in the Texts of East Asian Traditional Medicine

한의학 고문헌 텍스트에서의 인용문 추정과 탐색

  • Oh, Junho (Korea Institute of Oriental Medicine)
  • Received : 2021.01.20
  • Accepted : 2021.02.03
  • Published : 2021.02.25

Abstract

Objectives : The purpose of this paper was to examine quantitative methods for estimating and detecting local text reuse in the texts of East Asian Traditional Medicine. Methods : We introduce techniques that estimate the volume of local text reuse with n-gram and those that directly detect the reuse with the Smith-Waterman algorithm (SW algorithm). Based on this, the estimation and detection of local text reuse were carried out for 『Donguibogam』 and 『Huangdineijing·Suwen』. Results : Estimates with n-gram had more errors than methods with SW algorithms. SW algorithms detected suspected strings directly with local text reuse, resulting in more accurate results. Conclusions : Although n-gram does not accurately find local text reuse, its high speed makes it a preferable method for certain purposes, such as screening similar documents. On the other hand, SW algorithms have the advantage of being relatively good at finding similar phrases suspected as local text reuse even if the strings do not completely match. However, due to its excessive consumption of time and computing resources, its benefits are limited to cases where precise results are required.

Keywords

References

  1. 김남일. 鄕藥集成方의 인용문헌에 대한 연구. 진단학보. 1999. 87.
  2. 김중권. 동의보감의 문헌적 연구: 인용문헌을 중심으로. 서지학연구. 1995. 11.
  3. 김중권. 鄕藥集成方의 引用文獻 分析. 書誌學硏究. 2006. 35.
  4. 박상영. 인제지의 조선후기 의사학적 위상과 의의: 미키 사카에의 재인용[孫引] 지적과 학술가치 평가에 대한 재검토. 한국실학연구. 2013. 25.
  5. 박성식, 송일병. 사상의학의 의학적 연원과 이제마 의학사상에 대한 연구: 동의수세보원 인용문을 중심으로. 1993. 5(1).
  6. 박영호 저, 김도련 편. 한국 고문의 이론과 전개(조선중기 고문론 연구). 경기도. 태학사. 1998.
  7. 안상우, 김남일. 醫方類聚 總論의 體制와 引用方式 分析. 경희한의대논문집. 1999. 22(1).
  8. 윤용갑, 강순수. 방약합편에 수록된 처방의 주치별 계통분류와 인용문헌에 대한 고찰. 원광한의대논문집. 1986. 4.
  9. 이계성. 다중 지역 정렬 알고리즘. 문화기술의 융합. 2019. 5(3).
  10. 이정화. 제중신편의 인용문헌 연구. 서지학보. 2010. 35.
  11. 이필우, 윤창렬. 동의수세보원 인용문에 대한 연구. 한의학연구소 논문집. 2004. 12(2).
  12. 정요상, 이명호, 최동훈. Smith-Waterman 알고리즘을 위한 GPU 상에서의 Multi-Stream 기반 병렬화. 한국정보과학회 2014년 동계학술발표회 논문집. 2014.
  13. 지창영. 제중신편의 인용방식에 대한 연구. 한국의사학회지. 2008. 21(1).
  14. 최환수, 신순식. 의방유취의 인용서에 관한 연구(1). 한국한의학연구원논문집. 1997. 3(1).
  15. D. A. Smith, R. Cordel, E. M. Dillon, N. Stramp and J. Wilkerson. Detecting and modeling local text reuse. IEEE/ACM Joint Conference on Digital Libraries. 2014. https://doi.org/10.1109/JCDL.2014.6970166.
  16. Donald Sturgeon. Unsupervised identification of text reuse in early Chinese literature. Digital Scholarship in the Humanities. 2018. 33(3). https://doi.org/10.1093/llc/fqx024
  17. Jangwon Seo , W. Bruce Croft. Local text reuse detection. Proceedings of the 31st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, SIGIR 2008.
  18. MEDICLASSICS [homepage on the Internet]. Korea Institute of Oriental Medicine; 2015 [cited 30 Jan 2020]. Available from:
  19. Smith, Temple F., and Michael S. Waterman. Identification of common molecular subsequences. Journal of molecular biology. 1981. 147(1).