Automated Approaches for Extracting Specialized Terminology in Building Semantic Networks for Classical Languages

고전언어에서의 어휘 의미망 구축을 위한 전문용어 추출 자동화 방안

  • Young Yun Baek ;
  • Young Bom Park
  • 백영윤 (단국대학교 컴퓨터과학과) ;
  • 박용범 (단국대학교 컴퓨터과학과)
  • Received : 2023.12.21
  • Accepted : 2024.01.15
  • Published : 2024.02.28

Abstract

The trend of seeking knowledge or information has been increasingly shifting towards the digital implementation on the web rather than relying on analog printed media such as books or publications. This shift is driven by the perception that using digital resources, particularly digital dictionaries, is more effective and time-saving compared to traditional paper dictionaries. Consequently, the construction of a semantic network for vocabulary has emerged as a significant issue for linguists, computational linguists, and natural language processing specialists. To address this, linguists have conducted numerous studies to find methods for structuring and classifying the meanings and concepts of vocabulary. In these studies, specialized terminology for constructing vocabulary semantic networks is as crucial as common language. However, in the process of finding and accumulating specialized terminology, there is still a manual step where individuals directly verify and extract specialized terms from paper documents or vast digital datasets. In this paper, we propose an automated program to extract the specialized terms that users desire from digital materials, aiming to compensate for errors in human-operated tasks and streamline the process.

지식이나 정보를 찾는 경우 아날로그적인 인쇄된 책이나 출판물 등등의 종이로 기록된 매체보다는 디지털적으로 구현되는 웹을 이용하는 방법이 증가하고 있다. 이러한 현상은 고전적인 종이 사전 보다 디지털 사전을 사용하는 것이 더 효과적이고 시간을 절약할 수 있다는 인식이 증가되고 있다. 따라서 이러한 어휘를 구성하는 어휘 의미망 구축은 언어학계와 전산언어학, 자연어 처리 전공자들에게 있어서 중요한 문제로 떠오르고 있다. 이를 위해 언어학자들은 어휘의 의미와 개념을 구조화하여 분류할 수 있는 방법을 찾기 위해 수많은 연구가 진행되었다. 이러한 연구에서 어휘 의미망을 구성하기 위한 전문용어는 일반어와 같이 중요한 요소이다. 하지만 이러한 과정에서 전문용어를 찾고 축적하는 과정에서 여전히 종이로 된 사전 문서나 디지털로 된 방대한 자료를 사람이 직접 확인하고 그 중에서 전문용어를 추출하고 정리하는 과정을 수작업으로 거치고 있다. 본 논문에서는 이러한 인적 작업의 오류를 보완하기 위해서 디지털로 된 자료에서 사용자가 원하는 전문용어를 추출할 수 있는 자동화된 프로그램을 제안한다.

Keywords

Acknowledgement

이 논문은 2021 년 대한민국 교육부와 한국연구재단의 지원을 받아 수행된 연구임 (NRF-2021S1A5C2A02086984)

References

  1. J. H. Koo, Y. S. Kim, "A Study on the Development of an XML Data Model for Digitalized Dictionary of Terms : - The Case of Korean-Japanese Dictionary of Diplomatic Terms in the Joseon Dynasty -," The Journal of Korean Studies, 2014, pp. 7-31.
  2. H. O. Son, D. M. Kim, M. H. Cha, W. J. Kim. "A Study on the Characteristics of Headwords in Chinese Dictionaries for a Development of a Classical Chinese Lexical Semantic Network," Journal of the Oriental Studies , Dong Yang Hak, 2022, pp. 37-56
  3. E. H. Bae, Y. B. Park, C. Heo "Research on the Necessity and Prerequisite Problems which Chinese Classical written language works in Machine translation," Journal of the The Association Of Korean Literature In Chinese, 2019, pp. 39-54
  4. B. K. Kang, "A Study on the Construction of Korean-Chinese-Japanese-English Multi-Lingual WordNet," JOURNAL OF CHINESE LANGUAGE AND LITERATURE, 2007, pp. 107-132
  5. K. B. Choi "The Ontology of "Mulmyeonggo" and Its Significance in Lexicography," Journal of the The Society Of Korean Semantics, 2005, pp. 21-42
  6. Y. S. Bang, "On the Selection and Processing of Specialized Terms in the 'Open Dictionary': Focusing on Economic Terminology," Journal of Korealex, 2013, pp. 69-80.
  7. E. J. Kwon, "A Construction of Historical Terminology for Terminology in GaebanghyeongHangugeo-Jisik-Daesajeon," Journal of Korealex, 2012, pp. 31-51.
  8. Y. J. Yoo "A Study on Classification System of Korean Literatures Thesaurus," Journal of the Korean Society for Library and Information Science, 2006, pp. 415-434