DOI QR코드

DOI QR Code

A Study on the Application of Machine Learning in Literary Texts - Focusing on Rule Selection for Speaker Directive Analysis -

문학 텍스트의 머신러닝 활용방안 연구 - 화자 지시어 분석을 위한 규칙 선별을 중심으로 -

  • 권경아 (숭실대학교 글로벌미디어학부) ;
  • 고일주 (숭실대학교 글로벌미디어학부) ;
  • 이인성 (숭실대학교 영어영문학과)
  • Received : 2021.09.30
  • Accepted : 2021.10.18
  • Published : 2021.11.30

Abstract

The purpose of this study is to propose rules that can identify the speaker referred by the speaker directive in the text for the realization of a machine learning-based virtual character using a literary text. Through previous studies, we found that when applying literary texts to machine learning, the machine did not properly discriminate the speaker without any specific rules for the analysis of speaker directives such as other names, nicknames, pronouns, and so on. As a way to solve this problem, this study proposes 'nine rules for finding a speaker indicated by speaker directives (including pronouns)': location, distance, pronouns, preparatory subject/preparatory object, quotations, number of speakers, non-characters directives, word compound form, dispersion of speaker names. In order to utilize characters within a literary text as virtual ones, the learning text must be presented in a machine-comprehensible way. We expect that the rules suggested in this study will reduce trial and error that may occur when using literary texts for machine learning, and enable smooth learning to produce qualitatively excellent learning results.

본 연구는 문학 텍스트를 활용한 머신러닝 기반 가상 캐릭터(virtual character) 구현을 위해 텍스트 내의 화자 지시어가 지시하는 화자를 판별할 수 있는 규칙을 제안하는 것을 목적한다. 선행 연구에서, 본 연구자는 문학 텍스트를 기계 학습에 적용할 때, 별칭, 별명, 대명사와 같은 화자 지시어들이 특정한 분석 규칙 없이는 기계가 화자를 제대로 파악하지 못하여 학습을 제대로 수행할 수 없다는 점을 발견하였다. 본 연구는 이를 해결하는 방법으로 '화자 지시어(대명사 포함)가 지시하는 화자를 찾는 9가지 규칙'을 소개한다: 위치, 거리, 대명사, 가주어/진주어, 인용문, 화자수, 등장인물 외 지시, 복합 단어 지시, 화자명 분산이 그것이다. 문학 텍스트 내의 등장인물을 가상 캐릭터로 활용하기 위해서는 기계가 이해할 수 있는 방식으로 학습 텍스트를 제공해야 한다. 본 연구자는 본 논문을 통해 제안한 화자 찾기 규칙이 문학 텍스트를 머신러닝에 활용할 때 발생할 수 있는 시행착오를 줄이고, 원활한 학습을 수행하게 하여 질적으로 우수한 학습 결과를 산출할 수 있게 해 줄 것으로 기대한다.

Keywords

References

  1. Hyeongu Jeon, Kichul Jung, Kyoungah Kwon, and Insung Lee. "Machine Learning Language Model Implementation Using Literary Texts." The Journal of the Convergence on Culture Technology (JCCT) 7.2 (2021): 427-436. https://doi.org/10.17703/JCCT.2021.7.2.427
  2. C. S Lewis. (2001). The Chronicles of Narnia. New York: HarperCollins Publishers.
  3. Kang, Seung-Shik, Yun, Bo-Hyun, and Woo, Chong-Woo. "Antecedent Decision Rules of Personal Pronouns for Coreference Resolution." The KIPS Transactions : Part B. The Korea Information Processing Society, 11.2 (2004): 227-232.
  4. Carbonell, Jaime G., and Ralf D. Brown. "Anaphora resolution: a multi-strategy approach." Coling Budapest 1988 Volume 1: International Conference on Computational Linguistics. 1988.
  5. Carter, David. Interpreting anaphors in natural language texts. Halsted Press, 1987.
  6. Hobbs, Jerry R. "Pronoun resolution." ACM SIGART Bulletin 61 (1977): 28-28. https://doi.org/10.1145/1045283.1045292
  7. Baldwin, Breck. "CogNIAC: high precision coreference with limited knowledge and linguistic resources." Operational factors in practical, robust anaphora resolution for unrestricted texts. 1997.
  8. Cheoneum Park, Changki Lee. "Coreference Resolution for Korean Pronouns using Pointer Networks." Journal of KIISE, 44.5 (2017): 496-502. https://doi.org/10.5626/JOK.2017.44.5.496
  9. C. Park, G. H. Choi, and C. Lee, "Korean Coreference Resolution with Guided Mention Pair Model using the Deep Learning," Proc. Of the KIISE Korea Computer Congress 2015, pp. 693-695, 2015. (in Korean)