DOI QR코드

DOI QR Code

A Study of Computational Literature Analysis based Classification for a Pairwise Comparison by Contents Similarity in a section of Tokkijeon, 'Fish Tribe Conference'

컴퓨터 문헌 분석 기반의 토끼전 '어족회의' 대목 내용 유사도에 따른 이본 계통 분류 연구

  • 김동건 (경희대학교 후마니타스칼리지) ;
  • 정화영 (경희대학교 후마니타스칼리지)
  • Received : 2022.02.17
  • Accepted : 2022.03.14
  • Published : 2022.05.28

Abstract

This study aims to identify the family and lineage of a part of a "Fish Tribe Conference" in the section Tokkijeon by utilizing computer literature analysis techniques. First of all, we encode the classification for a pairwise comparison's type of each paragraph to build a corpus, and based on this, we use the Hamming distance to calculate the distance matrix between each classification for a pairwise comparison's. We visualized classification for a pairwise comparison's clustering pattern by applying multidimensional scale method, and hierarchical clustering to explore the characteristics of the 'fish family' line and lineage compared to the existing cluster analysis study on entire paragraphs of "Tokkijeon". As a result, unlike the cluster analysis of the entire paragraph of "Tokkijeon", which consists of six categories, the "Fish Tribe Conference" section has five categories and some classification for a pairwise comparison's accesses. The results of this study are that the relative distance between Yibon was measured and systematic classification was performed in an objective and empirical way by calculation, and the characteristics of the line of the fish family were revealed compared to the analysis of the entire rabbit exhibition.

본 연구는 컴퓨터 문헌 분석 기법을 활용하여 <토끼전> '어족회의' 대목의 계열과 계통을 밝히는 데에 목적을 둔다. 우선 각 단락의 이본 유형을 인코딩하여 코퍼스를 구축하고, 이를 바탕으로 해밍 거리를 이용하여 각 이본 간의 거리 행렬을 산출하였다. 그다음 산출된 거리 행렬을 다차원 척도법, 계층적 군집 분석을 적용하여 이본의 군집 양상을 시각화하여, 기존에 토끼전 전체 단락을 대상으로 한 군집 분석 연구와 비교하여 '어족회의' 대목의 계열과 계통 특징을 살펴보았다. 그 결과 토끼전 전체 단락을 대상으로 한 군집 분석이 6개의 계열을 이루고 있는 것과는 달리, '어족회의' 대목은 5개의 계열을 이루고 있다는 점과 몇몇 이본의 계열 출입이 있다는 점을 확인할 수 있었다. 본 연구의 성과는 계산에 의한 객관적이고 실증적인 방법으로 이본 간의 상대적 거리 측정하고 계통 분류를 했다는 점과 토끼전 전체를 내용을 대상으로 한 계열 분석과 대비하여 어족회의 대목 계열의 특징을 밝혔다는 데에 있다.

Keywords

References

  1. 최운호, 김동건, "컴퓨터를 이용한 고전문학 디지털 콘텐츠의 유사도에 따른 계통 분류 연구," 한국정보기술학회논문지, 제12권, 제7호, pp.101-110, 2014. https://doi.org/10.14801/kiitr.2014.12.7.101
  2. 강우규, 김바로, "계량적 문체 분석을 통한 <소현성록> 연작의 변이양상 고찰 : 이대15권본과 규장각21권본을 중심으로," 국제어문, 제80호, pp.115-135, 2019.
  3. 강우규, 김바로, "고전소설에 대한 디지털 감정 분석방법론 모색-구운몽을 대상으로," 동아시아고대학, 제55권, 제56호, pp.349-377, 2019.
  4. 최운호, 김동건, "'십장가' 대목의 어휘 사용 유사도와 계층적 군집 분석 방법을 이용한 판본 계통 분류 연구," 한국정보기술학회논문지, 제10권, 제5호, pp.133-138, 2012.
  5. 최운호, 김동건, "컴퓨터 문헌 분석 기법을 활용한 <토끼전> 이본 연구," 우리문학연구, 제58권, pp.123-154, 2018.
  6. 권기성, 김동건, "컴퓨터 문헌 분석 기법을 활용한 <심청전> 계통 분류 연구," 판소리연구, 제47집, pp.167-205, 2019.
  7. 이진오, 김동건, "컴퓨터 문헌 분석 기법을 활용한 <적벽가> 이본의 계통 분류 연구," 한국콘텐츠학회논문지, 제19권, 제6호, pp.1-9, 2019. https://doi.org/10.5392/JKCA.2019.19.06.001
  8. 김동건, 토끼전 연구, 민속원, pp.13, 2003.
  9. 인권환, "토끼전의 비교 연구," 인문논집, 제29권, 1984.
  10. 인권환, "토끼전군 결말부의 변화양상과 의미," 정신문화연구, 제44권, pp.163-185, 1991.
  11. 정출헌, 조선후기 우화소설의 사회적 성격, 고려대학교 박사학위논문, 1992.
  12. 민찬, 조선후기 우화소설 연구, 태학사, 1995.
  13. 최운호, 김동건, "컴퓨터 문헌 분석 기법을 활용한 <토끼전> 이본 연구," 우리문학연구, 제58권, pp.123-154, 2018.
  14. 김진영 외, 토끼전 전집 1-6, 박이정, 1997-2003.
  15. 우숙영, 이재원, 전명식, "상대적, 계층적 군집 방법을 이용한 마이크로어레이 자료의 군집 분석," 한국데이터정보과학회지, 제25권, 제5호, pp.999-1009, 2014.
  16. 강성용, "고전텍스트의 DNA를 묻는다:고전텍스트의 문헌전승 계통도 분석에서 계통 발생 분석방법(phylogenetical analysis)의 적용과 모색," 인문언어, 제153권, pp.77-122, 2013.
  17. 최운호, 김동건, "컴퓨터 문헌 분석 기법을 활용한 <토끼전> 이본 연구," 우리문학연구, 제58권, pp.125-154, 2018.