Word Frequency-Based Big Data Analysis for the Annals of the Joseon Dynasty

조선왕조실록 분석을 위한 단어 빈도수 기반 빅 데이터 분석

  • Published : 2022.05.26

Abstract

Annals of the Joseon Dynasty is a librarian that compiled the history of the Joseon Dynasty for 472 years, from Taejo to Cheoljong. The Annals of the Joseon Dynasty, National Treasure No. 151, are important documented heritages, but they are difficult to analyze due to their vast content. Therefore, rather than analyzing all the contents of the Annals of the Joseon Dynasty, it is necessary to extract and analyze important words. In this paper, we propose a method of extracting words from the main body of the Annals of the Joseon Dynasty through web crawling and analyzing the translated texts of the Annals of the Joseon Dynasty based on the data sorted according to the frequency of words. In this study, only the part of King Sejong of the Annals of the Joseon Dynasty was extracted and the importance was analyzed according to the frequency of words.

조선왕조실록은 조선왕조가 태조부터 철종까지 이르기까지 472년간의 역사를 편찬한 사서이다. 조선왕조실록은 국보 제 151호로 중요한 기록유산이지만 내용이 방대하여 분석함에 있어 어려움이 따른다. 따라서 조선왕조실록의 모든 내용을 분석하기 보다는 중요한 단어들을 추출하여 분석해야 할 필요가 있다. 본 논문에서는 웹 크롤링을 통하여 조선왕조실록 웹페이지의 본문에서 단어를 추출하고 단어의 빈도수에 따라 정렬한 데이터를 기반으로 번역된 조선왕조실록의 본문을 분석하는 방법을 제안한다. 본 연구는 조선왕조실록의 세종 부분만을 추출하여 단어의 빈도수에 따라 중요도를 분석하였다.

Keywords