A Study on the efficiency of similarity and clustering measure in Historical Writing Document

역사적 기록 문서에서 효율적인 유사도 및 클러스터링 측정에 관한 연구

  • 한광덕 (상지 영서대학교 컴퓨터정보기술과)
  • Published : 2002.12.01

Abstract

It expected a lot of changes in mass media and documentation expression as documents on web are getting diverse, complex and massive. An Annals of The Chosun Dynasty is a very important document used for researching historical facts and is published as CD-Rom. However. The CD-Rom was composed as content-based and using simple search method, therefore it's very difficult to make determine event-relationship between documents factors. Because of that, we studied to discover event-relationship between documents through clustering and efficient similarity method among Annals of The Chosun Dynasty. For the research method, we discovered the best similarity method for historical written documents through simulation similarity measures of Annals of The Chosun Dynasty documents. Then we did simulation-clustering documents based on similarity probability. In evaluation of the clustered documents , the results were the same as when manually figured.

Web상에 있는 문서들이 다양하고, 복잡 그리고 대형화함에 따라 문서의 표현과 전달체계에서도 많은 변화가 요구되고 있다. 조선왕조실록문서(Annal of The chosun Dynasty)는 역사적 사실을 연구하는데 중요한 문서이고, CD-ROM으로도 출판되었다. 그러나 문서의 접근 방법에 대해 검색의 단순성 그리고 내용 기반(content-based)으로 구성되었기 때문에 문서의 구성요소들 간의 사건연관 (event-relationship)를 엮어주는 데는 어려운 점이 많다. 따라서 본 논문에서는 조선왕조실록 문서들간의 효율적이고, 적절한 유사성 및 클러스터링 방법을 실험하여 문서들간의 사건연관을 찾아내도록 연구했다. 연구 방법으로는 조선왕조실록 문서들간의 유사도 방법들을 시뮬레이션하여 역사적 기록문서에 가장 적합한 유사도 방법을 찾아내고, 유사도 확률에 따라 그 문서들을 클러스터링 하였다. 평가결과 클러스터링을 한 문서들을 실제 확인해본 결과 사실과 거의 같다는 것이 증명되었다.

Keywords