DOI QR코드

DOI QR Code

Change Detection of Hangul Documents Based on X-treeDiff+

X-treeDiff+ 기반의 한글 문서에 대한 변화 탐지

  • 이석균 (단국대학교 공과대학 컴퓨터학부)
  • Received : 2010.10.31
  • Accepted : 2010.11.29
  • Published : 2010.12.30

Abstract

The change detection of XML documents is a major research area. However, though XML becomes a file format for Hangul documents, research on change detection of Hangul documents based on the characteristics of Hangul documents is rather scarce. Since format data in Hangul documents are very large, which is different from ordinary XML documents, it is not proper to apply general XML change detection algorithms such as X-treeDiff+ to Hangul documents without any change. In this paper, we propose new contents-based matching algorithm and implement it in X-treeDiff+. The result of our testing shows better performance for most documents in editing process.

XML 문서에 대한 변화탐지는 중요한 연구 분야이다. 그러나 한글 문서 파일 형식으로 XML이 지원되고 있음에도 한글 문서의 특성을 반영한 변화 탐지 연구는 아직 미비하다. 한글 문서는 일반적인 XML 문서와는 달리 서식 정보의 비중이 매우 커서 X-treeDiff+와 같은 일반적인 XML 문서의 변화탐지 알고리즘을 그대로 적용하기에는 적합하지 않다. 본 논문에서는 한글 문서에 대한 변화탐지를 위해 새로운 내용 기반의 대응 알고리즘을 제안하고 이를 X -treeDiff+에 구현하였다. 실험을 통해 제안된 알고리즘은 대부분의 편집과정의 문서에 대해 우수한 성능을 보이고 있음을 제시했다.

Keywords

References

  1. S. Ronnau, J. Scheffczyk, and U. Borghoff, "Towards XML Version Control of Office Documents," In Proc. of ACE Symposium on Document Engineering, pp. 10-19, Nov. 2005.
  2. R. Wagner and M. Fischer, "The string-to-string correction problem," Journal of the ACM, 21, pp.168-173, 1974. https://doi.org/10.1145/321796.321811
  3. K. Tai, "The tree-to-tree correction problem," Journal of the ACM, 26(3), pp.422-433, July 1979. https://doi.org/10.1145/322139.322143
  4. S. Selkow, "The tree-to-tree editing problem," Information Processing Letters, 6, 1977.
  5. E. W. Myers, "An O(ND) Difference Algorithm and Its Variations," Algorithmica, 1(2), pp.251-266, 1986. https://doi.org/10.1007/BF01840446
  6. S. Chawathe and H. Molina, "Meaningful Change Detection in Structured Data," In SIGMOD '97, pp.26-37, 1997.
  7. G. Cobena, S. Abiteboul and A. Marian, "Detecting Changes in XML Documents," The 18th ICDE, 2002.
  8. K. Zhang and D. Shasha, "Simple fast algorithms for the editing distance between trees and related problems," SIAM Journal of Computing, 18(6), pp.1245-1262, 1989. https://doi.org/10.1137/0218082
  9. S. Chawathe and H. G. Molina, "Meaningful Change Detection in Structured Data," In SIGMOD '97, pp.26-37, 1997.
  10. S. Lee and D. Kim, "X-treeDiff+: Efficient Change Detection Algorithm in XML Documents," LNCS 4096, pp.1037-1046, 2006.
  11. Y. Wang, D. DeWitt, J. Cai, "X-Diff: An Effective Change Detection Algorithm for XML Documents," in Proc. of ICDE, pp519-530, Mar., 2003.
  12. S. Chawathe, "Comparing Hierarchical Data in External Memory," Proc. of VLDB, Sept. 1999.
  13. diffxml, http://diffxml.sourceforge.net/
  14. R. Fontaine, "Change Control for XML:Do it right," In Proc. of XML Europe 2003.
  15. DeltaXML, http://www.deltaxml.com
  16. 김동아, "XML 문서에 대한 변화 탐지 및 관리," 단국대학교 전산통계학과 박사학위논문, pp.1-111, 2005.
  17. 한글과 컴퓨터, "한글 문서 파일 구조," http://www.hancom.co.kr/
  18. 한글과 컴퓨터, HWPML의 DTD, http://www.hancom.co.kr/