A Study on the Automatic Document Segmentation using Stochastic Method

확률기법을 이용한 자동 문서 분할에 관한 연구

  • 음호식 (공주영상정보대학 소프트웨어개발) ;
  • 이명호 (청주대학교 전정반공학부)
  • Published : 2001.03.01

Abstract

It is a document segmentation to set a boundary in the documents by the contents. It is essential for the accurate and efficient information search. In this paper we want to make an automatic document segmentation system with the method of probability analysis which uses the mutual information between the words. Proposed system can move the boundary of window and compute the similarity or the two window. In this system the more words are shared and the more important the words are, the higher the cohesive force of the two window systems goes. The result of experience with the document segmentation is that despite the differences of block unit the division point at which we expected to divide was normally divided.

문서분할이란 내용별로 문서의 경계를 정하는 일로써 정확하고 효율적인 정보검색에 필수적이다. 본 논문에서는 단어간의 상호 정보를 이용하는 확률적인 분석 방법을 이용한 자동문서 분할 시스템을 구현하고자 한다. 시스템은 윈도우의 경계를 이동시키면서 두 윈도우의 유사도를 계산해 내며 공유하는 단어들이 많을수록 그리고 공유하는 단어들의 중요도가 높을수록 두 윈도우의 응집도는 올라간다. 문서 분할 실험결과 블록의 단위가 달라지더라도 분할하고자 한곳이 정상적으로 분할됨을 보였다

Keywords