A Methodology for Automatic Hierarchy Definition of Sentences in Engineering Documents

엔지니어링 문서의 문장 자동 계층정의 방법론

  • 박상일 (연세대학교 토목공학과) ;
  • 김봉근 (연세대학교 토목공학과) ;
  • 김경환 (연세대학교 토목공학과) ;
  • 이상호 (연세대학교 사회환경시스템공학부)
  • Received : 2009.06.05
  • Accepted : 2009.07.30
  • Published : 2009.08.30

Abstract

This paper proposes a methodology for automatic hierarchy classification of subtitles in a engineering document by the a fact that heading symbols of subtitles represent a hierarchical structure of the document. The proposed methodology is composed of two methods: extracting subtitles from plan text document and determining hierarchical structure of the subtitles. The subtitles in a document is extracted by comparing heading symbol patterns with predefined heading symbol groups, and the depth levels of the subtitles are determined by analyzing relative location of subtitles according to change of the heading symbol patterns. A prototype module, which can transform a plain text document into a structured XML document in accordance with a hierarchical structure of subtitles, is developed based on the proposed methodology, and the performance of the module is analyzed with 20 engineering documents.

본 논문은 엔지니어링 문서에서 각 제목의 머리기호가 그 문서의 논리적 계층 구조를 표현한다는 점을 이용하여 문서 내 각 제목의 계층을 자동으로 분류하는 방법론을 제시하였다. 제시한 방법론은 일반 텍스트 문서에서 세부 제목을 추출하는 방법과 추출된 제목의 계층을 정의하는 방법으로 구성된다. 문서의 세부 제목은 문장의 맨 앞에 위치한 머리기호의 형태를 미리 정의된 머리기호 그룹과 비교하여 추출하며, 추출된 제목의 계층은 머리기호 형태의 변화에 따라 각 제목간의 상대적 위치를 파악함으로써 정한다. 제시된 방법론을 이용하여 일반 텍스트 문서를 세부 제목에 따라 구조화된 XML 문서로 변환하는 시범 모듈을 개발하였으며, 20개의 엔지니어링 문서를 대상으로 그 성능을 분석하였다.

Keywords

References

  1. Caldas, C.H., Soibelman, L. (2003) Automating hierarchical document classification for construction management information systems, Automation in Construction, 12(4), pp.395-406 https://doi.org/10.1016/S0926-5805(03)00004-9
  2. Kosala, R., Blockeel, H., Bruynooghe, M., Bussche, H.V. (2006) Information extraction from structured documents using k-testable tree automaton inference, Data & Knowledge Engineering, 58(2), pp.129-158 https://doi.org/10.1016/j.datak.2005.05.002
  3. Liu, S., McMahon, C.A., Darlington, M.J., Culley, S.J., Wild, P.J. (2006) A computational framework for retrieval of document fragments based on decomposition schemes in engineering information management, Advanced Engineering Informatics, 20(1), pp.401-413 https://doi.org/10.1016/j.aei.2006.05.008
  4. McKechnie, J., Shaaban, S., Lockley, S. (2001) Computer assisted processing of large unstructured document sets: a case study in the construction industry, Proceedings of the 2001 ACM Symposium on Document engineering, pp.11-17, Atlanta, Georgia, USA https://doi.org/10.1145/502187.502190
  5. Meziane, F., Rezgui, Y. (2003) A document management methodology based on similarity contents, Information Sciences, 158, pp.15-36 https://doi.org/10.1016/j.ins.2003.08.009
  6. Rezgui, Y. (2006) Ontology-centered knowledge management using information retrieval techniques, Journal of Computing in Civil Engineering, 20(4), pp.261-270 https://doi.org/10.1061/(ASCE)0887-3801(2006)20:4(261)
  7. Wang, Z., Wang, Y., Gao K. (2005) A new model of document structure analysis, Lecture Notes in Computer Science, 3614, pp.658-666 https://doi.org/10.1007/11540007_81
  8. Zhu, Y., Issa, R.R. A., Cox, R.F. (2001) Web-based construction document processing via malleable frame, Journal of Computing in Civil Engineering, 15(3), pp.157-169 https://doi.org/10.1061/(ASCE)0887-3801(2001)15:3(157)