• Title/Summary/Keyword: 구조적 문서

Search Result 1,220, Processing Time 0.034 seconds

Logical Structure Analysis of Topic-specific Web Documents (특정 주제 웹문서의 논리적 구조 분석)

  • 이민형;이경호
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04b
    • /
    • pp.157-159
    • /
    • 2004
  • 본 논문에서는 웹 문서를 XML 문서로 변환하기 위한 논리적 구조분석 방법을 제안한다. 제안된 방법은 비주얼 그룹화, 요소 식별, 그리고 논리적 그룹화의 세 단계로 구성된다. 특히 정교한 수준의 논리적 구조분석을 지원하기 위하여 특정 주제에 속하는 문서 유형의 논리적 계층 구조를 효과적으로 기술할 수 있는 문서 모델을 정의한다. 제안된 방법은 비주얼 그룹화를 통해서 추출된 시각적 계층구조와 문서 유형에 대한 논리적 구조 정보를 기술한 문서 모델에 기반하기 때문에 보다 정교한 수준의 구조 분석을 지원한다. 제안된 방법의 성능을 평가하기 위하여 웹으로부터 추출한 다수의 HTML 문서를 대상으로 실험한 결과, 기존 연구라 비교하여 논리적 구조분석을 성공적으로 수행하였다. 제안된 방법은 논리적 구조분석의 최종 결과로서 XML 문서를 생성하기 때문에 문서의 재 사용성을 높인다.

  • PDF

Design and Implementation of XML Document Generator with Similar Structure (유사 구조를 갖는 XML 문서 생성기의 설계 및 구현)

  • 이범석;이재민;황병연
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.10b
    • /
    • pp.163-165
    • /
    • 2004
  • 여러 장점을 가지고 점차 그 사용이 증가하고 있는 XML은 내용뿐만 아니라 그 구조적 정보까지 포함하고 있는 특징을 가지고 있는데, 이러한 XML 문서를 효율적으로 검색하기 위해 구조 유사성을 기반으로 하는 검색 기법이 개발되고 있다. 새롭게 개발되는 유사한 구조의 XML 문서를 검색하는 시스템의 성능 평가를 위해서는 구조적으로 유사한 다량의 XML 데이터가 필요하다. 본 논문에서는 지금까지 개발되었던 유사 구조 문서 생성기를 바탕으로 사용자가 원하는 데이터 구조를 생성하는데 보다 효과적인, 유사 구조를 갖는 XML 문서 생성기인 xTrans를 설계 및 구현한다. xTrans는 원본 XML 문서에 삽입, 삭제, 치환의 세 가지 연산을 이용하여 사용자가 원하는 일정한 비율만큼의 구조적 변화를 일으키는데, 그러한 연산은 불규칙한 위치에서 생성되므로, 같은 비율의 변화가 일어난 여러 개의 유사 구조 문서를 생성할 수 있다. 사용자는 각 연산의 변형 비율을 지정해주어 원하는 만큼 변형시킨 문서를 생성하고, 이 문서들을 이용하여 새롭게 개발되는 유사 구조 문서 검색 시스템의 성능평가에 활용할 수 있다.

  • PDF

A Syntactic Approach for Logical Structure Analysis of Document Images (문서 영상의 논리적인 구조 분석을 위한 구문론적인 접근 방식)

  • Lee, Gyeong-Ho;Choe, Yun-Cheol;Jo, Seong-Bae
    • Journal of KIISE:Software and Applications
    • /
    • v.28 no.7
    • /
    • pp.524-536
    • /
    • 2001
  • 본 논문에서는 다수의 페이지로 구성된 복잡한 구조의 문서로부터 SGML/XML에 기반한 전자 문서를 생성하기 위한 구문론적인 구조분석 방법을 제안한다. 특히 제안된 파싱 기법은 텍스트 라인을 기본 단위로 하는 기존 연구보다 논리적인 계층 구조를 보다 정확하고 빠르게 생성하기 위하여 텍스터 영역의 계층적인 트리 구조를 입력으로 받아들인다. 또한 문서 유형의 논리적인 구조 정보와 기하적인 특성을 효과적으로 기술할 수 있는 문서모델을 정의하고, 이의 자동 생성과 점증적인 학습 방법을 제안한다. 제안된 방법의 성능을 평가하기 위하여 과학 기술 논문으로부터 스캐닝한 372개의 논문 연상으로 실험한 결과, 제안된 방법은 기존 연구와 달리 다수의 문서 영상으로 구성된 문서에 대하여 논리적인 구조분석과 문서 모델의 자동 생성을 효율적으로 지원하였다. 특히 제안된 방법은 논리적인 구조분석의 최종 결과로서 SGML/XML 문서를 생성하기 때문에 문서의 재 사용성과 호환성을 높인다.

  • PDF

Development of a Form-based XML Editing and Converting System Using Integrated DTD (통합 DTD를 이용한 폼(Form) 기반 XML 편집 및 변환 시스템 개발)

  • 손원성;이현찬;김재경;최윤철;유범종
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 2000.11a
    • /
    • pp.3-7
    • /
    • 2000
  • 전자문서를 정의하기 위해서는 구조문서 정의가 가능한 SGML(Standard Generalized Markup Language) 및 XML(eXtensible Markup Language), 그리고 웹문서를 위한 HTML을 이용할 수 있다. 그러나 SGML은 매우 복잡한 구문을 포함하기 때문에 일반 사용자들이 쉽게 사용하기가 어렵고 HTML은 비 구조적인 문서정보 및 스타일 정보를 포함하기 때문에, 근래에 개발된 대부분의 전자문서 시스템에서는 XML을 응용하고 있다. 전자문서 시스템은 복잡한 구조의 다양한 문서들을 포함하고 있으며 이러한 문서들은 DTD를 정의하고 있기 때문에 DTD의 구조 정의 및 관리가 매우 비효율적이다. 따라서 본 연구에서는 다양한 구조를 모두 표현할 수 있는 통합 DTD를 정의하고 이를 효율적으로 관리 및 처리하기 위한 폼 기반 구조문서 처리 방법을 제안한다. 통합 DTD와 폼을 통하여 사용자는 폼 단위의 문서 인스턴스만을 입력 및 편집함으로써 복잡한 DTD 구조에 독립적으로 문서를 처리할 수 있으며, 처리된 문서는 DTD에 위배되지 않는 정확한 XML 인스턴스가 된다. 또한 기존의 HTML문서를 XML로 변환하기 위하여 본 논문에서는 누구나 손쉽게 사용할 수 있는 중간단계(semi-auto)의 XML 변환시스템을 제공한다. 그 결과 본 연구에서 개발한 시스템에서는 다양하고 복잡한 문서에 대하여 효율적인 문서구조가 가능하고, XML문서를 폼을 이용하여 누구나 쉽고, 정확하게 작성할 수 있다. 그리고 웹에서 사용된 HTML 문서를, 본 연구에서 정의한 통합 DTD구조에 일치하는 XML 문서로 간단히 변환할 수 있다.

  • PDF

A Design of an Efficient Index Organization for XML Documents (XML 문서를 위한 효율적인 색인구조의 설계)

  • 안선하;박경환
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 2000.04a
    • /
    • pp.292-295
    • /
    • 2000
  • XML은 메타언어로써 구조적인 문서를 생성할 수있게 하며 이러한 구조적인 문서는 내용 기반검색,질의등의 처리가 가능하다는 것이다. XML문서의 논리적 구조를 표현하는 방법은 사용자 정의 문서타입(DTD)과 XML Schema 의 두가지 방식이 있으며, XML Schema 는 사용자 정의문서타입(DTD)에 비해 다양한 데이터 타입, namespace, Open-ended 데이터 모델등을 지원하여 문서의 구조 정의를 훨씬 더 유연하고 명시적이게 하게 하는 장점이있다. 본 논문에서는 XML 문서 검색을 위해 XML Schemadp 기반하여 내용 검색과 구조 검색을 효율적으로 지원하는 인덱스 구조를 제안한다. 요소들의 정의에 따르면 계층관계를 표현하기위한 구조정보와 XML 문서 인스턴스에서 나타나는 각 요소들의 순서정보를 요소의 ID로 사용함으로써 임의의 요소를 효율적으로 접근할 수 있게 한다.

  • PDF

Extracting Logical Structure from Web Documents (웹 문서로부터 논리적 구조 추출)

  • Lee Min-Hyung;Lee Kyong-Ho
    • Journal of Korea Multimedia Society
    • /
    • v.7 no.10
    • /
    • pp.1354-1369
    • /
    • 2004
  • This paper presents a logical structure analysis method which transforms Web documents into XML ones. The proposed method consists of three phases: visual grouping, element identification, and logical grouping. To produce a logical structure more accurately, the proposed method defines a document model that is able to describe logical structure information of topic-specific document class. Since the proposed method is based on a visual structure from the visual grouping phase as well as a document model that describes logical structure information of a document type, it supports sophisticated structure analysis. Experimental results with HTML documents from the Web show that the method has performed logical structure analysis successfully compared with previous works. Particularly, the method generates XML documents as the result of structure analysis, so that it enhances the reusability of documents.

  • PDF

Logical Structure Analysis for Structured Document Generation A Syntactic Approach (구조화된 문서 생성을 위한 논리적인 구조 분석 기법 : 구문론적인 접근방식)

  • 이경호;최윤철;조성배
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10a
    • /
    • pp.175-177
    • /
    • 2000
  • 본 논문에서는 다수의 페이지로 구성된 복잡한 구조의 문서로부터 SGML/XML에 기반한 전자 문서를 생성하기 위한 구문론적인 구조분석 방법을 제안한다. 제안된 방법은 구조분석의 정확성과 처리속도의 향상을 위하여 텍스트 영역의 계층적인 트리를 파싱하여 논리적인 계층 구조를 추출한다. 또한 본 논문은 문서 유형의 논리적인 구조 정보와 기하적인 특성을 효과적으로 기술할 수 있는 문서 모델을 정의한다. 제안된 방법의 성능을 평가하기 위하여 IEEE Transactions on Pattern Analysis and Machine Intelligence로부터 스캐닝한 372개의 논문 영상으로 실험한 결과, 제안된 방법은 기존 연구와 달리 다수의 문서 영상으로 구성된 문서에 대하여 논리적인 구조분석을 효율적으로 지원하였다. 특히 제안된 방법은 논리적인 구조분석의 최종 결과로서 SGML/XML 문서를 생성하기 때문에 문서의 재사용성과 호환성을 높인다.

  • PDF

Design and Implementation of a Retrieval System for SGML Documents (SGML 문서 검색시스템의 설계 및 구현)

  • 고승규;조승기;백승욱;이경호;최윤철
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1999.10a
    • /
    • pp.84-86
    • /
    • 1999
  • 문서의 논리적 구조정보를 표현하는 SGML 문서는 CALS, 디지털 도서관(Digital Library), 인터넷 분야에서 많이 사용되고 있다. 이렇게 SGML 문서들이 널리 사용됨에 따라 문서들의 효율적인 관리가 필요하게 되었고, 사용자가 원하는 문서를 정확하고 신속하게 검색해 줄 수 있는 검색 시스템의 개발이 필요하게 되었다. 좀 더 정확한 문서를 검색해 내기 위해서는 SGML 문서의 특징인 구조정보를 이용한 검색이 필수적이다. 이에 본 연구에서는 효율적인 SGML 문서의 검색을 위한 구조적 기반의 질의어로 eXQL을 정의하고, 이를 지원하는 검색시스템을 개발하였다. 특히 질의어에 경로 연산자를 지원하여 원하는 정보를 정확하게 찾을 수 있도록 하였다. 또한 본 시스템은 구조적인 검색을 효율적으로 지원하기 위하여 구조정보를 DSSL의 Grove에 기반한 구조로 저장한다.

  • PDF

Development of a Form-based XML Editing System for Efficient Processing of Variously Structured Documents (다양한 구조 문서를 효율적으로 처리하기 위한 폼(Form) 기반 XML 편집 시스템 개발)

  • 손원성;김재경;고승규;최윤철
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10b
    • /
    • pp.257-259
    • /
    • 2000
  • 다양한 전자문서를 효율적으로 처리하기 위해서는 구조문서 정의가 가능한 SGML(Standard Generalized Markup Language)이나 XML(eXtensible Markup Language)을 이용할 수 있다[1,2]. SGML 및 XML과 같은 구조문서를 생성하기 위해서는 별도의 편집기가 필요하며 현재 다양한 제품이나 연구결과를 살펴볼 수 있다[3,4]. 그러나 기존의 입력, 편집 시스템에서는 사용자가 작성하려는 문서에 대한 구조를 숙지하여야 하는 동시에, DTD(Document Type Definition)에 대한 지식을 필요로 한다. 이를 인해 복잡한 구조의 SGML 및 XML 문서를 일반인들이 사용하기 어렵고, 작성한 결과에 대한 검증 과정이 필수적으로 요구된다. 또한 다양한 분야에서 적용 가능한 전자문서 시스템을 위해서는 효과적인 통합 DTD의 정의와 처리 방법이 필요하다. 따라서 본 논문에서는 구조화 문서에 대한 지식이 없는 일반인들도 쉽게 구조문서 작성이 가능하며, 통합적 DTD의 효율적인 처리가 가능한 Form 기반 편집 시스템의 모델을 제시하며, 특히 웹에서도 적용이 가능한 XML을 지원한다. 그 결과 본 연구에서 개발한 XML 편집 시스템은 Form 기반의 통합 DTD 처리와 XML 문서 작성 및 출력 기능, 그리고 이미지, 테이블 기능 등을 제공함으로써 누구나 쉽고 정확한 XML 문서를 작성할 수 있다.

  • PDF

Method of storing nested DTD structure and Query translation strategy in XML Repository system (XML 문서 관리 시스템의 순환적 DTD 구조 저장 기법 및 질의 변환 전략)

  • 김정은;신판섭;정헌석;이재호;임해철
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10a
    • /
    • pp.299-301
    • /
    • 2000
  • XML은 문서의 구조를 독립적으로 작성할 수 있어 문서의 체계적인 구조화가 가능하다. 이러한 이유로 최근, XML 문서를 구조화하여 데이터베이스에 저장, 관리하는 XML 문서 관리 시스템 연구가 활발하다. XML 문서 관리 시스템은 XML의 구조 정보를 효과적으로 표현하기 위해 여러 가지 기법을 사용하고 있다. 그러나, 기존의 방법들은 XML 문서 구성에 따라 저장 스키마가 유동적이거나 문서 정보 검색의 제약을 가지고 있을 뿐만 아니라, DTD의 문서 구조가 순환 관계와 같이 복잡한 형태를 지닐 때, 그 구조를 적절히 반영하지 못하거나, 구조를 반영하더라도 검색 시, 모든 요소를 순차적으로 탐색해야 하는 등의 문제점을 지니고 있다. 따라서 본 연구에서는 XML의 내용이나 구성에 영향받지 않는 저장 스키마를 설계하고 정보검색의 제약을 해결가능한 경로 정보를 제안한다. 또한 순환 관계를 갖는 DTD의 구조 정보를 비 순환 구조 부분과 순환 구조 부분으로 분리, 정의하고 질의처리 시, 입력되는 XML-QL을 SQL로 변환하기 위하여 XML-QL의 패턴을 분류하고 이에 따른 중간 단계의 SQL을 정의하여 질의어 변환기법을 제안한다.

  • PDF