• 제목/요약/키워드: 문서구조

검색결과 1,614건 처리시간 0.032초

문서 영상의 논리적인 구조 분석을 위한 문서 모델의 자동 생성 (An Automated Creation of Document Model for Logical Structure Analysis of Document Images)

  • 이경호;최윤철;조성배;고견
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2000년도 추계학술발표논문집
    • /
    • pp.103-106
    • /
    • 2000
  • 본 논문에서는 문서 영상으로부터 전자 문서를 자동 생성하기 위한 논리적인 구조 분석을 효율적으로 지원하기 위하여 문서 모델의 자동 생성과 점증적인 학습 기법을 제안한다. 이를 위하여 문서 유형의 논리적인 구조 정보와 기하적인 특성을 효과적으로 기술할 수 있는 문서 모델을 정의한다. 특히 제안된 방법은 문서 모델의 생성 결과로부터 SGML DTD와 DSSSL 스타일 시트를 생성하기 때문에 문서의 재 사용성과 호환성을 지원한다.

  • PDF

SGML 정보검색 인덱스 설계를 위한 K-ary 트리, 문서단위 구문 트리와 에리먼트 단위 구문 트리의 비교 (Comparison of K-ary tree, Document-unit parser tree and Element-unit parser tree for SGML IR index design)

  • 손정한;한성근;장재우;주종철
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1998년도 가을 학술발표논문집 Vol.25 No.2 (1)
    • /
    • pp.383-385
    • /
    • 1998
  • ISO에서 문서 교환에 대한 표준으로 제시된 SGML(Standard Generalized Markup Language)은 논문이나 보고서와 같이 내부적으로 복잡한 구조를 가지는 문서를 효과적으로 처리하기 위해 매우 융통성 있는 문법을 제공하고 있다. 이에 각 기업체나 행정기관에서는 기존의 전자 문서들을 SGML 문서로 변환하는 작업이 활발히 진행되고 있다. 따라서 문서의 논리적 구조에 기반한 검색에 대한 요구도 크게 증가하고 있다. 본 연구에서는 SGML 문서의 기본단위인 엘리먼트 단위의 검객과 문서의 논리적인 구조에 기반한 검색을 효율적으로 지원하는 인텍스를 설계하기 위해, K-ary 트리, 문서단위 구문트리와 엘리먼트단위 구문 트리의 3가지 방법에 대해 저장 시간, 삭제 시간, 검색 시간, 부가 저장 공간 측면에서 수학적 모델로서 성능평가를 수행한다.

XML 문서의 검색을 위한 효율적인 색인 기법과 질의 언어(TQL)의 설계 (Efficient Indexing Technique for Retrieval of an XML Document and Design of Query Language (TQL))

  • 이계준;신동욱;권택근
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (1)
    • /
    • pp.57-59
    • /
    • 1999
  • 현재 WWW(World Wide Web), 사무 자동화 시스템(Office Information System), 전자 도서관(Digital Library) 등의 빠른 발전으로 인하여 정보가 기하급수적으로 증가하였다. 이러한 방대한 양의 정보를 처리하기 위하여 많은 인터넷 기반의 문서 표준들이 출현하였고, 대표적으로 XML(eXtensible Markup Language)이 차세대 인터넷 전자 문서의 표준으로 많은 곳에 응용되고 있다. 이에 따라 XML 문서의 정보들을 효율적이고 정확하게 저장하고 이용, 검색 할 수 있는 기능을 요구되어졌다. 현재 대부분의 연구들은 XML 문서에 대한 구조적인 정보만을 저장하고 검색하는 기능만을 지원 할 뿐 검색된 결과에 대한 재사용이나 재구성에 대한 기능의 제공은 미흡한 실정이다. 본 논문에서는 현재 검색기들이 제공하는 XML 문서에 대한 구조적인 검색 기능을 확장하여 XML 문서를 보다 효율적으로 검색하기 위하여 새로운 색인 기법을 제안하고, 데이터베이스 내에 저장된 XML문서에 대해 구조적인 검색과 이것을 바탕으로 문서를 재구성하고 재사용하는 기능을 수행할 수 있도록 새로운 질의어(TQL)을 설계하였다.

  • PDF

메타 검색엔진을 위한 페이지 변경 탐지기 설계 (Design of A Page Modification Detector for Meta-search Engines)

  • 박상위;오정석;이상호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (B)
    • /
    • pp.205-207
    • /
    • 2001
  • 웹 상의 HTML 문서들은 수시로 변경되고 있으며, 정보를 검색하는 웹사이트 또한 예외는 아니다. 다수의 웹 검색엔진들의 결과를 통합하는 메타 검색엔진은 각 검색엔진의 정보 변경에 민감해야 된다. 본 논문은, 수시로 변경되는 검색엔진들의 HTML 문서 정보를 메타 검색 엔진에 반영하기 위해, 자동적으로 검색엔진들의 질의 형태 변경과 검색 엔진의 검색 결과 HTML 문서의 구조 변경 탐지는 질의 결과가 반복되는 HTML 태그(tags) 문서 구조를 패턴(pattern)으로 이용한다. 패턴 발견 알고리즘은 문자열에서 규칙적으로 발생하는 패턴을 찾아내는 Jaak Vilo 알고리즘을 기반으로 HTML 문서를 처리할 수 있도록 확장하였다. 발견된 HTML 문서 패턴과 기존의 검색 엔진 HTML 페이지의 구조적 패턴 정보를 비교하여 문서 구조 변경을 탐지한다.

  • PDF

XML 문서의 구조와 내용을 고려한 유사도 측정 (Similarity Measure based on XML Document's Structure and Contents)

  • 김우생
    • 한국멀티미디어학회논문지
    • /
    • 제11권8호
    • /
    • pp.1043-1050
    • /
    • 2008
  • XML(Extensible Markup Language)은 인터넷 상에서 데이터 표현과 교환을 위한 표준으로 자리 잡고 있다. 웹의 발전과 함께 XML문서들이 정보 검색, 문서 관리, 데이터 마이닝 등의 응용에서 폭 넓게 사용되면서 구조적으로 정보가 풍부한 이러한 문서들을 자동으로 처리하고 검색하는 기술들이 요구되고 있다. 본 연구에서는 XML 문서 의 구조와 내용을 고려하여 유사한 문서들을 검색하는 새로운 방법을 제안한다. XML 문서의 구조적 유사성은 간단한 스트링 매칭 기법으로 찾고, 문서 내용의 유사성은 문서 요소(element)들의 이름과 경로를 고려한 가중치를 통해 찾는 방법으로 전체의 시간 복잡도는 비교되는 두 문서의 크기에 선형적으로 비례한다.

  • PDF

손으로 설계한 서식 문서의 주요점 검출 및 서식 구조 벡터화 (Main Points Extraction and Layout Vectorization of Hand-designed Forms)

  • 김병용
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2001년도 추계학술발표논문집 (상)
    • /
    • pp.519-522
    • /
    • 2001
  • 본 논문은 손으로 자유롭게 그린 서식 문서의 주요점을 검출하여 서식의 구조를 벡터화하는 방법을 제안한다. 선 성분의 주요점을 검출하여 그 구조를 벡터화하는 방법은 주로 인쇄 서식 문서의 구조 분석에 적용하기 좋은 방법이다. 이에 반해 손으로 설계한 서식 문서는 주요점 부분이 왜곡되어 있기 때문에 주요점의 검출이 손쉽게 이루어지기 곤란하다. 이 논문에서는 이러한 문제를 해결하기 위해 손으로 설계한 서식 문서를 세선화한 다음 여유 성분을 갖는 마스크를 적용하고 후처리를 통해 주요점 부분의 심한 왜곡을 보상하는 방법을 제안하여 손으로 설계한 서식 문서에서도 주요점의 검출이 가능하도록 하였다. 제안한 방법의 유효성을 확인하기 위한 실험 결과 손으로 설계한 서식의 경우 91.9%, 인쇄 서식의 경우 100%의 벡터화 성공률을 보여주어 제안한 방법이 손으로 설계한 서식 구조의 벡터화에 유효함을 확인하였다.

  • PDF

SGML 한글문서의 논리적 구조에 근거한 색인기법에 관한 연구 (A Study of Automatic Indexing Technique based on Logical Structure of SGML Hangul Document)

  • 유석종
    • 정보관리학회지
    • /
    • 제12권2호
    • /
    • pp.85-101
    • /
    • 1995
  • 기존 색인 시스템은 전자문서에 대하여 전문색인 (full-text indexing) 방법만을 지원하며, 문서의 논리적 구조를 검색 방법으로 적절하게 활용하지 못하고 있다. 대부분의 전자문서는 특정 시스템에 의존적인 형식으로 되어 있으며, 문서의 물리적 형태만을 나타내고 논리적 구조에 대한 정보는 포함하고 있지 않다. 이에 반해 1986년에 ISO에서 문서교환에 대한 표준방식으로 제정한 SGML (Standard Generalized Markup Language)은 문서의 논리적 구조에 대한 정보를 포함하고 있다. 본 논문에서는 기존의 전문색인 시스템의 단점을 보완하고 표준문서형식을 사용하기 위해 SGML 문서에서의 색인 시스템을 설계 구현하고자 한다. 기존 색인 시스템에서는 문서 전체에 대하여 색인이 이루어지는데 비하여 본 시스템에서는 SGML 문서의 구성요소인 엘리먼트에 기반하여 색인 영역을 지정할 수 있게 하엿다. 따라서 문서의 논리적 구조를 반영한 다양한 검색기법에 응용될 수 있다. 또한 본 시스템에서는 SGML 한글문서에 대하여 자동색인이 가능하다.

  • PDF

XML 문서의 공통구조를 이용한 효율적인 릴레이션 스키마 추출기법 (An Efficient Relational Schema Extracting Technique Using Common Stricture in XML Documents)

  • 안성은;이정선;최황규
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 봄 학술발표논문집 Vol.29 No.1 (B)
    • /
    • pp.49-51
    • /
    • 2002
  • XML은 웹 상에서 데이터를 표현하고 교환하기 위안 표준으로 등장하고 있다 최근에 웹 상에서 다루어지는 데이터의 양이 급격하게 증가함에 따라 데이터의 형태는 구조적인 릴레이션 데이터에서 반 구조적인 데이터에 이르기까지 다양하다. 앞으로 웹에서 반 구조적 데이터를 대표할 XML 문서특이 많아지면 .1 데이터들간의 의미적 구조적 관계를 설정하는 스키마즐- 추출하여 그에 따라 데이터를 구조화 시켜 정보로써의 가치를 만들 수 있는 새로운 저장 기법들이 필요하다. 본 논문에서는 XML 문서의 DTD를 이용하여 통일한 DTD를 사용하는 XML 문서들의 공통구조론 추출하여 관계 데이터베이스 시스템에 XML 문서를 저장하기 위한 릴레이션 스키마 추출 기법을 제안한다.

  • PDF

메타 검색엔진을 위한 HTML 문서 변경 탐지기의 설계 및 구현 (Design and Implementation of an HTML Pages Modification Detector for Meta-search Engines)

  • 박상위;오정석;이상호
    • 정보처리학회논문지D
    • /
    • 제9D권3호
    • /
    • pp.345-354
    • /
    • 2002
  • 검색엔진의 HTML문서는 수시로 변경되고 있으며, 이는 각 검색엔진의 결과 문서를 통합하여 사용자에게 제공하는 메타 검색엔진의 기능을 저하시키는 요인이 된다. 이에 대한 해결방법으로 본 논문에서는 HTML 문서의 변경을 탐지하는 HTML문서 변경 탐지기를 설계하고 구현한다. 문서 변경 탐지기는 문서 구조를 추출하기 위해 위치 정보 알고리즘과 수정된 Jaak Vilo 알고리즘을 사용하고, 그 결과로 패턴을 추출한다. 문서 변경 탐지기는 HTML문서에서 반복적으로 출현하는 구조를 표현하는 패턴을 사용한다. 또한, 문서 변경 탐지기의 정확성을 측정하기 위하여 문서 변경에 대한 전략을 세우고 이를 기반으로 실험을 수행한다.

개체 구조에 따른 유전자 알고리즘 기반의 문서 클러스터링 성능 비교 (Comparison of Document Clustering algorithm using Genetic Algorithms by Individual Structures)

  • 최임천;쏭웨이;박순철
    • 한국산업정보학회논문지
    • /
    • 제16권3호
    • /
    • pp.47-56
    • /
    • 2011
  • 유전자 알고리즘을 문서 클러스터링에 적용하기 위해서는 적절한 개체 구조가 필요 하다. 기존의 유전자 알고리즘을 이용한 문서 클러스터링(DCGA)은 센트로이드 벡터 형식의 개체 구조를 사용하였다. 새로운 유전자 알고리즘을 이용한 문서 클러스터링(NDAGA)은 문서 할당 형식의 개체 구조를 사용한다. 본 논문에서는 문서 클라스터링에 더 적합한 개체 구조와 연산을 결정하기 위해 두 개체 구조의 차이에 따른 연산, 연산량, 클러스터링 수행 시간, 성능을 구체적으로 비교, 분석한다. 본 논문에서 수행한 다양한 실험에서 NDCGA가 DCGA와 비교하여 15%정도 더 빠른 수행 시간과, 약 5~10% 정도 더 높은 성능을 보여, 문서 할당 형식의 개체 구조가 센트로이드 벡터 형식의 개체 구조 보다 문서 클러스터링에 적합한 것을 증명한다. 또한 NDCGA는 전통적인 클러스터링 알고리즘들(K-means, Group Average)에 비해서 15~20% 더 좋은 성능을 보였다.