• Title/Summary/Keyword: 문서분할

Search Result 177, Processing Time 0.022 seconds

A Transformation of XML Documents With Semantic Constraints (DTD의 의미 구조 분석을 이용한 XML 문서의 변환)

  • 곽동규;최종명;조용윤;유재우
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04b
    • /
    • pp.589.2-861
    • /
    • 2004
  • XML 문서를 변환하는 목적은 하나의 어플리케이션에서 사용되는 XML 문서를 다른 XML 어플리케이션에서 재 사용하여 사용자에게 동일한 정보를 제공하는데 있다 XML 문서는 어플리케이션 특성에 따라 한 문서에서 전달할 수 있는 정보의 량이 다르다. 따라서 문서를 변환하기 전에 어플리케이션의 특성에 따라 문서를 분할하거나 병합하여야 한다[1]. 또한, XML 문서의 정보는 속성에 따라 문법적인 특성을 가진다. 본 논문은 문벌적인 특성을 의미 속성이라 하고 의미 속성을 파악하기 위해 XML 문서의 의미 구조와 의미 구조 관계를 정의한다. 그리고 정의된 의미 구조와 의에 구조 관계를 이용하여 문서 정보의 속성을 분류하는 방법을 제안한다. 변환 규칙은 의ロP 구조 관계가 유사한 엘리먼트간의 대응으로 정의하고, 변환 규칙을 이용하여 문서 변환을 실행하여 변환 XML과 의미 관계 구조가 유사한 피 변환 XML 문서를 생성한다. 의미구조 분석을 이용한 변환은 기존의 사용 패턴을 분석한 변환에서 벗어나 DTD의 분석을 통한 자동화된 문서 변환 방법을 제공한다.

  • PDF

A New Document Codec System based on Wavelet Lifting and Bitplane Coding (웨이블릿 리프팅과 비트평면 부호화에 기반한 새로운 문서 코덱 시스템)

  • 이호석
    • Journal of Korea Multimedia Society
    • /
    • v.6 no.5
    • /
    • pp.805-815
    • /
    • 2003
  • In this paper, we present the development of document compression codec using segmentation, wavelet lifting and bitplane coding. We use the segmentation to preserve the text appearance. We performed integer-to-integer wavelet lifting and also performed bitplane subblock coding for document compression. We acquired a high compression ratio and an efficient compression by encoding only the significant subblocks in the bitplane subblock coding. We also implemented scalar quantization by subband-oriented bit shifting. The system performs color conversion and downsampling before wavelet lifting and also performs graycode conversion and quantization before subblock coding. In the experiment, we show the performances of the system by presenting the high compression ratios and high PSNR values.

  • PDF

Multi-Topic Meeting Summarization using Lexical Co-occurrence Frequency and Distribution (어휘의 동시 발생 빈도와 분포를 이용한 다중 주제 회의록 요약)

  • Lee, Byung-Soo;Lee, Jee-Hyong
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2015.07a
    • /
    • pp.13-16
    • /
    • 2015
  • 본 논문에서는 어휘의 동시 발생 (co-occurrence) 빈도와 분포를 이용한 회의록 요약방법을 제안한다. 회의록은 일반 문서와 달리 문서에 여러 세부적인 주제들이 나타나며, 잘못된 형식의 문장, 불필요한 잡담들을 포함하고 있기 때문에 이러한 특징들이 문서요약 과정에서 고려되어야 한다. 기존의 일반적인 문서요약 방법은 하나의 주제를 기반으로 문서 전체에서 가장 중요한 문장으로 요약하기 때문에 다중 주제 회의록 요약에는 적합하지 않다. 제안한 방법은 먼저 어휘의 동시 발생 (co-occurrence) 빈도를 이용하여 회의록 분할 (segmentation) 과정을 수행한다. 다음으로 주제의 구분에 따라 분할된 각 영역 (block)의 중요 단어 집합 생성, 중요 문장 추출 과정을 통해 회의록의 중요 문장들을 선별한다. 마지막으로 추출된 중요 문장들의 위치, 종속 관계를 고려하여 최종적으로 회의록을 요약한다. AMI meeting corpus를 대상으로 실험한 결과, 제안한 방법이 baseline 요약 방법들보다 요약 비율에 따른 평가 및 요약문의 세부 주제별 평가에서 우수한 요약 성능을 보임을 확인하였다.

  • PDF

Design of XPath Query Processor Using SQL: 1999 (SQL:1999를 이용한 XPath질의 처리기의 설계)

  • 황정수;홍의경
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.10b
    • /
    • pp.160-162
    • /
    • 2004
  • 인터넷에서 XML은 새로운 정보 환경의 요구사항인 확장성과 문서 관계성의 우수성을 만족하는 표준이다. 이러한 XML 문서 안의 정보 검색을 위해서 XPath 질의어가 널리 사용 중이다. 또한, XML 문서의 체계적인 운용을 위해 데이터베이스에 효율적으로 저장하고 검색하는 연구들이 진행되고 있다. 본 연구에서는 분할 저장 시스템에서 RDBMS 또는 ORDBMS에 XML 문서를 저장하고 검색할 수 있도록 하는 XPath 질의 처리기를 SQL:1999를 이용하여 설계함으로써 좀더 정확하고 빠르게 처리가 가능하도록 하였다.

  • PDF

Restoration of corrupted digit image Using 4-neighborhood mask and projection (4-방향마스크와 프로젝션을 이용한 손상된 문서에서의 숫자 영상 복원)

  • 최선아;윤미진;강동구;김도현;차의영
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.04b
    • /
    • pp.670-672
    • /
    • 2002
  • 본 논문에서는 잘못된 인쇄로 인한 문서상의 잡영이나 문자 훼손이 있는 문서를 복원 하고자 만다. 제안하는 방법은 스캐너로 읽어들인 문서영상을 잡영 제거론 만 다음 훼손된 숫자 영상에 대해서 프로젝션을 이용하여 숫자 열을 낱낱의 숫자로 분할한다. 각각의 숫자에 대해서 크기가 일정하도록 정규화를 시킨 다음, Backpropagalion을 이용하여 훼손된 숫자를 학습하였다. 학습시킨 다음 원 영상과 훼손된 영상을 각 픽셀단위로 비교하여 4-방향 마스크를 이용하여 원래의 숫자 영상으로 복원하도록 만다.

  • PDF

A Study on the Extraction into the Logical Structure of a Specific Document using Knowledge (지식을 이용한 특정 문서의 논리 구조 추출에 관한 연구)

  • 손영우;남궁재찬
    • The Journal of Information Technology and Database
    • /
    • v.3 no.1
    • /
    • pp.85-95
    • /
    • 1996
  • 본 논문은 특정문서에서 문서가 갖고 있는 일반적인 지식을 이용하여 논리적 항목을 추출하는 방법에 관한 연구이다. 먼저 입력된 문서의 영역 분할, 분리자 추출, 그리고 문자와 비문자를 구별하였다. 논리구조 추출단계에서는 구별된 요소의 상대적 크기, 위치 및 전후 블록들의 연관성에 관한 지식을 이용하여 각 블록들을 레이블링 하였고, 레이블된 항목들의 위치정보값을 이용하여 각 항목들을 자료화하였다. 마지막으로, 오분류된 항목에 대해서는 배치기술자를 이용한 검증을 통해 정정하였다. 본 논문에서 구현한 방법으로 실험한 결과 96.5%의 논리항목 추출율을 획득함으로써 그 유효성을 입증하였다.

  • PDF

The Efficient Schema Conversion to map the XML Document into the RDB (XML의 RDB로의 맵핑을 위한 효율적인 스키마 변환)

  • 김태희;김선경
    • Proceedings of the Korea Society for Industrial Systems Conference
    • /
    • 2003.11a
    • /
    • pp.429-433
    • /
    • 2003
  • 웹상의 문서는 데이터 중심의 표준 언어인 XML 문서로 표현된다. XML 데이터를 범용적이고 우수한 성능의 관계형 데이터베이스와 연동하여 이용하기 위해서는 두 구조 사이의 맵핑 과정이 필요하다. 계층적 구조의 XML 문서와 데이터베이스의 평면적인 구조의 차이를 고려한 구조 맵핑을 위해서 검색 시스템에 적합한 가상분할 방식으로 엘리먼트를 분석하여 관계 스키마를 정의한 후 XML 문서를 저장한다. 이를 위해 스키마는 DTD 에 독립적인 형태로 변환하고, 엘리먼트의 추가와 삭제, 검색의 효율성을 위해 노드간의 위치 정보와 함께 독립적인 ID를 부여하여 구조적 검색을 수행할 수 있게 하였다.

  • PDF

The Design & Implementation of Korean Hypertext Automatic Translator (한글 하이퍼텍스트 자동변환시스팀의 설계 및 구현)

  • Ahn, B.I.;Kim, Jay;Kim, Y.W.
    • Annual Conference on Human and Language Technology
    • /
    • 1993.10a
    • /
    • pp.91-98
    • /
    • 1993
  • 하이퍼텍스트는 문서검색 전산화의 새로운 대안을 제시하고 있으나 저작에 많은 시간과 노력이 요구되는 단점이 있다. 본 연구에서는 기존의 한글문서를 하이퍼텍스트 문서로 자동 변환하는 변환시스팀을 설계, 구현하였다. 문서는 사용자가 제공한 부제목형식의 정규표현식(regular expression)으로부터 논리적 구조가 분석되며 문서분할, 형태소분석, 대표카드결정 및 링크생성의 과정을 거쳐 하이퍼텍스트 문서로 변환된다. 시험운용 결과 본 시스팀은 대량의 한글문서를 적은 노력으로 실용성있는 하이퍼텍스트 문서로 자동 변환할 수 있음을 입증하였다.

  • PDF

The Region Analysis of Document Images Based on One Dimensional Median Filter (1차원 메디안 필터 기반 문서영상 영역해석)

  • 박승호;장대근;황찬식
    • Journal of the Institute of Electronics Engineers of Korea SP
    • /
    • v.40 no.3
    • /
    • pp.194-202
    • /
    • 2003
  • To convert printed images into electronic ones automatically, it requires region analysis of document images and character recognition. In these, regional analysis segments document image into detailed regions and classifies thee regions into the types of text, picture, table and so on. But it is difficult to classify the text and the picture exactly, because the size, density and complexity of pixel distribution of some of these are similar. Thu, misclassification in region analysis is the main reason that makes automatic conversion difficult. In this paper, we propose region analysis method that segments document image into text and picture regions. The proposed method solves the referred problems using one dimensional median filter based method in text and picture classification. And the misclassification problems of boldface texts and picture regions like graphs or tables, caused by using median filtering, are solved by using of skin peeling filter and maximal text length. The performance, therefore, is better than previous methods containing commercial softwares.

Document Image Layout Analysis Using Image Filters and Constrained Conditions (이미지 필터와 제한조건을 이용한 문서영상 구조분석)

  • Jang, Dae-Geun;Hwang, Chan-Sik
    • The KIPS Transactions:PartB
    • /
    • v.9B no.3
    • /
    • pp.311-318
    • /
    • 2002
  • Document image layout analysis contains the process to segment document image into detailed regions and the process to classify the segmented regions into text, picture, table or etc. In the region classification process, the size of a region, the density of black pixels, and the complexity of pixel distribution are the bases of region classification. But in case of picture, the ranges of these bases are so wide that it's difficult to decide the classification threshold between picture and others. As a result, the picture has a higher region classification error than others. In this paper, we propose document image layout analysis method which has a better performance for the picture and text region classification than that of previous methods including commercial softwares. In the picture and text region classification, median filter is used in order to reduce the influence of the size of a region, the density of black pixels, and the complexity of pixel distribution. Futhermore the classification error is corrected by the use of region expanding filter and constrained conditions.