• Title/Summary/Keyword: 문서지

검색결과 2,040건 처리시간 0.202초

펜 기반 웹 문서 교정을 위한 모호성 문제 해결에 관한 연구 (A Study on Ambiguity Resolving for Pen-based Proofreading of Web Documents)

  • 손원성
    • 정보교육학회논문지
    • /
    • 제11권1호
    • /
    • pp.107-116
    • /
    • 2007
  • 전자펜을 이용한 문서교정 시스템에서 정확한 교정결과를 보장하기 위해서는 문서 교정자가 드로잉한 교정부호와 문서내용간의 영역 모호성(ambiguity)을 해결하여야 한다. 한편 교정의 대상이 되는 전자문서가 HTML/XML과 같은 경우 교정된 문서구조가 반드시 기 정의된 DTD를 위배하지 않아야 한다. 본 논문에서는 펜 기반의 교정시스템에서 교정부호(마킹)와 대상문서간의 모호성 문제를 최소화하기 위한 기법을 제안한다. 제안 인터페이스에서는 모호성 문제를 최소화하기 위하여 교정부호와 문서간의 컨텍스트(Context)를 반영하였으며 동시에 대상문서의 문서 구조를 유지하기 위한 방법을 제공한다. 그 결과 본 논문에서 제안한 교정 인터페이스는 기존 교정시스템에 비하여 보다 정확한 영역정보를 포함할 수 있으며, 교정부호 입력에 따른 구조문서 변경시에도 원본문서의 DTD에 따르는 문서구조를 유지할 수 있다.

  • PDF

웹 문서로부터 논리적 구조 추출 (Extracting Logical Structure from Web Documents)

  • 이민형;이경호
    • 한국멀티미디어학회논문지
    • /
    • 제7권10호
    • /
    • pp.1354-1369
    • /
    • 2004
  • 본 논문에서는 웹 문서를 XML 문서로 변환하기 위한 논리적 구조분석 방법을 제안한다. 제안된 방법은 비주얼 그룹화, 요소 식별, 그리고 논리적 그룹화의 세 단계로 구성된다. 특히 정교한 수준의 논리적 구조분석을 지원하기 위하여 특정 주제에 속하는 문서 유형의 논리적 계층 구조를 효과적으로 기술할 수 있는 문서 모델을 정의한다. 제안된 방법은 비주얼 그룹화를 통해서 추출된 시각적 계층구조와 문서 유형에 대한 논리적 구조 정보를 기술한 문서 모델에 기반하기 때문에 보다 정교한 수준의 구조 분석을 지원한다. 제안된 방법의 성능을 평가하기 위하여 웹으로부터 추출한 다수의 HTML 문서를 대상으로 실험한 결과, 기존 연구와 비교하여 논리적 구조분석을 성공적으로 수행하였다. 제안된 방법은 논리적 구조분석의 최종 결과로서 XML문서를 생성하기 때문에 문서의 재 사용성을 높인다.

  • PDF

문서 내용의 계층화를 이용한 문서 비교 방법 (Document Clustering Methods using Hierarchy of Document Contents)

  • 황명권;배용근;김판구
    • 한국정보통신학회논문지
    • /
    • 제10권12호
    • /
    • pp.2335-2342
    • /
    • 2006
  • 웹의 비약적인 성장으로 웹에는 무수한 정보를 축적하고 있으며, 특히 텍스트 문서는 인간에 의해 가장 쉽게 그리고 많이 이용되는 형식이라 하겠다. 텍스트 문서의 효율적 검색을 위해 많은 연구가 이루어졌으며, 확률을 이용한 방법, 통계적인 기법을 이용한 방법, 벡터 유사도를 이용한 방법, 베이지안 자동문서 분류 방법 등이 제안되었다. 그러나 이러한 기존의 방법들은 문서의 특징을 정확하게 반영할 수 없고, 의미적 검색이 이루어지지 않는 단점을 가지고 있다 이에 본 논문은 문서를 미리 분류하는 기존의 방법을 개선하기 위해, 유사한 문서를 의미적으로 찾아내기 위한 새로운 문서 분류의 척도를 제안하며 이를 적용하는 방법을 제시한다. 본 방법은 문서의 내용을 의미적인 계층으로 표현하고 중요 도메인에 가중치를 두며, 문서들간의 도메인 가중치와 도메인 내의 개념 일치도를 이용하여 유사도를 구한다.

비음수 행렬 분해와 군집의 응집도를 이용한 문서군집 (Document Clustering Method using Coherence of Cluster and Non-negative Matrix Factorization)

  • 김철원;박선
    • 한국정보통신학회논문지
    • /
    • 제13권12호
    • /
    • pp.2603-2608
    • /
    • 2009
  • 문서군집은 정보검색의 많은 응용분야에 사용되는 중요한 문서 분석 방법이다. 본 논문은 비음수 행렬 분해 (NMF, non-negative matrix factorization)를 군집방법과 군집의 응집도(coherence of cluster)를 이용한 군집 내 문서들의 정제를 이용한 새로운 문서군집방법을 제안한다. 제안된 방법은 문서집합의 내부구조를 나타내는 의미특징행렬과 의미변수행렬 이용하여 문서군집의 성능을 높일 수 있고, 문장들 간의 유사도에 기반 한 군집의 응집도를 이용하여 군집내의 문서들을 정제하여서 재 할당함으로써 군집의 효율을 향상시킬 수 있다. 실험결과 제안방법을 적용한 문서군집방법이 다른 문서군집 방법에 비하여 좋은 성능을 보인다.

문서 처리 자동화를 위한 인보이스 이미지의 구조 인식 방법 (Structure Recognition Method of Invoice Document Image for Document Processing Automation)

  • 이동석;권순각
    • 한국산업정보학회논문지
    • /
    • 제28권2호
    • /
    • pp.11-19
    • /
    • 2023
  • 본 논문은 인보이스 문서 이미지에 문서 처리 자동화를 적용하기 위한 문서 구조 인식 방법과 문서 구조 인식 결과를 토대로 스프레드문서 형태로 출력하는 방법을 제안한다. 딥러닝 OCR 엔진을 통해 문서 내 단어 블록들과 해당 블록들의 문자 인식 결과를 얻는다. 단어 블록의 위치 정보들을 통해 같은 행과 같은 열에 존재하는 단어 블록들을 검출한다. 단어 블록들의 배치 정보를 통해 문서 영역을 분할한다. 문서의 구역 정보를 통해 얻어진 문서 구조를 토대로 스프레드시트의 알맞은 위치에 문자 인식 결과를 입력한다. 실험 결과 제안된 방법을 통한 항목 배치는 평균 92.30%의 정확도를 보인다.

문서 단위 순위화를 통한 XML 문서에 대한 키워드 검색 성능 향상 (Accelerating Keyword Search Processing over XML Documents using Document-level Ranking)

  • 이형동;김형주
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제33권5호
    • /
    • pp.538-550
    • /
    • 2006
  • XML 문서에 대한 키워드 검색은 사용자로 하여금 XML 문서의 복잡한 구조에 관한 지식 없이 쉽게 정보를 검색할 수 있게 해준다. 또한 사용자의 정보 요구에 대해 해당 정보를 포함하는 문서 전체를 반환하는 기존의 정보 검색 시스템과 달리 문서 내의 해당 정보를 포함하는 문서 조각을 결과로 반환함으로써 보다 빠르게 원하는 정보를 얻을 수 있도록 도와준다. 이러한 특징은 XML 문서 검색 시스템이 XML 문서를 문서 단위가 아닌 세부적인 엘리먼트 단위로 처리함으로써 가능하다. 하지만 이로 인해 대용량 문서들에 대한 질의 처리 부담 역시 가중되었다. 본 논문에서는 엘리먼트 단위 질의 처리의 비용을 줄이기 위해 XML 문서에 대한 문서 단위 순위화 기법을 제안하는데, 이는 결과물의 점수에 영향을 미치는 질의 키워드들의 문서 내에서의 근접도를 경로 노드 집합 정보와 이에 대한 유사도를 통해 구함으로써 엘리먼트 단위 질의 처리 결과를 예측하고 문서 단위 점수를 계산한다. 이러한 문서 중심의 뷰는 대용량 문서에 대한 순위화 혹은 필터링을 가능하게 해주며, 우리는 문서 단위 인덱스를 통해 순위가 높은 문서를 우선적으로 처리함으로써 Top-k 질의에 대해 검색 성능을 높였으며, 실험을 통해 해당 기법의 유효성과 성능 향상을 검증하였다.

인자점수와 자기조직화지도를 이용한 희소한 문서데이터의 군집화 (Sparse Document Data Clustering Using Factor Score and Self Organizing Maps)

  • 전성해
    • 한국지능시스템학회논문지
    • /
    • 제22권2호
    • /
    • pp.205-211
    • /
    • 2012
  • 통계학과 기계학습의 다양한 기법을 이용하여 문서집합을 군집화하기 위해서는 우선 군집화분석에 적합한 데이터구조로 대상 문서집합을 변환해야 한다. 문서군집화를 위한 대표적인 구조가 문서-단어행렬이다. 각 문서에서 발생한 특정단어의 빈도값을 갖는 문서-단어행렬은 상당부분의 빈도값이 0인 희소성문제를 갖는다. 이 문제는 문서군집화의 성능에 직접적인 영향을 주어 군집화결과의 성능감소를 초래한다. 본 논문에서는 문서-단어행렬의 희소성문제를 해결하기 위하여 인자분석을 통한 인자점수를 이용하였다. 즉, 문서-단어행렬을 문서-인자점수행렬로 바꾸어 문서군집화의 입력데이터로 사용하였다. 대표적인 문서군집화 알고리즘인 자기조직화지도에 적용하여 문서-단어행렬과 문서-인자점수행렬에 대한 문서군집화의 결과들을 비교하였다.

XML 문서 저장관리 시스템을 위한 효율적인 버전닝 기법 (An Efficient Versioning Method for XML Document Repository System)

  • 손충범;배양석;유재수
    • 인터넷정보학회논문지
    • /
    • 제3권4호
    • /
    • pp.37-50
    • /
    • 2002
  • XML 문서 저장관리 시스템은 손실없이 XML 문서를 저장. 수정하고 관리하는 수직과 수평 버전들을 관리할 수 있어야 한다. 그러나 대부분의 기존 XML 문서 저장관리 시스템들은 버전닝 기법을 지원하지 않고 있다. 일부 버전닝을 지원하는 시스템들은 XML 문서들의 수직적인 버전들만을 관리한다. 수직 버저닝은 문서의 변경 이력만을 유지하는 반면에. 수평 버전닝은 한 문서를 여러 개의 버전들로 분기하게 함으로써 사용자들은 보다 넓게 원본 문서로부터 새로운 문서들을 생성할 수 있고 다른 의미를 갖는 문서로 편집할 수 있다. 이 논문에서는 수직 및 수평 버전닝을 효과적으로 지원하기 위한 새로운 버전 번호부여 방법을 제안한다. 또한, 버전닝을 지원하며 XML 문서의 특징인 정보 구조화의 패러다임을 유지하는 스키마를 설계한다.

  • PDF

웹에서 SMIL 기반 멀티미디어 문서의 동적 생성 (Dynamic Generation of SMIL based Multimedia Documents on the Web)

  • 김경덕
    • 한국멀티미디어학회논문지
    • /
    • 제4권5호
    • /
    • pp.439-445
    • /
    • 2001
  • 본 논문에서는 SMIL 기반 멀티미디어 문서를 웹에서 동적으로 생성하는 방법을 제안한다. 생성되는 멀티미디어 문서는 W3C에서 권장하는 SMIL(Synchronized Multimedia Integration Language)을 사용한다. 제안한 방법은 사용자 프로파일에 따라 자동적으로 XSLT 문서를 생성한 후, 미리 작성된 XML 문서와 결합하여 SMIL 문서를 실시간으로 생성한다. 기존 대부분의 웹 문서가 HTML에 기반함으로써 재사용성 및 문서에 포함되는 객체들의 동기적 관계의 지원이 어렵지만, 제안된 방법은 XML에 기반함으로써 재사용성을 지원하고 SMIL에 기반한 다양한 멀티미디어 문서를 효율적으로 생성한다. 적용한 예로서, 원격 강의에서 학습자에 따라 문서 생성 시스템을 보였으며, 응용 분야로는 전자 상거래, 원격 강의, 웹기반 멀티미디어 문서 편집 등이다.

  • PDF

ODA에 근거한 문서 클래스 에디터 설계 및 구현 (Implementation and Design of Document Class Editor based on ODA)

  • 정회경;이수연
    • 한국통신학회논문지
    • /
    • 제17권12호
    • /
    • pp.1412-1422
    • /
    • 1992
  • 본 논문은 이 기종 문서처리 시스템간에 문서교환을 위해 국제 표준으로 재정된 ODA에 따른 문서 클래스(class) 에디터 설계 및 구현에 대하여 기술하였다. ODA에서처럼 문서구조를 공통 논리구조와 배치구조로 분리하여 처리하였으며, 문서 프로화일을 작성 할 수 있도록 설계하였다. 문서가 정확하게 작성되었는지를 객체(object) 단위로 확인할 수 있는 유틸리티(utility)를 구현하였다. 또한 그 문서의 ODIF 스트림(stream) 데이타가 정확한지를 확인하였다. 본 에디터는 국제 문서 응용 프로화일 (DAP : Document Application Profile)인 DAP 단계 2의 제안에 따라 설계하였으며, UNIX 운영체제의 SUN 워크스테이션상에서 이식성이 좋고 일관된 사용자 인터페이스(interface)를 제공하는 X 윈도우 및 Motif 환경하에서 구현하였다. 본 연구를 통하여 구현된 에디터는 특정 문서구조를 갖는 실제 ODA 문서를 작성시 이용될 수 있다.

  • PDF