• 제목/요약/키워드: 구조문서

검색결과 1,614건 처리시간 0.03초

펜 기반 웹 문서 교정을 위한 모호성 문제 해결에 관한 연구 (A Study on Ambiguity Resolving for Pen-based Proofreading of Web Documents)

  • 손원성
    • 정보교육학회논문지
    • /
    • 제11권1호
    • /
    • pp.107-116
    • /
    • 2007
  • 전자펜을 이용한 문서교정 시스템에서 정확한 교정결과를 보장하기 위해서는 문서 교정자가 드로잉한 교정부호와 문서내용간의 영역 모호성(ambiguity)을 해결하여야 한다. 한편 교정의 대상이 되는 전자문서가 HTML/XML과 같은 경우 교정된 문서구조가 반드시 기 정의된 DTD를 위배하지 않아야 한다. 본 논문에서는 펜 기반의 교정시스템에서 교정부호(마킹)와 대상문서간의 모호성 문제를 최소화하기 위한 기법을 제안한다. 제안 인터페이스에서는 모호성 문제를 최소화하기 위하여 교정부호와 문서간의 컨텍스트(Context)를 반영하였으며 동시에 대상문서의 문서 구조를 유지하기 위한 방법을 제공한다. 그 결과 본 논문에서 제안한 교정 인터페이스는 기존 교정시스템에 비하여 보다 정확한 영역정보를 포함할 수 있으며, 교정부호 입력에 따른 구조문서 변경시에도 원본문서의 DTD에 따르는 문서구조를 유지할 수 있다.

  • PDF

문서 처리 자동화를 위한 인보이스 이미지의 구조 인식 방법 (Structure Recognition Method of Invoice Document Image for Document Processing Automation)

  • 이동석;권순각
    • 한국산업정보학회논문지
    • /
    • 제28권2호
    • /
    • pp.11-19
    • /
    • 2023
  • 본 논문은 인보이스 문서 이미지에 문서 처리 자동화를 적용하기 위한 문서 구조 인식 방법과 문서 구조 인식 결과를 토대로 스프레드문서 형태로 출력하는 방법을 제안한다. 딥러닝 OCR 엔진을 통해 문서 내 단어 블록들과 해당 블록들의 문자 인식 결과를 얻는다. 단어 블록의 위치 정보들을 통해 같은 행과 같은 열에 존재하는 단어 블록들을 검출한다. 단어 블록들의 배치 정보를 통해 문서 영역을 분할한다. 문서의 구역 정보를 통해 얻어진 문서 구조를 토대로 스프레드시트의 알맞은 위치에 문자 인식 결과를 입력한다. 실험 결과 제안된 방법을 통한 항목 배치는 평균 92.30%의 정확도를 보인다.

SGML 기반의 텍스트 문서 브라우저의 구현 (Implementation of A Browser for SGML-based Text Documents)

  • 장명길;이혜란;주종철;박동인
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1994년도 제6회 한글 및 한국어정보처리 학술대회
    • /
    • pp.499-504
    • /
    • 1994
  • 기존의 문서 시스템은 문서의 논리적인 정보와 문서의 외양에 관련된 처리정보들이 확연히 구분되지 않음으로써 서로 다른 시스템간의 문서 교환시 정보의 손실을 가져올 뿐 아니라, 문서의 저장방식에서도 순차 화일 구조를 갖기 때문에 문서의 논리적 요소에 대한 대화식 검색이 불가능하다. 이러한 단점을 극복하고자 문서의 논리적 구조 및 내용을 중심으로 작성 가능한 표준 메타 언어인 SGML이 제정되었으며, 본 연구에서는 SGML 문서를 인식하고 해석하기 위한 SGML파서와 문서의 논리적 구조를 반영하는 저장구조 및 이를 이용한 브라우저를 구현하였다.

  • PDF

효율적인 검색을 위한 Tree 형태의 XML 문서 구조 모델 (XML Structured Model of Tree-type for Efficient Retrieval)

  • 김영란
    • 한국컴퓨터정보학회논문지
    • /
    • 제9권4호
    • /
    • pp.27-32
    • /
    • 2004
  • XML 문서가 DTD를 포함하지 않거나 여러 곳에서 XML문서를 모았을 때, 그 구조는 비정규적일 수 있다. 비정규적인 구조를 가지는 문서들에 대해 정확한 구조적 질의를 작성하는 것은 어려운 일이다. 이 논문에서는 XML 문서의 효율적인 관리와 검색을 위한 XML 문서 모델과 구조적 검색 방법을 제안한다. 이를 위해 XML 문서의 구조 정보를 표현하기 위해 엘리먼트에 대한 정보를 갖는 고정된 크기의 LETID를 사용하고, 구조 정보 검색을 위한 부모 및 자식 엘리먼트 검색 알고리즘을 제시하였다. 제안된 방법을 이용하여 XML 문서의 구조 정보를 효율적으로 표현할 수 있을 뿐만 아니라. 간단한 연산으로 특정 엘리먼트에 직접적인 접근과 다양한 질의 처리가 가능하다. 또한, 특정 엘리먼트의 부모. 자식, 형제에 대한 다양한 구조 검색을 효율적으로 지원할 수 있는 효과가 기대된다.

  • PDF

교량 구조계산서 XML 문서변환 및 3차원 모델에서의 문서정보 검색 (XML Translation of Structural Calculation Document and Information Retrieval in 3-D View of Bridge Information Model)

  • 김봉근;박상일;김세진;엄인수;이상호
    • 한국전산구조공학회:학술대회논문집
    • /
    • 한국전산구조공학회 2010년도 정기 학술대회
    • /
    • pp.375-378
    • /
    • 2010
  • 본 논문은 엔지니어링 문서정보를 준구조화된 XML 문서로 변환하고 이를 3차원 교량 모델과 연계하는 방법을 제시한다. 이를 위해 먼저 구조계산서의 세부 목차에 따른 문서구조를 추출하는 기법을 이용하여 3차원 교량모델을 구성하는 각 부재와 매핑되는 구조계산서 문서의 일부를 프로그램 상에서 자동으로 추출하기 위한 모듈을 개발하였다. 또한 3차원 교량모델의 정보를 운영하기 위해 IFC 기반의 교량정보모델을 개발하였다. 개발된 정보모델은 교량요소들의 논리적 구성체계를 공간적 요소, 물리적 요소 및 그룹 요소별로 표현할 수 있도록 지원한다. 이와 같이 개발된 기술을 이용하여 3차원 교량모델 뷰어에서 구조계산서의 정보를 검색하기 위한 시범 툴을 개발하였으며, 4개의 단위 교량으로 구성된 복합형식의 교량에 대한 3차원 모델을 구축하고 각 교량에 대한 구조계산서 또한 XML 문서로 변환하였다. 이와 같이 구축된 두 정보체계에서 사용자가 선택한 임의의 구성요소에 관한 세부 문서정보의 조회가 가능함을 보임으로써 제시된 방법의 적합성을 검증하였다.

  • PDF

단일 문서 기반의 인지적 지식구조 자동 생성 기법 제안 및 검증 (Proposing and Validating an Automated Method of Cognitive Knowledge Structure Creation from Single Documents)

  • 김형우;이문용
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2011년도 한국컴퓨터종합학술대회논문집 Vol.38 No.1(A)
    • /
    • pp.247-250
    • /
    • 2011
  • 본 연구는 단일 문서로부터 문서가 내포하고 있는 지식정보를 지식구조 혹은 인지스키마로 불리는 형태로 자동 생성하는 기법을 제안한다. 제안된 기법을 이용하여 자동 생성된 지식구조는 실제 문서 학습자의 학습 전, 후의 지식구조, 문서의 해당 지식을 명확히 알고 있는 도메인 전문가의 지식구조와의 유사도 측정을 통해 검증하였다. 자동 생성된 지식구조는 학습자의 학습 후 지식구조, 전문가 지식구조와 상당한 유사성을 보이며, 문서의 지식 정보를 인지적인 관점에서 정교하게 표현 하고 있음을 확인하였다. 이는 기존의 단어 기반의 정보 기술들에서 더욱 고차원적인 지식 정보를 활용한 지식구조 기반 정보 기술의 연구 가능성을 제시한다.

구조화 문서에서 점진적 갱신을 위한 인텍싱 기법 (An Indexing Scheme for Incremental Updating in Structured Document)

  • 김성완;김선경;이재호;임해철
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 봄 학술발표논문집 Vol.29 No.1 (B)
    • /
    • pp.190-192
    • /
    • 2002
  • 구조와 문서(structured document)에 대만 효율적인 처리를 위해서는 문서의 임의 엘리먼트에 빠르고 직접적인 접근을 지원하는 인덱싱 기법이 필요하다 이를 위한 기존의 연구들에서는 전통적인 정보 검색 분야에서 사용되는 역 리스트나 시그너쳐 파일을 응용한 기법들이 제안되었다. 그러나 기존의 연구들은 정적인 환경에 적합한 인덱스 구조로써, 문서에 대한 동적인 변경이 있을 경우 인덱스론 전체적으로 재구성해야 하는 부담이 있다. 본 논문에서는 역 리스트를 기반으로 문서에 대만 구조 변경과 내용 변경 등 동적인 변경에 대해 점진적 갱신을 지원하는 인덱스 구조를 설계하였다.

  • PDF

XML 문서를 위한 구조정보 추출기의 설계 및 구현 (Design and Implementation of a Structure Information Extractor for XML Documents)

  • 민영수;강승헌;강형일;유재수;이하욱;최한석
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (1)
    • /
    • pp.81-83
    • /
    • 1999
  • XML 문서의 구조검색을 위한 기존 구조정보 표현방법들은 특정 엘리먼트의 조상, 자손, 형제에 대한 구조검색을 효율적으로 지원하지 못한다. 본 논문에서는 XML 문서의 효율적인 관리와 구조검색을 위해 DTD(Document Type Definition)의 논리적 구조를 따르는 XML 문서의 구조정보 표현을 고안하고 구조정보 추출기를 설계하고 구현한다. 이를 통하여 특정 엘리먼트에 접근이 가능하도록 하고, 다양한 구조적 질의를 효과적으로 처리할 수 있도록 한다.

  • PDF

XML 기반 가상문서에서의 멀티미디어 및 구조적 문서의 표현과 처리 (Representing and Processing Multimedia and Structured Documents For XML-Based Virtual Documents)

  • 박천수;임동수;박종현;강민구;강지훈
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (1)
    • /
    • pp.246-248
    • /
    • 2000
  • 가상문서는 웹 상에 존재하는 내용 중에서 원하는 부분만을 링크를 이용해 새로운 문서를 생성하는 개념이다. 본 논문에서는 가상문서를 지원하는 디지털 도서관 시스템에서 텍스트, 이미지 데이터뿐 아니라 멀티미디어 데이터와 구조적 의미를 갖는 데이터를 처리 가능하도록 DTD의 표기법을 확장하였다. 또한, 저작도구에서 생성된 내포링크, 참조링크, 총칭링크 등 다양한 의미의 가상무서를 브라우징 가능하도록 문서 변환기에서 멀티미디어와 구조적 문서를 처리하기 위한 방법을 제시하였다.

  • PDF

XML 문서 검색을 위한 한국어 질의 처리 시스템 (Korean Query Processing System for XML Document Retrieval)

  • 박춘용;이현영;윤보현;강현규;이용석
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (2)
    • /
    • pp.161-163
    • /
    • 2000
  • 인터넷 문서의 표준 사양인 XML 문서가 늘어나면서 XML 문서를 효과적으로 관리고 검색하기 위한 시스템이 개발되고 있다. 그러나 정형화된 질의언어를 사용한 XML 문서의 검색 방법은 질의언어의 구조를 이해하고 사용법을 숙지해야 하는 어려움이 있어 일반 사용자에게는 적합하지 않다. 따라서 사용자가 쉽게 사용할 수 있으면서도 정확한 결과를 가지는 시스템이 요구된다. 본 논문에서는 XML 문서를 검색하기 위해 자연어로 질의를 입력하면 이를 XML 구조 검색을 위한 XQL 언어로 자동 변환해 주는 시스템을 제안한다. 제안한 시스템은 자연어를 이용하기 때문에 사용하기가 쉽고 XML 문서 구조가 변경되어도 쉽게 확장할 수 있는 장점을 가진다.

  • PDF