• 제목/요약/키워드: 문서 구조 인식

검색결과 133건 처리시간 0.022초

XML 문서 보호를 위한 접근제어 메커니즘 연구 (Research of Access Control Mechanism for XML Document Protection)

  • 반용호;심효영;김종훈
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (A)
    • /
    • pp.326-328
    • /
    • 2003
  • 본 논문에서는 최근 그 필요성이 크게 인식되고 있는 XML 문서에 대한 보호 방안을 접근제어 기법을 적용하여 해결하고자 한다. 일반적인 자원 또는 HTML 문서에 적용되는 접근 방법과 달리 XML 문서가 가지는 구조적 특성을 충분히 활용하여 XML 문서의 각 엘리먼트 레벨까지 소유주의 보호 권한(protection privilege)을 만족하면서, 적절한 사용권한을 가진 사용자에게 해당 XML 문서에 대한 접근과 변경을 수행하는 메커니즘을 제안한다.

  • PDF

불완전 XML 문서의 파싱 (Parsing of Incomplete XML Document)

  • 조용윤;유재우
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2004년도 춘계학술발표대회
    • /
    • pp.589-592
    • /
    • 2004
  • 대표적인 웹 문서의 표준인 XML(eXtensible Markup Language)은 문서의 구조와 내용을 기술하기 위해 태그(tag)로 이루어진 문법 구조를 이용한다. 일반적인 텍스트 에디터 환경에서 XML 문서에 입력되는 내용(contents)과 그것을 포함하는 태그의 쌍은 완전하지 못한 형태로 입력될 수 있다. XML 문서를 작성하는 과정에서 문법적으로 불완전한 문장 입력은 정상적인 파싱을 보장하지 않는다. 본 논문은 XML 문서 편집기에 사용될 수 있는 XML 파서가 문법적으로 불충분한 문장의 입력에 대해 문법에 따라 빠진 부분을 인식하고, 누락된 문법 심벌을 찾아 부족한 부분 파스 트리를 완성함으로써 사용자에게 성공적인 XML 문서 편집을 보장할 수 있는 파싱 방법을 제안한다. 제안된 파싱 방법을 통해 사용자는 프로그래밍 편집 중 문법 오류에 대한 부담을 줄일 수 있다. 또한, 사용자는 불완전 입력에 대해 일반적인 에러 처리에 따른 편집 중단 없이 계속적인 문서 파싱을 보장받아 편집 효율을 높일 수 있다.

  • PDF

XML 문서에서의 펜 기반 교정 인터페이스 (A Pen-based Proofreading Interface in XML Documents)

  • 손원성;김재경;최윤철;임순범;김우성
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제33권2호
    • /
    • pp.231-242
    • /
    • 2006
  • 펜 기반 교정 환경에서 정확한 마킹영역을 판별하기 위해서는 사용자가 드로잉한 교정마킹과 문서영역간의 관계를 판별하는 과정에서 발생하는 모호성(ambiguity)을 해결하여야 한다. 또한 웹 및 XML과 같은 구조문서 환경에서는 변경된 문서구조가 반드시 정의된 DTD에 따라야 한다. 본 논문에서는 자유형 마킹에 의한 교정부호 입력이 가능하며, 교정 마킹과 원본문서의 영역을 판별하는 과정에서 발생하는 모호성 문제를 최소화하기 위한 컨텍스트 기반의 영역인식 및 보정 인터페이스(Context-based Proofreading Interface)를 제안한다. 제안 인터페이스에서는 교정부호의 입력에 따른 문서내용 및 구조의 변화가 발생할 경우 올바르게 문서 구조를 유지하기 위한 구조변경 방법을 제공한다. 그 결과 본 논문에서 생성된 교정 마킹 정보는 기존 교정시스템에 비하여 보다 정확한 영역정보를 포함할 수 있으며, 교정부호 입력에 따른 구조문서 변경시에도 원본문서의 DTD에 따르는 문서구조를 유지할 수 있다.

문서중심 XML 문서를 위한 데이터 모델 (Data Model for Document-Centric XML Document)

  • 김연희;김성완;신판섭;이재호;임해철
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (1)
    • /
    • pp.25-27
    • /
    • 2001
  • 웹 상의 데이터 표현 및 교환의 새로운 표준으로 인식되어 점차 그 교류의 앙이 중가하고 있는 XML 문서를 효과적으로 저장, 접근 및 검색하기 위한 기법에 대한 연구가 많았으나, 기존의 연구들은 데이터중심 문서의 특성이 두드러지는 XML 문서룬 대상으로 하는 것이 대두분이였다. 그러나 효과적인 XML 문서의 저장 및 검색을 위해서는 XML 문서의 실제 사용 목적이나 그 특성에 따라 XML 문서를 분류하여 각 특성에 맞는 저장, 접근 및 검색 기법을 개발하고 이를 통합한 XML 문서 저장 시스템의 개발이 요구된다. 따라서 본 논문에서는 통합 시스템 개발에서, 인간 이해 중심의 문서적 특성을 가지는 문서중심 문서를 위한 데이더 모델을 제안한다. 제안된 데이터 모델은 루트 노드가 존재하는 방향성과 순서가 있는 그래프 형태를 지원하며, XML 문서의 주요 구성 요소를 지원하는 여러 타입의 노드와 다양한 노드 사이의 관계를 표현하는 링크로 구성되어 XML 문서가 가지는 의미와 구조적 특징이 잗 표현되도록 하였다. 또한 모델링 후 손실되는 정보가 거의 없기 때문에, 다시 XML 문서로 변환하면 원래 XML 문서 그대로 복원되는 장점이 있어 문서중심 문서의 저장 및 검색을 위한 전용XML 저장 시스템에 적합한 데이터 모델이다.

  • PDF

문서 구조 정의 언어를 이용한 XML 문서 변환 시스템의 설계 및 구현 (Design and Implementation of XML Translator Using XMeta Language)

  • 조영환
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2003년도 춘계학술발표논문집 (중)
    • /
    • pp.823-826
    • /
    • 2003
  • 최근 들어 인터넷 기반의 B2B 전자상거래가 확산되고 데이터 교환을 위한 전자문서 형식으로 XML의 효용성에 대한 인식이 높아지면서, 전통적인 방식의 B2B 전자거래 모델인 EDI의 한계를 극복한 XML/EDI, ebXML통의 전자상거래 모델이 등장하게 되었다. 또한 이러한 XML기반 전자상거래 모델에서는 XML 전자문서를 활용한 데이터 교환을 기반으로 하고 있다 하지만 아직까지 각 기업에서 관리되고 있는 전자상거래 데이터의 대부분이 비 XML 데이터 형식으로 이루어져 있어 XML 전자문서를 활용하는데 현실적으로 어려움이 있다. 따라서 이러한 문제를 해결하기 위해서 본 논문에서는 기존의 전자상거래 데이터를 XML기반 전자상거래 시스템에서 활용하기 위해서 비 XML데이터의 구조를 기술하는 XMeta 언어를 정의하여, 이를 기반으로 다양한 데이터 포맷을 원활히 지원할 수 있는 XML 문서변환기를 설계 및 구현하였다.

  • PDF

가중치 패턴 클러스터를 이용한 한글 문자 인식 (The Recognition of The Korean Characters Using The Weighted Pattern Cluster)

  • 김도형;이선화;차의영
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (2)
    • /
    • pp.319-321
    • /
    • 2001
  • 본 논문에서는 스캐너로 입력된 한글 문서 영상에서 한글 문자를 인식하는 방법을 제시한다. 입력된 한글 문자를 한글의 구조적 특징에 따라 6개의 유형으로 분리하고, 각 유형에서의 모음의 형태학적 특징에 근거하여 모음을 인식한다. 각 유형에서의 자음의 인식을 위해서 가중치 패턴 클러스터를 생성하고 생성된 클러스터와 원영상간의 유사도 측정을 통해 자음을 인식하게 된다. 오인식 가능성이 있는 자음은 오인식 교정을 위한 세부 유사도 매칭과정을 통해 최종적으로 인식된다. 제안하는 알고리즘을 바탕으로 실험한 결과 스캐너로 입력받은 상용 한글 문자 14,983자에 대해 최종 95.68%의 인식률을 보였으며, 차후 정형화된 한글 문서 인식 시스템에 응용될 수 있을 것이다.

  • PDF

양방향 언어 모델을 활용한 자연어 텍스트의 시간 관계정보 추출 기법 (Temporal Relationship Extraction for Natural Language Texts by Using Deep Bidirectional Language Model)

  • 임채균;최호진
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.81-84
    • /
    • 2019
  • 자연어 문장으로 작성된 문서들에는 대체적으로 시간에 관련된 정보가 포함되어 있을 뿐만 아니라, 문서의 전체 내용과 문맥을 이해하기 위해서 이러한 정보를 정확하게 인식하는 것이 중요하다. 주어진 문서 내에서 시간 정보를 발견하기 위한 작업으로는 시간적인 표현(time expression) 자체를 인식하거나, 시간 표현과 연관성이 있는 사건(event)을 찾거나, 시간 표현 또는 사건 간에서 발생하는 시간적 연관 관계(temporal relationship)를 추출하는 것이 있다. 문서에 사용된 언어에 따라 고유한 언어적 특성이 다르기 때문에, 만약 시간 정보에 대한 관계성을 고려하지 않는다면 주어진 문장들로부터 모든 시간 정보를 추출해내는 것은 상당히 어려운 일이다. 본 논문에서는, 양방향 구조로 학습된 심층 신경망 기반 언어 모델을 활용하여 한국어 입력문장들로부터 시간 정보를 발견하는 작업 중 하나인 시간 관계정보를 추출하는 기법을 제안한다. 이 기법은 주어진 단일 문장을 개별 단어 토큰들로 분리하여 임베딩 벡터로 변환하며, 각 토큰들의 잠재적 정보를 고려하여 문장 내에 어떤 유형의 시간 관계정보가 존재하는지를 인식하도록 학습시킨다. 또한, 한국어 시간 정보 주석 말뭉치를 활용한 실험을 수행하여 제안 기법의 시간 관계정보 인식 정확도를 확인한다.

  • PDF

경계선 기울기 방법을 이용한 다양한 인쇄체 한글의 인식 (Recognition of Various Printed Hangul Images by using the Boundary Tracing Technique)

  • 백승복;강순대;손영선
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2002년도 추계학술대회 및 정기총회
    • /
    • pp.357-360
    • /
    • 2002
  • 본 논문에서는 CCD 흑백 카메라를 이용하여 입력되는 인쇄체 한글 이미지의 문자를 인식하여 편집 가능한 텍스트 문서로 변환하는 시스템을 구현하였다. 문자 인식에 있어서 잡음에 강한 경계선 기울기 방법을 이용함으로써 문자의 구조적 특성에 근거한 윤곽선 정보를 추출할 수 있었다. 이를 이용하여 각 문자 이미지의 수평 및 수직 모음을 인지하고 6가지 유형으로 분류한 후, 자소 단위로 분리하고 최대 길이투영을 사용하여 모음을 인식하였다 분리된 자음은 경계선이 변화되는 위상의 형태를 미리 저장된 표준패턴과 비교하여 인식하였다. 인식된 문자는 KS 한글 완성형 코드로 문서 편집기에 출력되어 사용자에 제공되는 시스템을 구현하였다.

유사성 기반 XML 문서 분석 기법 (XML Document Analysis based on Similarity)

  • 이정원;이기호
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제29권6호
    • /
    • pp.367-376
    • /
    • 2002
  • XML 문서가 가지고 있는 태그의 자유로운 정의와 내포된 구조 정보는 정보 검색 및 문서 관리 분야에 많은 이점을 제공할 수 있다. 본 논문은 XML 요소(element)의 의미와 구조 정보를 반영한 문서간의 유사성을 검사할 수 있는 XML 문서 분석 기법을 제시하고자 한다. 도출된 문서간 유사성은 많은 정보 검색 및 마이닝 등의 기초 자료로 사용될 수 있다. 먼저 XML 요소를 시소러스를 이용하여 유사어와 합성어로 구성된 확장-요소 벡터로 확장하고 유사 행렬을 구축하여 요소간 유사성을 판별한다. 또한 오토마타(NFA(Nondeterministic Finite Automata)와 DFA(Deterministic Finite Automata)(를 이용하여 XML 문서의 내포된 구조를 발견하고 최소화 한다. 요소간의 유사 행렬과 최소화된 XML 구조를 이용하여 구조간의 유사성을 판별한다. 본 논문의 XML의 의미를 반영한 유사성 분석 기법은 온라인 서점의 실제 문서의 카테고리를 인식하는 데 있어 100% 정확도를 보였다.

부분 매칭 방법을 이용한 효율적인 서식 문서 분류 (Efficient From Document Classification Large using Partial Matching Method)

  • 변영철;최영우;김경환;이일병
    • 정보처리학회논문지B
    • /
    • 제8B권1호
    • /
    • pp.1-9
    • /
    • 2001
  • 본 논문에서는 서식 문서를 짧은 처리 시간에 정확히 분류함으로써 실제 환경에서 응용할 수 있는 서식 분류 방법을 제안한다. 제안하는 방법은 서식 문서 이미지 전체를 다루기보다는 처리하고자 하는 서식 문서에서 서식 구조가 많이 다른 곳을 찾아서 매칭 영역으로 결정하고, 그 영역들에 대해서만 비교를 수행함으로써 계산 시간을 줄이고 인식률을 높인다. 선분 추출 시 오류를 고려하기 위하여 기존 인쇄 문자와 채워진 데이터, 그리고 매칭 영역의 크기 정보를 페널티 함수로 반영하여 매칭 영역 선택 시 고려한다. 본 방법은 구조적으로 많이 다르고, 양질의 특징을 포함하는 적은 수의 매칭 영역을 선택함으로써 처리 시간을 줄일 수 있음은 물론 높은 서식 분류율을 얻을 수 있다.

  • PDF