• 제목/요약/키워드: document structure

검색결과 592건 처리시간 0.032초

비음수행렬분해와 위키피디아를 이용한 사용자기반의 문서요약 (User-based Document Summarization using Non-negative Matrix Factorization and Wikipedia)

  • 박선;정민아;이성로
    • 대한전자공학회논문지SP
    • /
    • 제49권2호
    • /
    • pp.53-60
    • /
    • 2012
  • 본 논문은 위키피디아의 외부지식을 이용하여 사용자의 질의를 확장하고, 확장된 질의와 문서집합의 내부구조를 표현하는 의미특징을 이용하여 문서를 요약하는 새로운 방법을 제안한다. 제안된 방법은 사용자의 초기 질의에 위키피디아 기반의 연관 피드백을 적용하여 사용자가 요구하는 요약문장을 추출할 수 있도록 질의를 확장하며, 비음수 분해된 문서의 의미특징을 이용함으로써 문서의 내부 구조를 잘 표현 할 수 있다. 확장된 질의와 의미특징을 이용하여 의미 있는 문장을 추출함으로써 사용자의 요구사항과 제안방법의 요약결과 사이의 의미적 차이를 감소시킨다. 실험결과 제안방법이 기존방법에 비해서 문서요약에 대해 더 좋은 성능을 보인다.

DTD 전자서명을 이용한 XML문서의 보안성 향상 (Security Elevation of XML Document Using DTD Digital Signature)

  • 박도준;민혜란;이준
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2005년도 춘계종합학술대회
    • /
    • pp.1080-1083
    • /
    • 2005
  • DTD는 XML 문서에 표현될 자료의 의미를 정의한 메타 데이터라고 할 수 있다. 따라서 DTD 정보가 손상될 경우 이 정보를 기반으로 한 XML 문서의 보안은 심각한 문제점을 가지게 된다. 본 연구에서는 XML 문서의 송수신 과정에서 XML 문서에만 전자서명을 첨부하는 것이 아니라, DTD 에도 전자 서명을 첨부하는 방법을 제안하였다. 먼저 DTD파일을 끝까지 읽으면서 파싱을 하고 여기서 추출되는 엘리먼트나 속성, 엔티티들을 해시테이블에 저장한다. 파싱이 종료되면 해시 테이블을 읽어 들여서 메시지 다이제스트를 수행한다. 수행 후 이를 개인 키와 합성하여 전자 서명을 생성한다. 전자 서명 시 메시지 다이제스트 과정에서 바뀐 순서에 대해서는 검사하지 못하기 때문에 전혀 다른 다이제스트 값을 생성하는 문제가 발생되는데, 이것은 표준화된 구조와 문서에 대한 트리 구조를 구현할 수 있는 DOM을 이용하여 DTD의 전자 서명을 생성하는 방법으로 해결하였다.

  • PDF

문서 단위 순위화를 통한 XML 문서에 대한 키워드 검색 성능 향상 (Accelerating Keyword Search Processing over XML Documents using Document-level Ranking)

  • 이형동;김형주
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제33권5호
    • /
    • pp.538-550
    • /
    • 2006
  • XML 문서에 대한 키워드 검색은 사용자로 하여금 XML 문서의 복잡한 구조에 관한 지식 없이 쉽게 정보를 검색할 수 있게 해준다. 또한 사용자의 정보 요구에 대해 해당 정보를 포함하는 문서 전체를 반환하는 기존의 정보 검색 시스템과 달리 문서 내의 해당 정보를 포함하는 문서 조각을 결과로 반환함으로써 보다 빠르게 원하는 정보를 얻을 수 있도록 도와준다. 이러한 특징은 XML 문서 검색 시스템이 XML 문서를 문서 단위가 아닌 세부적인 엘리먼트 단위로 처리함으로써 가능하다. 하지만 이로 인해 대용량 문서들에 대한 질의 처리 부담 역시 가중되었다. 본 논문에서는 엘리먼트 단위 질의 처리의 비용을 줄이기 위해 XML 문서에 대한 문서 단위 순위화 기법을 제안하는데, 이는 결과물의 점수에 영향을 미치는 질의 키워드들의 문서 내에서의 근접도를 경로 노드 집합 정보와 이에 대한 유사도를 통해 구함으로써 엘리먼트 단위 질의 처리 결과를 예측하고 문서 단위 점수를 계산한다. 이러한 문서 중심의 뷰는 대용량 문서에 대한 순위화 혹은 필터링을 가능하게 해주며, 우리는 문서 단위 인덱스를 통해 순위가 높은 문서를 우선적으로 처리함으로써 Top-k 질의에 대해 검색 성능을 높였으며, 실험을 통해 해당 기법의 유효성과 성능 향상을 검증하였다.

개념적 모델로의 XML 스키마의 역변환 기법 (Reverse Engineering of XML Schema to Conceptual Model)

  • 정인환;김영웅
    • 한국인터넷방송통신학회논문지
    • /
    • 제17권6호
    • /
    • pp.211-216
    • /
    • 2017
  • XML은 데이터의 표현 및 교환의 사실상 표준으로 자리 잡고 있으며, XML 자체가 데이터를 저장, 관리하기 위한 구조로 되어있지만, 다양하고 복잡한 표현으로 인해 문서 구조를 한 눈에 파악하기에는 어려운 점이 있어 개념적 모델의 도구로 사용하기 적절하지 못한 점이 있다. 본 논문은 XML 스키마 문서 구조를 보다 쉽게 이해할 수 있도록 개념적 모델로 변환하는 기법을 제안한다. 이를 위해 개념적 모델 도구로 사용한 CMXML을 기술하고, XML 스키마 구조를 CMXML 다이어그램으로 변환하기 위한 변환 규칙과 자료구조를 제시한다. 변환절차는 XML 스키마 문서를 입력받아 본 연구에서 제안하는 변환기법을 적용하여 CMXML 다이어그램을 생성한다.

MDS를 이용한 개별문서의 계층적 지식구조 브라우징 인터페이스 설계 (Designing Hierarchical User Interface Model for Browsing the Knowledge Structure of a Single Document Using MDS)

  • 한승희;이재윤
    • 정보관리연구
    • /
    • 제35권3호
    • /
    • pp.125-138
    • /
    • 2004
  • 이 연구에서는 현재의 정보검색 환경에서 이용자 친화적인 검색 시스템을 개발하기 위한 한 방안으로 개별문서의 계층적 지식구조 브라우징 인터페이스를 제안하였다. 계층적 형태를 갖는 개별문서의 지식구조를 자동 생성하기 위해 개별문서에 출현한 용어를 이용하여 대군집과 소군집의 용어 클러스터링 결과에 대해 클러스터 대표어 선정 작업을 수행하였고, 이를 대상으로 다차원 척도법을 이용하여 2차원 공간에 개별문서의 지식구조를 표현함으로써 이용자가 개별문서에 대해 보다 용이하게 접근할 수 있는 브라우징 인터페이스를 마련하였다.

Extracting OWL Ontology from XML instances via XML Schema

  • Pham, Thi Thu Thuy;Lee, Young-Koo;Lee, SungYoung
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2009년도 추계학술발표대회
    • /
    • pp.801-802
    • /
    • 2009
  • Currently, XML and its schema language have become the standard for data representation and information exchange format on the current web. Unfortunately, problems happen when integrating different data sources since XML mainly supports the document structure but lack consideration on sharing knowledge of data. Meanwhile, Semantic Web technologies, such as Web Ontology Language (OWL), can include the structure as well as the semantics of the data. Therefore, finding a way to integrate XML data as OWL ontology receives a high interest nowadays. In this paper we present a mapping notation to convert XML Schema to OWL domain knowledge and an effective method to transform XML instances into OWL individuals. While keeping the XML original structure, our work also adds more semantics for the XML document. Moreover, whole of the transformation processes are done automatically without any user interference. Further, our transforming approach provides the solution for duplicate element names in XML document which has not mentioned in the previous work. Our results in existing OWL syntaxes can be loaded immediately by OWL editors and Semantic Web applications.

ODIF 데이터스림의 포스트스크립트 변환 (PostScript Conversion of ODIF Data Stream)

  • 홍온선;윤근종;이수연
    • 한국통신학회논문지
    • /
    • 제16권11호
    • /
    • pp.1027-1036
    • /
    • 1991
  • 본 연구는ODIF(Open Document Interchanhe Format) elzhej(Decoder) 및 포스트스크립트(PostScript)변환기를 설계하였다. ASN.1 표기법을 적용하여 기술한 IS 8613에 기초한 ODIF 데이타스트림은 이를 하드카피등의 처리를 위해 적합한 내부구조로 디코드해야 한다. 또한 LBP를 이용한 고품질의 문서로 출력하기 위하여 문서의 내부구조를 포스트스크립트로 변화하는 포스트크립트 변환기를 제안하였다. 이들을 실현하기 위하여 많은 DA(Document Architecture), DAP(Document Application Profile)중에서 PDA(Processable DA) 및 Core 26(DAP 레벨 2)을 연구 대상으로 하였고 ICL(U.K)의 ODIF 데이터스트림으로 시스템의 실행을 확인하였다.

  • PDF

XML 어플리케이션을 위한 트리 기반 문서 편집 시스템의 설계 및 구현 (A Design and Implementation of the Tree-based Document Editing System for XML Application)

  • 김영철;강춘길
    • 정보처리학회논문지D
    • /
    • 제11D권4호
    • /
    • pp.959-966
    • /
    • 2004
  • 본 논문에서는 구조 중심형 환경에서 사용 가능한 트리기반 XML 어플리케이션 문서 편집 시스템의 설계 및 구현에 관하여 논의한다. 본 시스템은 DTD를 ASTD( Syntax Tree Definition)로 변환하여 내장하는 구조로서 잘 설계된(well-formed) 문서는 물론 편집 중에 유효한(valid) 문서를 작성하도록 하기 위하여 구문 지향 편집(syntax-directed editing)을 지원한다. 또한 구조 중심형 환경에서 사용자와의 인터페이스를 담당하는 편집기를 설계함에 있어 새로운 도구의 추가로 인한 기능 확장이 용이하도록 고려하였으며, 편집기의 구현 시 기존의 문법 검증에 대한 비효율성을 감안하여 다중 엔트리(multiple entry)를 적용한 파서를 사용하여 실시간으로 유효성 검증이 가능하도록 하였다. 본 논문은 XML 문서 편집 시스템의 개발 모델을 제시함으로써 관련 어플리케이션 개발에 크게 기여할 것으로 기대된다.

Multimedia Document Databases : Representation, Query Processing and Navigation

  • Kalakota, Ravi S.;Whinston, Andrew B.
    • 정보기술과데이타베이스저널
    • /
    • 제1권1호
    • /
    • pp.31-62
    • /
    • 1994
  • Information systems for application areas like office automation, customer service or computer aided manufacturing are usually highly interactive and deal with complex document structures composed of multiple media formats. For the realization of these systems, nonstandard database systems, which we call document databases, need to handle different types of coarse-and fine-grained document objects(like full-text documents, graphics and images), hierarchical and non-hierarchical relationships between objects(like composition-links and cross-references using hypertext structures) and document attributes of different types such as formatting/presentation information and access control. In this paper, we present the underlying data model for document databases based on descriptive markup languages that provide mechanisms for specifying the logical structure(or schema) of individual documents stored in the database. We then describe extensions to the data model for supporting notion of composite structures("join" operators for documents) --composition and hyperlinking mechanisms for representing compound documents and inter-linked documents as unique entites separate from their components. Furthermore, due to the interactive nature of the application domains, the database system in conjunction with clients(or browsers) has to support visual navigation and graphical query mechanisms. We describe the functionality of a new user interface paradigm called HyBrow for meeting the above mentioned requirements. The underlying implementation strategy is also discussed.discussed.

  • PDF

문단 단위 가중치 함수와 문단 타입을 이용한 문서 범주화 (Automatic Text Categorization Using Passage-based Weight Function and Passage Type)

  • 주원균;김진숙;최기석
    • 정보처리학회논문지B
    • /
    • 제12B권6호
    • /
    • pp.703-714
    • /
    • 2005
  • 문서 범주화 분야에 대한 연구들은 전체 문서 단위에 한정되어 왔으나, 오늘날 대부분의 전문들이 주요 주제를을 표현하기 위해서 조직화 된 특정 구조로 기술되고 있어, 텍스트 범주화에 대한 새로운 인식이 필요하게 되었다. 이러한 구조는 부주제(Sub-topic)의 텍스트 블록이나 문단(Passage) 단위의 나열로서 표현되는데, 이러한 구조 문서에 대한 부주제 구조를 반영하기 위해서 문단 단위(Passage-based) 문서 범주화 모델을 제안한다. 제안한 모델에서는 문서를 문단들로 분리하여 각각의 문단에 범주(Category)를 할당하고, 각 문단의 범주를 전체 문서의 범주로 병합하는 방법을 사용한다. 전형적인 문서 범주화와 비교할 때, 두 가지 부가적인 절차가 필요한데, 문단 분리와 문단 병합이 그것이다. 로이터(Reuter)의 4가지 하위 집합과 수십에서 수백 KB에 이르는 전문 테스트 컬렉션(KISTl-Theses)을 이용하여 실험하였는데, 다양한 문단 타입들의 효과와 범주 병합 과정에서의 문단 위치의 중요성에 초점을 맞추었다 실험한 결과 산술적(Window) 문단이 모든 테스트 컬렉션에 대해서 가장 좋은 성능을 보였다. 또한 문단은 문서 안의 위치에 따라 주요 주제에 기여하는 바가 다른 것으로 나타났다.