• 제목/요약/키워드: XML Document Structure

검색결과 225건 처리시간 0.021초

정보 검색 기술을 이용한 대규모 이질적인 XML 문서에 대한 효율적인 선형 경로 질의 처리 (Efficient Linear Path Query Processing using Information Retrieval Techniques for Large-Scale Heterogeneous XML Documents)

  • 박영호;한욱신;황규영
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제31권5호
    • /
    • pp.540-552
    • /
    • 2004
  • 본 논문에서는 대규모 이질 XML 문서들에 대한 부분 매치 질의를 효과적으로 처리하는 새로운 방법 XIR-Linear를 제안한다. XPath 질의는 XML 문서를 표현하는 트리 구조에 대한 경로 표현식 (path expression)으로 쓰여진다. 주요한 형태의 XPath 질의는 부분 매치 질의(partial match query)이다. XIR-Linear의 목적은 이질적인 스키마들을 가진 대규모 문서들에 대한 부분 매치 질의를 효과적으로 지원하는 것이다. XIR-Linear는 관계형 테이블을 이용한 스키마-레벨 방법에 기반을 두고, 역 인덱스 (inverted index) 기술을 사용하여 XPath 질의 처리의 효율성을 획기적으로 향상시킨다. 본 방법은 레이블 경로(label path)를 덱스트로 간주하고 레이블 경로 내의 레이블(label)들을 텍스트 내에 있는 키워드(keyword)로 간주한 후, 레이블들을 정보 검색 기술을 이용하여 인덱스 함으로써 전통적인 방법들에서 사용된 스트링 매치(string match) 보다 효율적인 방법으로 질의와 매치되는 레이블 경로들을 찾을 수 있도록 하였다. 성능 평가에서는 인터넷에서 수집한 XML 문서들을 사용하여 기존의 관계형 테이블을 이용하는 XRel, XParent와 비교 실험함으로써, 제안한 방법의 효율성을 입증한다. 실험을 통해 XIR-Linear가 실험 범위 내에서 XRel 이나 XParent에 비해 수십 배 이상 좋은 성능을 보이며, XML 문서 수의 증가함에 따라 더욱 우수하다는 것을 보인다.

경로정보의 중복을 제거한 XML 문서의 저장 및 질의처리 기법 (Storage and Retrieval of XML Documents Without Redundant Path Information)

  • 이혜자;정병수;김대호;이영구
    • 정보처리학회논문지D
    • /
    • 제12D권5호
    • /
    • pp.663-672
    • /
    • 2005
  • 본 논문에서는 대용량 XML 문서를 저장하고 그로부터 원하는 정보를 효율적으로 찾기 위한 방법으로, 경로정보의 중복을 제거하면서 역 인덱스를 함께 이용한 방법을 제안한다. XML 문서는 트리구조에 기반한 노드로 분해되어, 노드 타입에 따라, 루트에서 각 노드까지의 경로정보와 함께 관계형 테이블에 저장된다. 경로정보를 이용한 기존의 U 질의 기법들에서는 모든 엘리먼트 노드들에 대해 경로정보를 저장함에 따라 정보의 양이 증가하여 질의 처리의 성능을 저하시키는 요인이 되고 있다. 제안 방법에서는 경로정보 중 가장 긴 단말 엘리먼트 노드까지의 경로인 단말 엘리먼트 경로(leaf element path)만 저장하고 내부 엘리먼트 노드까지의 경로인 내부 엘리먼트 경로들(internal element paths)은 저장하지 않는다. 단말 엘리먼트 경로만을 대상으로 하여 역 인덱스를 구성함에 따라, 기존의 역 인덱스 이용 기법에 비해 키워드별 포스팅 리스트(posting lists)의 수를 줄이게 된다. 제안 방법에서는 U 문서의 저장과 질의를 위하여 XML 문서에 대한 스키마 정보가 없어도 되며, 관계형 데이터베이스의 어떤 확장도 요구하지 않는다. 실험을 통해 제안 방법은 실험 범위 내에서 기존 기법들에 비해 좋은 성능을 보인다.

메타데이터 관리를 위한 RDF 저작도구 설계에 관한 연구 (A Study on the Design with RDF Authoring Tool for Metadata Management)

  • 최호찬;김차종
    • 한국정보통신학회논문지
    • /
    • 제8권3호
    • /
    • pp.605-613
    • /
    • 2004
  • 오늘날 차세대 웹으로 부각되고 있는 시맨틱(semantic) 웹을 실현하기 위해서는 모든 정 문서들이 메타데이터(metadata) 형식에서 정의하고 있는 시맨틱, 구문, 구조를 모두 수용할 수 있는 통합된 구조가 필요하다. 본 논문에서는 이를 위한 방법으로써 W3C에서 메타데이터의 기술과 교환을 위한 프레임워크로 개발한 시맨틱 웹의 핵심 기술 중의 하나인 RDF(Resource Description Framework) 문서로 변환하여 상이한 메타데이터들을 효율적으로 관리하고 이용할 수 있는 시스템 설계 및 구현에 대하여 연구하였다. 본 시스템에서는 Dublin Core 메타데이터를 이용한 RDF 생성, XML(extensible Markup Language) 문서를 RDF로의 변환, RDF를 NTriple 형태로 표현, 웹 서비스 메타데이터인 WSDL(Web Service Description Language)과 RDF와 통합 이렇게 4개의 모듈에 관하여 설계하였고, 자바를 사용하여 시스템을 구현하였다. 본 시스템을 이용하여 사용자는 세부적인 내용을 몰라도 메타데이터를 쉽게 통합하고 관리할 수 있다.

A Study on Effective Internet Data Extraction through Layout Detection

  • Sun Bok-Keun;Han Kwang-Rok
    • International Journal of Contents
    • /
    • 제1권2호
    • /
    • pp.5-9
    • /
    • 2005
  • Currently most Internet documents including data are made based on predefined templates, but templates are usually formed only for main data and are not helpful for information retrieval against indexes, advertisements, header data etc. Templates in such forms are not appropriate when Internet documents are used as data for information retrieval. In order to process Internet documents in various areas of information retrieval, it is necessary to detect additional information such as advertisements and page indexes. Thus this study proposes a method of detecting the layout of Web pages by identifying the characteristics and structure of block tags that affect the layout of Web pages and calculating distances between Web pages. This method is purposed to reduce the cost of Web document automatic processing and improve processing efficiency by providing information about the structure of Web pages using templates through applying the method to information retrieval such as data extraction.

  • PDF

빅데이터 분석을 통해 본 한국 위키피디아의 지식형성 과정에 관한 연구 (A Study on the Knowledge Formation Process of Wikipedia in Korea through Big Data Analysis)

  • 이정연;전수현
    • 정보관리학회지
    • /
    • 제37권2호
    • /
    • pp.171-195
    • /
    • 2020
  • 본 연구는 대표적인 온라인 협업커뮤니티인 한국 위키피디아의 초기 2002년부터 2019년까지의 편집로그 빅데이터를 해체하여 공동협업과정을 시계열적으로 분석하였다. 공개된 오픈데이터의 표준화된 XML 문서편집 기록을 활용해 Phython과 R을 이용하여 분석 요소를 추출하여 이를 활용하였다. 연구 분석 결과 한국 위키피디아 편집자의 참여 방법, 데이터 내용의 특징, 문서 생성의 추이 등을 설명할 수 있었다. 소수 편집자들의 적극적 활동과 대다수 편집자들의 느슨한 참여도 밝혀졌으며, 온라인에서도 나타나는 사회 문화적 특징이 한국 위키피디아에서도 나타났다. 집단지성을 지속화시키기 위해서는 새롭고 다양한 외부자원이 필수인데 신규 진입자들이 공동편집 커뮤니티에 안착하기 위한 다각적인 고려가 필요하며, 관리자 그룹의 고착화를 탈피하여 순환구조를 통한 개방성이 필요함을 제언하였다.

다중 감각 미디어 응용 포맷의 구성 방법 연구 (A Study on Multiple Sensorial Media Application Format)

  • 오정엽;김상균
    • 방송공학회논문지
    • /
    • 제21권3호
    • /
    • pp.330-340
    • /
    • 2016
  • 본 논문은 MPEG-A(ISO/IEC 23000) 표준으로 새로이 제정된 다중 감각 미디어 응용 포맷의 구조와 구현에 대해 설명한다. 다중 감각 미디어 응용 포맷은 비디오/오디오 데이터와 더불어 감각 효과 메타데이터의 효과적인 저장, 재생, 관리를 용이하게 한다. 포맷을 구성하기 위해, MPEG-4 파트 12(ISO/IEC 14496-12)의 ISO 기본미디어 파일 포맷과 MPEG-V 파트 3(ISO/IEC 23005-3)의 표준 메타데이터를 사용하였다. 본 논문에서는 MPEG-V 파트 3의 감각효과 메타데이터(SEM)의 샘플화를 위해 SEM XML 문서의 분할과, 분할된 샘플을 이진화하는 방법에 대해 비교 분석한다. 이진화 방법에 대한 비교 분석 결과 MPEG-V 이진표현 방법과 Binary MPEG format for XML(BiM)이 gzip방법에 비해 압축율과 처리시간 등에서 우수한 성능을 보였다.

교육용 PDA 컨텐츠 브라우저의 설계 및 구현 (Design and Implementation of a Browser for Educational PDA Contents)

  • 신재룡
    • 한국정보통신학회논문지
    • /
    • 제6권8호
    • /
    • pp.1223-1233
    • /
    • 2002
  • 최근 들어 언제 어디서나 손쉽게 사용할 수 있는 PDA를 기반으로 한 다양한 종류의 전자책(E-Book)들이 개발되고 있다. 이 전자책의 부피와 무게가 기존의 책에 비해 작기 때문에 휴대하기 편하다. 그리고 검색, 책갈피, 사전 기능과 칼라 이미지, 사운드, 동영상 재생 기능 등과 같은 다양한 기능이 제공됨에 따라 내용 전달이 손쉽다 이러한 장점들 때문에 전자책 관련 제품들이 많이 출시되고 있다. 그러나 교육용 컨텐츠 관련 상품은 극히 적은 실정이다. 그 이유는 교육용 컨텐츠의 경우 전자책의 일반적인 기능뿐만 아니라 문제풀이와 같은 추가적인 기능을 갖추어야 하기 때문이다. 따라서 교육용 컨텐츠를 위한 컨텐츠 브라우저와 편집기 개발이 현실적으로 필요한 상황이다. 이에 렬 논문에서는, 교육용 컨텐츠를 XML로 표현하고 문서 구조를 XML 스키마로 정의한다. 그리고 컨텐츠 작성용 편집기와 PDA 상에서 교육용 컨텐츠를 처리할 수 있는 브라우저를 설계하고 구현한다.

휴먼 라이브러리 서비스를 위한 데이터 구조 개발 (Development of a Data Structure for Human Library Services)

  • 한승희;이혜원
    • 한국콘텐츠학회논문지
    • /
    • 제18권9호
    • /
    • pp.569-583
    • /
    • 2018
  • 본 연구에서는 휴먼 라이브러리 서비스의 체계적 관리, 운영을 돕기 위해 휴먼 라이브러리 운영에 필요한 구성요소를 규정하고 이를 기반으로 휴먼 라이브러리 운영을 위한 데이터 구조를 제안하였다. 기존 연구에서 제안된 휴먼 라이브러리 구성요소인 '운영자', '사람 책', '사서', '자원봉사자' 이외에 본 연구에서는 '이용자'를 추가하여 총 5가지의 휴먼 라이브러리 운영을 위한 구성요소를 제안하였다. 그리고 이를 기반으로 '휴먼 라이브러리', '휴먼 북', '이용자'라는 3가지 메타 개념을 도출하였고, 도출된 메타 개념을 이용하여 휴먼 라이브러리 운영을 위한 메타데이터 세트를 개발하였다. 또한 메타데이터 세트의 타당성을 검증하고 활용성을 높이기 위하여 본 연구에서는 메타데이터 요소를 XML 문서로 선언하였으며, 메타 개념들을 연결하는 구조도 반영하였다. 본 연구의 결과를 통해 도서관에서는 이용자 프로파일 관리를 통해 이용자에게 휴먼 북 추천 서비스를 제공하는 등 이용자 중심의 서비스를 개발할 수 있다.

Optical Music Score Recognition System for Smart Mobile Devices

  • Han, SeJin;Lee, GueeSang
    • International Journal of Contents
    • /
    • 제10권4호
    • /
    • pp.63-68
    • /
    • 2014
  • In this paper, we propose a smart system that can optically recognize a music score within a document and can play the music after recognition. Many historic handwritten documents have now been digitalized. Converting images of a music score within documents into digital files is particularly difficult and requires considerable resources because a music score consists of a 2D structure with both staff lines and symbols. The proposed system takes an input image using a mobile device equipped with a camera module, and the image is optimized via preprocessing. Binarization, music sheet correction, staff line recognition, vertical line detection, note recognition, and symbol recognition processing are then applied, and a music file is generated in an XML format. The Music XML file is recorded as digital information, and based on that file, we can modify the result, logically correct errors, and finally generate a MIDI file. Our system reduces misrecognition, and a wider range of music score can be recognized because we have implemented distortion correction and vertical line detection. We show that the proposed method is practical, and that is has potential for wide application through an experiment with a variety of music scores.

코스웨어 공동 저작을 위한 협력적 충돌 해결 모델 (Collaborative Conflict Handling Model for Courseware Co-Authoring)

  • 안치돈;윤경섭
    • 한국컴퓨터산업학회논문지
    • /
    • 제4권4호
    • /
    • pp.599-606
    • /
    • 2003
  • 협력적 컴퓨팅 기술이 발전되어감에 따라. 동시 사용자들의 상호 작용이 매우 중요시되어 가고 있다. 따라서, 최근의 CSCW 시스템은 충돌 해결 방식들을 요구하게 되었다. 그러나 현존하는 공동 저작 도구들이나 CSCW시스템들은 충돌 해결 기법에 제한을 갖고 있다. 일반적으로 공동 저작 도구는 특정 사용자의 관점을 기준으로 충돌을 해결하는 해결책을 제시하고 있다. 이러한 방식은 충돌 해결에 가장 빠른 해결책을 제시할 수 있으나, 다른 저작자의 관점은 충분히 반영되지 못한다는 문제가 존재한다. 이 논문에서는 협력적 충돌 해결 방식을 이용한 공동 저작 모델을 제안한다. 제안하는 방식은 저작자들이 자신의 관점을 충분히 반영시킬 수 있으며, 이러한 방식을 통하여 시스템에서는 사용자의 요구에 적합한 컨텐츠를 제공할 수 있다. 제안하는 모델은 XML 등의 구조적 문서의 형태로 표현되는 코스웨어 저작이나 EDI 시스템에 널리 활용될 수 있다.

  • PDF