• 제목/요약/키워드: structured document

검색결과 170건 처리시간 0.025초

XML을 위한 효율적인 저장구조 및 인덱싱 기법설계 (Design of Efficient Storage Structure and Indexing Mechanism for XML Documents)

  • 신판섭
    • 한국컴퓨터산업학회논문지
    • /
    • 제5권1호
    • /
    • pp.87-100
    • /
    • 2004
  • 최근에 인터넷의 급속한 발전과 더불어 대량의 정보를 효과적으로 표현 및 교환할 수 있는 새로운 데이터 표준으로 XML (extensible Markup Language)이 제안되었으며, XML 문서에 대한 저장과 인덱싱에 대한 연구가 활발하게 진행되고 있다. 본 논문에서는 실시간 XML 문서 처리에 효율적인 주기억장치 기반의 XML 전용 저장 시스템을 설계하고, 사용자 질의에 포함된 엘리먼트 타입 정보를 이용하여 XML 문서트리에 대한 순회를 최소화시킬 수 있는 구조적 검색 기법을 설계한다 또한, 엘리먼트의 삭제 및 삽입 등 동적인 변경에 빠르고 유연하게 대처할 수 있는 인덱스 구조와, 링크 정보를 가지고 있는 XML 문서의 질의 처리를 위해 XLink 표준을 준수하여 테이블 형식의 링크 정보 인덱스 구조를 설계한다.

  • PDF

역추적 기능을 이용한 ODA 문서 포맷터 설계 및 구현에 관한 연구 (A Study on the design implementation of ODA document formatter using backtracking mechanism)

  • 정회경;조인준;김진수
    • 자연과학논문집
    • /
    • 제8권1호
    • /
    • pp.93-100
    • /
    • 1995
  • 본 논문은 서로 다른 시스템들 간에 구조화된 멀티미디어 문서정보 교환을 위한 국제표준 문서구조인 ODA의 문서 포맷터 설계 및 구현에 관한 것이다. 포맷터는 공통배치구조로부터 특정배치구조를 생성함과 동시에 사용자의 상호작용에 따라서 특정배치구조와 특정논리구조의 관계를 설정토록 하였으며, 이를 위해 역추적(backtracking) 메커니즘과 배치 지시자(layout directive)의 처리규칙을 제안하였다. 특히 복잡한 내부구조를 투명하게 보임으로써 보다 용이하게 문서작성을 수행토록 사용자 인터페이스를 대화식 처리방식으로 구현하였다.

  • PDF

엔지니어링 문서의 문장 자동 계층정의 방법론 (A Methodology for Automatic Hierarchy Definition of Sentences in Engineering Documents)

  • 박상일;김봉근;김경환;이상호
    • 한국전산구조공학회논문집
    • /
    • 제22권4호
    • /
    • pp.323-330
    • /
    • 2009
  • 본 논문은 엔지니어링 문서에서 각 제목의 머리기호가 그 문서의 논리적 계층 구조를 표현한다는 점을 이용하여 문서 내 각 제목의 계층을 자동으로 분류하는 방법론을 제시하였다. 제시한 방법론은 일반 텍스트 문서에서 세부 제목을 추출하는 방법과 추출된 제목의 계층을 정의하는 방법으로 구성된다. 문서의 세부 제목은 문장의 맨 앞에 위치한 머리기호의 형태를 미리 정의된 머리기호 그룹과 비교하여 추출하며, 추출된 제목의 계층은 머리기호 형태의 변화에 따라 각 제목간의 상대적 위치를 파악함으로써 정한다. 제시된 방법론을 이용하여 일반 텍스트 문서를 세부 제목에 따라 구조화된 XML 문서로 변환하는 시범 모듈을 개발하였으며, 20개의 엔지니어링 문서를 대상으로 그 성능을 분석하였다.

XSL-FO 문서를 PostScript Format으로 변환하기 위한 PostScript-Converter에 관한 연구 (A Study on PostScript-Converter for conversion XSL-FO into PostScript Format)

  • 유동석;김차종
    • 한국정보통신학회논문지
    • /
    • 제8권3호
    • /
    • pp.614-621
    • /
    • 2004
  • 현재의 전자문서처리 환경은 WYSIWYG 방식이다. 이를 위해 문서를 논리적인 구조와 물리적인 구조로 구조화하였고 이러한 구조를 마크업언어로 표현하고 있다. 특히 인터넷상의 전자문서 작성 및 교환을 위한 마크업언어로 XML이 발표되어 전자문서의 표현과 같은 전통적인 사용에서부터 검색을 위한 데이터베이스화에 이르기까지 전자문서의 활용 영역이 다양해지고 있다. 그러나 출력 품질면에서 워드프로세서나 전자출판에 의한 전자문서와 XML 문서의 출력 품질은 매우 큰 차이가 있다. 이는 비록 XML 문서가 스타일 정보를 포함하고 있긴 하지만 화면 출력과 인쇄 매체로의 출력 모두 고품질의 출력을 위한 적용이 부족했기 때문이다. 이러한 문제 해결을 위해 W3C에서는 고품질의 XML 출력 문서를 얻을 수 있도록 XSL-FO(XSL-Formatting Object)를 개발하였다. 한편 고품질의 전자출판물을 얻기 위해 폐이지 기술 언어(PDL)가 필요하고, 이의 업계표준인 Postscript가 이미 널리 사용되고 있다. 따라서 본 논문에서는 XML-FO를 PostScript에 적용함으로써 고품질의 XML 출력문서를 얻기 위한 변환기를 설계하였다.

텍스트마이닝 기법을 이용한 『상한론』 내의 증상-본초 조합의 탐색적 분석 (Analysis of Symptoms-Herbs Relationships in Shanghanlun Using Text Mining Approach)

  • 장동엽;하윤수;이충열;김창업
    • 동의생리병리학회지
    • /
    • 제34권4호
    • /
    • pp.159-169
    • /
    • 2020
  • Shanghanlun (Treatise on Cold Damage Diseases) is the oldest document in the literature on clinical records of Traditional Asian medicine (TAM), on which TAM theories about symptoms-herbs relationships are based. In this study, we aim to quantitatively explore the relationships between symptoms and herbs in Shanghanlun. The text in Shanghanlun was converted into structured data. Using the structured data, Term Frequency - Inverse Document Frequency (TF-IDF) scores of symptoms and herbs were calculated from each chapter to derive the major symptoms and herbs in each chapter. To understand the structure of the entire document, principal component analysis (PCA) was performed for the 6-dimensional chapter space. Bipartite network analysis was conducted focusing on Jaccard scores between symptoms and herbs and eigenvector centralities of nodes. TF-IDF scores showed the characteristics of each chapter through major symptoms and herbs. Principal components drawn by PCA suggested the entire structure of Shanghanlun. The network analysis revealed a 'multi herbs - multi symptoms' relationship. Common symptoms and herbs were drawn from high eigenvector centralities of their nodes, while specific symptoms and herbs were drawn from low centralities. Symptoms expected to be treated by herbs were derived, respectively. Using measurable metrics, we conducted a computational study on patterns of Shanghanlun. Quantitative researches on TAM theories will contribute to improving the clarity of TAM theories.

SSD에서의 시맨틱 파일 검색을 위한 확장된 속성 제공의 로그기반 파일시스템 (Attribute-Rich Log-Structured Filesystem for Semantic File Search on SSD)

  • 기안호;강수용
    • 디지털콘텐츠학회 논문지
    • /
    • 제12권2호
    • /
    • pp.241-252
    • /
    • 2011
  • 운영체제의 다른 부분이나 저장장치, 매체의 변화에 비해 파일시스템은 지난 수십 년 간 그 발전 속도가 더딘 편이다. 그러나 데이터의 증가에 따라 파일의 개수는 기하급수적으로 증가하고 있으며, 이렇게 늘어난 파일들에 대해 검색을 효율적으로 수행하기 위한 새로운 파일시스템 구조에 대한 연구가 최근 파일에 대한 시맨틱 검색을 하고자 하는 요구와 맞물려 주목 받고 있다. 하지만 이러한 연구는 저장 장치와 바로 맞닿는 계층이 아닌 더 상위 계층에서만 이루어지고 있어 기존의 하드디스크와는 다른 특성을 지니는 플래시 메모리 기반의 저장장치인 SSD에 최적화를 시키기 위한 노력으로 이어지진 않았다. 논문에서는 다중 로깅 지점이라는 SSD의 특성을 활용한 로그기반 파일시스템이 SSD에서 얻는 성능상의 이점을 활용하여 새로운 요구사항인 시맨틱 파일 검색까지 추가 비용 없이 지원하는 파일시스템을 제안한다.

구조화된 비디오 문서의 데이터 모델 및 질의어와 색인 기법 (Data Model, Query Language, and Indexing Scheme for Structured Video Documents)

  • 류은숙;이규철
    • 한국멀티미디어학회논문지
    • /
    • 제1권1호
    • /
    • pp.1-17
    • /
    • 1998
  • 비디오 정보는 전자 도서관이나 WWW 및 주문형 비디오 (VOD) 시스템과 같은 다양한 응용분야에서 중요한 요소로 부각되고 있다. 비디오 정보는 특성상 계층적으로 구조화된 문서 형태를 가지기 때문에 본 논문에서는 이를 “구조화된 비디오 문서”라 부른다. 본 논문에서는 구조화된 비디오 문서를 데이터베이스에 효율적으로 저장하고, 검색하기 위한 데이터 모델과 질의어 및 색인 기법을 제안한다. 구조화된 비디오 문서는 논리적인 계층 구조 특성을 지니기 때문에, 본 논문에서는 객체 지향 데이터 모델을 이용하여 비디오 문서를 복합 객체로 모델링하고, 이를 저장하기 위한 객체 타입들을 정의한다. 또한 본 논문에서는 비디오 데이터의 캡션이나 주석을 기반으로 한 내용 기반 검색과 비디오 문서의 논리적 구조를 기반으로 한 구조 기반 검색을 제공하며, 비디오 문서의 시공간 관계 연산을 이용한 검색도 지원한다. 그리고, 구조화된 비디오 문서의 효율적인 질의와 색인 공간의 오버헤드를 줄이기 위해 최적화된 역 색인 기법을 제시한다.

  • PDF

Grove를 이용한 구조적 SGML문서의 저장 및 검색 (A Storage and Retrieval System for Structured SGML Documents using Grove)

  • 김학균;조성배
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제8권5호
    • /
    • pp.501-509
    • /
    • 2002
  • 플랫폼에 관계없이 한번 작성된 문서의 정보를 이기종 시스템간 공유하고 다양한 문서 형식을 지원하기 위해 SGML(1508879)이 사용되고 있다. SGML 문서는 내용뿐만 아니라 구조정보를 가지고 있다. SGML 문서가 널리 보급됨에 따라서 구조적 정보를 이용한 데이타베이스의 구축 및 검색 시스템에 대한 필요성이 고조되고 있다. 그러나, 기존의 색인어를 이용한 전문 검색 엔진으로는 문서의 구조정보를 활용할 수 없다. 본 논문에서는 DSSSL 및 HyTime의 문서 모델인 Grove를 변형한 데이타 모델을 이용하여 문서 형식에 독립적이면서, 문서 형식과 내용을 분리하여 저장하는 SGML 문서 저장 시스템을 개발하였다. 구조정보를 손실없이 저장할 수 있도록 객체 지향형 데이타베이스 시스템인 오브젝트 스토어(Object Store)를 이용하였다. 또한 엘리먼트에 대해 관계형 DBMS와 유사한 인덱스 구조를 생성하여 검색 성능을 향상시켰고, 내용기반 검색과 구조기반 검색을 효율적으로 결합한 사용자 인터페이스를 구축하였다.

무선 인터넷 서비스를 위한 계층 구조의 Deck를 갖는 HTML Filter의 구현 방안 (Implementation of HTML Filter with structured Decks for Wireless Internet Service)

  • 강경용
    • 한국컴퓨터산업학회논문지
    • /
    • 제3권2호
    • /
    • pp.179-184
    • /
    • 2002
  • 무선인터넷을 통한 웹 기반의 HTML 형태의 콘텐츠를 표현하는데는 단말기와 다른 여러 가지 제한에 의하여 제한적인 형태만이 보여진다. 이러한 형태는 WAP의 환경에서 무선단말기의 특성에 적합하도록 WML을 이용하여 무선인터넷으로 콘텐츠의 내용을 표현한다. 본 논문은 구조적인 deck와 card의 구조를 갖는 WML 형식으로 기존의 HTML 형태의 콘텐츠를 변환하는 HTML의 필터를 구현하는 것이다. 구현된 Filter는 WAP 서버에 위치하여 HTML 형식의 자료를 한번에 전체의 데이터를 전송하여 WML 형태로 변환하는 방식이 아니고 보다 핵심적이고 중요한 최소의 데이터를 선택적으로 전송하는 것이 더욱 효율적이기 때문에 본 논문에서는 자동적으로 HTML 형태의 자료를 구조적인 형태의 Deck로 변환 후 그 중에서 가장 중요한 최소한의 Deck의 자료만을 전송하도록 한다. 무선인터넷 단말과 WAP Gateway 간의 전송 신호와 프로토콜도 고려하여 특정한 Web 사이트상의 콘텐츠를 제한된 구조적인 필터로 변환하여 그 결과를 무선인터넷 단말상에 표시가 가능하도록 시험하였다.

  • PDF

XML 문서의 효율적인 구조 검색을 위한 색인 모델 (An Indexing Model for Efficient Structure Retrieval of XML Documents)

  • 박종관;손충범;강형일;유재수;이병엽
    • 정보처리학회논문지D
    • /
    • 제8D권5호
    • /
    • pp.451-460
    • /
    • 2001
  • 본 논문에서는 XML 문서의 효율적인 구조 검색을 위한 색인 모델을 제안한다. 색이 모델은 문선 계층상의 모든 레벨에서 내용 기반 질의와 구조 및 에트리뷰트 질의와 같은 다양한 질의를 지원하기 위한 구조정보와 이를 이용한 색이 구조로 구성된다. 구조검색을 지원하기 위해 새로운 구조정보 표현 방법을 제안한다. 제안한 구조정보 표현 방법에 따라 표현된 구조정보를 이용해 효율적인 검색을 위한 내용 색인, 구조 색인, 에트리뷰트 색인을 구성한다. 또한 내용과 구조가 혼합된 질의의 처리과정을 설명하고, 제안하는 색인 모델의 성능평가를 보임으로써 기존의 방법보다 성능이 우수함을 보인다.

  • PDF