• 제목/요약/키워드: XML 트리

검색결과 206건 처리시간 0.02초

정보 검색 기술을 이용한 대규모 이질적인 XML 문서에 대한 효율적인 선형 경로 질의 처리 (Efficient Linear Path Query Processing using Information Retrieval Techniques for Large-Scale Heterogeneous XML Documents)

  • 박영호;한욱신;황규영
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제31권5호
    • /
    • pp.540-552
    • /
    • 2004
  • 본 논문에서는 대규모 이질 XML 문서들에 대한 부분 매치 질의를 효과적으로 처리하는 새로운 방법 XIR-Linear를 제안한다. XPath 질의는 XML 문서를 표현하는 트리 구조에 대한 경로 표현식 (path expression)으로 쓰여진다. 주요한 형태의 XPath 질의는 부분 매치 질의(partial match query)이다. XIR-Linear의 목적은 이질적인 스키마들을 가진 대규모 문서들에 대한 부분 매치 질의를 효과적으로 지원하는 것이다. XIR-Linear는 관계형 테이블을 이용한 스키마-레벨 방법에 기반을 두고, 역 인덱스 (inverted index) 기술을 사용하여 XPath 질의 처리의 효율성을 획기적으로 향상시킨다. 본 방법은 레이블 경로(label path)를 덱스트로 간주하고 레이블 경로 내의 레이블(label)들을 텍스트 내에 있는 키워드(keyword)로 간주한 후, 레이블들을 정보 검색 기술을 이용하여 인덱스 함으로써 전통적인 방법들에서 사용된 스트링 매치(string match) 보다 효율적인 방법으로 질의와 매치되는 레이블 경로들을 찾을 수 있도록 하였다. 성능 평가에서는 인터넷에서 수집한 XML 문서들을 사용하여 기존의 관계형 테이블을 이용하는 XRel, XParent와 비교 실험함으로써, 제안한 방법의 효율성을 입증한다. 실험을 통해 XIR-Linear가 실험 범위 내에서 XRel 이나 XParent에 비해 수십 배 이상 좋은 성능을 보이며, XML 문서 수의 증가함에 따라 더욱 우수하다는 것을 보인다.

메타데이터 인터페이스를 이용한 DTD 기반 XML 문서 변환기의 골격 원시 코드 생성 (Skeleton Code Generation for Transforming an XML Document with DTD using Metadata Interface)

  • 최귀자;남영광
    • 정보처리학회논문지D
    • /
    • 제13D권4호
    • /
    • pp.549-556
    • /
    • 2006
  • 본 논문에서는 목표 문서의 DTD에 정의된 구조에 따라 원시문서를 목표 문서로 변환하는 XML 문서변환기와 골격 원시 프로그램을 생성하는 방법을 제안한다. 사용자는 생성된 프로그램을 이용하여 코드를 추가하거나 프로그램을 변경하고, 외부 클래스나 라이브러리 파일들을 연결하여 자신이 원하는 방법으로 쉽게 문서를 변환할 수 있다. 생성된 프로그램은 목표 DTD 경로(path)를 기준으로 코드를 생성하기 때문에 가독성이 높다. 현재까지의 대부분의 XML 문서변환은 XSLT를 이용하거나 XQuery를 이용하여 Java 프로그램을 생성하고 있으나, 각 요소별로 코드를 조작할 수 없는 단점이 있다. 본 논문에서 제안된 방법은 사용자가 원시/목표 문서에서 제공되는 DTD 혹은 문서에서 자동으로 추출된 DTD를 이용하여 원소 사이의 관계를 지정하면 자동적으로 문서가 변환되고 Java 원시 프로그램을 생성하기 때문에 코드 생성과정이 매우 단순하다. 메타데이터 인터페이스는 Java GUI를 이용하여 트리 형태로 표현된 DTD의 원소를 클릭하여 쉽게 생성할 수 있다. 문서변환을 위한 매핑은 원소의 특성에 따라 1:1, 1:N, N:1로 구분되며 데이터의 분해 혹은 합성을 위한 사용자 지정 함수가 메타데이터 인터페이스에 저장된다. 본 시스템은 실제 사용되고 있는 논문 XML 문서를 서지문서로 변환한 결과 및 프로그램 코드를 예제로 구현하여 결과를 제시하였다.

경로정보의 중복을 제거한 XML 문서의 저장 및 질의처리 기법 (Storage and Retrieval of XML Documents Without Redundant Path Information)

  • 이혜자;정병수;김대호;이영구
    • 정보처리학회논문지D
    • /
    • 제12D권5호
    • /
    • pp.663-672
    • /
    • 2005
  • 본 논문에서는 대용량 XML 문서를 저장하고 그로부터 원하는 정보를 효율적으로 찾기 위한 방법으로, 경로정보의 중복을 제거하면서 역 인덱스를 함께 이용한 방법을 제안한다. XML 문서는 트리구조에 기반한 노드로 분해되어, 노드 타입에 따라, 루트에서 각 노드까지의 경로정보와 함께 관계형 테이블에 저장된다. 경로정보를 이용한 기존의 U 질의 기법들에서는 모든 엘리먼트 노드들에 대해 경로정보를 저장함에 따라 정보의 양이 증가하여 질의 처리의 성능을 저하시키는 요인이 되고 있다. 제안 방법에서는 경로정보 중 가장 긴 단말 엘리먼트 노드까지의 경로인 단말 엘리먼트 경로(leaf element path)만 저장하고 내부 엘리먼트 노드까지의 경로인 내부 엘리먼트 경로들(internal element paths)은 저장하지 않는다. 단말 엘리먼트 경로만을 대상으로 하여 역 인덱스를 구성함에 따라, 기존의 역 인덱스 이용 기법에 비해 키워드별 포스팅 리스트(posting lists)의 수를 줄이게 된다. 제안 방법에서는 U 문서의 저장과 질의를 위하여 XML 문서에 대한 스키마 정보가 없어도 되며, 관계형 데이터베이스의 어떤 확장도 요구하지 않는다. 실험을 통해 제안 방법은 실험 범위 내에서 기존 기법들에 비해 좋은 성능을 보인다.

문서 영상의 논리적인 구조 분석을 위한 구문론적인 접근 방식 (A Syntactic Approach for Logical Structure Analysis of Document Images)

  • 이경호;최윤철;조성배
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제28권7호
    • /
    • pp.524-536
    • /
    • 2001
  • 본 논문에서는 다수의 페이지로 구성된 복잡한 구조의 문서로부터 SGML/XML에 기반한 전자 문서를 생성하기 위한 구문론적인 구조분석 방법을 제안한다. 특히 제안된 파싱 기법은 텍스트 라인을 기본 단위로 하는 기존 연구보다 논리적인 계층 구조를 보다 정확하고 빠르게 생성하기 위하여 텍스터 영역의 계층적인 트리 구조를 입력으로 받아들인다. 또한 문서 유형의 논리적인 구조 정보와 기하적인 특성을 효과적으로 기술할 수 있는 문서모델을 정의하고, 이의 자동 생성과 점증적인 학습 방법을 제안한다. 제안된 방법의 성능을 평가하기 위하여 과학 기술 논문으로부터 스캐닝한 372개의 논문 연상으로 실험한 결과, 제안된 방법은 기존 연구와 달리 다수의 문서 영상으로 구성된 문서에 대하여 논리적인 구조분석과 문서 모델의 자동 생성을 효율적으로 지원하였다. 특히 제안된 방법은 논리적인 구조분석의 최종 결과로서 SGML/XML 문서를 생성하기 때문에 문서의 재 사용성과 호환성을 높인다.

  • PDF

구조화된 문서 생성을 위한 논리적인 구조 분석 기법 : 구문론적인 접근방식 (Logical Structure Analysis for Structured Document Generation A Syntactic Approach)

  • 이경호;최윤철;조성배
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (1)
    • /
    • pp.175-177
    • /
    • 2000
  • 본 논문에서는 다수의 페이지로 구성된 복잡한 구조의 문서로부터 SGML/XML에 기반한 전자 문서를 생성하기 위한 구문론적인 구조분석 방법을 제안한다. 제안된 방법은 구조분석의 정확성과 처리속도의 향상을 위하여 텍스트 영역의 계층적인 트리를 파싱하여 논리적인 계층 구조를 추출한다. 또한 본 논문은 문서 유형의 논리적인 구조 정보와 기하적인 특성을 효과적으로 기술할 수 있는 문서 모델을 정의한다. 제안된 방법의 성능을 평가하기 위하여 IEEE Transactions on Pattern Analysis and Machine Intelligence로부터 스캐닝한 372개의 논문 영상으로 실험한 결과, 제안된 방법은 기존 연구와 달리 다수의 문서 영상으로 구성된 문서에 대하여 논리적인 구조분석을 효율적으로 지원하였다. 특히 제안된 방법은 논리적인 구조분석의 최종 결과로서 SGML/XML 문서를 생성하기 때문에 문서의 재사용성과 호환성을 높인다.

  • PDF

JXTA 기반의 XPath 질의 처리 시스템 (An XPath Query Processing System based on JXTA)

  • 이지훈;손기락
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2003년도 춘계학술발표논문집 (하)
    • /
    • pp.1607-1610
    • /
    • 2003
  • 최근 MP3 저작권에 대한 찬반 논란이 계속 되면서, 기존의 클라이언트-서버가 아닌 Peer-To-Peer(P2P) 기반의 데이터 검색 시스템에 관한 여러 연구가 활발히 진행되고 있다. 하지만. 검색 방법에 있어서는 단순히 파일이름을 이용한 데이터 검색 방법이 주류를 이루고 있는데 본 논문에서는 검색을 위한 문서 정보를 XML 형태로 저장하고, 구조적인 검색을 용이하게 하기 위해 DOM(Document Object Model)을 이용하여 XML 문서를 트리 형태로 구성한 후 P2P 네트워킹 플랫폼인 JXTA를 기반으로 XPath 질의를 수행함으로써 P2P 네트워크 기반에서 구조적 검색이 가능한 시스템을 구현하였다.

  • PDF

에이전트 커뮤니케이션 언어 마이닝을 통한 신뢰성있는 사용자 행동 패턴 예측 (A Reliable Prediction of User-Behavior Patterns Mined from the ACL- Based Data)

  • 이승철;백주련;김응모
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2006년도 추계학술발표대회
    • /
    • pp.373-376
    • /
    • 2006
  • 저비용, 네트워크화 된 센서들, 언제 어디서나 쉬운 인터넷 사용과 같은 컴퓨팅 환경의 진화는 우리의 일상생활 속으로 진정한 모바일 환경을 실현 가능하게 만든다. 이런 모바일 환경의 발달은 다양한 모바일 에이전트들을 양산하며 사용자의 편의를 극대화 할 수 있도록 한다. 모바일 에이전트들은 사용자 정보, 주변 환경정보, 컴퓨팅 정보 또는 애플리케이션 정보 등을 XML 기반 표준 언어인 ACML(Agent Communication Markup Language)로 저장한 후 상호교환 및 분석을 하게 된다. 기존 테이블 형태의 정보를 기반으로 사용자의 행동패턴을 분석 및 예측했던 시스템과는 달리 에이전트 환경에서의 사용자 행동패턴 분석 및 예측은 트리구조를 대상으로 하기 때문에 새로운 방법이 요구된다. 본 논문에서 제안한 기법은 XML 기반 표준 언어인 ACML로 저장된 정보를 사용자의 상황(context)에 적합하도록 고려하여 언제, 어디서나 원하는 정보를 자동적으로 사용자에게 제공할 수 있도록 한다.

  • PDF

효율적인 구조 정보 검색을 위한 색인 모델 (An Indexing Model for Efficient Structure Information Retrieval)

  • 고혜경;조윤기;조정길;이병렬;구연설
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (A)
    • /
    • pp.649-651
    • /
    • 2001
  • 본 논문에서는 XML 문서의 효율적인 관리와 구조검색을 위한 구조적 색인 방법을 제안한다. 기존의 방법은 특정 엘리먼트의 부모, 자식, 형제애 대한 다양한 구조검색을 효율적으로 지원하지 못하므로, XML 문서의 구조정보를 LETID(Labeled Element Type ID)로 표현하며 엘리먼트를 식별하고, 부모와 자식 엘리먼트간의 계층 정보와 동일한 부모 엘리먼트를 갖는 자식 엘리먼트들의 순서정보를 나타낸다. LETID는 고정된 크기로 하며, 엘리먼트에 고유 ID를 부여하는 방식을 통해서 DTD의 논리적 구조를 분석할 때 부모 형제 노드를 직접적으로 찾을 수 있고 ID 값에 깊이정보가 포함되어 있기 때문에 고유번호만 보고 깊이를 알 수가 있다. 이 구조정보를 이용하여 빠른 검색을 위한 내용 색인 구조 색인 애트리뷰트 색인을 설계하고 설계된 색인을 통하여 질의를 처리하여 다양한 구조적 질의를 효율적으로 처리할 수 있다.

  • PDF

구조분석 에이전트를 사용한 웹사이트의 평가 (Web Site Evaluation Using Structure Analysis Agents)

  • 정윤경;조성배
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (2)
    • /
    • pp.143-145
    • /
    • 2000
  • 인터넷이 보편화되면서 그에 따른 정보량도 급증하고 있다. 웹문서량이 많아짐에 따라 웹문서를 구조를 이용하여 저장, 분석하는 연구가 활발히 이루어지고 있다. 본 논문에서는 웹사이트를 사용자가 평가하기 위해 계층적인 웹문서들의 관계를 사이트맵으로 구성하며 웹문서 내의 계층구조를 추출, 저장하고 그래픽적으로 표시하였다. 이를 위해 웹문서 내의 계층구조를 위해 W3기관의 공용으로 사용되는 Tidy 라이브러리를 이용하여 URL에 대한 HTML 문서를 얻고 이를 XML로 변환하였다. 변환된 XML 결과로 이진트리를 구성하고 계층구조를 표현하였다. 웹문서들의 사이트맵은 그래프형식과 계층구조형식으로 표현했는데 그래프형식을 이용하여 사이트맵의 연결구조를 파악할 수 있게 하였으며, 계층구조를 이용하여 웹문서간의 계층구조에 따른 정보를 얻을 수 있었다. 사이트맵을 구성하기 위해 URL들의 구조를 인접리스트로 저장하였으며, 방향성 그래프형식을 이용하였다. 또한 웹문서 구조를 계층적으로 구성하기 위해 웹문서의 그래프형식에 대해 BFS(Breadth First Search)방식을 이용했다. 또한 계층적 사이트맵을 이용한 평가항목을 이용하여 증권사이트에 대해 실험하였다. 실험을 통해 본 시스템이 웹사이트 평가에 유용성함을 입증하였다.

  • PDF

Rectangle Layout을 이용한 XML 기반 모바일 정보 시각화 시스템 (An XML based Mobile Information Visualization System for Mobile Devices using Information layout Techniques)

  • 유희용;전서현
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제33권9호
    • /
    • pp.776-786
    • /
    • 2006
  • 본 논문은 제한된 디스플레이를 가지는 모바일 디바이스 상에서 XML로 작성된 정보를 사용자에게 효과적으로 보여주는 rectangle layout을 이용한 XML 기반의 모바일 정보 시각화 시스템을 제안한다. 먼저 트리 형태의 정보뿐만 아니라 사이클이 존재하는 그래프 정보까지 기술하도록 XML 스키마를 정의한다. XML로 기술된 정보에 대해 디스플레이 화면상에 배치할 때, 사각형의 형태를 가지는 디스플레이 화면의 특징을 고려하여 기존 radial layout을 개선한 rectangle layout 방식을 적용한다. 그 다음 전체 정보와 사용자가 관심을 가지는 정보를 동시에 표현하기 위해 어안 뷰(fisheye view)알고리즘의 DOI를 rectangle layout에 표현된 모든 정보에 적용한다. 또한 사용자가 새로운 관심 대상 정보를 선택하였을 때, 정보들의 화면 재배치에 따른 변화에 사용자 혼란을 줄이고 사용자의 인지력을 향상시키기 위한 방법을 모바일 디바이스의 능력을 고려하여 제안한다. 제안된 focus+context 방식의 정보 시각화 시스템은 데스크 탑에 비해 CPU 계산 능력과 디스플레이 화면, 메모리 제약이 심한 PDA, 셀룰라 폰, 스마트 폰과 같은 모바일 디바이스 상에서 정보 검색에 효과적인 인터페이스를 제공한다. 본 논문에서는 제안한 정보 시각화 시스템을 PDA상에 구현하고 제안된 rectangle layout을 이용한 정보 시각화 방식과 기존 radial layout을 이용한 정보 시각화 방식에 다양한 조건을 적용하여 실험 및 평가를 진행한다.