• 제목/요약/키워드: XML document filtering

검색결과 14건 처리시간 0.019초

가지형 패턴의 시퀀스화를 이용한 XML 문서 필터링 (FiST: XML Document Filtering by Sequencing Twig Patterns)

  • 권준호;;문봉기;이석호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제33권4호
    • /
    • pp.423-436
    • /
    • 2006
  • 최근 XML 문서 필터링에 기반한 출판 -구독 (publish-subscribe) 시스템이 많은 관심을 받고 있다. 전형적인 출판 구독 시스템에서, 구독자들은 XPath 언어로 명세된 프로파일로 자신들의 관심을 표현하고, 새로운 내용들은 사용자 프로파일에 대하여 매칭 여부를 판단하여 관심을 가지고 있는 사용자들에게만 배달된다. 구독자의 수와 그들의 프로파일이 증가할수록, 시스템의 확장성이 출판 구독 시스템의 중요한 성공 요소가 된다. 이 논문에서는 XPath 로 명세된 가지형 패턴과 입력 XML 문서들을 Prufer의 방법을 사용하여 시퀀스로 변환하는 FiST라 불라는 새로운 필터링 시스템을 제안한다. FiST 시스템은 가지형 패턴을 구성하는 선형 경로들에 대하여 각각 매칭을 수행하고 후처리 과정에서 그 결과들을 병합하는 방법을 이용하는 대신에 가지형 패턴 전체를 사용하여 입력 문서에 대하여 매칭을 수행한다. 또한 효율적인 필터링을 위하여 시퀀스들을 해시 기반의 동적 인덱스로 구성한다. 실험 결과를 통해 전체 매칭 접근 방법이 다양한 환경에서 낮은 필터링 비용과 좋은 확장성을 가짐을 알 수 있다.

문서 단위 순위화를 통한 XML 문서에 대한 키워드 검색 성능 향상 (Accelerating Keyword Search Processing over XML Documents using Document-level Ranking)

  • 이형동;김형주
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제33권5호
    • /
    • pp.538-550
    • /
    • 2006
  • XML 문서에 대한 키워드 검색은 사용자로 하여금 XML 문서의 복잡한 구조에 관한 지식 없이 쉽게 정보를 검색할 수 있게 해준다. 또한 사용자의 정보 요구에 대해 해당 정보를 포함하는 문서 전체를 반환하는 기존의 정보 검색 시스템과 달리 문서 내의 해당 정보를 포함하는 문서 조각을 결과로 반환함으로써 보다 빠르게 원하는 정보를 얻을 수 있도록 도와준다. 이러한 특징은 XML 문서 검색 시스템이 XML 문서를 문서 단위가 아닌 세부적인 엘리먼트 단위로 처리함으로써 가능하다. 하지만 이로 인해 대용량 문서들에 대한 질의 처리 부담 역시 가중되었다. 본 논문에서는 엘리먼트 단위 질의 처리의 비용을 줄이기 위해 XML 문서에 대한 문서 단위 순위화 기법을 제안하는데, 이는 결과물의 점수에 영향을 미치는 질의 키워드들의 문서 내에서의 근접도를 경로 노드 집합 정보와 이에 대한 유사도를 통해 구함으로써 엘리먼트 단위 질의 처리 결과를 예측하고 문서 단위 점수를 계산한다. 이러한 문서 중심의 뷰는 대용량 문서에 대한 순위화 혹은 필터링을 가능하게 해주며, 우리는 문서 단위 인덱스를 통해 순위가 높은 문서를 우선적으로 처리함으로써 Top-k 질의에 대해 검색 성능을 높였으며, 실험을 통해 해당 기법의 유효성과 성능 향상을 검증하였다.

XML 정보검색의 효율적 전처리를 위한 문서여과 알고리즘 (Document Filtering Algorithm for Efficient Preprocessing of XML Information Retrieval)

  • 공용해;김명숙
    • 한국산학기술학회논문지
    • /
    • 제6권1호
    • /
    • pp.1-11
    • /
    • 2005
  • 본 논문은 다수의 XML문서들을 대상으로 하는 XML 정보검색에서, XML의 효율적 질의검색을 위한 전처리 방법을 제안한다. 기존의 전처리 방법은 질의의 키워드에 대하여 XML 문서를 파싱하거나, 질의와 XML 문서로부터 생성된 시그너처 정보를 비교하여 XML 문서를 여과한다. 그러나 이러한 방법은 질의에 종속적이며 다량의 XML 문서들이 존재할 경우 매우 비효율적이다. 이를 위하여, 본 연구는 온톨로지를 사용하여 서로 다른 구조와 속성을 갖지만 동일 영역의 정보를 포함하고 있는 XML 문서에 적용 가능한 포괄적 DTD를 생성하고, 이를 이용하여 검색 영역에 포함되지 않는 불필요한 XML문서를 여과한다. 예제 XML 문서를 적용하여 제안한 문서여과 알고리즘의 성능을 테스트한다.

  • PDF

사용자 정보에 기반한 XML문서 전달 시스템 (A Personalized XML Documents Delivery System)

  • 유상원;이형동;김형주
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제9권5호
    • /
    • pp.487-497
    • /
    • 2003
  • 그동안 메일이나 뉴스등을 필터링하여 사용자에게 전달해 주는 많은 시스템들이 개발되었다. 이 시스템들이 필터링하는 문서들은 일반 덱스트나 HTML으로 작성된 것들이었다. 새로운 정보 교환 표준으로 떠오르고 있는 XML은 문서를 필터링하는 시스템들에 있어서도 다른 접근 방법을 요구하고 있다. 본 논문에서 구현한 시스템은 XML이 가진 스키마 표현 능력과 구조 정보를 이용하여 사용자 정보를 기술하는 방법을 제안한다. 사용자 정보는 DTD로부터 추출된 정보를 이용하여 DTD를 따르는 문서내의 특정 부분을 가리킬 수 있도록 만들어진다. 또한 기존의 필터링 시스템이 문서단위의 필터링에 초점을 맞추고 있는 것을 개선하기 위해 문서에서 사용자가 원하는 부분만을 제공하고 있다. 사용자 정보는 XML질의에 반영되어 XML로 이루어진 문서에서 일부분을 얻어내는데 사용된다.

세그먼트 기반의 XML 문서 필터링 (XML Document Filtering based on Segments)

  • 권준호;;문봉기;이석호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제35권4호
    • /
    • pp.368-378
    • /
    • 2008
  • 최근 XML 문서 필터링에 기반한 출판-구독(publish-subscribe) 시스템이 많은 관심을 받고 있다. 전형적인 출판-구독 시스템에서, 구독자들은 XPath 언어로 명세된 프로파일로 자신들의 관심을 표현하고, 새로운 내용들은 사용자 프로파일에 대하여 매칭 여부를 판단하여 관심을 가지고 있는 사용자들에게만 배달된다. 구독자의 수와 그들의 프로파일이 증가할수록, 시스템의 확장성이 출판-구독 시스템의 중요한 성공 요소가 된다. 이 논문에서는 FiST 시스템을 확장한 세그먼트 기반의 XML 문서 필터링 시스템인 SFiST 시스템을 제안한다. SFiST 시스템은 XML 문서 필터링에서 중복된 처리를 없애기 위해서 가지형 패턴의 사용자 프로파일에서 세그먼트를 추출하여 해시 기반의 세그먼트 테이블에 저장하고 유지한다. 이 세그먼트는 사용자 프로파일을 터스 시퀀스 형태로 표현하는데 이용되고, 효율적인 필터링을 위한 컴팩트 시퀀스 인덱스에도 사용된다. 실험을 통하여 세그먼트 기반의 SFiST 시스템이 이전의 연구인 FiST 시스템보다 좋은 성능을 가지고 있음을 보였다.

NFA 표현을 사용한 문서-중심적 XML의 키워드 기반 필터링 기법 (A Keyword-based Filtering Technique of Document-centric XML using NFA Representation)

  • 이경한;박석
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제33권5호
    • /
    • pp.437-452
    • /
    • 2006
  • XPath 명세는 XML 원소 내용을 필터링하기 위한 질의어 작성이 어렵다. 본 논문은 이러한 문제점을 해결하기 위해 SQL의 LIKE 연산자에서 사용되던 특별한 매칭 문자 '%'를 허용한 확장된 XPath 명세와 그것을 표준 질의어로 사용하는 문서-중심적 XML 필터링 기법인 Pfilter를 제안한다. Pfilter는 값-기반 술어(value-based predicate)에서 피연산자의 공통 앞부분 문자를 공유하여 값-기반 술어의 처리 성능을 향상시킨다. 또한 본 논문은 Pfilter와 대표적인 데이타-중심적 XML 필터링 기법인 Yfilter를 값-기반 술어 처리의 확장성과 효율성에 대해 비교하고 Pfilter의 값-기반 술어 삽입, 삭제, 처리 결과를 제공한다. 본 논문에서 제안한 Pfilter는 XML 필터링 시스템에서 XPath의 contains() 함수를 평가(evaluation)하기 위한 핵심 알고리즘으로 사용할 수 있으며, XML 기반의 분산 정보 시스템을 구축하기 위한 기초 연구로 활용될 수 있다.

온톨로지 기반 문서여과 및 질의확장에 의한 XML 정보검색 (XML Information Retrieval by Document Filtering and Query Expansion Based on Ontology)

  • 김명숙;공용해
    • 한국멀티미디어학회논문지
    • /
    • 제8권5호
    • /
    • pp.596-605
    • /
    • 2005
  • 기존의 XML 질의 방법은 단순 키워드 정합이나 단순 구조적 확장 등에 국한되므로 문서에 내재된 정보를 검색하기에 불충분할 뿐만 아니라,모든 문서에 질의를 인가함으로써 정보검객의 효율을 저하시킨다. 본 연구는 온톨로지로부터 생성한 포괄적 BTD에 의해 검객대상 문서를 사전에 미리 선별하는 문서여과 방법과 온톨로지의 개념구조와 개념 간 연관관계를 추론하여 질의를 확장하는 방법을 제안함으로써 XML정보검색의 효과를 증대 하고자 한다. 제안한 문서여과 및 질의확장 방법은 다양한 XML 문서를 대상으로 검색 효과를 실험하였다.

  • PDF

NFA 표현을 사용한 문서-중심적 XML의 키워드 기반 필터링 기법 (A Keyword-based Filtering Technique of Document-centric XML using NFA Representation)

  • 이경한;박석
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 한국컴퓨터종합학술대회 논문집 Vol.33 No.1 (C)
    • /
    • pp.25-27
    • /
    • 2006
  • XPath 명세는 XML 원소 내용을 필터링하기 위한 질의어 작성이 어렵다. 본 논문은 이러한 문제점을 해결하기 위해 SQL의 LIKE 연산자에서 사용되던 특별한 매칭 문자 '%' 를 허용한 확장된 XPath 명세와 그것을 표준 질의어로 사용하는 문서-중심적 XML 필터링 기법인 Pfilter를 제안한다. Pfilter는 값-기반 술어(value-based predicate)에서 피연산자의 공통 앞부분 문자를 공유하여 값-기반 술어의 처리 성능을 향상시킨다. 또한 본 논문은 Pfilter와 대표적인 데이터-중심적 XML 필터링 기법인 Yfilter를 값-기반 술어 처리의 확장성과 효율성에 대해 비교하고 Pfilter의 값-기반 술어 삽입, 삭제, 처리 결과를 제공한다.

  • PDF

효과적인 추천과 세분화를 위한 트랜잭션 기반 여러 형태 사용자 프로파일의 구축 (The Construction of Multiform User Profiles Based on Transaction for Effective Recommendation and Segmentation)

  • 고재진;안형근
    • 정보처리학회논문지D
    • /
    • 제13D권5호
    • /
    • pp.661-670
    • /
    • 2006
  • 쉽게 접할 수 있는 정보의 양이 증가하고 전자상거래가 발전함에 따라, 드넓은 정보공간을 축소하기 위하여 추천과 SDI 시스템과 같은 정보 필터링 시스템이 사용되어지게 되었으며, 이에 따라 사용자들은 그들의 요구와 취향에 가장 적합한 정보들을 바로 접근할 수 있게 되었다. 지금까지 다양한 정보 필터링 방법들이 추천시스템을 지원하기 위해 제안되었다. 최근에는 새로운 정보교환 표준으로 떠오르고 있는 XML 문서를 필터링 하는 시스템들에 있어서도 다른 접근 방법을 요구하고 있다. 따라서, 본 논문에서 제안하는 시스템은 XML이 가진 구조 정보를 이용하여 여러 형태의 사용자 프로파일을 생성하는 방법을 제안한다. 시스템은 구매와 같은 트랜잭션이 발생하기 전에 사용자 구매 패턴을 분석하기 위해서 필요한 프로파일을 운영자가 직접 정의하는 운영자 프로파일과 이를 적용한 사용자 프로파일의 두 부분으로 구성된다. 운영자 프로파일은 DTD로부터 선택된 항목을 이용하여 DTD를 따르는 문서내의 특정부분을 가리킬 수 있도록 만들어진다. 제안하는 시스템은 사용자의 구매 행위에 적응력을 가질 수 있도록 보다 정확한 사용자 프로파일을 구축하고, 이와 같은 사용자 프로파일을 기반으로 사용자에게 불필요한 검색과정 없이 필요한 상품 정보를 제공할 수 있도록 한다.