• 제목/요약/키워드: XML Clustering

검색결과 45건 처리시간 0.02초

유전자 알고리즘을 통한 XML 군집화 방법 (XML Clustering Technique by Genetic Algorithm)

  • 김우생
    • 전자공학회논문지CI
    • /
    • 제49권3호
    • /
    • pp.1-7
    • /
    • 2012
  • 최근 들어 인터넷에서 많이 사용되는XML 문서들을 효율적으로 접근, 질의, 관리하는 방법들이 연구되고 있다. 본 논문은 XML 문서들을 효율적으로 군집화 하는 새로운 기법을 제안한다. XML 문서의 원소는 대응하는 트리의 노드에 대응하며, 문서에서 내포 관계는 트리의 부모와 자식 노드간의 관계에 대응한다. 따라서 유사한 XML 문서들은 대응하는 트리들에서 노드의 이름과 레벨 등이 유사하다. 이러한 성질을 유전 알고리즘의 평가 함수로 만들어 군집화를 시도하였다. 실험 결과를 통하여 제안하는 기법이 기존 방법들보다 좋은 결과를 얻을 수 있음을 보였다.

2D-THI: XML 데이테베이스를 위한 이차원 타입상속 계층색인 (2D-THI: Two-Dimensional Type Hierarchy Index for XML Databases)

  • 이종학
    • 한국멀티미디어학회논문지
    • /
    • 제9권3호
    • /
    • pp.265-278
    • /
    • 2006
  • 본 논문에서는 XML 데이터베이스의 타입상속 계층에 대한 색인기법으로 이차원 색인구조를 이용하는 이차원 타입상속 색인기법인 2D-THI를 제안한다. XML 스키마는 타입상속을 지원하는 XML 문서를 위한 스키마 모델 중에 하나이다. 기존의 XML 데이터베이스를 위한 색인기법은 XML 스키마상의 타입상속 계층에 대한 XML 질의를 지원하지 못한다. 따라서 본 논문에서는 XML 질의의 타입상속 계층을 지원하기 위한 색인기법으로 다차원 파일구조를 이용하는 이차원 색인구조를 구성한다. 이차원 색인구조에서 한 축은 색인된 엘리먼트의 킷값 도메인으로 구성하고 다른 한 축은 타입상속 계층의 타입 식별자 도메인으로 구성한다. 이와 같은 이차원 색인구조를 이용함으로써 사용자 질의 패턴에 따라 두 도메인 사이에서 객인 엔트리들의 클러스터링 정도를 조정함으로써 질의처리의 성능을 향상시킬 수 있다. 본 논문에서 제안한 2D-THI의 성능 평가를 위하여, 비용 모델을 개발하고 이를 통하여 2D-THI를 기존의 객체지향 데이터베이스에서 사용하고 있는 CH-index와 CG-tree와 같은 클래스 계층 색인기법들과 색인의 성능을 비교평가 한다. 성능평가의 결과로서, CH-index와 CG-tree에서는 특정 형태의 XML 질의의 경우에만 좋은 성능을 보인 반면, 본 논문에서 제안한 2D-THI에서는 주어진 질의 형태에 따라 최적의 질의처리 성능을 제공할 수 있음을 보인다.

  • PDF

XML 문서의 클러스터링 기법을 이용한 스케치맵 시스템 (Sketch Map System using Clustering Method of XML Documents)

  • 김정숙;이야리;홍경표
    • 한국콘텐츠학회논문지
    • /
    • 제9권12호
    • /
    • pp.19-30
    • /
    • 2009
  • 최근 각광을 받고 있는 지도(이하 맵)를 활용한 서비스는 맵에 접근한 후 인터페이스를 통해 다양한 매쉬업 형태의 결과를 제공하는 방식이다. 이러한 서비스는 사용자에게 정확한 정보를 제공할 수는 있지만 맵의 재활용은 어렵다. 본 논문의 스케치맵 시스템은 기존의 대형 맵 시스템과는 달리 목적에 부합하는 특정 지점과 경로를 XML 문서로 표현한다. 또한, 스케치맵 간에 클러스터링 방법을 사용함으로써 맵에서 표현되는 지점을 최적의 내용으로 갱신한다. 그 결과로서, 목적지점에 대한 경로를 간단하게 약도로 표현하기 위해 설계된 맵 서비스 시스템이다. 본 시스템은 스케치 맵의 XML 문서 입력에 대하여 스케치맵 생성기에서 분석 분할 클러스터링의 과정을 통해 유효한 형태의 스케치맵을 생성한다. 스케치맵의 분할 및 병합을 위한 질의처리 방법으로는 LCS(Longest Common Subsequence) 알고리즘을 사용하였다. 또한, 본 스케치맵 시스템에 대한 기대효과를 시뮬레이션으로 제시하여 정보와 지식을 공유하는 보이는 맵들이 모여 거대한 맵을 형성함으로서 새로운 검색 포털로서의 역할을 수행할 수 있음을 보인다.

MD-TIX: XML 질의의 효율적 처리를 위한 다차원 타입상속 색인기법 (MD-TIX: Multidimensional Type Inheritance Indexing for Efficient Execution of XML Queries)

  • 이종학
    • 한국멀티미디어학회논문지
    • /
    • 제10권9호
    • /
    • pp.1093-1105
    • /
    • 2007
  • 본 논문에서는 XML 데이터베이스의 색인구조로 다차원 화일구조를 이용하는 다차원 타입상속 색인기법인 MD-TIX를 제안한다. 일차원 색인구조를 이용하는 기존의 XML 데이터베이스 색인기법에서는 타입상속계층과 중첩요소가 포함된 복합 형태의 질의들에 대한 처리를 잘 지원하지 못한다. MD-TIX에서는 XML 데이터베이스의 중첩요소에 대한 색인기법을 위하여 이차원 타입상속 계층 색인기법(2D-THI)을 다차원으로 확장하여 사용한다. 2D-THI는 타입상속 계층의 단순요소에 대한 색인기법으로 킷값 도메인과 타입식별자 도메인으로 구성된 이차원 도메인 공간상에서 요소들의 클러스터링을 다루는 색인기법이다. 본 논문의 MD-TIX에서는 색인된 중첩요소를 표현하는 경로상의 각 타입상속 계층마다 하나의 타입식별자 도메인을 할당하여 구성된 다차원 도메인 공간상에서 색인 엔트리들의 클러스터링을 다룬다. 따라서 HD-TIX에서는 기존의 색인기법에서 지원하기 어려운 질의의 대상 범위가 타입상속 계층상의 임의의 타입들로 제한되거나, 질의에 포함된 복합요소들의 도메인이 타입상속 계층상의 임의의 타입들로 제한되는 경우에도 잘 지원할 수 있다.

  • PDF

시그니쳐를 이용한 XML 경로 비교의 최소화 기법 (A Minimization Technique of XML Path Comparison Based on Signature)

  • 장경훈;황병연
    • 한국전자거래학회지
    • /
    • 제17권3호
    • /
    • pp.61-72
    • /
    • 2012
  • XML은 사용자가 태그를 자유롭게 정의할 수 있어 다양한 구조의 문서가 생성된다. 이렇게 작성된 XML 문서를 효율적으로 관리하기 위해 경로의 유사도에 기반한 클러스터링 및 검색에 대한 연구가 진행되어 왔다. 이에 대한 초기 연구인 3차원 비트맵 인덱싱 기법에서는 유사한 XML 문서를 클러스터링하고 검색하기 위해 경로가 인덱스를 구성하는 단위로 사용되었다. 이 기법은 XML 문서의 구조가 변경되었을 때 변경 전의 경로와 변경 후의 경로가 정도에 상관없이 완전히 다른 것으로 인식되는 문제점이 있다. 이에 따라 경로의 유사도를 측정하는 기법들이 제안되었다. 경로의 유사도를 측정하기 위해서는 비교 대상이 되는 두 경로의 노드들을 비교하는데, 이 과정에서 두 경로에 공통으로 존재하지 않는 노드로 인해 불필요한 비교가 발생한다. 하지만 기존의 경로 유사도 기법들은 이러한 점을 고려하지 않았다. 이를 해결하기 위해 본 논문에서는 시그니쳐를 이용하여 경로 간 노드의 비교를 최소화하는 기법을 제안한다. 실제 다양한 구조의 XML 문서를 가지고 성능 평가를 실시하여, 본 논문에서 제안한 기법을 이용했을 때 기존 기법을 이용했을 때보다 약 20%의 성능을 개선시켜 제안한 기법의 우수함을 보인다.

XML 문서 클러스터링을 이용한 개선된 연관규칙 (Advanced Association Rules using XML Document Clustering)

  • 김의찬;이재민;황병연
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 가을 학술발표논문집 Vol.31 No.2 (2)
    • /
    • pp.181-183
    • /
    • 2004
  • 기존의 연관규칙을 생성하는 알고리즘의 문제점을 개선하기 위해 본 논문에서는 XML 문서 클러스터링을 이용하였다. XML 문서 클러스터링을 이용하여 데이터베이스 탐색 횟수 일 조인 개수를 줄여서 수행 속도를 향상시키고, 또한 클러스터링을 통해 얻은 클러스터에서 규칙을 찾기 때문에 기존의 연관규칙 생성 방법에서는 찾지 못했던 규칙들도 찾아낼 수 있다 본 논문에서 사용하는 클러스터링 방법은 XML문서 검색을 위한 3차원 비트맵 인덱싱인 xPlaneb를 사용하여 구현하였다.

  • PDF

XML 스키마 클러스터링을 위한 효율적인 알고리즘 (An Efficient Algorithm for Clustering XML Schema)

  • 임태우;이경호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.34-36
    • /
    • 2004
  • 최근 웹상에 산재한 정보들의 효율적인 검색과 이용을 위하여 정보의 구조를 정의하는 스키마들의 통합이 중요시되고 있다. 본 논문에서는 XML 스키마들을 클러스터링하기 위한 방법을 제안한다. 제안된 방법은 두 스키마를 통합하는데 드는 비용이 적을수록 스키마간의 유사도가 높다는 가정하에 스키마 사이의 공통된 구조의 크기를 계산한다 이를 위해서 경로사이에 서로 대응하는 요소의 합이 최대가 되는 경로간의 일대일 매칭을 추출한다. 또한 계산된 유사도값에 기반하여 계층적 클러스터링 방법을 적용한다. 제안된 방법의 성능을 평가하기 위해서 다수의 XML 스키마를 대상으로 실험한 결과, 91%의 정확율과 93%의 재현율로서 기존의 알고리즘보다 우수하였다.

  • PDF

무선 방송을 위한 효과적인 XML 스트리밍 (Effective Streaming of XML Data for Wireless Broadcasting)

  • 박준표;박창섭;정연돈
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제36권1호
    • /
    • pp.50-62
    • /
    • 2009
  • 방송 기법을 통한 데이타의 전달은 대역폭 활용의 이점과 에너지 효율성, 확장성으로 인해 무선 모바일 환경에서 효과적인 방법으로 알려져 있다. 본 논문에서는 무선 방송 환경에서 트리 기반의 색인 구조를 사용하기 때문에 이동 사용자의 접근 시간이 증가하는 "질의 처리의 지연 문제"를 다루고 있다. 본 논문에서는 "질의 처리의 지연 문제"를 해결하기 위한 분산 색인 구조와 함께 XML 데이타의 에너지 및 접근 시간 효율적인 방송을 위한 클러스터링 방법을 제안한다. 먼저 분산 색인 구조를 구현하기 위해 엘리먼트의 태그 이름과 애트리뷰트, 그리고 텍스트와 색인 정보를 포함하고 있는 DIX 노드 구조를 제안한다. 모바일 사용자는 DIX 노드에 포함되어 있는 색인 정보를 통해 무선 XML 스트링에서 보다 짧은 지연 시간만으로 원하는 정보에 접근할 수 있다. 또한, 질의 처리를 위한 탐색 범위를 한정시킴으로써 질의 처리에 소요되는 접근 시간과 튜닝 시간을 단축시킬 수 있는 클러스터링 정책을 제안한다. 성능 평가 실험을 통해 제안 방법이 기존의 XML 데이타 방송 기법들에 비해 우수함을 확인할 수 있다.

스마트폰 센싱에서 메타데이터의 구조적 유사도를 고려한 클러스터링 기법 (A Clustering Scheme Considering the Structural Similarity of Metadata in Smartphone Sensing System)

  • 민홍;허준영
    • 한국인터넷방송통신학회논문지
    • /
    • 제14권6호
    • /
    • pp.229-234
    • /
    • 2014
  • 다수의 저가 센서 노드를 통해 주변의 환경 정보를 수집하는 센서 네트워크와 스마트폰에 탑재되어 있는 다양한 종료의 센서들을 연동함으로써 사용자의 상태에 따라 주위 환경과 반응하는 응용들이 개발되고 있다. 이런 응용에서 수집된 데이터의 공유를 위해 센싱 데이터와 의미정보를 저장하는 XML 형태의 메타데이터를 함께 저장할 필요가 있다. 메타데이터는 시스템 설계자의 필요에 따라 확장되고 변형되는데 거리 기반의 클러스터링 기법을 사용할 경우 서로 다른 형태의 메타데이터가 혼재하게 되어 데이터 수집의 효율성이 떨어지는 문제가 발생한다. 본 논문에서는 효율적인 데이터 수집을 위해 클러스터를 구성할 때 각 노드의 메타데이터의 구조적 유사도를 반영함으로써 클러스터 구성에 필요한 시간을 줄이고, 구성원 간 메타데이터 유사도를 향상시키는 기법을 제안한다.

유사성 기반 XML 문서 분석 기법 (XML Document Analysis based on Similarity)

  • 이정원;이기호
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제29권6호
    • /
    • pp.367-376
    • /
    • 2002
  • XML 문서가 가지고 있는 태그의 자유로운 정의와 내포된 구조 정보는 정보 검색 및 문서 관리 분야에 많은 이점을 제공할 수 있다. 본 논문은 XML 요소(element)의 의미와 구조 정보를 반영한 문서간의 유사성을 검사할 수 있는 XML 문서 분석 기법을 제시하고자 한다. 도출된 문서간 유사성은 많은 정보 검색 및 마이닝 등의 기초 자료로 사용될 수 있다. 먼저 XML 요소를 시소러스를 이용하여 유사어와 합성어로 구성된 확장-요소 벡터로 확장하고 유사 행렬을 구축하여 요소간 유사성을 판별한다. 또한 오토마타(NFA(Nondeterministic Finite Automata)와 DFA(Deterministic Finite Automata)(를 이용하여 XML 문서의 내포된 구조를 발견하고 최소화 한다. 요소간의 유사 행렬과 최소화된 XML 구조를 이용하여 구조간의 유사성을 판별한다. 본 논문의 XML의 의미를 반영한 유사성 분석 기법은 온라인 서점의 실제 문서의 카테고리를 인식하는 데 있어 100% 정확도를 보였다.