• 제목/요약/키워드: XML Clustering

검색결과 45건 처리시간 0.026초

XML 문서의 공통 구조를 이용한 클러스터링 기법 (A Clustering Technique using Common Structures of XML Documents)

  • 황정희;류근호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제32권6호
    • /
    • pp.650-661
    • /
    • 2005
  • 인터넷의 성장으로 인해 반구조적인 문서의 표준인 XML 문서의 사용이 증가하고 있고 이에 따라 XML 문서의 통합과 검색을 위한 연구가 많이 진행되고 있다. 효율적인 문서의 통합과 검색을 위한 기초 작업은 유사 구조의 XML 문서를 클러스터링 하는 것이다. 기존 연구의 XML 문서 클러스터링에서는 문서간의 구조적 유사도를 이용하여 클러스터를 생성한다. 그러나 이러한 방법은 문서간의 구조적 유사성외 정확한 측정 기준을 만들기 어렵고, 반복적인 유사도의 비교로 인해 처리 속도가 느리다는 단점이 있다. 이러한 문제점을 개선하기 위하여 이 논문에서는 많은 데이타에도 유연하게 적용할 수 있는 트랜잭션 데이타를 위한 클러스터링 알고리즘을 적용하는 새로운 클러스터링 방법을 제안한다. 이 논문에서 제안하는 클러스터링 방법은 하나의 DTD나 XML 스키마를 공유하는 문서 집합이 아닌 스키마가 없는 다양한 구조의 XML 문서들을 대상으로 공통 구조를 이용한다. 공통 구조를 이용하기 위하여 XML 문서의 트리 모델에서 구조를 분리하여 빈발 구조를 추출하고 이를 기반으로 클러스터링을 수행한다. 아울러, 기존 연구와의 비교 및 실험을 통해 제안 기법의 효율성을 보인다.

클러스터의 주요항목 가중치 기반 XML 문서 클러스터링 (Clustering XML Documents Considering The Weight of Large Items in Clusters)

  • 황정희
    • 정보처리학회논문지D
    • /
    • 제14D권1호
    • /
    • pp.1-8
    • /
    • 2007
  • 발달된 인터넷 환경과 데이터 교환 표준 언어로서 확정되고 있는 XML을 기반으로 하여 대량의 웹 문서들이 생산되면서 정보 추출의 대상은 자연스럽게 웹 문서로 이동하게 되었다. 이에 따라 급속히 증가하고 있는 XML 문서에 대한 구조, 통합 및 검색을 위한 연구들이 있다. 이 논문에서는 XML 문서들에 대한 질의 처리, 검색 등을 효율적으로 처리하기 위한 기반으로써 빈발구조 중심의 XML 문서를 클러스터링 하는 방법을 제안한다. 첫째 XML 문서를 트리 구조로 표현하여 분리하고 분리된 구조들을 대상으로 빈발하게 발생하는 구조들을 추출한다. 둘째 각 XML 문서에서 추출된 빈발 구조들을 트랜잭션의 항목으로 취급하여 클러스터링을 수행한다. 클러스터링을 수행할 때 각 클러스터의 생성 및 생성된 전체 클러스터의 응집도를 함께 고려하는 주요항목 가중치를 이용한다. 셋째 기존연구와의 비교 실험을 통해 제안하는 방법의 우수성을 증명한다.

XML 데이타의 경로 유사성에 기반한 클러스터링 기법 (A Clustering Method Based on Path Similarities of XML Data)

  • 최일환;문봉기;김형주
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제33권3호
    • /
    • pp.342-352
    • /
    • 2006
  • 최근의 XML 저장소에 관한 연구들은 기존의 데이타 저장을 위해 주로 사용해 왔던 관계형 데이타베이스에 효율적으로 XML 데이타를 매핑하는 기법이나 XML 데이타를 위한 새로운 전용 저장소에 대한 연구들이 주를 이룬다. XML 전용 저장소에서 많이 사용되는 방식으로 XML 문서를 파싱하여 각 노드들을 개별적인 객체로 생성한 후 이를 저장하는 방식이 있다. 이러한 저장 방식에서는 개별적인 객체들의 물리적 배치, 즉 클러스터링이 성능에 영향을 미칠 수 있다. 본 논문에서는 하나의 XML 문서를 보다 효율적으로 저장하는 클러스터링 기법을 제안한다. 제안하는 기법은 데이타 노드들의 경로 유사도를 기반으로 클러스터링을 수행하여 질의 요청에 대한 결과를 반환할 때 발생하는 페이지 I/O를 줄인다. 또한 경로 질의 처리시 필요한 클러스터만을 이용하여 질의 처리를 수행하는 방법을 제안한다. 이는 질의 처리과정에서 불필요한 데이타를 제외함으로써 결과적으로 탐색 공간의 크기를 줄일 수 있어 보다 효율적인 경로 질의 처리를 가능하게 한다. 이밖에 본 논문에서는 기존의 다른 클러스터링 기법들과 제안한 기법들과의 성능 비교를 수행하고, 이를 통해 적절한 클러스터링 기법을 이용하면 XML 저장소의 성능을 향상시킬 수 있음을 보인다.

클러스터의 히스토그램을 이용한 XML 문서의 점진적 클러스터링 기법 (An Incremental Clustering Technique of XML Documents using Cluster Histograms)

  • 황정희
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제34권3호
    • /
    • pp.261-269
    • /
    • 2007
  • 이 논문에서는 XML 문서에 대한 효율적인 검색과 통합을 위한 기초연구로써 XML 문서들에 대한 구조 중심의 클러스터링 기법을 제안한다. 기존 연구에서 문서간의 구조적 유사도를 기반으로 클러스터를 형성해 가는 것과는 다르게 많은 데이타를 빠르게 처리할 수 있는 트랜잭션 데이타를 취급하는 알고리즘을 변형하여 적용한다. 각 클러스터에 포함되어 있는 항목들에 대한 누적 분포를 나타내는 히스토그램을 이용하여 전체적인 클러스터링의 응집도를 고려하는 클러스터링을 수행한다. 기존 연구와의 실험을 통해 클러스터링 처리 시간의 향상과 양질의 클러스터를 생성하는 것을 알 수 있었다.

XML 스키마 클러스터링을 위한 효율적인 알고리즘 (An Efficient Algorithm for Clustering XML Schemas)

  • 임태우;이경호
    • 한국멀티미디어학회논문지
    • /
    • 제8권7호
    • /
    • pp.857-868
    • /
    • 2005
  • 스키마 클러스터링은 스키마의 통합을 위한 전처리 단계로서 중요하다. 본 논문에서는 XML 스키마를 클러스터링하기 위한 효율적인 방법을 제안한다. 제안된 방법은 먼저 스키마 사이의 유사도를 계산한다. 특히 두 스키마를 통합하는데 드는 비용이 적을수록 유사하다는 가정하에 스키마 사이의 유사도를 공통된 구조의 크기로 정의한다. 이를 위해서 경로 사이에 서로 대응하는 엘리먼트의 합이 최대가 되는 경로간의 일대일 매칭을 추출한다. 또한 계산된 유사도값에 기반하여 계층적 클러스터링 방법을 적용한다. 제안된 방법의 성능을 평가하기 위해서 다수의 XML 스키마를 대상으로 실험한 결과, $99\%$의 정확률과 $93\%$의 클러스터링률을 보여 기존의 알고리즘보다 우수하였다.

  • PDF

유사 구조 기반 XML 문서의 점진적 클러스터링 (Incremental Clustering of XML Documents based on Similar Structures)

  • 황정희;류근호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제31권6호
    • /
    • pp.699-709
    • /
    • 2004
  • XML은 정보 관리와 데이타 교환에서 점차로 더 중요해지고 있다. 효율적인 구조 검색과 문서 통합을 위한 기초 과정은 유사한 구조를 갖는 문서를 클러스터링 하는 것이다. 이것은 구조가 다른 전체 문서를 대상으로 검색하는 것보다 더 신속하고 유연성을 제공하기 때문이다. 따라서 이 논문에서는 XML 문서의 구조 검색과 통합에 유용한 유사 구조기반의 점진적 클러스터링 기법을 제안한다. 기존의 문서 클러스터링에서 벡터를 이용한 문서의 유사도에 의해 클러스터를 형성하는 것과는 다르게 우리는 대량의 데이타에 유연하게 적용할 수 있는 트랜잭션 데이타를 위한 클러스터링 알고리즘을 사용하였다. 제안 기법은 먼저 순차 패턴 알고리즘을 이용하여 XML 문서의 대표 구조를 추출한다. 그리고 문서를 하나의 트랜잭션으로, 문서의 대표구조를 트랜잭션의 항목으로 간주하여 유사 구조 항목 기반의 점진적인 클러스터링을 수행한다. 아울러, 클러스터의 응집도와 클러스터간의 유사도를 정의하였고, 이를 이용하여 기존 연구와의 실험에 대한 분석을 통해 제안 기법의 효율성을 분석하였다.

순차패턴에 기반한 XML 문서 클러스터링 (XML Document Clustering Based on Sequential Pattern)

  • 황정희;류근호
    • 정보처리학회논문지D
    • /
    • 제10D권7호
    • /
    • pp.1093-1102
    • /
    • 2003
  • 인터넷의 사용 증가로 정보의 양은 기하급수적으로 증가하고 있으며 웹 데이터의 표준인 XML의 데이터 표현의 유연성으로 인해 EDMS(Electronic Document Management System), ebXML(e-business extensible Markup Language) 등 웹 기반의 전자문서론 이용하는 시스템들은 XML를 문서 교환 방식 및 표준 문서 형식으로 도입하고 있는 실정이다. 그러므로 점차 확산되어 가고 있는 XML 문서에 대한 효율적인 문서의 관리와 검색을 위한 연구가 필요하다. 이 논문에서는 다중 문서간의 구조적 유사성을 분류하기 위하여 엘리먼트의 순서적 의미를 갖는 XML 문서를 대상으로 순차패턴을 이용하여 문서의 특성을 반영하는 대표구조를 추출하고 추출된 구조를 기반으로 유사 구조 문서를 클러스터링하는 방법을 제시한다. 이 논문의 제안 알고리즘은 클러스터의 응집도와 클러스터간의 유사도를 함께 고려하는 비용계산 방식을 이용하므로써 클러스터링의 정확도를 높일 수 있는 효과를 얻을 수 있다.

대표 경로에 기반한 XML 문서의 계층 군집화 기법 (A Hierarchical Clustering Technique of XML Documents based on Representative Path)

  • 김우생
    • 인터넷정보학회논문지
    • /
    • 제10권3호
    • /
    • pp.141-150
    • /
    • 2009
  • XML은 데이터 교환과 정보 관리에 점차 중요해지고 있다. 근래에 XML 문서들에 대한 접근, 질의, 저장을 위한 효율적인 기법들을 개발하기 위해 많은 노력들이 이루어지고 있다. 이 논문에서 우리는 XML 문서들을 효율적으로 군집화하는 새로운 방법을 제안한다. XML 문서의 특징을 위해 XML 문서의 구조와 내용을 대표할 수 있는 새로운 대표 경로, 즉 가상 경로가 제안된다. XML 문서들을 군집화하기 위해 잘 알려진 계층 군집화 기법들을 대표 경로들에 적용하기 위한 방법도 제안된다. 실험을 통해 XML 문서의 특징으로 가상 경로를 사용했을 때 실제적인 군집들이 촘촘한 형상으로 잘 형성됨을 알 수 있다.

  • PDF

비트벡터에 기반한 XML 문서 군집화 기법 (XML Documents Clustering Technique Based on Bit Vector)

  • 김우생
    • 전자공학회논문지CI
    • /
    • 제47권5호
    • /
    • pp.10-16
    • /
    • 2010
  • XML은 점점 데이터 교환과 정보 관리에서 중요하게 여겨진다. 따라서 XML 문서들을 접근, 질의, 저장하는 효율적인 방법들을 개발하기 위한 많은 노력이 진행되고 있다. 본 논문은 XML 문서들을 효율적으로 군집화 하는 새로운 기법을 제안한다. XML 문서를 군집화하기 위해 문서를 대표하는 비트 벡터를 제안한다. 두 XML 문서의 유사도는 대응하는 두 비트 벡터간의 bit-wise AND 연산에 의해서 측정된다. 실험 결과 XML 문서의 특징으로 비트 벡터가 사용되었을 때 군집화가 제대로 그리고 효율적으로 형성됨을 알 수 있다.

함수 변환과 FFT에 기반한 조정자가 없는 XML 문서 클러스터링 기법 (An Unsupervised Clustering Technique of XML Documents based on Function Transform and FFT)

  • 이호석
    • 정보처리학회논문지D
    • /
    • 제14D권2호
    • /
    • pp.169-180
    • /
    • 2007
  • 본 논문은 함수 변환(Function Transform)과 FFT(Fast Fourier Transform)를 사용하는 새로운 XML 문서 클리스터링 기법에 대하여 논한다. 본 문서 클러스터링 기법은 조정자 없이 점진적으로 수행된다. XML 문서는 엘리먼트의 계층적인 구조에 기반하여 이산 함수로 변환된다. 이산 함수는 FFT를 사용하여 벡터로 변환된다. 문서를 나타내는 벡터는 가중치 유클리디안 거리 메트릭을 사용하여 비교된다. 비교 결과가 미리 정의된 값보다 작을 때에는 비교되는 두 개의 문서는 구조적으로 비슷한 것으로 간주되어 동일한 그룹으로 분류된다. XML 문서 클리스터링은 XML 문서의 저장과 검색에 유용하게 사용될 수 있다. 800개의 합서 문서와 520개의 실제 문서를 사용하여 실험하였다. 실험 결과는 함수변환과 FFT는 XML 문서를 엘리먼트의 구조를 기반으로 하여 점진적으로 조정자 없이 효과적으로 분류하는 것을 보여주었다.