• Title/Summary/Keyword: Data Partitioning

검색결과 387건 처리시간 0.028초

ROBUST REGRESSION ESTIMATION BASED ON DATA PARTITIONING

  • Lee, Dong-Hee;Park, You-Sung
    • Journal of the Korean Statistical Society
    • /
    • 제36권2호
    • /
    • pp.299-320
    • /
    • 2007
  • We introduce a high breakdown point estimator referred to as data partitioning robust regression estimator (DPR). Since the DPR is obtained by partitioning observations into a finite number of subsets, it has no computational problem unlike the previous robust regression estimators. Empirical and extensive simulation studies show that the DPR is superior to the previous robust estimators. This is much so in large samples.

트랜잭션 중심의 발견적 파일 수직 분한 방법 (A transaction-based vertical partitioning algorithm)

  • 박기택;김재련
    • 한국국방경영분석학회지
    • /
    • 제22권1호
    • /
    • pp.81-96
    • /
    • 1996
  • In a relational database environment, partitioning of data is directly concerned with the amount of data that needs to be required in a query or transaction. In this paper, we consider non-overlapping, vertical partitioning. Vertical partitioning algorithm in this paper is composed of two phases. In phase 1, we cluster the attributes with zero-one integer program that maximize affinity among attributes. The result of phase 1 is called 'Initial Fragments'. In phase 2, we modify Initial Fragments that is not directly considered by cost factors, making use of a transaction-based partitioning method. A transaction-based partitioning method is partitioning attributes according to a set of transactions. In this phase we select logical accesses which needs to be required in a transaction as comparison criteria. In phase 2, proposed algorithm consider only small number of modification of Initial Fragments in phase 1. This algorithm is so insensible to number of transactions and of attributes that it can applied to relatively large problems easily.

  • PDF

Adaptive Partitioning for Efficient Query Support

  • Yun, Hong-Won
    • Journal of information and communication convergence engineering
    • /
    • 제5권4호
    • /
    • pp.369-373
    • /
    • 2007
  • RFID systems large volume of data, it can lead to slower queries. To achieve better query performance, we can partition into active and some nonactive data. In this paper, we propose two approaches of partitioning for efficient query support. The one is average period plus delta partition and the other is adaptive average period partition. We also present the system architecture to manage active data and non-active data and logical database schema. The data manager check the active partition and move all objects from the active store to an archive store associated with an average period plus data and an adaptive average period. Our experiments show the performance of our partitioning methods.

배열기반 데이터 구조를 이용한 간략한 divide-and-conquer 삼각화 알고리즘 (A Compact Divide-and-conquer Algorithm for Delaunay Triangulation with an Array-based Data Structure)

  • 양상욱;최영
    • 한국CDE학회논문집
    • /
    • 제14권4호
    • /
    • pp.217-224
    • /
    • 2009
  • Most divide-and-conquer implementations for Delaunay triangulation utilize quad-edge or winged-edge data structure since triangles are frequently deleted and created during the merge process. How-ever, the proposed divide-and-conquer algorithm utilizes the array based data structure that is much simpler than the quad-edge data structure and requires less memory allocation. The proposed algorithm has two important features. Firstly, the information of space partitioning is represented as a permutation vector sequence in a vertices array, thus no additional data is required for the space partitioning. The permutation vector represents adaptively divided regions in two dimensions. The two-dimensional partitioning of the space is more efficient than one-dimensional partitioning in the merge process. Secondly, there is no deletion of edge in merge process and thus no bookkeeping of complex intermediate state for topology change is necessary. The algorithm is described in a compact manner with the proposed data structures and operators so that it can be easily implemented with computational efficiency.

고차원 데이타 패킹을 위한 주기적 편중 분할 방법 (A Cyclic Sliced Partitioning Method for Packing High-dimensional Data)

  • 김태완;이기준
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제31권2호
    • /
    • pp.122-131
    • /
    • 2004
  • 이전의 연구들에서 제안된 많은 색인 방법들은 저차원과 동적인 환경을 가정하고 제안되었다. 그러나 최근의 많은 데이타베이스 응용분야들은 대용량, 고차원 그리고 정적인 환경에 대한 처리를 요구하고 있다. 따라서 기존의 저차원이고 동적인 환경에서 제안되었던 색인 구축 전략들은 특히 데이타 및 공간 분할에 있어서 새로운 환경에 잘 적응하지 못한다. 본 연구에서 우리는 이러한 사실들을 지적하였고, 새로운 환경에 적응하는 색인 구축 시 적용되는 새로운 분할 전략을 성능 모델에 근거하여 제안하였다. 우리의 접근 방법은 기본적으로 정적인 환경에서 색인 구축에 사용되는 패킹이라는 기법을 적용하였다. 그리고 고차원 환경에서 질의 성능의 기대 값을 제시하는 민코프스키-합 비용모델에 대한 관찰 결과를 이용하였다. 이러한 것들에 바탕을 두어 우리는 데이타 및 공간을 균등하게 분할하는 것보다 불균등하게 분할하는 것이 좋을 것이라는 예측을 비용 모델에 대한 관찰 결과로써 도출하였다. 그리고 이러한 결과를 이용한 불균등 분할 방법과 성능 모델들을 제시하였다. 이 연구의 결론으로서 균등 분할 방법보다 불균등 분할 방법이 고차원 환경에서 더 효율적인 방법임을 성능 모델 및 실험을 통하여 보여주었다. 그리고, 어떻게 불균등하게 분할하는 것이 좋은지에 대한 명확한 계량적 기준들을 제시하였다.

퍼지 그래프 기반의 수직 분할 알고리즘 (A Vertical Partitioning Algorithm based on Fuzzy Graph)

  • 손진현;최경훈;김명호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제28권3호
    • /
    • pp.315-323
    • /
    • 2001
  • 사용자의 질의 요청을 보다 빨리 지원하고 시스템 전체 처리량을 증가시키기 위한 하나의 방법으로 데이터 스키마의 수직 분할 문제가 많이 연구되어 왔다. 수직 분할의 대표적인 응 용 예로는 중앙 집중 시스템에서의 파일 분할, 분산 데이터베이스에서의 데이터 분산, 메모 리 계층사이의 데이터 분할 등이 있다. 일반적으로 수직 분할 알고리즘은 모든 유용한 단편 들의 생성과 임의 분할 지원 등의 두가지 기능을 효율적으로 지원할 수 있어야 한다. 그러 나, 기존의 제안된 방법들은 대부분 첫 번째 기능에 중점을 두고 있어 임의 분할 기능을 지 원하는데 많은 제한이 있다. 그리고 수직 분할 알고리즘에서 데이터 속성들이 포함될 단편 을 결정할 때 기본적으로 모호성 문제를 가지고 있기 때문에 이에 대한 효과적인 처리가 필 요하다. 본 논문에서는 퍼지 이론에 기반한 효율적인 수직 $\alpha$-분할 알고리즘을 제안한다. 이 방법은 퍼지 그래프 이론을 바탕으로 수직 분할에서의 모호성 문제를 해결하여 복잡한 수학적 계산 없이 모든 유용한 단편들을 생성할 수 있다. 또한, 범용 임의 분할 기능도 효과 적으로 지원할 수 있다.

  • PDF

Spatial Statistic Data Release Based on Differential Privacy

  • Cai, Sujin;Lyu, Xin;Ban, Duohan
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제13권10호
    • /
    • pp.5244-5259
    • /
    • 2019
  • With the continuous development of LBS (Location Based Service) applications, privacy protection has become an urgent problem to be solved. Differential privacy technology is based on strict mathematical theory that provides strong privacy guarantees where it supposes that the attacker has the worst-case background knowledge and that knowledge has been applied to different research directions such as data query, release, and mining. The difficulty of this research is how to ensure data availability while protecting privacy. Spatial multidimensional data are usually released by partitioning the domain into disjointed subsets, then generating a hierarchical index. The traditional data-dependent partition methods need to allocate a part of the privacy budgets for the partitioning process and split the budget among all the steps, which is inefficient. To address such issues, a novel two-step partition algorithm is proposed. First, we partition the original dataset into fixed grids, inject noise and synthesize a dataset according to the noisy count. Second, we perform IH-Tree (Improved H-Tree) partition on the synthetic dataset and use the resulting partition keys to split the original dataset. The algorithm can save the privacy budget allocated to the partitioning process and obtain a more accurate release. The algorithm has been tested on three real-world datasets and compares the accuracy with the state-of-the-art algorithms. The experimental results show that the relative errors of the range query are considerably reduced, especially on the large scale dataset.

분배성 추적자 시험법을 이용한 불균질 지반의 유류 오염도 평가 (The Evaluation of Petroleum Contamination in Heterogeneous Media Using Partitioning Tracer Method)

  • 김은협;이성수;박준범
    • 한국지반공학회:학술대회논문집
    • /
    • 한국지반공학회 2009년도 세계 도시지반공학 심포지엄
    • /
    • pp.1372-1377
    • /
    • 2009
  • For the remediation of the subsurface contaminated by nonaqueous phase liquids(NAPLs), it is important to characterize the NAPL zone properly. Conventional characterization methods provide data at discrete points. To overcome the weak points of conventional characterization methods, the partitioning tracer method has been developed and studied. The average saturation of NAPL($S_n$), which is the representative and continuous saturation value within contaminated site, can be calculated by comparing the transport of the partitioning tracers to that of the conservative tracer in the partitioning tracer method. In this study, the application of the partitioning tracer method in heterogeneous media was investigated. To represent the heterogeneous condition of subsurface, a two-dimensional soil box was divided into four layers and each layer contained different sized soils. Soils in the soil box were contaminated by the mixture of kerosene and diesel, and partitioning tracer tests were conducted before and after the contamination using methanol as conservative tracer and 4-methyl-2-pentanol, 2-ethyl-1-butanol, and hexanol as partitioning tracers. The response curves of partitioning tracers from contaminated soils were separated and retarded in comparison with those from non-contaminated soils. The contamination of soils by NAPLs, therefore, can be detected by partitioning tracer method considering these retardations of tracers. From our experiment condition, the average saturation of NAPLs calculated by partitioning tracer method using the methanol as conservative tracer and hexanol as partitioning tracer showed the highest accuracy, though all results were underestimated. Further studies, therefore, were needed for improving the accuracy using the partitioning tracer test in heterogeneous media.

  • PDF

대규모 RDF 데이터의 분산 저장을 위한 동적 분할 기법 (A Dynamic Partitioning Scheme for Distributed Storage of Large-Scale RDF Data)

  • 김천중;김기연;윤종현;임종태;복경수;유재수
    • 정보과학회 논문지
    • /
    • 제41권12호
    • /
    • pp.1126-1135
    • /
    • 2014
  • 최근 대규모 RDF 데이터를 효과적으로 분산 저장 및 관리하기 위해 RDF 분할 기법의 연구가 진행되고 있다. 본 논문에서는 지속적으로 데이터의 추가 및 변경이 발생하는 동적 환경에서 부하 분산을 지원하는 RDF 동적 분할 기법을 제안한다. 제안하는 기법은 그래프 분할을 수행하기 위한 기준으로 질의에 의해 사용된 RDF 데이터의 사용 빈도에 따라 클러스터와 서브 클러스터 그룹을 생성한다. 생성된 클러스터와 서브 클러스터는 분산된 서버의 부하 및 저장되는 데이터 크기를 고려하여 분할을 수행한다. 이를 통해 지속적인 데이터 변경 및 추가로 인해 특정 서버에 대한 데이터 집중을 해결하고 서버들간에 효율적인 부하 분산을 수행한다. 성능평가를 통하여 분산 서버에서 제안하는 기법이 기존 분할 기법에 비해 질의 수행 시간이 크게 향상됨을 보인다.

Protein Motif Extraction via Feature Interval Selection

  • Sohn, In-Suk;Hwang, Chang-Ha;Ko, Jun-Su;Chiu, David;Hong, Dug-Hun
    • Journal of the Korean Data and Information Science Society
    • /
    • 제17권4호
    • /
    • pp.1279-1287
    • /
    • 2006
  • The purpose of this paper is to present a new algorithm for extracting the consensus pattern, or motif from sequence belonging to the same family. Two methods are considered for feature interval partitioning based on equal probability and equal width interval partitioning. C2H2 zinc finger protein and epidermal growth factor protein sequences are used to demonstrate the effectiveness of the proposed algorithm for motif extraction. For two protein families, the equal width interval partitioning method performs better than the equal probability interval partitioning method.

  • PDF