• 제목/요약/키워드: data partition

검색결과 413건 처리시간 0.025초

The Effect of Bias in Data Set for Conceptual Clustering Algorithms

  • Lee, Gye Sung
    • International journal of advanced smart convergence
    • /
    • 제8권3호
    • /
    • pp.46-53
    • /
    • 2019
  • When a partitioned structure is derived from a data set using a clustering algorithm, it is not unusual to have a different set of outcomes when it runs with a different order of data. This problem is known as the order bias problem. Many algorithms in machine learning fields try to achieve optimized result from available training and test data. Optimization is determined by an evaluation function which has also a tendency toward a certain goal. It is inevitable to have a tendency in the evaluation function both for efficiency and for consistency in the result. But its preference for a specific goal in the evaluation function may sometimes lead to unfavorable consequences in the final result of the clustering. To overcome this bias problems, the first clustering process proceeds to construct an initial partition. The initial partition is expected to imply the possible range in the number of final clusters. We apply the data centric sorting to the data objects in the clusters of the partition to rearrange them in a new order. The same clustering procedure is reapplied to the newly arranged data set to build a new partition. We have developed an algorithm that reduces bias effect resulting from how data is fed into the algorithm. Experiment results have been presented to show that the algorithm helps minimize the order bias effects. We have also shown that the current evaluation measure used for the clustering algorithm is biased toward favoring a smaller number of clusters and a larger size of clusters as a result.

분할처리 기반 SAR 자동초점 기법의 성능 개선 (Performance Improvement of SAR Autofocus Based on Partition Processing)

  • 신희섭;옥재우;김진우;이재민
    • 한국전자파학회논문지
    • /
    • 제28권7호
    • /
    • pp.580-583
    • /
    • 2017
  • 항공기 탑재형 SAR에서 요동보상 후 남아있는 잔여 오차 및 공간 가변적 오차 등으로 인해 품질이 저하된 SAR 영상을 보상하기 위한 분할처리 기반 자동초점 기법을 제시한다. Spotlight SAR는 공간 분할하고, Stripmap SAR는 시간 분할한 뒤, 분할된 데이터에 대해 영상을 생성한 후, 추정된 오차의 적합성 분석과정이 포함된 구역 자동초점 기법(Autofocus)를 수행한다. 또한 분할된 영상에서 위상오차 추정이 되지 않아 보상이 되지 않는 경우에는 인접한 분할 영상의 위상오차에 가중치를 부여하여 보상하는 과정을 통해 전체 영상의 화질을 향상시키는 방법을 제시한다.

두 점과 분할 카디날리티가 주어진 퍼지 균등화조건을 갖는 퍼지분할 (Fuzzy Partitioning with Fuzzy Equalization Given Two Points and Partition Cardinality)

  • 김경택;김종수;강성열
    • 산업경영시스템학회지
    • /
    • 제31권4호
    • /
    • pp.140-145
    • /
    • 2008
  • Fuzzy partition is a conceptual vehicle that encapsulates data into information granules. Fuzzy equalization concerns a process of building information granules that are semantically and experimentally meaningful. A few algorithms generating fuzzy partitions with fuzzy equalization have been suggested. Simulations and experiments have showed that fuzzy partition representing more characteristics of given input distribution usually produces meaningful results. In this paper, given two points and cardinality of fuzzy partition, we prove that it is not true that there always exists a fuzzy partition with fuzzy equalization in which two of points having peaks fall on the given two points. Then, we establish an algorithm that minimizes the maximum distance between given two points and adjacent points having peaks in the partition. A numerical example is presented to show the validity of the suggested algorithm.

Bayesian analysis of random partition models with Laplace distribution

  • Kyung, Minjung
    • Communications for Statistical Applications and Methods
    • /
    • 제24권5호
    • /
    • pp.457-480
    • /
    • 2017
  • We develop a random partition procedure based on a Dirichlet process prior with Laplace distribution. Gibbs sampling of a Laplace mixture of linear mixed regressions with a Dirichlet process is implemented as a random partition model when the number of clusters is unknown. Our approach provides simultaneous partitioning and parameter estimation with the computation of classification probabilities, unlike its counterparts. A full Gibbs-sampling algorithm is developed for an efficient Markov chain Monte Carlo posterior computation. The proposed method is illustrated with simulated data and one real data of the energy efficiency of Tsanas and Xifara (Energy and Buildings, 49, 560-567, 2012).

상용 데이타 마이닝 도구를 사용한 정량적 연관규칙 마이닝 (Mining Quantitative Association Rules using Commercial Data Mining Tools)

  • 강공미;문양세;최훈영;김진호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제35권2호
    • /
    • pp.97-111
    • /
    • 2008
  • 상용 데이타 마이닝 도구에서는 기본적으로 이진 속성에 대한 연관규칙 마이닝만을 지원한다. 그러나, 일반적인 트랜잭션 데이타베이스는 이진 속성 뿐 아니라 정량적 속성을 포함한다. 이에 따라, 본 논문에서는 상용 데이타 마이닝 도구를 사용하여 정량적 연관규칙을 마이닝하는 체계적인 접근법을 제안한다. 이를 위해, 우선 상용 데이타 마이닝 도구를 사용하여 정량적 연관규칙을 찾아내기 위한 전체적인 프레임워크를 제안한다. 제안한 프레임워크는 정량적 속성을 이진 속성으로 변환하는 전처리 과정과 마이닝된 이진 연관규칙을 다시 정량적 연관규칙으로 변환하는 후처리 과정으로 구성된다. 다음으로, 전처리 과정을 위한 구간 분할의 개념을 제시하고, 기존의 평균 및 중앙치 기반 양분할 기법과 동일 너비 및 동일 깊이 기반 다분할 기법을 구간 분할의 개념으로 정형적으로 재정의한다. 그런데, 이들 기존 분할 기법은 속성 값의 분포를 고려하지 않은 문제점이 있다. 본 논문에서는 이를 해결하기 위하여 표준편차 최소화 기법을 제안한다. 표준편차 최소화 기법은 이웃한 속성 값의 표준편차 변화가 작다면 동일한 구간에 포함시키고, 표준편차 변화가 크다면 다른 구간으로 분할하는 매우 직관적인 분할 기법이다. 또한, 후처리 과정으로는 이진 연관규칙들을 통합하고 이를 다시 정량적 연관규칙으로 변환하는 방법을 제안한다. 마지막으로, 다양한 실험을 통하여 제안한 프레임워크가 바르게 동작함을 보이고, 표준편차 최소화 기법이 다른 기법에 비하여 우수함을 입증한다. 이 같은 결과를 볼 때, 제안한 프레임워크는 일반 사용자가 상용 데이타 마아닝 도구를 사용하여 정량적 연간규칙을 쉽게 마이닝 할 수 있는 매우 실용적인 접근법이라 생각한다.

Distortion Measurement based Dynamic Packet Scheduling of Video Stream over IEEE 802.11e WLANs

  • Wu, Minghu;Chen, Rui;Zhou, Shangli;Zhu, Xiuchang
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제7권11호
    • /
    • pp.2793-2803
    • /
    • 2013
  • In H.264, three different data partition types are used, which have unequal importance to the reconstructed video quality. To improve the performance of H.264 video streaming transmission over IEEE 802.11e Wireless Local Area Networks, a prioritization mechanism that categorizes different partition types to different priority classes according to the calculated distortion within one Group of Pictures. In the proposed scheme, video streams have been encoded based on the H.264 codec with its data partition enabled. The dynamic scheduling scheme based on Enhanced Distributed Channel Access has been configured to differentiate the data partitions according to their distortion impact and the queue utilization ratio. Simulation results show that the proposed scheme improves the received video quality by 1dB in PSNR compared with the existing Enhanced Distributed Channel Access static mapping scheme.

A Network Partition Approach for MFD-Based Urban Transportation Network Model

  • Xu, Haitao;Zhang, Weiguo;zhuo, Zuozhang
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제14권11호
    • /
    • pp.4483-4501
    • /
    • 2020
  • Recent findings identified the scatter and shape of MFD (macroscopic fundamental diagram) is heavily influenced by the spatial distribution of link density in a road network. This implies that the concept of MFD can be utilized to divide a heterogeneous road network with different degrees of congestion into multiple homogeneous subnetworks. Considering the actual traffic data is usually incomplete and inaccurate while most traffic partition algorithms rely on the completeness of the data, we proposed a three-step partitioned algorithm called Iso-MB (Isoperimetric algorithm - Merging - Boundary adjustment) permitting of incompletely input data in this paper. The proposed algorithm was implemented and verified in a simulated urban transportation network. The existence of well-defined MFD in each subnetwork was revealed and discussed and the selection of stop parameter in the isoperimetric algorithm was explained and dissected. The effectiveness of the approach to the missing input data was also demonstrated and elaborated.

Designing a Distribution Network for Faster Delivery of Online Retailing : A Case Study in Bangkok, Thailand

  • Amchang, Chompoonut;Song, Sang-Hwa
    • 산경연구논집
    • /
    • 제9권5호
    • /
    • pp.25-35
    • /
    • 2018
  • Purpose - The purpose of this paper is to partition a last-mile delivery network into zones and to determine locations of last mile delivery centers (LMDCs) in Bangkok, Thailand. Research design, data, and methodology - As online shopping has become popular, parcel companies need to improve their delivery services as fast as possible. A network partition has been applied to evaluate suitable service areas by using METIS algorithm to solve this scenario and a facility location problem is used to address LMDC in a partitioned area. Research design, data, and methodology - Clustering and mixed integer programming algorithms are applied to partition the network and to locate facilities in the network. Results - Network partition improves last mile delivery service. METIS algorithm divided the area into 25 partitions by minimizing the inter-network links. To serve short-haul deliveries, this paper located 96 LMDCs in compact partitioning to satisfy customer demands. Conclusions -The computational results from the case study showed that the proposed two-phase algorithm with network partitioning and facility location can efficiently design a last-mile delivery network. It improves parcel delivery services when sending parcels to customers and reduces the overall delivery time. It is expected that the proposed two-phase approach can help parcel delivery companies minimize investment while providing faster delivery services.

데이타 병렬 프로그램에서 루프 세부 분할 및 동적 스케쥴링을 통한 통신과 계산의 중첩 모델 (A Communication and Computation Overlapping Model through Loop Sub-partitioning and Dynamic Scheduling in Data Parallel Programs)

  • 김정환;한상영;조승호;김흥환
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제27권1호
    • /
    • pp.23-33
    • /
    • 2000
  • 본 논문은 데이타 병렬 프로그램에서 효율적 통신을 위한 하나의 방법으로 통신과 계산 작업을 중첩하여 실행하는 모델을 제안한다. 이 중첩 모델에서는 통신 지연 시간 동안 중첩하여 수행할 계산 작업을 얻기 위해 주어진 루프 분할을 다시 세부 분할한다. 주어진 루프 분할은 다른 외부 데이타 분할을 참조하기도 하지만, 루프 분할의 모든 반복들이 항상 외부 데이타 참조를 필요로 하는 것은 아니다. 따라서 주어진 루프 분할을 외부 데이타를 요구하는 루프 반복들의 집합과 그렇지 않은 루프 반복들의 집합으로 나눌 수 있다. 이렇게 나누어진 루프 세부 분할은 효율적인 수행을 위해 메시지 도착 순서에 따라 동적으로 스케쥴링된다. 제안된 방법에 따라 IBM SP2에서 몇가지 프로그램으로 실험을 한 결과, 중첩 모델이 성능 향상을 보임을 확인할 수 있었다.

  • PDF

하둡 성능 향상을 위한 VPT 개발 연구 (A Development Study of The VPT for the improvement of Hadoop performance)

  • 양일등;김성열
    • 한국정보통신학회논문지
    • /
    • 제19권9호
    • /
    • pp.2029-2036
    • /
    • 2015
  • 하둡 MR(MapReduce)는 매퍼(Mapper)의 출력을 리듀서(Reducer)의 입력으로 전달하기 위해 파티션 함수(Partition Function)을 사용한다. 파티션 함수는 키에서 해쉬 값을 계산한 후 리듀서 개수로 나머지 연산을 수행하여 대상 리듀서를 결정한다. 기존 파티션 함수는 키의 편중도에 민감하여 잡이 균등하게 배분될 수 없었다. 잡이 균등하게 배분되지 못하면 특정 리듀서들의 처리 수행 시간이 길어져 전체 분산 처리 수행 성능에 영향을 주게 된다. 이에 본 논문은 VPT(Virtual Partition Table)을 제안하고 편중도가 심한 데이터에 VPT을 적용하여 실험을 수행 하였다. 적용된 VPT는 기존 파티션 함수와 대비하여 평균 3초 정도 성능향상이 발생하였으며, 데이터 처리량이 증가할수록 성능 향상 폭이 증가할 것으로 예상된다.