• 제목/요약/키워드: data partition evaluation

검색결과 29건 처리시간 0.054초

The Effect of Bias in Data Set for Conceptual Clustering Algorithms

  • Lee, Gye Sung
    • International journal of advanced smart convergence
    • /
    • 제8권3호
    • /
    • pp.46-53
    • /
    • 2019
  • When a partitioned structure is derived from a data set using a clustering algorithm, it is not unusual to have a different set of outcomes when it runs with a different order of data. This problem is known as the order bias problem. Many algorithms in machine learning fields try to achieve optimized result from available training and test data. Optimization is determined by an evaluation function which has also a tendency toward a certain goal. It is inevitable to have a tendency in the evaluation function both for efficiency and for consistency in the result. But its preference for a specific goal in the evaluation function may sometimes lead to unfavorable consequences in the final result of the clustering. To overcome this bias problems, the first clustering process proceeds to construct an initial partition. The initial partition is expected to imply the possible range in the number of final clusters. We apply the data centric sorting to the data objects in the clusters of the partition to rearrange them in a new order. The same clustering procedure is reapplied to the newly arranged data set to build a new partition. We have developed an algorithm that reduces bias effect resulting from how data is fed into the algorithm. Experiment results have been presented to show that the algorithm helps minimize the order bias effects. We have also shown that the current evaluation measure used for the clustering algorithm is biased toward favoring a smaller number of clusters and a larger size of clusters as a result.

파티션 시스템 적용을 통한 기존 데이터센터 서버실의 냉방 에너지 절감 성능평가 (Evaluation of Cooling Energy Saving through Applying Aisle Partition System on a Data Center Server Room)

  • 박종수
    • 한국산학기술학회논문지
    • /
    • 제17권7호
    • /
    • pp.726-733
    • /
    • 2016
  • 본 연구에서는 기존 데이터센터 서버실에서 공기분배시스템으로 파티션 시스템의 적용성을 평가하기 위해 기존 시스템 그리고 파티션의 설치 높이와 위치를 변수로 하는 파티션 시스템과 컨테인먼트 시스템에 대해 총 21가지 경우의 컴퓨터시뮬레이션을 실시하고 다음과 같은 결론을 얻었다. 공기온도 및 기류 분포 해석결과를 이용하여 평가해 본 공기분배시스템별 냉방 에너지 절감 성능은 컨테인먼트 시스템, 파티션 시스템, 기존 시스템 순서로 우수한 것을 확인할 수 있었다. 기존 시스템과 파티션 설치높이 0.1~0.7m까지의 파티션 시스템은 재순환 공기에 의해 냉복도에서 1.0~1.2m 높이를 기점으로 공기 온도가 급격히 상승하면서 중간 높이의 서버와 상부 서버의 인입구 온도차는 $11{\sim}15^{\circ}C$로 큰 차이를 보여, 재순환 공기가 상부 서버의 과열의 원인을 제공하는 것으로 나타났다. 파티션 시스템에서 냉복도 상부에 파티션을 설치할 경우에 파티션의 적정 높이는 서버 랙 상부에서 천장까지 높이의 90%(0.9m)이상, 열복도 상부에 파티션을 설치하는 경우는 파티션 높이가 80%(0.8m)이상은 되어야 재순환 공기를 충분히 차단하여 서버 인입구 공기온도가 RCI 권장온도 범위를 만족하는 냉방 에너지 절감효과를 볼 수 있는 것으로 나타났다.

데이터 분할 평가 진화알고리즘을 이용한 효율적인 퍼지 분류규칙의 생성 (Generation of Efficient Fuzzy Classification Rules Using Evolutionary Algorithm with Data Partition Evaluation)

  • 류정우;김성은;김명원
    • 한국지능시스템학회논문지
    • /
    • 제18권1호
    • /
    • pp.32-40
    • /
    • 2008
  • 데이터 속성 값이 연속적이고 애매할 때 퍼지 규칙으로 분류규칙을 표현하는 것은 매우 유용하면서도 효과적이다. 그러나 효과적인 퍼지 분류규칙을 생성하기 위한 소속함수를 결정하기는 어렵다. 본 논문에서는 진화알고리즘을 이용하여 효과적인 퍼지 분류규칙을 자동으로 생성하는 방법을 제안한다. 제안한 방법은 지도 군집화로 클래스 분포에 따라 초기 소속함수를 생성하고, 정확하고 간결한 규칙을 생성할 수 있도록 초기 소속함수를 진화시키는 방법이다. 또한 진화알고리즘의 시간에 대한 효율성을 높이기 위한 방법으로 데이터 분할 평가 진화 방법을 제안한다. 데이터 분할 평가 진화 방법은 전체 학습 데이터를 여러 개의 부분 학습 데이터들로 나누고 개체는 전체 학습 데이터 대신 부분 학습 데이터를 임의로 선택하여 평가하는 방법이다. UCI 벤치마크 데이터로 기존 방법과 비교 실험을 통해 평균적으로 제안한 방법이 효과적임을 보였다. 또한 KDD'99 Cup의 침입탐지 데이터에서 KDD'99 Cup 우승자에 비해 1.54% 향상된 인식률과 20.8% 절감된 탐지비용을 보였고 데이터 분할 평가 진화 방법으로 개체평가 시간을 약 70% 감소시켰다.

A Hybrid Index of Voronoi and Grid Partition for NN Search

  • Seokjin Im
    • International journal of advanced smart convergence
    • /
    • 제12권1호
    • /
    • pp.1-8
    • /
    • 2023
  • Smart IoT over high speed network and high performance smart devices explodes the ubiquitous services and applications. Nearest Neighbor(NN) query is one of the important type of queries that have to be supported for ubiquitous information services. In order to process efficiently NN queries in the wireless broadcast environment, it is important that the clients determine quickly the search space and filter out NN from the candidates containing the search space. In this paper, we propose a hybrid index of Voronoi and grid partition to provide quick search space decision and rapid filtering out NN from the candidates. Grid partition plays the role of helping quick search space decision and Voronoi partition providing the rapid filtering. We show the effectiveness of the proposed index by comparing the existing indexing schemes in the access time and tuning time. The evaluation shows the proposed index scheme makes the two performance parameters improved than the existing schemes.

데이터센터의 공조효율 향상을 위한 공조파티션시스템 성능평가에 관한 연구 (Evaluation of Aisle Partition System's Thermal Performance in Large Data Centers for Superior Cooling Efficiency)

  • 조진균;정차수;김병선
    • 설비공학논문집
    • /
    • 제22권4호
    • /
    • pp.205-212
    • /
    • 2010
  • In a typical data center, large numbers of IT sever racks are arranged multiple rows. IT environments, in which extensive electronic hardware is air-cooled, cooling system inefficiencies result when heated exhaust air from equipment prematurely mixes with chilled coolant air before it is used for cooling. Mixing of chilled air before its use with heated exhaust air results in significant cooling inefficiencies in many systems. Over temperatures may not only harm expensive electronic equipment but also interrupt critical and revenue generating services. Cool shield is a cost effective aisle partition system to contain the air in cold aisles and hot aisles of an IT server room. This paper focuses on the use of performance metrics for analyzing aisle partition system in data centers.

Meta Analysis of Usability Experimental Research Using New Bi-Clustering Algorithm

  • Kim, Kyung-A;Hwang, Won-Il
    • 응용통계연구
    • /
    • 제21권6호
    • /
    • pp.1007-1014
    • /
    • 2008
  • Usability evaluation(UE) experiments are conducted to provide UE practitioners with guidelines for better outcomes. In UE research, significant quantities of empirical results have been accumulated in the past decades. While those results have been anticipated to integrate for producing generalized guidelines, traditional meta-analysis has limitations to combine UE empirical results that often show considerable heterogeneity. In this study, a new data mining method called weighted bi-clustering(WBC) was proposed to partition heterogeneous studies into homogeneous subsets. We applied the WBC to UE empirical results and identified two homogeneous subsets, each of which can be meta-analyzed. In addition, interactions between experimental conditions and UE methods were hypothesized based on the resulting partition and some interactions were confirmed via statistical tests.

침입 탐지를 위한 효율적인 퍼지 분류 규칙 생성 (Generation of Efficient Fuzzy Classification Rules for Intrusion Detection)

  • 김성은;길아라;김명원
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제34권6호
    • /
    • pp.519-529
    • /
    • 2007
  • 본 논문에서는 효율적인 침입 탐지를 위해 퍼지 규칙을 이용하는 방법을 제안한다. 제안한 방법은 퍼지 의사결정 트리의 생성을 통해 침입 탐지를 위한 퍼지 규칙을 생성하고 진화 알고리즘을 사용하여 최적화한다. 진화 알고리즘의 효율적인 수행을 위해 지도 군집화를 사용하여 퍼지 규칙을 위한 초기 소속함수를 생성한다. 제안한 방법의 진화 알고리즘은 적합도 평가시 퍼지 규칙(퍼지 의사결정 트리)의 성능과 복잡성을 고려하여 평가한다. 또한 데이타 분할을 이용한 평가와 퍼지 의사결정 트리의 생성과 평가 시간을 줄이는 방법으로 소속정도 캐싱과 zero-pruning을 사용한다. 제안한 방법의 성능 평가를 위해 KDD'99 Cup의 침입 탐지 데이타로 실험하여 기존 방법보다 성능이 향상된 것을 확인하였다. 특히, KDD'99 Cup 우승자에 비해 정확도가 1.54% 향상되고 탐지 비용은 20.8% 절감되었다.

파티션 복구 도구 검증용 데이터 세트 개발 및 도구 평가 (Development of a Set of Data for Verifying Partition Recovery Tool and Evaluation of Recovery Tool)

  • 박송이;허지민;이상진
    • 정보보호학회논문지
    • /
    • 제27권6호
    • /
    • pp.1397-1404
    • /
    • 2017
  • 손상된 저장매체에 대해서 디지털포렌식 조사를 진행할 때 복구 도구를 활용한다. 하지만 사용하는 복구 도구에 따라서 복구 결과가 다른 문제가 존재한다. 그러므로 정확한 조사를 위해서는 도구의 성능과 한계점을 파악하여 사용할 필요가 있다. 본 논문에서는 이러한 파티션 복구 도구의 성능을 검증할 수 있도록 MBR, GPT 디스크 인식 방식과 FAT32, NTFS 파일시스템의 구조적 특징을 고려한 검증 시나리오를 제시한다. 그 후 검증 시나리오를 바탕으로 제작한 데이터 세트를 통하여 기존 복구 도구에 대한 성능 검증을 진행한다.

Near infrared spectroscopy for classification of apples using K-mean neural network algorism

  • Muramatsu, Masahiro;Takefuji, Yoshiyasu;Kawano, Sumio
    • 한국근적외분광분석학회:학술대회논문집
    • /
    • 한국근적외분광분석학회 2001년도 NIR-2001
    • /
    • pp.1131-1131
    • /
    • 2001
  • To develop a nondestructive quality evaluation technique of fruits, a K-mean algorism is applied to near infrared (NIR) spectroscopy of apples. The K-mean algorism is one of neural network partition methods and the goal is to partition the set of objects O into K disjoint clusters, where K is assumed to be known a priori. The algorism introduced by Macqueen draws an initial partition of the objects at random. It then computes the cluster centroids, assigns objects to the closest of them and iterates until a local minimum is obtained. The advantage of using neural network is that the spectra at the wavelengths having absorptions against chemical bonds including C-H and O-H types can be selected directly as input data. In conventional multiple regression approaches, the first wavelength is selected manually around the absorbance wavelengths as showing a high correlation coefficient between the NIR $2^{nd}$ derivative spectrum and Brix value with a single regression. After that, the second and following wavelengths are selected statistically as the calibration equation shows a high correlation. Therefore, the second and following wavelengths are selected not in a NIR spectroscopic way but in a statistical way. In this research, the spectra at the six wavelengths including 900, 904, 914, 990, 1000 and 1016nm are selected as input data for K-mean analysis. 904nm is selected because the wavelength shows the highest correlation coefficients and is regarded as the absorbance wavelength. The others are selected because they show relatively high correlation coefficients and are revealed as the absorbance wavelengths against the chemical structures by B. G. Osborne. The experiment was performed with two phases. In first phase, a reflectance was acquired using fiber optics. The reflectance was calculated by comparing near infrared energy reflected from a Teflon sphere as a standard reference, and the $2^{nd}$ derivative spectra were used for K-mean analysis. Samples are intact 67 apples which are called Fuji and cultivated in Aomori prefecture in Japan. In second phase, the Brix values were measured with a commercially available refractometer in order to estimate the result of K-mean approach. The result shows a partition of the spectral data sets of 67 samples into eight clusters, and the apples are classified into samples having high Brix value and low Brix value. Consequently, the K-mean analysis realized the classification of apples on the basis of the Brix values.

  • PDF

k-Modes 분할 알고리즘에 의한 군집의 상관정보 기반 빅데이터 분석 (A Big Data Analysis by Between-Cluster Information using k-Modes Clustering Algorithm)

  • 박인규
    • 디지털융복합연구
    • /
    • 제13권11호
    • /
    • pp.157-164
    • /
    • 2015
  • 본 논문은 융복합을 위한 범주형 데이터의 부공간에 의한 군집화에 대해서 다룬다. 범주형 데이터는 수치형 데이터에만 국한되지 않기 때문에 기존의 범주형 데이터들의 평가척도들은 순서화(ordering)의 부재와 데이터의 고차원성과 희소성으로 인하여 한계를 가지기 마련이다. 따라서 각각의 군집에 존재하는 범주형 속성들의 상호 유사도을 보다 근접하게 측정할 수 있는 조건부 엔트로피 척도를 제안한다. 또한 군집의 최적화를 위하여 군집내의 발산을 최소화하고, 군집간의 독립성을 향상시킬 수 있는 새로운 목적함수를 제안한다. 제안된 알고리즘의 성능을 4개의 알고리즘과 비교검증하기 위하여 5가지의 데이터에 대하여 실험을 수행하였다. 비교검증을 위한 평가척도는 정확도, f-척도와 적응된 Rand 색인이다. 실험을 통하여 제안된 방법이 평가척도에 의한 결과에서 기존의 방법들보다 좋은 성능을 보였다.