DOI QR코드

DOI QR Code

A study on the ordering of similarity measures with negative matches

음의 일치 빈도를 고려한 유사성 측도의 대소 관계 규명에 관한 연구

  • Received : 2014.11.26
  • Accepted : 2014.12.26
  • Published : 2015.01.31

Abstract

The World Economic Forum and the Korean Ministry of Knowledge Economy have selected big data as one of the top 10 in core information technology. The key of big data is to analyze effectively the properties that do have data. Clustering analysis method of big data techniques is a method of assigning a set of objects into the clusters so that the objects in the same cluster are more similar to each other clusters. Similarity measures being used in the cluster analysis may be classified into various types depending on the nature of the data. In this paper, we studied upper and lower bounds for binary similarity measures with negative matches such as Russel and Rao measure, simple matching measure by Sokal and Michener, Rogers and Tanimoto measure, Sokal and Sneath measure, Hamann measure, and Baroni-Urbani and Buser mesures I, II. And the comparative studies with these measures were shown by real data and simulated experiment.

세계 경제 포럼과 대한민국 지식경제부에서 10대 핵심정보기술 가운데 하나로 빅 데이터를 선정한 바 있다. 빅 데이터에 대한 분석은 결국 데이터들이 가지고 있는 속성을 얼마나 효과적으로 분석하느냐가 관건이다. 이를 위한 기법들 중에서 군집 분석 방법은 거리 또는 유사성 측도를 이용하여 각 개체의 유사성을 측정하여 유사도가 높은 대상 집단을 분류하고 군집에 속한 개체들의 유사성과 서로 다른 군집에 속한 개체간의 상이성을 밝혀내는 통계분석 기법이다. 군집분석에서 이용되고 있는 유사성 측도는 데이터의 속성에 따라 여러 가지의 형태로 분류할 수 있으며, 범주형 데이터에 적용 가능한 측도들은 음의 일치 빈도를 고려한 측도, 음의 일치 빈도를 고려하지 않는 측도, 그리고 주변 확률 분포의 포함 여부에 의한 측도 등으로 구분할 수 있다. 음의 일치 빈도는 동시발생빈도와 더불어 두 항목간의 관련성에 대한 순방향성을 의미하므로 이를 고려하지 않는 유사성 측도들보다 이를 고려한 유사성 측도들이 좀 더 현실적인 측도라고 할 수 있다. 따라서 본 논문에서는 이분형 데이터에 대해 일반적으로 많이 활용되고 있는 음의 일치 빈도를 고려한 측도들에 대해 대소 관계를 규명함으로써 이들의 상한 및 하한을 설정하는 문제를 고려하였다.

Keywords

References

  1. Cheong, D. and Oh, K. J. (2014). Using cluster analysis and genetic algorithm to develop portfolio investment strategy based on investor information. Journal of the Korean Data & Information Science Society, 25, 107-117. https://doi.org/10.7465/jkdi.2014.25.1.107
  2. Choi, S. S., Cha, S. H. and Tappert, C. (2010). A survey of binary similarity and distance measures. Journal on Systemics, Cybernetics and Informatics, 8, 43-48.
  3. Jang, H., Kim, K. K. and Kang, C. (2014). Comparison of clustering methods for categorical data. Journal of the Korean Data Analysis Society, 16, 2439-2445.
  4. Jeong, K. M. (2005). A note on Bayesian information criterion in model-based clustering. Journal of the Korean Data Analysis Society, 7, 1517-1529.
  5. Kim, D. (2009). On the Silhouette plot in cluster analysis. Journal of the Korean Data Analysis Society, 11, 2955-2964.
  6. Kim, M., Jeon, J., Woo, K. and Kim, M. (2010). A new similarity measure for categorical attribute-based clustering. Journal of Korean Institute of Information Scientists and Engineers : Databases, 37, 71-81.
  7. Lee, K. A. and Kim, J. H. (2011). Comparison of clustering with yeast microarray gene expression data. Journal of the Korean Data & Information Science Society. 22, 741-753.
  8. Lim, J. S. and Lim, D. H. (2012). Comparison of clustering methods of microarray gene expression data. Journal of the Korean Data & Information Science Society, 23, 39-51. https://doi.org/10.7465/jkdi.2012.23.1.039
  9. Meyer A. (2002) Comparison of similarity coefficients used in cluster analysis with dominant markers data, MSc Thesis, Universidade de Sao Paulo, Piracicaba.
  10. Oh, S. M., Song, J. M. and Kim, C. S. (2012). Clustering analysis using the influence of attributes in categorical data analysis. Journal of the Korean Institute of Information Scientists and Engineers, 18, 790-793.
  11. Park, H. C. (2009). An introduction to statistical database, Changwon National University Press, Changwon.
  12. Park, H. C. (2011). Association rule thresholds of similarity measures considering negative co-occurrence frequencies. Journal of the Korean Data & Information Science Society, 22, 1113-1122.
  13. Park, H. C. (2012). Exploration of PIM based similarity measures as association rule thresholds. Journal of the Korean Data & Information Science Society, 23, 1127-1135. https://doi.org/10.7465/jkdi.2012.23.6.1127
  14. Park, H. C. (2013). Proposition of causal association rule thresholds. Journal of the Korean Data & Information Science Society, 24, 1189-1197. https://doi.org/10.7465/jkdi.2013.24.6.1189
  15. Park, H. J. and Kim, J. T. (2013). Classification of universities in Daegu.Gyungpook by support vector cluster analysis. Journal of the Korean Data & Information Science Society. 24, 783-791. https://doi.org/10.7465/jkdi.2013.24.4.783
  16. Ryu, J. Y. and Park, H. C. (2013). A study on Jaccard dissimilarity measures for negative association rule generation. Journal of the Korean Data Analysis Society, 15, 3111-3121.
  17. Warrens, M. J. (2008). Bounds of resemblance measures for binary (presence/absence) variables. Journal of Classification, 25, 195-208. https://doi.org/10.1007/s00357-008-9024-6
  18. Woo, S. Y., Lee, J. W. and Jhun, M. (2014). Microarray data analysis using relative hierarchical clustering. Journal of the Korean Data & Information Science Society, 25, 999-1009. https://doi.org/10.7465/jkdi.2014.25.5.999
  19. Yeo, I. K. (2011). Clustering analysis of Korea's meteorological data. Journal of the Korean Data & Information Science Society. 22, 941-949.