K-means Optimal Clustering Number Determination Method Based on Clustering Center Optimization
-
摘要:
k-means聚类算法是在确定的聚类数
k 下对数据集进行聚类, 通常凭借先验规则假定一个k 值, 取值具有很大主观性; 此外, k-means初始聚类中心的选择一般也是随机的, 这使得k-means聚类经常出现聚类指标局部最优化, 聚类结果不稳定.针对以上两个问题, 结合密度法改进了k-means初始聚类中心点的选择, 并在此基础上提出了一种确定k-means最佳聚类数的方法.实验结果证明, 该方法可以得到更好的聚类结果, 具有更高的准确性、更好的稳定性以及更优的收敛性.Abstract:The traditional K-means clustering algorithm requires a certain number of clustering, usually the value of clustering number is assumed by priori rules. Besides, the choice of K-means initial clustering centers is also randomized, which made the clustering result instability. In view of the above factors, improved the selection of initial centers of K-means clusters, and a new method to determine the optimal clustering number is proposed based on that. The experimental results show that the proposed method can get better clustering results and have higher accuracy, better stability and better astringency.
-
表 1 几种聚类指标在三个UCI数据集上的评价结果
数据集 样本数 属性数 最佳聚类数 CH指标 DB指标 BWP指标 IBWP指标 IRIS 150 4 2 2 2 2 WINE 178 13 3 2 2 2 SEEDS 210 8 3 3 3 3 表 2 UCI数据集的初始中心点候选集
数据集 初始中心点候选集合 IRIS S={x80,x99,x77,x147,x135,x149,x115,x142,x71,x98,x91,x107,x130} WINE S={x167,x141,x41,x68,x153,x112,x36,x51,x39,x34,x12,x61,x55,x19} SEEDS S={x136,x17,x198,x15,x202,x52,x10,x77,x61,x172,x142,x110,x79,x171,x115} -
[1] 韩凌波, 王强. 一种改进的k-means初始聚类中心选取算法[J]. 计算机工程与应用, 2010, 46(17): 150-152. doi: 10.3778/j.issn.1002-8331.2010.17.042 [2] 黄敏, 何中市. 一种新的k-means聚类中心选取算法[J]. 计算机工程与应用, 2011, 47(35): 132-134. doi: 10.3778/j.issn.1002-8331.2011.35.037 [3] 马儒宁, 王秀丽, 丁军娣. 多层核心集凝聚算法[J]. 软件学报, 2013, 24(3): 490-506. https://www.cnki.com.cn/Article/CJFDTOTAL-RJXB201303005.htm [4] 杨善林, 李永森, 胡笑旋. k-means算法中的k值优化问题研究[J]. 系统工程理论与实践, 2006, 26(2): 97-101. doi: 10.3321/j.issn:1000-6788.2006.02.013 [5] 周世兵, 徐振源, 唐旭清. k-means算法最佳聚类数确定方法[J]. 计算机应用, 2010, 30(8): 1995-1998. https://www.cnki.com.cn/Article/CJFDTOTAL-JSJY201008004.htm [6] 何宏, 谭永红. 一种基于动态遗传算法的聚类新方法[J]. 电子学报, 2012, 40(2): 254-259. https://www.cnki.com.cn/Article/CJFDTOTAL-DZXU201202008.htm [7] 王勇, 唐靖. 高效率的K-means最佳聚类数确定算法[J]. 计算机应用, 2014, 34(5): 1331-1335. https://www.cnki.com.cn/Article/CJFDTOTAL-JSJY201405028.htm -