• 北大核心期刊(《中文核心期刊要目总览》2017版)
  • 中国科技核心期刊(中国科技论文统计源期刊)
  • JST 日本科学技术振兴机构数据库(日)收录期刊

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于聚类中心优化的k-means最佳聚类数确定方法

贾瑞玉 宋建林

贾瑞玉, 宋建林. 基于聚类中心优化的k-means最佳聚类数确定方法[J]. 微电子学与计算机, 2016, 33(5): 62-66, 71.
引用本文: 贾瑞玉, 宋建林. 基于聚类中心优化的k-means最佳聚类数确定方法[J]. 微电子学与计算机, 2016, 33(5): 62-66, 71.
JIA Rui-yu, SONG Jian-lin. K-means Optimal Clustering Number Determination Method Based on Clustering Center Optimization[J]. Microelectronics & Computer, 2016, 33(5): 62-66, 71.
Citation: JIA Rui-yu, SONG Jian-lin. K-means Optimal Clustering Number Determination Method Based on Clustering Center Optimization[J]. Microelectronics & Computer, 2016, 33(5): 62-66, 71.

基于聚类中心优化的k-means最佳聚类数确定方法

基金项目: 

国家自然科学基金项目 61202227

详细信息
    作者简介:

    贾瑞玉    女, (1965-), 副教授, 硕士生导师.研究方向为智能算法与数据挖掘

    通讯作者:

    宋建林(通讯作者)    男, (1990-), 硕士研究生.研究方向为数据挖掘.E-mail: 435247994@qq.com

  • 中图分类号: TP301.6

K-means Optimal Clustering Number Determination Method Based on Clustering Center Optimization

  • 摘要:

    k-means聚类算法是在确定的聚类数k下对数据集进行聚类, 通常凭借先验规则假定一个k值, 取值具有很大主观性; 此外, k-means初始聚类中心的选择一般也是随机的, 这使得k-means聚类经常出现聚类指标局部最优化, 聚类结果不稳定.针对以上两个问题, 结合密度法改进了k-means初始聚类中心点的选择, 并在此基础上提出了一种确定k-means最佳聚类数的方法.实验结果证明, 该方法可以得到更好的聚类结果, 具有更高的准确性、更好的稳定性以及更优的收敛性.

     

  • 图 1  IRIS数据集聚类数-指标值图

    图 2  SEEDS数据集聚类数-指标值图

    图 3  WINE数据集聚类数-指标值图

    表  1  几种聚类指标在三个UCI数据集上的评价结果

    数据集 样本数 属性数 最佳聚类数
    CH指标 DB指标 BWP指标 IBWP指标
    IRIS 150 4 2 2 2 2
    WINE 178 13 3 2 2 2
    SEEDS 210 8 3 3 3 3
    下载: 导出CSV

    表  2  UCI数据集的初始中心点候选集

    数据集 初始中心点候选集合
    IRIS S={x80x99x77x147x135x149x115x142x71x98x91x107x130}
    WINE S={x167x141x41x68x153x112x36x51x39x34x12x61x55x19}
    SEEDS S={x136x17x198x15x202x52x10x77x61x172x142x110x79x171x115}
    下载: 导出CSV
  • [1] 韩凌波, 王强. 一种改进的k-means初始聚类中心选取算法[J]. 计算机工程与应用, 2010, 46(17): 150-152. doi: 10.3778/j.issn.1002-8331.2010.17.042
    [2] 黄敏, 何中市. 一种新的k-means聚类中心选取算法[J]. 计算机工程与应用, 2011, 47(35): 132-134. doi: 10.3778/j.issn.1002-8331.2011.35.037
    [3] 马儒宁, 王秀丽, 丁军娣. 多层核心集凝聚算法[J]. 软件学报, 2013, 24(3): 490-506. https://www.cnki.com.cn/Article/CJFDTOTAL-RJXB201303005.htm
    [4] 杨善林, 李永森, 胡笑旋. k-means算法中的k值优化问题研究[J]. 系统工程理论与实践, 2006, 26(2): 97-101. doi: 10.3321/j.issn:1000-6788.2006.02.013
    [5] 周世兵, 徐振源, 唐旭清. k-means算法最佳聚类数确定方法[J]. 计算机应用, 2010, 30(8): 1995-1998. https://www.cnki.com.cn/Article/CJFDTOTAL-JSJY201008004.htm
    [6] 何宏, 谭永红. 一种基于动态遗传算法的聚类新方法[J]. 电子学报, 2012, 40(2): 254-259. https://www.cnki.com.cn/Article/CJFDTOTAL-DZXU201202008.htm
    [7] 王勇, 唐靖. 高效率的K-means最佳聚类数确定算法[J]. 计算机应用, 2014, 34(5): 1331-1335. https://www.cnki.com.cn/Article/CJFDTOTAL-JSJY201405028.htm
  • 加载中
图(3) / 表(2)
计量
  • 文章访问数:  279
  • HTML全文浏览量:  40
  • PDF下载量:  7
  • 被引次数: 0
出版历程
  • 收稿日期:  2015-06-24
  • 修回日期:  2015-07-22

目录

    /

    返回文章
    返回