文本内容:
第十章聚类
一、什么是聚类聚类属于无监督学习范畴,训练样本的标签信息是未知的,其目标是按照某种准则将这些无标签信息的样本划分成若干个“簇”类以揭示数据的内在性质及规律聚类的原则是保证同簇的样本之间尽量相似,不同簇的样本之间尽量不同不同于监督学习的分类,聚类没有训练过程,而是按照某一准则直接完成对样本集的划分尽管聚类的研究进程缓慢,但在很多领域中得到了成功的应用二简述特征的分类在机器学习中,常将特征划分为“连续特征”和“离散特征:连续特征是指在定义域上取值为实数的特征,而离散特征是指在定义域上只取有限个值的特征对于离散特征,在讨论距离计算时,特征上是否定义了“序”关系更为重要例如,定义域为{}的离散特征与1,2,3连续特征的性质更接近一些,能直接在特征值上计算距离与比较接近、与比较远,“1”“2”“3”这样的特征称为“有序特征”;而定义域为{鞋子,帽子,袜子}这样的离散特征则不能直接在特征值上计算距离,这样的特征称为“无序特征”显然,闵可夫斯基距离只适用于有序特征对无序特征可采用度量于是,将闵可夫斯基距离和VDM结VDM ValueDifference Metric合即可处理混合特征
三、什么是聚类的性能指标聚类是将样本集划分为若干互不相交的子集簇那么,什么样的聚类结果比较好呢?直观上看,我们希望“物以类聚”,即同一簇的样本尽可能彼此相似,不同簇的样本尽可能不同聚类的性能指标也叫作有效性指标一方面,与有监督学习算法类似,对于聚类结果,也需通过某种性能指标来评估其好坏另一方面,如果明确了最终将要使用的性能指标,则可直接将其作为聚类过程的最优化目标,以得到更好的符合要求的聚类结果聚类性能指标大致有两类一类是将聚类结果与某个“参考模型”进行比较,称为“外部指标”;另一类是直接考查聚类结果而不利用任何参考模型,称为“内部指标”基于式可导出下面这些常用的聚类性能度量外部指标
10.7系数定义为1Jaccard JaccardCoefRcient,JC,JC=-a+o+c指标定义为2FM Fowlkesand MallowsIndex,FMI,FMI^。