文本内容:
第十一章算法与高斯算法聚类EM
一、简述算法与高斯法聚类以及高斯混合模型EM本章介绍EM算法与高斯混合聚类EM算法即期望最大化算法Expec就ion Maxi-mization,EM,这一算法可以说是为求解高斯混合模型量身定做的高斯混合模型GMM是指多个高斯分布模型的加权组合,是一种基于概率分布的生成式模型实践证明,GMM是一种强健的聚类算法采用梯度下降法或牛顿法进行迭代求解也不合适,因为这是一个具有等式约束的最优角度来化问题从另一个的看,由于每个样本属于哪个高斯分布是未知的,而计算高斯分布需要用到这个均值和协方差时的信息反过来,某个样本属于哪个高斯分布又由高斯分布确定因此,模型中均值和协方差所从存在循环依赖,解决的办法是打破这种循环依赖,一个随机初始权重值开始,所有高斯成分的这计算样本属于每个高斯分布的概率,再根据高斯分布的均值和协方差,而EM个概率更新每个算法的求解正好采用了这种思路
二、对算法进行简要推导EMEM算法是一种迭代算法,它可以同时计算出每个样本所属的簇以及每个簇的概率分布参数如果已知要聚类的数据服从它所属簇的概率分布,则可以通过计算每个簇的概率分布和每个样本所属的簇来完成聚类由于计算每个簇概率分布的参数需要知道哪些样本属于这个簇,而确定每个样本属于哪个簇又需要知道每个簇的概率分布参数,因此EM算法在每次迭代时交替地执行E步和M步来解决这两类问题EM算法是一种从“不完全数据”中求解模型参数的极大似然估计方法“不完全数据”一般分为两种情况一种是由于观测过程本身的限制或错误造成观测数据成为错漏的不完全数据;另一种是参数的似然函数直接优化十分困难,而引入额外的参数隐含的或丢失的后就比较容易优化,于是定义原始观测数据加上额外数据组成“完全数据”,原始观测数据自然就成为“不完全数据气EM算法的目标是求解似然函数或后验概率的极值,而目标函数中具有无法观测的隐变量例如,有一批样本分属于三个类,每个类都服从高斯分布,但均值和协方差这两个参数都是未知的,并且每个样本属于哪个类也是未知的,需要在这种情况下估计出每个高斯分布的均值和协方差那么样本所属的类别就是隐变量,正是这种隐变量的存在导致了用极大似然估计法求解的困难
三、简述算法在近年来的发展EMEM算法作为一种数据添加算法,在近几十年得到了迅速的发展这是由于当前科学研究及各方面实际应用中的数据量越来越大,经常存在数据缺失或不可用的问题,此时如果直接处理数据一般是比较困难的虽然数据添加方法有很多种,但EM算法具有算法简单、能可靠地找到极大值或局部极大值等优点,所以得到了迅速普及随着机器学习理论的发展,EM算法已经不再满足于处理缺失数据问题了,它所能处理的问题越来越广泛有时候并非真的是数据缺失,而是为了简化问题所采取的策略,这时算法被称为数据添加技术一个复杂的问题通过引入恰当的潜在数据往往能够得到有效的解决
四、简述高斯混合聚类的定义高斯混合模型常被用于聚类聚类的基本思路是计算每个样本点关于每个高斯成分的后验概率,然后选择后验概率最大的类别作为这个样本点的类标签在MATLAB中,用fit-gmdist对训练样本数据集进行高斯拟合后,可以根据拟合的结果再利用clustero函数来完成聚类的功能一般情况下,如果将一个样本点只归纳为一个簇Cluster,那么这种类型的高斯混合聚类称为硬聚类HardClustero还有一种情况,每个样本点都会针对每个簇计算一个分数Score,对于高斯混合模型来说,这个分数就是后验概率在这种情况下,一个点可以属于多个类,也就是说它可能具有多个标签,这种聚类称为软聚类Soft Cluster。