还剩33页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
《统计学习基础》ppt课件•引言•概率论基础•回归分析目•分类算法录•聚类分析•机器学习中的过拟合与欠拟合问题•模型选择与调参CONTENTS01引言CHAPTER什么是统计学习统计学习是利用统计学原理和方法进行数据分析和预测的一门01学科它涉及到如何从数据中提取有用的信息,并基于这些信息进行02决策和预测统计学习的主要目的是利用数据建立模型,并对未知数据进行03预测和分析统计学习的重要性01随着大数据时代的到来,统计学习在各个领域的应用越来越广泛02它能够帮助我们更好地理解数据,发现数据中的规律和趋势,为决策提供科学依据03统计学习在金融、医疗、市场营销等领域都有重要的应用价值统计学习的基本概念损失函数损失函数用于衡量模型的预测结果与真实超参数结果之间的差距超参数是在训练模型标签之前需要设置的参数,特征它们不能通过训练过标签是数据集中的目程中优化得到数据集数据集中的每个数据标变量,用于表示我统计学习的基础是数都有多个属性,这些们想要预测的结果据,数据集是统计学属性被称为特征习中的基本单位02概率论基础CHAPTER概率的基本概念概率随机事件描述随机事件发生的可能性大既不是必然发生也不是不可能小的量度,通常用大写字母P表发生的事件,如“明天下雨”示必然事件互斥事件概率等于1的事件,如“明天太两个事件不能同时发生,如阳从东方升起”“抛一枚硬币,正面朝上和反面朝上”条件概率与独立性条件概率在某个事件B已经发生的条件下,另一个事件A发生的概率,记作PA|B独立性两个事件A和B相互独立时,PA∩B=PAPB全概率公式一个复杂事件A可以分解为若干个互斥事件的并集,每个互斥事件的概率之和为1随机变量及其分布随机变量用数学符号表示可观测的量,如X表示投掷一枚骰子出现的点数离散型随机变量随机变量X的所有可能取值是可数的,如二项分布、泊松分布等连续型随机变量随机变量X的所有可能取值是连续的,如正态分布、指数分布等期望值随机变量X的数学期望或均值,记作EX,表示X取值的平均值参数估计与假设检验参数估计根据样本数据估计总体参数的方法,如最小二乘法、最大似然估计等假设检验根据样本数据对总体参数或分布类型进行检验的过程,包括提出假设、构造检验统计量、确定临界值和做出推断结论等步骤03回归分析CHAPTER线性回归模型线性回归模型的假设因变量与自变量之间存在线性关系,误差项独立同线性回归模型分布,且误差项的均值为0通过线性方程来表示自变量和因变量之间的关系线性回归模型的适用范围适用于解释和预测因变量与一个或多个自变量之间的因果关系最小二乘法估计最小二乘法的定义通过最小化预测值与实际值之间的平方误差,来估计回归模型的参数最小二乘法的优点简单易行,适用于多种类型的数据,能够给出参数的唯一解最小二乘法的局限性对异常值敏感,可能受到多重共线性的影响多元线性回归多元线性回归的定义在回归分析中,当因变量受到多个自变量的影响1时,可以使用多元线性回归模型多元线性回归的假设所有自变量与因变量之间存在线性关系,误差项2独立同分布,且误差项的均值为0多元线性回归的应用用于解释和预测多个自变量对因变量的影响,以3及筛选重要的自变量回归模型的评估与选择模型的评估指标模型的验证与优化通过交叉验证、网格搜索等技术对模包括R方、调整R方、残差图、正态性型进行验证和优化,以提高模型的预检验等,用于评估模型拟合的好坏测精度和泛化能力模型的选择原则根据实际问题和数据特点,选择合适的回归模型,如简单线性回归、多元线性回归、岭回归、套索回归等04分类算法CHAPTER决策树分类总结词详细描述优点缺点决策树分类是一种监督学习算决策树分类利用树形结构将数易于理解和实现,能够处理非容易过拟合,对大规模数据集法,通过构建决策树来对输入据集划分为若干个子集,每个线性关系的数据,对噪声和异处理效率较低数据进行分类子集对应一个类别,通过递归常值具有一定的鲁棒性地训练和测试数据集,不断优化决策树的构建,最终实现对新数据的分类K近邻算法总结词详细描述K近邻算法是一种基于实例的学习算法,通过测量不同数K近邻算法将新的数据点与训练数据集中距离最近的K个据点之间的距离进行分类点进行比较,根据这K个点的类别进行投票,多数决定新数据点的类别优点缺点简单、易于理解和实现,对异常值和噪声具有较强的鲁棒计算复杂度高,对大规模数据集处理效率较低,且需要选性择合适的K值支持向量机总结词详细描述支持向量机是一种基于超平面的分类算法,支持向量机利用核函数将输入空间映射到通过找到能够将不同类别数据点最大化分高维特征空间,然后在高维空间中寻找最隔的超平面进行分类优超平面进行分类缺点优点对参数选择敏感,对异常值和噪声较为敏对大规模数据集具有较强的处理能力,能感够处理非线性问题,具有较好的泛化能力朴素贝叶斯分类器总结词朴素贝叶斯分类器是一种基于概率的分类算法,通过计算每个类别的条件概率进行分类详细描述朴素贝叶斯分类器假设特征之间相互独立,利用贝叶斯定理计算每个类别的条件概率,选择概率最大的类别作为新数据点的类别优点简单、易于理解和实现,对大规模数据集处理效率较高缺点假设特征之间相互独立,在实际应用中可能不成立,导致分类效果不佳05聚类分析CHAPTERK均值聚类一种常见的聚类方法K均值聚类是一种无监督学习方法,通过将数据划分为K个集群来工作它首先随机选择K个数据点作为初始的集群中心,然后迭代地将每个数据点分配给最近的集群中心,并重新计算每个集群的中心,直到达到收敛条件层次聚类一种自底向上的聚类方法层次聚类是一种聚类方法,它从每个数据点作为一个集群开始,然后不断地合并最接近的集群,直到满足某个停止条件这种方法可以生成一个聚类层次,其中每个数据点都可以被视为一个叶节点,而最顶层的集群则是最小的集群DBSCAN聚类一种基于密度的聚类方法DBSCAN(Density-Based SpatialClustering ofApplications withNoise)是一种基于密度的聚类方法它根据给定的两个参数(邻域半径和最小点数)来识别高密度区域和噪声点在DBSCAN中,一个点被视为核心点如果它在给定半径内的邻居数大于或等于最小点数,而边界点或噪声点则不满足这个条件聚类评估方法评估聚类效果的指标聚类评估是聚类分析的一个重要步骤,它可以帮助我们了解聚类的质量有多种评估方法可用于聚类,包括轮廓系数、Davies-Bouldin指数、VS Calinski-Harabasz指数等这些指标可以帮助我们了解聚类的内部结构、稳定性以及与其他聚类的比较06机器学习中的过拟合与欠拟合问题CHAPTER过拟合与欠拟合的定义及影响过拟合欠拟合机器学习模型在训练数据上表现很好,但在机器学习模型在训练数据和测试数据上都表测试数据上表现较差,因为模型过于复杂,现较差,因为模型过于简单,无法捕捉到数对训练数据进行了过度的拟合,导致泛化能据中的复杂模式,导致模型无法很好地拟合力下降数据过拟合与欠拟合的解决方法通过增加训练数据量,可以降低过拟合的风险,提高模型的泛添加数据化能力通过减少特征数量或选择重要的特征,可以使模型更加简单,减少特征降低过拟合的风险正则化是一种常用的方法,通过在损失函数中添加惩罚项来约正则化束模型的复杂度,从而降低过拟合的风险早停法当验证损失停止下降时,可以停止训练模型,以避免过拟合正则化方法L1正则化也称为Lasso正则化,通过对模型参数施加L1范数惩罚,使得模型更加稀疏,能够自动地进行特征选择L2正则化也称为Ridge正则化,通过对模型参数施加L2范数惩罚,使得模型参数更加接近于零,从而降低过拟合的风险弹性网正则化结合了L1和L2正则化的特点,通过对模型参数施加L1和L2范数惩罚,能够同时进行特征选择和参数收缩07模型选择与调参CHAPTER模型选择的方法理论准则交叉验证实际应用基于理论准则,如赤池信息准则通过将数据分成训练集和测试集,根据实际问题的需求和应用场景,(A IC)和贝叶斯信息准则使用训练集拟合多个模型,并在选择适合的模型例如,对于分(BIC),选择模型这些准则旨测试集上评估它们的性能,以选类问题,可以选择逻辑回归、支在平衡模型的复杂度和数据的拟择最佳模型持向量机或决策树等模型合度交叉验证定义交叉验证是一种评估模型性能的方法,通过将数据集分成多个子集,将每个子集用作测试集,其余子集用作训练集,以多次重复验证过程类型常见的交叉验证类型包括k-折交叉验证、留出交叉验证和自助交叉验证用途交叉验证用于估计模型的泛化能力,避免过度拟合和欠拟合问题,以及选择最佳的模型参数超参数调整与网格搜索超参数01在机器学习中,超参数是在训练开始之前设置的参数,而不是通过训练过程中数据直接学习得到的参数网格搜索02网格搜索是一种超参数调整技术,通过穷举所有可能的超参数组合,找到最佳的超参数组合自动调参03为了简化超参数调整的过程,一些工具和库提供了自动调参的功能,如使用贝叶斯优化或随机搜索等技术来自动寻找最佳的超参数组合THANKS感谢您的观看。