还剩9页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
分类问题和回归问题
一、回归问题和分类问题的区别回归问题0分类问题a连续变量离散变量1a定量一定性”对真实值的一种逼近预测,将事物打上一个标签,输入输入变量输出确定的数值二变量输出标签类别”用函数拟合已知数据并对新寻找有助于将数据分为几个数据的函数值进行预测“类别的模型3均方误差一分类准确性~回归树、线性回归~决策树、逻囱圆归区别简单概括为上图,具体举例如下机器学习的思想和教小孩一样,拿识物卡片给她,告诉她这是猫、这是狗、这是苹果…,下次遇到真猫真狗的时候你问她这是啥,如果她准确说出这是猫还是狗还是苹果,那么这个小孩训练成功了那么机器学习就是把机器当小孩,给它一些历史数据,告诉机器,这些数据是什么,然后再给它一些新数据,让它告诉你新数据是什么是如果低于这个比例,婚姻就遇到问题了最后,将结果放在一个5:1,数学模型上,这个模型用差分方程式凸显出成功婚姻的潜在特点戈特曼根据得分,将这些夫妻分成组5幸福的夫妻冷静、亲密、相互扶持、关系友好他们更喜欢分享经验无效的夫妻他们尽最大努力避免冲突,只是通过积极回应对方的方式多变的夫妻他们浪漫而热情,可争论异常激烈他们时而稳定时而不稳定,可总的来说不怎么幸福敌对的夫妻一方不想谈论某件事,另一方也同意,所以,两者之间没有交流彼此无感的夫妻一方兴致勃勃地想要争论一番,可另一方对讨论的话题根本不感兴趣该数学模型呈现了稳定型夫妻和不稳定型夫妻(敌对夫妻和无感夫妻)之间的区别而据预测,不稳定的夫妻可能会一直保持婚姻关系,尽管他们的婚姻不稳定对新用户进行预测年以来,每隔一两年,默里和戈特曼都会与参与研究的那对夫妻12700交流公式对离婚率的预测达到了的准确率94%在模型评估时,分类与回归也有区别在回归中要考虑的是答案不完全一致时的误差,而分类中要考虑的是答案是否正确《白话机器学习的数学》一书中分别讲解了如何验证回归问题和分类问题你给它数据并且教它的过程就是力练过程,它告诉你新数据是什么的过程I是测试过程好的机器学习模型要求测试集和力练集数据表征不同、本质I相同,希望模型在没见过的数据上有良好的表现分类问题输入数据后输出为数据所代表的类别,例如水果分类器,输入一个苹果它能告诉你这是苹果(归到苹果这一类),输入一个香蕉它告诉你这是香蕉(归到苹果这一类),使用分类准确率来度量分类模型的好坏(准确率二分类正确的样本数/测试集的样本数)回归问题输入数据后输出为预测值例如房价走势曲线拟合问题(房价随房子面积变化的曲线),输入一个房子面积,它能告诉你这个面积的房子价格,使用均方误差()来度量回归模型的好Mean SquareError,MSE坏,SE=i£3(筑-切2)
二、回归问题和分类问题相互转化有些问题只能是分类问题,例如类别标签具有平行属性的问题水果分类(苹果、香蕉、石榴……),疾病诊断(心脏病、外伤、心理疾病、肺病……)有些问题只能是回归问题,例如没有明确的类别的问题股票价格走势拟合(股票价格随时间变化的曲线)有些问题可以相互转化,例如类别标签具有连续属性、程度属性(即类别标签取值连续)的问题酒店星级、产品等级、随面积增大逐渐增加的房价、情感由强到弱等问题(可以将类别范围表示成一个连续的数字范围)理论上到底如何将这两类问题转化呢?
①回归问题转化为分类问题以房价回归模型为例,假设分类精度为£,我们将某个范围内的面积作为输入[]平方米,得到对应面积的房价50,200[]将[]分成份每份的大小为£,此时,就将回归50w,500w50,500m问题转为为了分类问题(在训练过程完成转化),在测试阶段,给定一个面积,预测出一个房价(本质还是预测),当这个价格位于第份时,就说i这个房子属于第类i
①分类问题转化为回归问题例如情感分类问题,情感的强弱不是离散值,而是连续的,因为大喜大悲的情况概率极小,所以我们可以将情感类别用数字区间表示,不同的区间代表不同的类,使用回归的方法完成情感分类,具体实现细节和上例类似不学了,睡觉,明早健身分类与回归分类预测建模问题不同于回归预测建模问题分类是预测离散类标签的任务回归是预测连续数量的任务分类和回归算法之间存在一些重叠;例如分类算法可以预测一个连续值,但连续值的形式是类别标签的概率回归算法可以预测一个离散值,但离散值以整数形式存在一些算法经过小的修改即可用于分类和回归,例如决策树和人工神经网络某些算法不能或不能轻松用于这两种问题类型,例如用于回归预测建模的线性回归和用于分类预测建模的逻辑回归重要的是,我们评估分类和回归预测的方式各不相同并且不会重叠,例如:分类预测可以使用准确性进行评估,而回归预测则不能回归预测可以使用均方根误差进行评估,而分类预测则不能要弄清楚分类与回归的区别,先要了解分类和回归的关系结合《白话机器学习的数学》,通过具体案例,和大家一起捋一下首先,分类和回归同属于监督学习需要完成的任务分类与回归最主要的区别是输出变量的类型连续变量的预测叫回归,离散变量的预测是分类回归的主要作用是了解两个或多个变量之间是否相关,相关的方向,相关的强度,并利用数学模型以便观察特定变量来预测研究者感兴趣的变量分类模型是将回归模型输出离散化,分类和回归模型之间存在重要差异根本上来说分类是关于预测标签,而回归是关于预测数量我们通过案例来对比一下不同机器学习监督学习无监督学习分类回归聚类逻辑回归线性回归等级体系聚类主要组件分析分类树决策树混合高斯模型多维统计支持向■网络贝叶斯网络遗传算法人工神经网络人工神经网络模糊分类人工神经网络随机投影随机森林人工神经网络K-均值聚类张■分解A「回归」案例知乎盐值是怎么来的知乎社区将所有用户在知乎产生的认真、专业的分享,看作知识海洋析出来的智慧之盐,盐值就是大家在知乎这片盐海里面的价值盐值最终呈现的形式是分数,个人号分(机构号分),不同的0-10000-1200分段有不同的权利和待遇,而且还会直接影响到内容推荐系统(答案排名和流通)和账号赋权系统(账号权重),分数越高代表账号权重越高以知乎个人号举例,影响知乎个人号盐值的因素包括「基础信用」、「内容创作」、「友善互动」、「遵守规范」和「社区建设」这五个维度,如下所示±目社区建设内容创作基础信用爆遵守公约友善互动而盐值的发明过程就是监督学习的回归,具体步骤如下:构建问题选择模型首先找出盐值的影响因素——基础信用、内容创作指数等基础信用分数是知乎根据用户站内的账号行为(个人信息完善程度、个人账户历史处罚情况)等进行数据归纳和赋权计算,从而评估出来的分数内容创作指数是根据每个用户在站内发布的内容进行评估,再通过发布内容后获取的赞同反对、评论、收藏等行为进行赋权计算得到的综合评分例如在垂直领域持续创作内容,会对你的内容进行优先排序和推荐;内容中尽量使用客观描述,内容详实,避免存在煽动情绪等言论;内容严肃有深度、积极向上,能对其他知友产生知识沉淀和帮助;获得赞同、感谢、收藏,会提升内容创作指数;根据影响用户在平台价值的因素,平台就可以构建一个简单的模型这个模型可以理解为一个特定的公式,这个公式可以将这些因素和每个账户的盐值相关联收集已知数据为了找出这个公式,我们需要先收集大量的已知数据(包括「基础信用」、「内容创作」、「友善互动」、「遵守规范」和「社区建设」这五个维度)和他/她的知乎盐值(把知乎盐值转化为分数)我们把数据分成几个部分,一部分用来训练,一部分用来测试和验证训练出理想模型有了这些数据,我们通过机器学习,就能“猜测”出这五种数据和盐值分数的关系这个关系就是我们想要找到的公式然后我们再用验证数据和测试数据来验证一下这个公式是否0K测试验证的具体方法是将几种数据套入公式,计算出盐值分;用计算出来的盐值跟这个账号实际的盐值(预先准备好的)进行比较;评估公式的准确度,如果差别很大再进行调整优化对新用户进行预测当我们想预测一个新用户的盐值分数时,只需要收集到他的这五种数据,套进公式计算一遍就知道结果了!>「分类」案例如何预测离婚美国心理学家戈特曼博士曾用大数据还原过婚姻关系的真相,他的方法就是分类的思路戈特曼博士在观察和聆听一对夫妻分钟的谈话后,便能预测他们是否会5离婚,且预测准确率高达我们一起来看一下步骤94%!构建问题,选择模型戈特曼提出,对话能反映出夫妻之间潜在的问题,他们在对话中的争吵、欢笑、调侃和情感表露创造了某种情感关联通过这些对话中的情绪关联可以将夫妻分为不同的类型,代表不同的离婚概率收集已知数据研究人员邀请了对夫妻参与实验他们单独在一间屋子里相对坐下,700然后谈论一个有争论的话题,比如金钱和性,或是与姻亲的关系默里和戈特曼让每一对夫妻持续谈论这个话题分钟,并拍摄下这个过程15观察者看完这些视频之后,就根据丈夫和妻子之间的谈话给他们打分训练出理想模型戈特曼的方法并不是用机器学习来得到结果,不过原理都是类似的他得到的结论如下首先,他们将夫妻双方的分数标绘在一个图表上,两条线的交叉点就可以说明婚姻能否长久稳定如果丈夫或妻子持续得负分,两人很可能会走向离婚重点在于定量谈话中正负作用的比率理想中的比率。