还剩20页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
《变量的相关性》ppt课件•变量的相关性概述CONTENTS目录•线性相关•非线性相关•变量相关性在数据分析中的应用•变量相关性分析的局限性CHAPTER01变量的相关性概述什么是变量的相关性变量的相关性是指两这种关系可以是正相个或多个变量之间存关、负相关或无相关在的相互关系当一个变量发生变化时,另一个变量也可能随之变化变量相关性的分类负相关当一个变量增加时,另一个变量减正相关少当一个变量增加时,另一个变量也增加无相关两个变量之间没有明显的相关性变量相关性的度量方法01020304线性相关系数用于衡量两个Spearman秩相关系数衡量偏相关系数在控制其他变量Kendall tau系数衡量两个变量之间的线性关系,取值范两个变量的秩次之间的相关性的影响下,衡量两个变量之间变量的排序相关性围为-1到1的相关性CHAPTER02线性相关线性相关的定义线性相关是指两个或多个变量之间存在一种关系,当一个变量变化时,另一个变量也随之变化,这种关系可以用一条直线近似表示线性相关关系可以分为正相关和负相关两种类型,正相关表示一个变量随着另一个变量的增加而增加,负相关表示一个变量随着另一个变量的增加而减少线性相关的度量-Pearson相关系数Pearson相关系数是用来度量Pearson相关系数的绝对值越Pearson相关系数的正负号表两个变量之间线性相关程度的大,表示两个变量之间的线性示线性相关的方向,正号表示一个统计量,其值介于-1和1之相关程度越强正相关,负号表示负相关间线性相关的判定判定两个变量是否线性相关需要进行线性相关检验,常用的方法有散点图法和计算Pearson相关系数法通过散点图可以直观地观察到两个变量之间是否存在线性相关趋势,如果散点大致分布在一条直线的两侧,则说明两个变量之间存在线性相关关系如果计算得到的Pearson相关系数的绝对值大于临界值(如
0.8),则可以判定两个变量之间存在显著的线性相关关系CHAPTER03非线性相关非线性相关的定义非线性相关指的是两个变量之间的关系不是线性的,即它们的关系不能用一条直线来描述在非线性关系中,一个变量随着另一个变量的变化,其变化趋势不是单调的线性关系,而是呈现出一种曲线的或非直线的关系非线性关系在自然界和社会现象中广泛存在,例如人口增长、金融市场波动等非线性相关的度量-Spearman秩相关系数Spearman秩相关系数的值介于-1和1Spearman秩相关系数是一种用于度之间,其中正值表示正相关,负值表量两个变量之间非线性关系的统计方示负相关,绝对值越大表示相关性越法强它通过比较两个变量的秩次(即数据值排序后的位置)来计算相关系数,从而能够揭示出两个变量之间的非线性关联程度非线性相关的判定在实际数据分析中,判定两个变量之间常用的统计检验方法包括散点图、趋势如果散点图呈现明显的曲线或非直线趋是否存在非线性关系需要借助统计检验线、残差图等,通过观察散点图的分布势,或者趋势线拟合优度很高且残差分和图形化工具形状、趋势线的拟合程度以及残差的正布正常,则可以判定两个变量之间存在态性等特征来判断是否存在非线性关系非线性关系CHAPTER04变量相关性在数据分析中的应用预测模型建立预测模型需要基于历史数据和相关变量之间的关系,通过分析变量之间的相关性,可以确定哪些变量对预测结果有显著影响,从而建立更准确的预测模型相关性的强弱和方向可以用于调整预测模型的参数,以提高模型的预测精度数据降维处理在处理高维数据时,变量之间的相关性可能导致数据冗余和维度诅咒问题通过分析变量之间的相关性,可以识别出冗余的变量,并将其剔除,从而降低数据的维度降维处理有助于简化模型,提高计算效率,并使数据更易于理解和可视化因果关系推断变量之间的相关性可以提供有关因果关系的线索如果两个变量之间存在显著的正相关或负相关关系,这可能意味着一个变量对另一个变量有因果影响除了相关性分析外,还需要结合其他统计方法和领域知识来进行因果关系推断,以得出更准确的结论CHAPTER05变量相关性分析的局限性数据质量对相关性分析的影响数据来源数据来源的可靠性、准确性和完整性对相关性分析结果的影响较大如果数据存在误差或偏差,分析结果可能不准确数据处理数据处理过程中的错误,如数据清洗、异常值处理等,也可能影响相关性分析的结果相关性与因果关系的区别相关关系不等于因果关系相关关系仅仅表示两个变量之间存在一定的关联性,并不意味着一个变量导致另一个变量变化因果关系的判断需要更多信息因果关系的判断需要更多的证据和推理,而不仅仅是基于相关性的分析相关系数解读的注意事项考虑样本量相关系数的大小和显著性水平与样本量有关,样本量较小时,即使存在真实的相关性,相关系数也可能较小或无法通过检验考虑其他因素的影响相关系数只是表示两个变量之间的关联程度,不能完全反映其他因素的影响在解读相关系数时,需要考虑其他可能的干扰因素。