还剩30页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
统计学基础ppt课件目录•统计学简介CONTENTS•统计学基本概念•描述性统计学•概率与概率分布•统计推断基础•方差分析•相关分析与回归分析01统计学简介统计学的定义统计学是一门收集、整理、分析和解释数据它旨在探索数据背后的规律和趋势,为决策统计学广泛应用于各个领域,如社会科学、的科学提供依据医学、经济学等统计学的发展历程统计学起源于17世纪中期的政随着概率论的发展,统计学逐现代统计学不断吸收其他学科治算术,用于研究国家经济和渐演变为现代的数理统计学的知识,形成了多个分支,如人口数据描述统计学、贝叶斯统计学等统计学的重要性统计学是决策科学的基础,能够通过统计学的方法,我们可以对在大数据时代,统计学更是成为帮助我们做出更科学、更合理的数据进行深入分析,发现其中的了数据分析和挖掘的重要工具,决策规律和趋势,为预测和规划提供对于各行各业的发展具有重要意依据义02统计学基本概念总体与样本总体统计学中研究的全部数据或对象样本总体中的一部分数据或对象,用于推断总体的特征变量与数据类型变量在统计学中,变量是表示数据特征的量,可以是定量的(数值型变量)或定性的(类别型变量)数据类型根据变量的性质,可以将数据分为定量数据和定性数据两种类型定量数据是可以量化的数据,如年龄、身高、体重等;定性数据则是描述性质或类别的数据,如性别、血型、婚姻状况等参数与统计量参数描述总体特征的量,通常用希腊字母表示,如总体均值μ、总体方差σ²等统计量描述样本特征的量,通常用英文字母表示,如样本均值x、样本方差s²等数据的收集与整理收集数据通过调查、试验、观测等方式获取原始数据的过程整理数据对原始数据进行分类、排序、计算等处理,使其更加易于分析的过程03描述性统计学数据的图表展示折线图散点图用于展示时间序列数据,显示数用于展示两个变量之间的关系,据随时间的变化趋势判断是否存在线性或非线性关系01020304柱状图饼图用于展示分类数据,比较不同类用于展示数据的比例关系,表示别的数量或频率各部分在总体中所占的百分比数据的数值描述平均数方差表示数据的集中趋势,常用的平均数有算术表示数据的离散程度,即数据与平均数之间平均数、中位数和众数的偏差程度标准差变异系数是标准差的平方,用于衡量数据的离散程度用于比较不同水平数据的离散程度,消除量纲的影响数据的分布形态1正态分布2偏态分布一种常见的概率分布,特点是曲线呈钟形,中间高、两一种常见的概率分布,特点是曲线呈钟形,中间高、两边低边低3峰态分布4离群值一种常见的概率分布,特点是曲线呈钟形,中间高、两一种常见的概率分布,特点是曲线呈钟形,中间高、两边低边低04概率与概率分布概率的基本概念01020304概率必然事件随机事件不可能事件描述随机事件发生的可能性大概率等于1的事件,如抛硬币概率介于0和1之间的事件,概率等于0的事件,如抛硬币小的数值,取值范围在0到1正面朝上如明天下雨的概率反面朝上之间概率分布离散概率分布连续概率分布期望与方差描述离散随机变量的概率分布情况,如二项描述连续随机变量的概率分布情况,如正态描述随机变量稳定性和分散程度的统计量,分布、泊松分布等分布、指数分布等期望反映平均水平,方差反映波动程度随机变量的期望与方差010203期望方差标准差数学期望或均值,表示随度量随机变量与其期望值方差的平方根,也是度量机变量取值的平均水平,之间的离散程度,计算公离散程度的重要指标计算公式为EX=∑xpx式为DX=E[X−EX^2]=∑x^2px−[EX]^205统计推断基础点估计与区间估计点估计用单一的数值来估计总体参数,如用样本均值来估计总体均值区间估计用一定的置信水平确定的区间范围来估计总体参数,如用样本均值加减两个标准差来估计总体均值假设检验的基本原理假设检验的基本思想先假设总体参数处于某一水平,然后根据样本数据来检验这个假设是否成立假设检验的步骤提出假设、构造检验统计量、确定临界值、做出推断结论单样本与两样本的假设检验单样本假设检验对总体参数与某一固定值之间的差异进行检验两样本假设检验对两个总体参数之间的差异进行检验,如比较两组数据的均值是否存在显著差异06方差分析方差分析的基本原理方差分析是一种统计技术,用于比较方差分析的前提假设包括数据独立、不同组数据的均值是否存在显著差异各组具有相同的方差和正态分布等它通过分析数据的变异来源,将总变异分解为组间变异和组内变异,从而确定不同因素对数据变异的影响单因素方差分析单因素方差分析用于比较一个分类变量对一个连续变量的影响它通过分析不同组之间的均值差异,判断该分类变量对连续变量的影响是否显著通常使用F统计量进行检验,如果F值显著,则说明各组间存在显著差异双因素方差分析双因素方差分析用于比较两个分类变量它通过分析两个分类变量对连续变量的通常使用Wilks Lambda、Hotellings对一个连续变量的影响交互作用和单独作用,判断两个分类变Trace和Roys LargestRoot等统计量量对连续变量的影响是否显著进行检验,如果统计量显著,则说明两个分类变量对连续变量的影响存在显著差异07相关分析与回归分析相关分析描述变量间关系的强度和方向01确定变量间是否有关系判断关系的密切程度0203计算方法散点图、相关系分类正相关、负相关、不0405数(Pearson、Spearman、相关Kendall)一元线性回归分析01020304预测一个因变量与一个建立最佳拟合直线,使估计回归参数截距和预测未来值给定自变自变量之间的关系因变量的变异最小化斜率量值,预测因变量值多元线性回归分析建立最佳拟合平面,使因预测未来值给定自变量变量的变异最小化值,预测因变量值0102030405预测一个因变量与多个自估计回归参数截距和斜控制其他变量的影响通变量之间的关系率过引入多个自变量,控制其他因素的影响感谢您的观看THANKS。