还剩29页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
REPORTING2023WORK SUMMARY生物统计学课件概率及概率分布https://wenku.baidu.com•概率论基础•随机变量及其分布目录•常见的概率分布•参数估计与假设检验CATALOGUE•相关与回归分析•方差分析与试验设计•生存分析与生存函数PART01概率论基础概率的定义与性质概率的定义概率是描述随机事件发生可能性的数学量,通常用P表示概率的取值范围是0到1,其中0表示事件不可能发生,1表示事件一定发生概率的性质概率具有可加性、可减性和有限可加性可加性是指互斥事件的概率之和等于该事件的总概率;可减性是指对立事件的概率之和等于1;有限可加性是指任意有限个两两互斥事件的概率之和等于这些事件中所有事件的总概率条件概率与独立性条件概率在某个事件B已经发生的情况下,另一个事件A发生的概率称为条件概率,记作PA|B条件概率的计算公式为PA|B=PA∩B/PB独立性两个事件A和B称为独立的,如果一个事件的发生不影响另一个事件的发生独立事件的概率乘法原则为PA∩B=PAPB贝叶斯定理•贝叶斯定理贝叶斯定理是条件概率的一个重要应用,它可以帮助我们根据已知信息更新对某个事件发生的概率的估计贝叶斯定理的公式为PA|B=PB|APA/PBPART02随机变量及其分布离散随机变量离散随机变量离散概率分布在一定范围内可以一一列举出来的随描述离散随机变量取各个可能值的概机变量,如投掷骰子出现的点数率,如二项分布、泊松分布等离散随机变量的期望值离散随机变量的方差所有可能取值的概率加权和,计算公描述离散随机变量取值分散程度的量,式为EX=∑XPX计算公式为DX=∑[X-EX]^2PX连续随机变量连续随机变量连续概率分布在一定范围内可以连续取值的随机变量,描述连续随机变量取各个可能值的概率,如人的身高如正态分布、指数分布等连续随机变量的期望值连续随机变量的方差所有可能取值的概率密度函数积分,计算描述连续随机变量取值分散程度的量,计公式为EX=∫∞−∞x*fxdx算公式为DX=∫∞−∞[X−EX]^2fxdx随机变量的期望值和方差期望值无偏性描述随机变量取值的平均水平,如果样本均值的期望值等于总计算公式为EX=∑xPX=x体均值,即EXbar=μ,则称样本均值是无偏估计方差一致性描述随机变量取值分散程度的如果随着样本量增大,样本均量,计算公式为值的方差趋于0,即DX=∑[X−EX]^2PXlimn→∞VarXbar=0,则称样本均值是一致估计PART03常见的概率分布二项分布二项分布适用于独立、伯努利试验的次数二项分布是描述成功的次数的概率分布,通常用于进行n次独立的伯努利试验,每次试验成功的概率为p二项分布的公式为Bn,p,其中n是试验次数,p是成功的概率泊松分布泊松分布适用于单位时间内随机事件的次数泊松分布是描述单位时间内随机事件的次数的概率分布,通常用于描述在固定时间段内发生的事件次数泊松分布的公式为Pλ,其中λ是单位时间(或单位面积)内随机事件的平均发生率正态分布正态分布适用于连续变量或多次测量正态分布是描述连续变量的概率分布,通常用于描述多次测量的结果或自然界中的许多现象正态分布的公式为Nμ,σ²,其中μ是均值,σ²是方差正态分布具有钟形曲线,且曲线关于均值μ对称t分布和F分布t分布在样本量小或总体标准差未知t分布在统计学中用于估计总体均值时使用,F分布用于方差分析的置信区间或进行假设检验,特别是在样本量小或总体标准差未知的情况下t分布的形状取决于自由度df,VS随着自由度的增加,t分布趋近于正态分布F分布则用于方差分析,特别是ANOVA(分析方差)中,用于比较两组或多组数据的方差是否有显著差异F分布的公式为Fd₁,d₂,其中d₁和d₂分别是两个分组的自由度PART04参数估计与假设检验参数估计010203参数估计的概念点估计与区间估计最小二乘法参数估计是一种统计学方点估计是直接用一个数值最小二乘法是一种常用的法,通过样本数据来估计来估计参数,而区间估计参数估计方法,通过最小总体参数的数值则是用一个置信区间来估化误差的平方和来估计参计参数的取值范围数置信区间与误差率置信区间的概念置信水平的确定置信水平表示置信区间的可靠程度,通常根据实际情况和样本量来确定置信区间是一种区间估计,表示总体参数在一定置信水平下的取值范围误差率的概念误差率是指样本数据与总体参数之间的误差,用来衡量估计的准确性假设检验的原理与方法假设检验的概念假设检验的原理假设检验的方法假设检验是一种统计学方假设检验基于概率原则,假设检验的方法包括显著法,通过样本数据来检验通过计算假设成立和假设性检验、非参数检验等,一个关于总体参数的假设不成立的概率来判断假设根据不同的情况选择合适是否成立是否成立的方法进行检验PART05相关与回归分析相关分析01020304判断变量之间的关联是常用的相关系数包括皮描述两个或多个变量之确定变量之间的关联程否具有统计学上的显著尔逊相关系数、斯皮尔间的关系度性曼秩相关系数等一元线性回归分析01020304描述一个因变量和一个自变量确定因变量和自变量之间的线常用的回归模型包括简单线性估计因变量的预测值,并计算之间的关系性关系回归、岭回归、套索回归等预测值的精度多元线性回归分析描述多个自变量和一个因变量之间的确定因变量和多个自变量之间的线性关系关系估计因变量的预测值,并计算预测值常用的回归模型包括多元线性回归、的精度逐步回归、岭回归等PART06方差分析与试验设计方差分析的基本原理方差分析的概念方差分析是一种统计方法,用于比较不同组数据的均值是否存在显著差异通过比较各组的变异(方差)和实验误差的变异,可以判断不同组数据的均值是否有统计学上的显著差异方差分析的假设条件方差分析基于一定的假设条件,包括各组数据服从正态分布、各组间的方差齐性以及随机误差的独立性等这些假设条件对于保证分析结果的准确性和可靠性至关重要方差分析的基本步骤方差分析通常包括三个基本步骤,即建立假设、计算方差分析和统计推断通过比较不同组数据的方差和误差方差,可以判断各组数据的均值是否存在显著差异,从而为进一步的数据分析和解释提供依据单因素方差分析单因素方差分析的概念01单因素方差分析是指在一个分类变量(单因素)的不同水平下,比较两个或多个独立样本均值的差异这种分析方法用于判断不同水平下各样本的均值是否存在显著差异单因素方差分析的假设条件02单因素方差分析同样需要满足一定的假设条件,包括各组数据服从正态分布、各组间的方差齐性以及随机误差的独立性等这些假设条件对于保证分析结果的准确性和可靠性至关重要单因素方差分析的应用03单因素方差分析在生物学、医学、经济学和社会科学等领域广泛应用通过比较不同水平下各样本的均值差异,可以进一步了解分类变量对连续变量的影响,为科学研究和实际应用提供依据双因素方差分析双因素方差分析的概念双因素方差分析是指在一个分类变量(主效应)和一个连续变量(次效应)的交互作用下,比较两个或多个独立样本均值的差异这种分析方法用于判断不同主效应和次效应水平下各样本的均值是否存在显著差异双因素方差分析的假设条件双因素方差分析需要满足一定的假设条件,包括各组数据服从正态分布、各组间的方差齐性以及随机误差的独立性等这些假设条件对于保证分析结果的准确性和可靠性至关重要双因素方差分析的应用双因素方差分析在多个领域广泛应用,如心理学、生物学、医学和经济学等通过比较不同主效应和次效应水平下各样本的均值差异,可以进一步了解分类变量和连续变量之间的交互作用,为科学研究和实际应用提供依据PART07生存分析与生存函数生存分析的基本概念生存时间从某一特定事件开始到某一特定事生存分析件发生或观察终止所经过的时间研究生存现象和生存时间的统计学方法生存函数描述生存时间的概率分布函数,表示个体在给定时间点之前发生事件的概率生存函数的估计与检验生存函数的估计方法包括寿命表法、乘积限法、Kaplan-Meier法和Cox比例风险模型等生存函数的检验通过比较不同组别或处理下的生存函数,判断它们是否存在显著差异,常用的检验方法包括log-rank检验、Mantel-Haenszel检验和Tarone-Ware检验等Cox比例风险模型Cox比例风险模型一种半参数模型,用于分析生存数据,并估计不同因素对生存时间的影响模型假设比例风险假设,即不同因素对生存时间的影响是乘性的,且风险比不随时间变化模型应用用于探索性分析和验证性分析,帮助研究者了解疾病的自然史、预测患者预后以及比较不同治疗方案的效果等。