还剩8页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
第三章两样本问题本章主要介绍两个样本的比较问题在第二章的基础上,我们继续学习稍复杂些的非参数统计方法本章内容对应于课本上的第五章,另外补充介绍关于非参数统计中最重要的统计量一统计量的定义和性质U本章主要内容中位数检验法
1.Brown—Mood秩和检验法
2.Wi Icoxon统计量检验法
3.Mann-Whitney U统计量
4.U两样本尺度参数秩检验
5.具体介绍本章主要内容分五个部分第一部分主要是关于两样本中位数的检验问题,主要是将两组样本合成一个合样本,比较两组样本与合样本的中位数的大小进行检验,该检验方法对两个总体的分布仅要求连续且相互独立,但该方法构造检验统计量时没有利用到秩第二部分内容是秩和检验,它在理论上要求两个总体的分布函数具有相同Wi Icoxon的形式,但不一定是对称分布在该前提下,可将检验两总体中位数是否相等的问题转化为检验两个总体是否同分布!其检验统计量的构造是建立在秩的基础上,所以其统计量的分布与秩的分布相关但在这节需注意备择假设的提法!第三部分是统计量检验,它和秩和检验本质上是一种检Mann-Whitney UWi Icoxon验方法它们检验的假设检验问题相同,检验统计量仅相差一个常数但该方法强调的是运用了非参数统计中重要的一个统计量一统计量这也是在第四部分着重介绍的一个统U计量在第四部分,将详细地学习统计量的定义和性质U最后一个部分是关于两样本尺度参数的检验问题这个问题是和前面所学的两样本位置参数的检验问题相对应的在本节将给出尺度参数的概念和相关的假设检验第一Brown—Mood中位数检验先看在第一章中提到过的例子例哪一个企业职工的工资高?(单位千元)
3.1这里有名职工,其中的名职工来自企业另外的名职工来自企业他22121,102们的工资如下企业1:111213141516171819204060企业23456789103050中位数法具体的求解过程Mood这两个企业职工的工资没有差异oH.:企业职工的工资比企业职工的工资高12将这个两个企业一共名职工合在一起,把它们的工资由小到大排列:Stepl:22量的性质:性质在原假设为真时,服从对称分布,对称中心为它的概率分布和累积概率
1.mn/2,分别为,〃〃〃P%y=d=%++1/
2、N%几〃«+〃〃+P Ld=Z1/id其中d=0,1,・・・,加〃o性质
2.在原假设为真时,EW=EW-nn+l/2=f7m/2,XY YVarW=VarW=nmN+1/
12.XY Y若〃且加k是一常数,则具有渐近正态性.min{/n,}foo,N fZ£0,1,W-mn/2Y个mnN+1/12有结的情况,类似于秩检验的平均秩法,将检验统计量的修改为MannTVhi tneyII%=#{%匕;七匕,i=・m;j=〃
12.,1,2,…,+彳#{%匕;七=匕,,=1,2,…〃,・/=12…川.可以证明在有结的情况下仍有,=叫-〃〃+其中按平均秩法计算1/2,Wy第四节统计量见手写版讲义U3456789101112131415161718192030405060带有下新线底数蓑示企业的职工的工资,不带下划线的数表示企业的职工的工21资显然,企业职工的工资倾向于排在后面,企业职工的工资倾向于排在前面12求合样本的中位数为千元作出如下的四格表:Step
213.5工资〈千元工资千元
13.
513.5合计企业1Nn=3N=9N=1212l+企业2N=8N22-2N=10212+合计N=11N=11N=22+1+2其中即和心分别是企业的名职工中,工资低于和高于合样本中位数千元
11213.5的职工人数;距和电分别是企业的名职工中,工资低于和高于合样本中位数
21013.5千元的职工人数四格表中的电和电视为随机变量但是由上表可知,只要确定了个变量Step3:N N,11O12的值,其余个变量的值也就随之给定了通常选定即视为变量显然,在即比较小的时3候拒绝原假设,从而企业职工的工资比企业职工的工资高12即服从超几何分布Step4它的分布律记为(,)(),口,其中P NuN4,N+”N=P N“,12,11,22,N”=1,2,…N N11丫11iy+\八+
2、、N\\,N\2,PN\\,N\+N1,N、N\\/N[
2、22N计算值,得到〃=取水平即拒绝原假设,认为企业职工的Step5:p
0.014987a=Q02,1工资比企业职工的工资高2中位数检验问题的一般提法Brown—Mood记两个独立连续型随机变量总体和的样本分别为历,…和X y y,我们的问题归结为检验它们总体的中位数的差是否等于或等于某个常数换言之,0,假设检验:、H me-me-:me-nie w%Joy x y():、、丫一或H mex—me=d()H me med()y、或me-me=d°:ine-me痣H:ox x y特别地,在二时,三种检验分别对应于d
0、,H:me-me H,:mew me}Y vY人y yuiA或:me=ve H.:memeY vY Y、、.、.或H:me-nie Hme me}Y v人人u y i v列表将两组样本合在一起,记合样本的样本中位数为然后构造列联表2X2合计me mexyxy样本X NnNN121+样本YN21N22N2+合计N N+1N+2其中心和此分另是的样本中,小于和大于合样本中中位数〃把的观察值个数,电和电2U X分别是的样本中,小于和大于合样本中中位数勿肥的观察值个数显然,y+、、+=在合样本容量〃为偶数时,N=n+m N=N+2=N12,N m,N=n;92+、而在九十根为奇数时,N=n+m—l N=N2=N12,在合样本中位数j属于9的样本时,—N+=n;而在合样本中位数根属于丫的样本时,X、+N=m,N,+=n—1o检验统计量及值p通常取为检验统计量服从超几何分布,概率分布为Nu NuPNM,N当H.:meme时,在比较小的时候拒绝原假设N“1A z11〃值二£Pk,N2N+\,N心N”、、当H:meme时,在比较大的时候拒绝原假设1x小也”小值=2—P、当H1:勿(w me时,在比较大或比较小的时候拒绝原假设,严格计算较TV为复杂,可参见课本王静龙教材一般可简化为如下P58,KN1】统计量的大样本渐近形式超几何分布的均值和方差分别为N\+N N7N+2(=.,2+E NGNvarA=N N N-\、,值=£P(k,N\+N N),夕伏川隔川)}p2min{22即,U=%/二0可以证明的渐近分布为()/的渐近分布为%(])U NO,1,2第二节Wi Icoxon秩和检验法先用该方法求解例如下
3.1,例哪一个企业职工的工资高?(单位千元)
3.1这里有名职工,其中的名职工来自企业另外的名职工来自22121,10企业他们的工资如下2企业1:111213141516171819204060企业23456789103050o具体的求解过程“°这两个企业职工的工资没有差异H,:企业职工的工资比企业职工的工资高12将这个两个企业一共名职工合在一起,把它们的工资由小到大排列Stepl:22345678910带有下点线的数蓑示企业的职工的工资,不11121314151617181920304050602带下划线的数表示企业的职工的工资求出它们的秩如下1工资3456789101112131415161718192030405060秩12345678910111213141516171819202122计算企业职工工资的秩和,即Step2:2叱=1+2+3+4+5+6+7+8+19+21=66显然,在也比较小的时候认为企业职工的工资比企业职工的工资高Step3:12查秩和检验临界值表,在加=〃时,有(暝)而Wi Icoxon12,=10P W76=
0.05,6676,所以拒绝原假设,认为企业职工的工资比企业职工的工资高12秩和检验问题一般提法:Wi Icoxon记两个独立的连续型随机变量总体和的样本分别为和x y不妨假设合样本的各个值之间互不相等记合样本容量为〃原假设N=m+原假设为H.:me=JTie在理论上,假设两个总体和丫的分布函数具有相同的Xx xo形式,但不一定是对称分布即假设X Fx-fne,Y Fy-trie〜〜x y从而,原假设:me=/蜂、,等价于和审]分布4:Xx检验统计量,几将两组样本混合,求出每个样本在合样本中的秩记样本匕,j=1,2,…在合样本中的秩为Rj,则Rj=l,2,…,N令叫表示总体的样本的秩之和即y y,…,K同样定义必为样本币…,不〃的秩之和,我们称叫或为秩和检验X WxWilcoxon统计量下面主要讨论原假设下,的性质Wy性质在名为真时,叫服从离散型分布,依次取值
1.nn+1/2,nn+1/2+1,…,各个值,其中最大值与最小值分别为・・・和nn+1/2+mn nn+1/2=1+2+3++n,nn+1/2+mn=m+1+m+2+…+m+n.、N叫,Vd=»iid性质在“°为真时,的概率分布和累积概率分别为
2.Wy其中却,〃3表示从,这个数中任取个数,其和恰为的取法总数1,2,…NNn d性质在名为真时,叫服从对称分布,对称中心为
3.nN+1/2性质在名为真时,石叫=〃VarW=nmN+1/
12.
4.N+l/2,Y性质“为真时,若且左是一个常数,则叫具有渐近正态性,即
5.—oo,m/N f%£0,1,—N+l/2-OD以上性质的证明参见课本秩和检验的备择假设Wi Icoxon该检验问题的原假设为H和洞分布,其备择假设该如何写?在单边假设检验中,:X备择假设的描述就涉及随机变量的大小关系问题定性描述若比大,则倾向于取值比大,将的样本和的样本合在一起并x yx yx y由小到大排列,则的样本倾向于排在后面x定量描述备择假设因两个随机变量的大小关系有四种定量描述法而有以下四种不同的表述方法一定义当〉〉时,称1px yi/2xy于是,可以给出该检验问题备择假设的第一种表述方法单边备择假设或;px yi/2,px y1/2双边备择假设〉px ywi/2下面的定理给出了〉成立的一个充分条件设总体的分布函数和密度函数px yi/2x分别记为方和了©,总体的分布函数和密度函数分别记为和gyy Gyo定理.如果总体和相互独立,其分布函数满足条件对任意的实数都有1x yc,FcGc,则证明见课本PXYl/2注由该定理可知,分布函数值小的随机变量倾向于取较大的值可以这样理解PXx=}-对于同一个常数Fx,Pyy=l—Gy,c,若则说明倾向于取较大的值并称尸划为的生存函数于是就有PXcPYc,X1-X了第种备择假设的表述方法2二单边备择假设对任意的8,8,都有尸cvGc;或对任意的都有c£-co,oo,FcGc;双边备择假设对任意的£一有或c00,8,FcGc FcGc;三定义当且时,称比丫大2:X+ay,0X当且〉时,称比小x+iy,o x y称为位置参数,可看成与在位置上的差异”“x y定理成立的充分必要条件为对任意的都有=尸-°证明见课本
2.X+ay C,6则由该定理,可知定义可等价地表示成2当对任意的都有尸,且〃时,比大;C Gc=c—0X y当对任意的都有且〃时,比小;C Gc=/c—a,0X y所以有第种备择假设的描述方法3假设对任意的,都有即与丫均有相同形状的分布函数,只是位置参Gc=bc-a,X数不同,则单边备择假设a0;或〃0双边备择假设awOo这三种定量描述方法的关系当且时,当对任意的都有X+ay,Q0Gc=nC—a,等价于称比大且〃时,称比大x y0x y可推导出对任意的都有尸时,称比大£-00,00,cGc Xy可推导出当〉〉时,px yi/2#x yo可见第种描述方法条件最苛刻,表述得也最严格3四软件中,类似于中位数检验法,给出如下的备择假设Minitab Mood假设两个总体X与F的分布函数具有相同形式,但不一定是对称分布,即设X〜Fx-me,Y Fy-ive,原假设ive=me备择假设为〜H:xyxy丫;或丫欣单边备择假设mememe、,、、双边备择假设me wme0y4定理若对任意的则记〉加幺,;
3.1c,FcGc,若对任意的a,贝〃箔=+,当阳外,加、.唯一2c,Gc=Fc-I ev存在时(证明见课本)注第种表述方法可以推导出第种表述方法,第种表述方法还可以推导出212第种表述方法,第种表述方法可以推导出第种表述方法,所以第种表述4323方法在这种表述方法中最为严格第种和第种表述方法在这种方法中最不严格,4144但也最容易满足第三节Mann-Whitney U统计量检验除了秩方法外,统计量检验方法也是非常重要的非参数统计检验方法年,u1947H.和提出了该方法,用于比较两个样本的大小B.Mann D.R.Whitney就检验方法而言,秩和检验和统计量检验没有实质上的Wi IcoxonMann—Whitney U差别因为两种检验统计量是等价的例哪一个企业职工的工资高?(单位千元)
3.1这里有名职工,其中的名职工来自企业另外的名职工来自企业他22121,102们的工资如下企业1:111213141516171819204060企业23456789103050具体的求解过程〃这两个企业职工的工资没有差异oH:企业职工的工资比企业职工的工资高121将企业和企业职工的工资都分别由小到大排列:Stepl:12企业1111213141516171819204060企业23456789103050为方便叙述,将企业职工的工资记为办,…其中根=企业职工的112;2工资记为,,其中〃=X10对于企业的每一名职工,计算在企业中有多少职工的工资比他高即,对每一Step2:12个―,加,计算1,2,…=#{为=…,小4然后计算这些的和q=2x10+1=21事实上,W=#{(七,事:七y,i=m;j=1,2,…,1,2,…XY显然,在%丫比较小的时候认为企业职工的工资比企业职工的工资Step3:12统计量检验问题一^殳提法Mann—Whitney U记两个独立的连续型随机变量总体与丫的样本分别为药,…和x如…不妨假设合样本的各个值之间互不相等记合样本容量为m+n=N o记叫丫为1%所有的x的样本和的样本做比较之后,的样本大于的样本的个yyx数,即=#{(七,)七,・,n]Wxy V:yi=1,2,..3”;/=1,2,…则称为统计量Mann-Whitney U同样,我们记卬「为所有的的样本和的样本做比较之后,的样本小于xyy的样本的个数,即x%=#{x,y:xn}y,i=12…,=1,2,...,i ii显然,%丫+以=研我们选用唯丫作为检验统计量为什么称为统计量?U人令、6%―x0,其他,则%丫可以表示为将这个(毛,匕.)求平均,则有mnmn mn称U(%,・・・,XQ1,・・・,%)为以(玉,x)为核的两样本%,・・・,/和y,♦・・,y〃的U统计量在的定义中,这些(七,匕.)在求平均时,它们有相等的权重,正因为它们是均U等()的,所以把这种类型的统计量统称为统计量除了两个样本的统计量,Uniform UU还有单个和多个样本等的统计量U与检验统计量的关系Wi Icoxon定理统计量和秩和统计量仅相差一^个常数
4.Mann-Whitney UWi Icoxon)一篦+(证明见课本)5+1/2,%=Wx D/2注由此定理知,这两个检验统计量没有本质的区别,这两种方法也是等价的!由Wi Icoxon秩和统计量的性质和上述的定理,可得至统计I Mann-Whitney U。