还剩7页未读,继续阅读
文本内容:
邛/1‘1X11X12・・・Xlp、1解释变\21x21x22・・・x2p
0、+的即
3.1—*••*••*••••y=xp+c量J xnlx〃2…xnp*xl,x
2...,平基本假定8Pxp是确定性变量,不是随机变量,且要求rankX=p+ln,表明设计矩阵X中自变量列之间不相关,样本量的个数应大于解释变量的个数2随机误差项具有零均值和等方差,即高斯马尔柯夫条件2』cov,=0弋丰Y=0*=1,2,-E£T3对于多元线性回归的正态分布假定条件的矩阵模型为£~N0,//〃.随即向量y~NXA,/〃
3.2当x『xT存在时,回归参数的最小二乘估计为/=乂--7丫,一A要求出回归参数夕,即要求X是一个非奇异矩阵,因“卜0,所以可逆矩阵^X为P+1阶的满秩矩阵,又根据两个矩阵乘积的秩不大于每一因子的秩rankX2p+l,而X为nxp+l阶矩阵,于是应有iup+1结论说明,要想用最小二乘法估计多元线性回归模型的未知参数,样本量n必须大于模型自变量P的个数nASSE=Z h一+e22+・・・e〃y2=2r=ln1n2A11Eo=£----------SSE=-E^er2=n-p-\n-p-\I n-p-1r=1=------r£[De7+Ee72]=!~-£右=~~7t1-/n-p-1n-p-\n-p-\r=1r=1T=x〃〃11=--------------------=-X H-p+lXCT2=CT2n-p-1n-p-1r=1r=1注〃//=Z=〃+1r=l
3.4不能断定这个方程一定很理想,因为样本决定系数与回归方程中自变量的数目以及样本量n有父,当样本量个数n太小,而自变量又较多,使样本量与自变量的个数接近时,储易接近1,其中隐藏一些虚假成分
3.5当接受H时,认定在给定的显著性水平a下,自变量xl,x2,…xp对因变量y无显著影响,于是通过xl,x2,…xp去推断y也就无多大意义,在这种情况下,一方面可能这个问题本来应该用非线性模型去描述,而误用了线性模型,使得自变量对因变量无显著影响;另一方面可能是在考虑自变量时,把影响因变量y的自变量漏掉了,可以重新考虑建模问题当拒绝H时,我们也不能过于相信这个检验,认为这个回归模型已经完美了,当拒绝H时,我们只能认为这个模型在一定程度上说明了自变量xl,x2,…xp与自变量y的线性关系,这时仍不能排除排除我们漏掉了一些重要的自变量
3.6中心化经验回归方程的常数项为0,回归方程只包含p个参数估计值几加…3比一般的经验回归方程减少了一个未知参数,在变量较多时,减少一个未知参数,计算的工作量会减少许多,对手工计算尤为重要在用多元线性回归方程描述某种经济现象时,由于自变量所用的单位大都不同,数据的大小差异也往往很大,这就不利于在同一标准上进行比较,为了消除量纲不同和数量级的差异带来的影响,就需要将样本数据标准化处理,然后用最小二乘法估计未知参数,求得标准化回归系数
3.7上.A A A AA对yr=/3()+pi Xri/3p Xrp进仃中心化理得y-y-/3/3\XT\+H1-T1尸X2)+,,,+13P1Xrp-京)再将等式除以因变量的样(Xrl-Xi)+2(X72—AA*yr-y0i/(Xr2—X2)F(X77-H--1Xp)y r=—/=~.(Xri-Xl)+=7Lyy7Lyyq Lyy本标准差石则有A--------------------------------------------------A--------------------------------------------------------------------/3p LppXp)_/3\\L\\02」L22J(%卬一(Xrl-Xl)(Xr2-X2)c**c**c**P+pi+,,,+/Jp1XT\XT2所以pjy[Ljj.[gA『L方=3=12…〃A/,),),
3.8(4为相关阵
(9)第i行,第j列的代数余子式)〜厂21_(一1严厂一23Al2厂21—r23r31,—_________________丫一11ri312;3_/AA=x(—l产23rail「321F=J△SSRj
11、ASSRj ASSEjASSEjSSEj―=〃_p_1X=〃_P_1X=〃_P_1X XSSE SSESSESSEj SSE厂2SSE(j)1二〃-p—1x=n-/-lx^.x-~~=-nSSEj SSEj—ASSEj一后11—4〃一〃一1力小于1,F/与小一一对应,所以F,与小等价
3.10SSR〃一〃一1xF=p SSE=F+n-p-1/p SSRx〃p]n-p-\p SSEp+n-p-\^SSR SSRpSSE__SSR、SSE_SSR_2n-p-\SSR-SSR+SSE~~SSE*1ST~~SST~{1SESSE证得2=£―-RF+n-p-1p
3.11i相关性y xlx2x3y Pearson相关性
1.
556.731*.724,显著性(双侧).
095.
016.018N10101010xl Pearson相关性.
5561.
113.398显著性(双侧).
095.
756.254N10101010x2Pearson相关性.731*,
1131.547显著性(双侧).016,
756.101N
10101010.724x3Pearson相关性.
398.5471”显著性(双侧).
018.
254.101N10101010*.在
0.05水平(双侧)上显著相关
1.0000-
55607310.724\
0.
5561.
0000.
1130.398所以产=
07310.
1131.
0000.
54707240.
3980.
5471.000/23456模型汇总模型R R方调整R方标准估计的误差
1.898a.
806.
70823.44188a.预测变量(常量),x3,xl,x2b模型平方和df均方F Sig.Anova1回归
13655.
37034551.
7908.
283.015a
3297.
1306549.522总计
16952.5009a.预测变量(常量),x3,xl,x2°b.因变量y系数,非标准化系数标准系数模型B标准误差试用版t Sig.1(常量)-
348.
280176.459-
1.
974.096xl
3.
7541.
933.
3851.
942.100x
27.
1012.
880.
5352.
465.049x312,
44710.
569.
2771.
178.284a.因变量y回归方程为1y=-
348.280+
3.754x1+
7.101x2+
12.447x3复相关系数决定系数为拟合度较高2R=
0.898,
0.806,方差分析表,值表明回归方程高度显著,说明整体上对有高度3F=
8.283,P=
0.015Vo.05,xl,x2,x3,y显著的线性影响回归系数的显著性检验工业总产值的值4xl P=
0.100农业总产值的值X2P=
0.049居民非产品支出的值X3P=
0.284在的显著性水平上,未通过检验,应将其剔除掉
0.1x3输入/移去的变量模型输入的变量移去的变量方法1x2,xla•输入a.已输入所有请求的变量b.因变量y模型汇总模型R R方调整R方标准估计的误差
1.872a.
761.
69224.08112a.预测变量(常量),x2,xlb模型平方和df FSig.Anova1回归
12893.
19926446.
60011.
117.00T酸
4059.
3017579.900总计
16952.5009a.预测变量(常量),x2,xl°b.因变量y系数㊀非标准化系数标准系数模型B标准误差试用版t Sig.1(常量)-
459.
624153.058-
3.
003.020xl
4.
6761.816,
4792.
575.037x
28.
9712.
468.
6763.
634.008a.因变量y回归方程为y=-
459.624+
4.676x1+
8.971x21复相关系数决定系数为由决定系数看回归方程接近高度相关2R=
0.872,
0.761,方差分析表,值表明回归方程高度显著说明整体上对有高度显著的线性3F=ll.117,P=
0.007,xl,x2,y影响回归系数的显著性检验工业总产值的值4xl P=
0.037农业总产值的值X2P=
0.008在0・05的显著性水平上,自变量xl,x2对y均有显著影响7系数a非标准化系数标准系数B的
95.0%置信区间模型B标准误差试用版t Sig.下限上限1常量-
459.
624153.058-
3.
003.020-
821.547-
97.700xl
4.
6761.
816.
4792.
575.
037.
3818.970x
28.
9712.
468.
6763.
634.
0083.
13414.808a.因变量y标准化回归方程y=
0.479xl+
0.676x2
(8)把x01=75,x02=42带入y=-
459.624+
4.676xl+
8.971x2y=
267.86
(9)y置信水平95%的区间估计为
211.09492,
324.57506y置信水平95%的近似区间估计为
219.6978,
316.0222由于X3的归系数显著性检验未通过,所以居民非商品支出1IE y置信水平95%的区间估计为
245.00541,
290.66457对货运总量影响不大,但是回归方程整体对数据拟合较好
3.12输入/移去的变量b模型输入的变量移去的变量方法1x2,xla•输入a.已输入所有请求的变量b.因变量y模型汇总模型R R方调整R方标准估计的误差
11.000a,
999.
9991189.51547a.预测变量(常量),x2,xlb模型平方和df FSig.Anova91回归
1.809E
102.046E
96393.
516.000a残差
16979364.
566121414947.047总计
1.811E1014a.预测变量(常量),x2,xl°b.因变量y系数a非标准化系数标准系数共线性统计量模型B标准误差试用版t Sig.容差VIF1(常量)
2914.
6461337.
4662.179,050xl.
607.
299.
0812.
034.
065.
05020.196x
21.
709.074,92123,175,
000.
05020.196a.因变量y的值都大于所以变量之间存在多重共线性共线性诊断,VIF10,方差比例模型维数特征值条件索引(常量)X1x
2112.
8711.000,
01.
00.
002.
1254.
795.
26.
00.033,
00427.651,
731.
00.97a.因变量y表中第三行xO(常数项),xl,x2的系数分别为
0.73,
1.00,
0.97,说明x0(常数项),xl,x2之间存在多重共线性回归方程为y=
2914.646+
0.607x1+
1.709x2,第一产业的增加值xl的P值=
0.065第二产业的增加值x2的P值=
0.000在
0.05的显著性水平上xl对y无显著影响。