《应用回归分析》部分课后习题答案
第一章 回归分析概述
1.1 变量间统计关系和函数关系的区别是什么? 答:变量间的统计关系是指变量间具有密切关联而又不能由某一个或某一些变量唯一确定另外一个变量的关系,而变量间的函数关系是指由一个变量唯一确定另外一个变量的确定关系。
1.2 回归分析与相关分析的联系与区别是什么?
答:联系有回归分析和相关分析都是研究变量间关系的统计学课题。区别有a.在回归分析中,变量y称为因变量,处在被解释的特殊地位。在相关分析中,变量x和变量y处于平等的地位,即研究变量y与变量x的密切程度与研究变量x与变量y的密切程度是一回事。b.相关分析中所涉及的变量y与变量x全是随机变量。而在回归分析中,因变量y是随机变量,自变量x可以是随机变量也可以是非随机的确定变量。C.相关分析的研究主要是为了刻画两类变量间线性相关的密切程度。而回归分析不仅可以揭示变量x对变量y的影响大小,还可以由回归方程进行预测和控制。
1.3 回归模型中随机误差项ε的意义是什么?
答:ε为随机误差项,正是由于随机误差项的引入,才将变量间的关系描述为一个随机方程,使得我们可以借助随机数学方法研究y与x1,x2…..xp的关系,由于客观经济现象是错综复杂的,一种经济现象很难用有限个因素来准确说明,随机误差项可以概括表示由于人们的认识以及其他客观原因的局限而没有考虑的种种偶然因素。
1.4 线性回归模型的基本假设是什么?
答:线性回归模型的基本假设有:1.解释变量x1.x2….xp是非随机的,观测值
xi1.xi2…..xip是常数。2.等方差及不相关的假定条件为{E(εi)=0 i=1,2…. Cov(εi,εj)={σ^2
3.正态分布的假定条件为相互独立。4.样本容量的个数要多于解释变量的个数,即n>p.
1.5 回归变量的设置理论根据是什么?在回归变量设置时应注意哪些问题? 答:理论判断某个变量应该作为解释变量,即便是不显著的,如果理论上无法判断那么可以采用统计方法来判断,解释变量和被解释变量存在统计关系。应注意的问题有:在选择变量时要注意与一些专门领域的专家合作,不要认为一个回归模型所涉及的变量越多越好,回归变量的确定工作并不能一次完成,需要反复试算,最终找出最合适的一些变量。
学习指导参考资料
完美WORD格式编辑
1.6 收集,整理数据包括哪些内容?
答;常用的样本数据分为时间序列数据和横截面数据,因而数据收集的方法主要有按时间顺序统计数据和在同一时间截面上统计数据,在数据的收集中,样本容量的多少一般要与设置的解释变量数目相配套。而数据的整理不仅要把一些变量数据进行折算差分甚至把数据对数化,标准化等有时还需注意剔除个别特别大或特别小的“野值”。
1.7 构造回归理论模型的基本依据是什么? 答:选择模型的数学形式的主要依据是经济行为理论,根据变量的样本数据作出解释变量与被解释变量之间关系的散点图,并将由散点图显示的变量间的函数关系作为理论模型的数学形式。对同一问题我们可以采用不同的形式进行计算机模拟,对不同的模拟结果,选择较好的一个作为理论模型。
1.8 为什么要对回归模型进行检验? 答:我们建立回归模型的目的是为了应用它来研究经济问题,但如果马上就用这个模型去预测,控制,分析,显然是不够慎重的,所以我们必须通过检验才能确定这个模型是否真正揭示了被解释变量和解释变量之间的关系。
1.9 回归模型有那几个方面的应用?
答:回归模型的应用方面主要有:经济变量的因素分析和进行经济预测。
1.10 为什么强调运用回归分析研究经济问题要定性分析和定量分析相结合? 答:在回归模型的运用中,我们还强调定性分析和定量分析相结合。这是因为数理统计方法只是从事物外在的数量表面上去研究问题,不涉及事物质的规定性,单纯的表面上的数量关系是否反映事物的本质?这本质究竟如何?必须依靠专门的学科研究才能下定论,所以,在经济问题的研究中,我们不能仅凭样本数据估计的结果就不加分析地说长道短,必须把参数估计的结果和具体经济问题以及现实情况紧密结合,这样才能保证回归模型在经济问题研究中的正确应用。
学习指导参考资料
完美WORD格式编辑
第二章 一元线性回归
2.14 解答:(1)散点图为:
(2)x与y之间大致呈线性关系。 (3)设回归方程为y01x
1=
xynxyiinxi1i1n2in(x)27
0y1x20731
可得回归方程为y17x
1n(4)(yiyi) n-2i=11n (yi(01x))
n-2i=122210-(-1+71))(10-(-1+72))(20-(-1+73))1( = 223(20-(-1+74))(40-(-1+75))222116904936
3110/3 学习指导参考资料
完美WORD格式编辑
13306.1 3(5)由于1N(1,2Lxx)
t11/Lxx2(1)Lxx
服从自由度为n-2的t分布。因而
()LxxP|1|t/2(n2)1 也即:p(1t/2Lxx11t/2Lxx)=1
11 33,7+2.35333)33可得1的置信度为95%的置信区间为(7-2.353即为:(2.49,11.5)
01(x)22N(0,())
nLxxt001(x)22()nLxx001(x)2nLxx
服从自由度为n-2的t分布。因而
00P||t/2(n2)1
1(x)2nLxx即p(01(x)t/200nLxx21(x)2t/2)1 nLxx可得1的置信度为95%的置信区间为(7.77,5.77)
(6)x与y的决定系数r2(yy)ii1nii1n2490/6000.817
2(yy) 学习指导参考资料
完美WORD格式编辑
(7)
ANOVA x 组间 (组合) 线性项 加权的 偏差 组内 总数 平方和 9.000 8.167 .833 1.000 10.000 df 2 1 1 2 4 均方 4.500 8.167 .833 .500 F 9.000 16.333 1.667 显著性 .100 .056 .326 由于FF(1,3),拒绝H0,说明回归方程显著,x与y有显著的线性关系。
(8)t1/Lxx21Lxx1n21n 其中(yiyi) ein2n2i1i122 710213.66
1333303t/22.353 t3.66t/2
接受原假设H0:10,认为1显著不为0,因变量y对自变量x的一元线性回归成立。
(9)相关系数 r(xx)(yy)iii1n(xx)(yy)2iii1i1nnLxyLxxLyy
=7070.904
1060060r小于表中1%的相应值同时大于表中5%的相应值,x与y有显著的线性关系.
(10) 序号 1 2 3 4 5 残差图为:
学习指导参考资料
x 1 2 3 4 5 y 10 10 20 20 40 y e 4 -3 0 -7 6 6 13 20 27 34 完美WORD格式编辑
从图上看,残差是围绕e=0随机波动,从而模型的基本假定是满足的。
置信度为95%的置信区间 (11)当广告费x0=4.2万元时,销售收入y028.4万元,近似为y2,即(17.1,39.7)
2.15 解答:
(1) 散点图为:
(2)x
学习指导参考资料
完美WORD格式编辑
与y之间大致呈线性关系。 (3)设回归方程为y01x
1=
xynxyiinxi1i1n2in(x)2(2637021717)0.0036
(71043005806440)0y1x2.850.00367620.1068
可得回归方程为y0.10680.0036x
1n(4) (yiyi) n-2i=11n (yi(01x))
n-2i=1222=0.2305
0.4801
(5) 由于1N(1,2Lxx)
t11/Lxx2(1)Lxx
服从自由度为n-2的t分布。因而
()L1xxP||t/2(n2)1 也即:p(1t/2Lxx11t/2Lxx)=1
可得1的置信度为95%的置信区间为
(0.0036-1.8600.4801/1297860,0.0036+1.8600.4801/1297860)
即为:(0.0028,0.0044)
01(x)22N(0,())
nLxx 学习指导参考资料
完美WORD格式编辑
t001(x)22()nLxx001(x)2nLxx
服从自由度为n-2的t分布。因而
00P||t/2(n2)1
1(x)2nLxx即p(01(x)t/200nLxx21(x)2t/2)1 nLxx可得1的置信度为95%的置信区间为(0.3567,0.5703)
(6)x与y的决定系数 r2(yy)ii1nii1n22(yy)(7)
16.82027=0.908
18.525ANOVA x 组间 (组合) 线性项 加权的 偏差 组内 总数 平方和 1231497.500 1168713.036 62784.464 66362.500 1297860.000 df 7 1 6 2 9 均方 175928.214 1168713.036 10464.077 33181.250 F 5.302 35.222 .315 显著性 .168 .027 .885 由于FF(1,9),拒绝H0,说明回归方程显著,x与y有显著的线性关系。
(8) t1/Lxx21Lxx1n21n 其中ei(yiyi) n2i1n2i122 0.003612978608.542
0.04801t/21.895 t8.542t/2
学习指导参考资料
完美WORD格式编辑
接受原假设H0:10,认为1显著不为0,因变量y对自变量x的一元线性回归成立。
(9) 相关系数 r(xx)(yy)iii1n(xix)2(yiy)i1i1nnLxyLxxLyy
=46530.9489
129786018.525r小于表中1%的相应值同时大于表中5%的相应值,x与y有显著的线性关系. (10) y x e 序号 y 1 2 3 4 5 6 7 8 9 10 825 215 1070 550 480 920 1350 325 670 1215 3.5 1 4 2 1 3 4.5 1.5 3 5 3.0768 0.8808 3.9588 2.0868 1.8348 3.4188 4.9688 1.2768 2.5188 4.4808 0.4232 0.1192 0.0412 -0.0868 -0.8348 -0.4188 -0.4668 0.2232 0.4812 0.5192
从图上看,残差是围绕e=0随机波动,从而模型的基本假定是满足的。
(11)新保单x01000时,需要加班的时间为y03.7小时。
(12)y0的置信概率为1-的置信区间精确为y0t/2(n2)1h00, 即为(2.7,4.7)
近似置信区间为:y02,即(2.74,4.66)
学习指导参考资料
完美WORD格式编辑
(13)可得置信水平为1-的置信区间为y0t/2(n2)h00,即为(3.33,4.07). 2.16 (1)散点图为:
可以用直线回归描述y与x之间的关系. (2)回归方程为:y12112.6293.314x (3)
学习指导参考资料
完美WORD格式编辑
从图上可看出,检验误差项服从正态分布。
学习指导参考资料
完美WORD格式编辑
第三章 多元线性回归
3.11 解:(1)用SPSS算出y,x1,x2,x3相关系数矩阵: 相关性 Pearson 相关性 y x1 x2 x3 y x1 x2 x3 N y x1 x2 x3 y 1.000 .556 .731 .724 . .048 .008 .009 10 10 10 10 x1 .556 1.000 .113 .398 .048 . .378 .127 10 10 10 10 x2 .731 .113 1.000 .547 .008 .378 . .051 10 10 10 10 x3 .724 .398 .547 1.000 .009 .127 .051 . 10 10 10 10 所以~r=
系数 模型 非标准化系数 B 1 (常量) 标准系数 t Sig. -1.974 B 的 95.0% 置信区间 下限 上限 零阶 相关性 偏 部分 共线性统计量 容差 VIF a标准 误差 试用版 176.459 -348.280 .096 -780.083.500 60 .556 .731 .724 .825 .687 .586 1.211 1.455 1.708 x1 x2 x3 3.754 7.101 12.447 1.933 2.880 10.569 .385 1.942 .535 2.465 .277 1.178 .100 .049 -.977 8.485 .053 14.149 .621 .350 .709 .444 .433 .212 .284 -13.4138.310 5 a. 因变量: y
(2)
ˆ348.283.754x17.101x212.447x3 所以三元线性回归方程为y
模型汇总
学习指导参考资料
完美WORD格式编辑
模型 R 1 .898 a标准 估计的R 方 .806 调整 R 方 .708 误差 23.44188 R 方更改 .806 F 更改 8.283 更改统计量 df1 3 df2 6 Sig. F 更改 .015 a. 预测变量: (常量), x3, x1, x2。 (3) 由于决定系数R方=0.708 R=0.898较大所以认为拟合度较高 (4) Anova 模型 1 回归 残差 总计 平方和 13655.370 3297.130 16952.500 df 3 6 9 均方 4551.790 549.522 F 8.283 Sig. .015 ab a. 预测变量: (常量), x3, x1, x2。 b. 因变量: y
因为F=8.283 P=0.015<0.05所以认为回归方程在整体上拟合的好
(5)
系数 模型 非标准化系数 B 1 (常量) x1 x2 x3 a. 因变量: y 3.754 7.101 12.447 1.933 2.880 10.569 .385 1.942 .100 .535 2.465 .049 .277 1.178 .284 -.977 .053 -13.415 8.485 14.149 38.310 .556 .731 .724 .621 .709 .433 .350 .444 .212 .825 1.211 .687 1.455 .586 1.708 -348.280 标准 误差 176.459 标准系数 试用版 t Sig. 下限 -780.060 B 的 95.0% 置信区间 上限 83.500 零阶 相关性 偏 部分 共线性统计量 容差 VIF a-1.974 .096 (6)可以看到P值最大的是x3为0.284,所以x3的回归系数没有通过显著检验,应去除。
去除x3后作F检验,得: Anova 模型 1 回归 残差 总计 平方和 12893.199 4059.301 16952.500 df 2 7 9 均方 6446.600 579.900 F 11.117 Sig. .007 ab a. 预测变量: (常量), x2, x1。 b. 因变量: y 由表知通过F检验 学习指导参考资料
完美WORD格式编辑
继续做回归系数检验 系数 模型 非标准化系数 B 1 (常量) -459.624 x1 x2 4.676 8.971 标准系数 t Sig. B 的 95.0% 置信区间 相关性 下限 -821.547 .381 3.134 上限 -97.700 8.970 14.808 零阶 偏 部分 共线性统计量 容差 VIF a标准 误差 试用版 153.058 1.816 2.468 .479 .676 -3.003 .020 2.575 3.634 .037 .008 .556 .731 .697 .808 .476 .672 .987 1.013 .987 1.013 a. 因变量: y 此时,我们发现x1,x2的显著性大大提高。 (7)x1:(-0.997,8.485) x2:(0.053,14.149) x3:(-13.415,38.310)
ˆ*0.385x1*0.535x2*0.277x3* (8)y(9) 残差统计量 a 预测值 标准 预测值 预测值的标准误差 调整的预测值 残差 标准 残差 Student 化 残差 已删除的残差 Student 化 已删除的残差 Mahal。 距离 Cook 的距离 居中杠杆值 a. 因变量: y 极小值 175.4748 -1.438 10.466 188.3515 -25.19759 -1.075 -2.116 -97.61523 -3.832 .894 .000 .099 极大值 292.5545 1.567 20.191 318.1067 33.22549 1.417 1.754 50.88274 2.294 5.777 3.216 .642 均值 231.5000 .000 14.526 240.1835 .00000 .000 -.123 -8.68348 -.255 2.700 .486 .300 标准 偏差 38.95206 1.000 3.127 49.83914 19.14022 .816 1.188 43.43220 1.658 1.555 .976 .173 N 10 10 10 10 10 10 10 10 10 10 10 10 所以置信区间为(175.4748,292.5545) (10)由于x3的回归系数显著性检验未通过,所以居民非商品支出对货运总量影响不大,但是回归方程整体对数据拟合较好
3.12 解:在固定第二产业增加值,考虑第三产业增加值影响的情况下,第一产业每增加一个单位,GDP就增加0.607个单位。
在固定第一产业增加值,考虑第三产业增加值影响的情况下,第二产业每增加一个单位,GDP就增加1.709个单位。
第四章 违背基本假设的情况
学习指导参考资料
完美WORD格式编辑
4.8
加权变化残差图上点的散步较之前的残差图,没有明显的趋势,点的散步较随机,因此加权最小二乘估计的效果较最小二乘估计好。
4.9 解: 系数 模型 非标准化系数 B 1 (常量) x a. 因变量: y -.831 .004 标准 误差 .442 .000 标准系数 试用版 t -1.882 11.030 Sig. .065 .000 a .839 ˆ=-0.831+0.004x 由SPSS计算得:y残差散点图为:
学习指导参考资料
完美WORD格式编辑
(2)由残差散点图可知存在异方差性 再用等级相关系数分析: 相关系数 Spearman 的 rho X 相关系数 Sig.(双侧) N T 相关系数 Sig.(双侧) N x 1.000 . 53 .318 .021 53 *t .318 .021 53 1.000 . 53 **. 在置信度(双测)为 0.05 时,相关性是显著的。 P=0.021 所以方差与自变量的相关性是显著的。 (3)
模型描述
因变量 自变量 权重
1 源 幂值
模型: MOD_1.
y x x
1.500 M=1.5时可以建立最优权函数,此时得到:
学习指导参考资料
完美WORD格式编辑
ANOVA 回归 残差 总计 平方和 .006 .003 .009 df 1 51 52 均方 .006 .000 F 98.604 Sig. .000 系数 未标准化系数 B (常数) x -.683 .004 标准误 .298 .000 标准化系数 试用版 标准误 t -2.296 .082 9.930 Sig. .026 .000 .812 ˆ-0.683+0.004x 所以:y(4) 系数 模型 非标准化系数 B 1 (常量) x a. 因变量: yy .582 .001 标准 误差 .130 .000 标准系数 试用版 t 4.481 9.699 Sig. .000 .000 a .805
4.10 经济变量的滞后性会给序列带来自相关性。如前期消费额对后期消费额一般会有明显的影响,有时,经济变量的这种滞后性表现出一种不规则的循环运动,
学习指导参考资料
完美WORD格式编辑
当经济情况处于衰退的低谷时,经济扩张期随之开始,这时,大多数经济时间序列上升的快一些。在经济扩张时期,经济时间数列内部有一种内在的动力,受此影响,时间序列一直上升到循环的顶点,在顶点时刻,经济收缩随之开始。因此,在这样的时间序列数据中,顺序观察值之间的相关现象是恨自然的。
4.11 当一个线性回归模型的随机误差项存在序列相关时,就违背了线性回归方程的基本假设,如果仍然直接用普通最小二乘估计未知参数,将会产生严重后果,一般情况下序列相关性会带来下列问题:
(1)参数的估计值不再具有最小方差线性无偏性。 (2)均方误差MSE可能严重低估误差项的方差。
(3)容易导致对t值评价过高,常用的F检验和t检验失效。如果忽视这一点,可能导致得出回归参数统计检验为显著,但实际上并不显著的严重错误结论。
(4)当存在序列相关时,最小二乘估计量对抽样波动变得非常敏感。 (5)如果不加处理地运用普通最小二乘法估计模型参数,用此模型进行预测和进行结构分析将会带来较大的方差甚至错误的解释。
4.12 优点:DW检验有着广泛的应用,对很多模型能简单方便的判断该模型有无序列相关性,当DW的值在2左右时,则无需查表,即可放心的认为模型不存在序列的自相关性。
缺点:DW检验有两个不能确定的区域,一旦DW值落在这两个区域,就无法判断,这时,只有增大样本容量或选取其他方法;DW统计量的上、下界表要求n>15,这是因为如果样本再小,利用残差就很难对自相关的存在性作出比较正确的判断;DW检验不适合随机项具有高阶序列相关的检验。
4.13 解: (1) 系数 模型 非标准化系数 B 1 (常量) x a. 因变量: y -1.435 .176 标准 误差 .242 .002 标准系数 试用版 t -5.930 107.928 Sig. .000 .000 a .999 ˆ=-1.435+0.176x y(2) 模型汇总 模型 R 1 .999 ab标准 估计的误R 方 .998 调整 R 方 .998 差 .09744 Durbin-Watson .663 a. 预测变量: (常量), x。 b. 因变量: y 学习指导参考资料
完美WORD格式编辑
DW=0.663 查DW分布表知:dL=0.95 所以DW
ˆ=1-0.5*DW=0.6685 计算得: (3)Y’ x’ 7.39 44.90 7.65 45.80 6.84 40.69 8.00 48.50 7.79 46.85 8.26 49.45 7.96 48.47 8.28 50.04 7.90 48.03 模型汇总 模型 R 1 .996 abY’ X’ 8.49 51.17 7.88 47.26 8.77 52.33 8.93 52.69 9.32 54.95 9.29 55.54 9.48 56.77 9.38 55.83 9.67 58.00 9.90 59.22 标准 估计的误R 方 .993 调整 R 方 .993 差 .07395 Durbin-Watson 1.344 a. 预测变量: (常量), xx。 b. 因变量: yy
学习指导参考资料
完美WORD格式编辑
系数 模型 非标准化系数 B 1 (常量) xx a. 因变量: yy -.303 .173 标准 误差 .180 .004 标准系数 试用版 t -1.684 49.011 Sig. .110 .000 a .996 ˆ'=-0.303+0.173x’ 得回归方程 yˆt=-0.303+0.6685yt1+0.173(xt—0.6685xt1) 即:y(4) 模型汇总 模型 R 1 .978 ab标准 估计的误R 方 .957 调整 R 方 .955 差 .07449 Durbin-Watson 1.480 a. 预测变量: (常量), x3。 b. 因变量: y3 系数 模型 非标准化系数 B 1 (常量) x3 a. 因变量: y3 .033 .161 标准 误差 .026 .008 标准系数 试用版 t 1.273 19.528 Sig. .220 .000 a .978 △yt=0.033+0.161△xt
ˆt=0.033+yt1+0.161(xt-xt1) 即:yˆ值最小为(5)差分法的DW值最大为1.48消除相关性最彻底,但是迭代法的0.07395,拟合的较好。
4.14解:(1) 模型汇总 模型 R 1 .541 ab标准 估计的误R 方 .293 调整 R 方 .264 差 329.69302 Durbin-Watson .745 a. 预测变量: (常量), x2, x1。 b. 因变量: y
学习指导参考资料
完美WORD格式编辑
系数 模型 非标准化系数 B 1 (常量) x1 x2 a. 因变量: y -574.062 191.098 2.045 标准 误差 349.271 73.309 .911 标准系数 试用版 t -1.644 2.607 2.246 Sig. .107 .012 .029 a .345 .297 ˆ=-574.062+191.098x1+2.045x2 回归方程为:yDW=0.745
ˆ=1-0.5*DW=0.6275 (2)模型汇总 模型 R 1 .688 ab标准 估计的误R 方 .474 调整 R 方 .452 差 257.67064 Durbin-Watson 1.716 a. 预测变量: (常量), x22, x12。 b. 因变量: y2 系数 模型 非标准化系数 B 1 (常量) x12 x22 -179.668 211.770 1.434 标准 误差 90.337 47.778 .628 标准系数 试用版 t -1.989 4.432 2.283 Sig. .052 .000 .027 a .522 .269 学习指导参考资料
完美WORD格式编辑
系数 模型 非标准化系数 B 1 (常量) x12 x22 a. 因变量: y2 -179.668 211.770 1.434 标准 误差 90.337 47.778 .628 标准系数 试用版 t -1.989 4.432 2.283 Sig. .052 .000 .027 a .522 .269 ˆt’=-179.668+211.77x1’+1.434x2’ 此时得方程:y所以回归方程为:
ˆt179.6680.6275yt1211.77(x1t0.6275x1t1?)1.434(x2t0.6275x2t1) y(3) 模型汇总 模型 R 1 .715 ab标准 估计的误R 方 .511 调整 R 方 .490 差 283.79102 Durbin-Watson 2.042 a. 预测变量: (常量), x23, x13。 b. 因变量: y3 系数 模型 非标准化系数 B 1 (常量) x13 x23 a. 因变量: y3 7.698 209.891 1.399 标准 误差 39.754 44.143 .583 标准系数 试用版 t .194 4.755 2.400 Sig. .847 .000 .020 a .544 .274 ˆt7.698209.891x11.399x2 此时得方程:△yˆt7.698209.891(xtxt1)1.399(x2tx2t1)所以回归方程为:y
4.15 异常值原因 异常值消除方法 1)数据登记误差,存在抄写或录入的错误 重新核实数据 2)数据测量误差 重新测量误差 3)数据随机误差 删除或重新观测异常值数据 4)缺少重要自变量 增加必要的自变量 5)缺少观测数据 增加观测数据,适当扩大自变
量取值范围
6)存在异方差 采用加权线性回归 7)模型选用错误,线性模型不适用 改用非线性回归模型
学习指导参考资料
完美WORD格式编辑
4.16
编号 学生化残差 删除学生化残差 杠杆值 库克距离 1 -0.89353 -0.87604 0.35418 0.16609 2 0.62767 0.59277 0.14025 0.03115 3 0.26517 0.24349 0.16079 0.00620 4 -0.00433 -0.00396 0.09935 0.00000 5 1.75400 2.29383 0.24702 0.40874 6 -2.11566 -3.83214 0.64187 3.21601 7 -1.17348 -1.22039 0.49277 0.50110 8 -1.16281 -1.20606 0.36129 0.28946 9 0.40935 0.37902 0.16366 0.01500 10 1.06462 1.07911 0.33883 0.22158
从上表中看到,绝对值最大的学生化残差为2.11566,小于3,因而根据学生化残差诊断认为数据不存在异常值。绝对值最大的删除学生化残差为3.83214,大于3,因而根据学生化残差诊断为第6个数据为异常值,是因变量的异常值。其中心化杠杆值等于0.64187 最大,库克距离等于3.21601也是最大,中心化杠杆平均值为0.3001,第6个数据杠杆值等于0.64187大于2倍的中心化杠杆值,因而从杠杆值看第6个数据是自变量的异常值,同时第6个数据的库克距离等于3.21601,大于1,这样第6个数据为异常值的原因是由自变量异常与因变量异常两个原因共同引起的。
学习指导参考资料
完美WORD格式编辑
第五章 自变量选择与逐步回归
5.9 后退法:输出结果
系数 模型 非标准化系数 B 1 (常量) 农业x1 工业x2 建筑业x3 人口x4 最终消费x5 受灾面积x6 2 (常量) 农业x1 工业x2 建筑业x3 最终消费x5 受灾面积x6 3 (常量) 农业x1 工业x2 最终消费x5 受灾面积x6 4 (常量) 农业x1 工业x2 最终消费x5 a. 因变量: 财政收入y 1438.120 -.626 -.328 -.383 -.004 .672 -.006 1079.754 -.642 -.303 -.402 .658 -.006 1083.150 -.624 -.373 .657 -.005 874.604 -.611 -.353 .637 标准 误差 2252.472 .168 .207 .555 .025 .130 .008 299.759 .130 .131 .525 .095 .007 295.816 .127 .093 .094 .007 106.869 .124 .088 .089 标准系数 试用版 t .638 -3.720 -1.587 -.691 -.161 5.178 -.695 3.602 -4.925 -2.314 -.765 6.905 -.849 3.662 -4.931 -3.998 6.981 -.758 8.184 -4.936 -3.994 7.142 Sig. .533 .002 .135 .501 .875 .000 .499 .003 .000 .035 .456 .000 .409 .002 .000 .001 .000 .460 .000 .000 .001 .000 a -1.098 -1.352 -.251 -.014 3.710 -.015 -1.126 -1.249 -.263 3.636 -.017 -1.095 -1.535 3.627 -.015 -1.073 -1.454 3.516 Anova 模型 1 回归 残差 总计 2 回归 残差 总计 3 回归 残差 平方和 1.365E8 528793.319 1.370E8 1.365E8 529767.852 1.370E8 1.364E8 550440.103 df 6 14 20 5 15 20 4 16 均方 2.274E7 37770.951 F 602.127 Sig. .000 ae 2.729E7 35317.857 772.734 .000 b 3.411E7 34402.506 991.468 .000 c 学习指导参考资料
完美WORD格式编辑
总计 4 回归 残差 总计 1.370E8 1.364E8 570180.931 1.370E8 20 3 17 20 4.547E7 33540.055 1355.753 .000 d a. 预测变量: (常量), 受灾面积x6, 建筑业x3, 人口x4, 农业x1, 最终消费x5, 工业x2。 b. 预测变量: (常量), 受灾面积x6, 建筑业x3, 农业x1, 最终消费x5, 工业x2。 c. 预测变量: (常量), 受灾面积x6, 农业x1, 最终消费x5, 工业x2。 d. 预测变量: (常量), 农业x1, 最终消费x5, 工业x2。 e. 因变量: 财政收入y 模型汇总 模型 标准 估计的误R 1 2 3 4 .998 .998 .998 .998 dcba更改统计量 Sig. F 更R 方更改 .996 .000 .000 .000 F 更改 602.127 .026 .585 .574 df1 6 1 1 1 df2 14 14 15 16 改 .000 .875 .456 .460 R 方 .996 .996 .996 .996 调整 R 方 .994 .995 .995 .995 差 194.34750 187.93046 185.47913 183.13944 a. 预测变量: (常量), 受灾面积x6, 建筑业x3, 人口x4, 农业x1, 最终消费x5, 工业x2。 b. 预测变量: (常量), 受灾面积x6, 建筑业x3, 农业x1, 最终消费x5, 工业x2。 c. 预测变量: (常量), 受灾面积x6, 农业x1, 最终消费x5, 工业x2。 d. 预测变量: (常量), 农业x1, 最终消费x5, 工业x2。 回归方程为:y874.6040.611x10.353x20.637x5
逐步回归法:输出结果
模型汇总 模型 标准 估计的误R 1 2 3 .994 .996 .998 cba更改统计量 Sig. F R 方更改 .989 .003 .004 F 更改 1659.441 7.258 15.948 df1 1 1 1 df2 19 18 17 更改 .000 .015 .001 R 方 .989 .992 .996 调整 R 方 .988 .991 .995 差 285.68373 247.77768 183.13944 a. 预测变量: (常量), 最终消费x5。 b. 预测变量: (常量), 最终消费x5, 农业x1。 c. 预测变量: (常量), 最终消费x5, 农业x1, 工业x2。 Anova 模型 1 回归 残差 总计 平方和 1.354E8 1550688.654 1.370E8 df 1 19 20 均方 1.354E8 81615.192 F 1659.441 Sig. .000 ad 学习指导参考资料
完美WORD格式编辑
2 回归 残差 总计 1.359E8 1105088.003 1.370E8 1.364E8 570180.931 1.370E8 2 18 20 3 17 20 6.794E7 61393.778 1106.637 .000 b 4.547E7 33540.055 1355.753 .000 c3 回归 残差 总计 a. 预测变量: (常量), 最终消费x5。 b. 预测变量: (常量), 最终消费x5, 农业x1。 c. 预测变量: (常量), 最终消费x5, 农业x1, 工业x2。 d. 因变量: 财政收入y 系数 模型 非标准化系数 B 1 (常量) 最终消费x5 2 (常量) 最终消费x5 农x1 3 (常量) 最终消费x5 农x1 工x2 a. 因变量: 财政收入y 业-.353 .088 -1.454 -3.994 .001 .992 -.696 -.062 业-.611 .124 -1.073 -4.936 .000 .987 -.767 -.077 874.604 .637 106.869 .089 业-.414 .154 -.726 -2.694 .015 .987 -.536 -.057 1011.912 .311 136.901 .049 710.372 .180 标准 误差 90.891 .004 标准系数 试用版 t 7.816 40.736 Sig. .000 .000 零阶 相关性 偏 部分 a .994 .994 .994 .994 1.718 7.392 6.374 .000 .000 .994 .832 .135 3.516 8.184 7.142 .000 .000 .994 .866 .112 回归方程为:y874.6040.636x10.353x20.637x5
5.10 (1)
模型汇总 模型 R 1 2 .908 .000 ba标准 估计的误R 方 .824 .000 调整 R 方 .736 .000 差 625.88326 1217.15945 a. 预测变量: (常量), x6, x3, x2, x4, x5。 b. 预测变量: (常量) 学习指导参考资料
完美WORD格式编辑
Anova 模型 1 回归 残差 总计 2 回归 残差 总计 平方和 1.830E7 3917298.522 2.222E7 .000 2.222E7 2.222E7 df 5 10 15 0 15 15 均方 3660971.683 391729.852 F 9.346 Sig. .002 ac .000 1481477.129 . . b a. 预测变量: (常量), x6, x3, x2, x4, x5。 b. 预测变量: (常量) c. 因变量: y 系数 模型 非标准化系数 B 1 (常量) x2 x3 x4 x5 x6 2 (常量) 5922.827 4.864 2.374 -817.901 14.539 -846.867 7542.938 标准 误差 2504.315 2.507 .842 187.279 147.078 291.634 304.290 标准系数 试用版 t 2.365 1.940 2.818 -4.367 .099 -2.904 24.789 Sig. .040 .081 .018 .001 .923 .016 .000 a .677 .782 -1.156 .050 -.899 a. 因变量: y 回归方程为:y5922.8274.864x22.374x3817.901x414.539x5846.867x6 (2)后退法:输出结果 模型汇总 模型 R 1 2 .908 .907 ba标准 估计的误R 方 .824 .824 调整 R 方 .736 .759 差 625.88326 597.04776 a. 预测变量: (常量), x6, x3, x2, x4, x5。 b. 预测变量: (常量), x6, x3, x2, x4。 Anova 模型 1 回归 残差 平方和 1.830E7 3917298.522 df 5 10 均方 3660971.683 391729.852 F 9.346 Sig. .002 ac 学习指导参考资料
完美WORD格式编辑
总计 2 回归 残差 总计 2.222E7 1.830E7 3921126.262 2.222E7 15 4 11 15 4575257.669 356466.024 12.835 .000 b a. 预测变量: (常量), x6, x3, x2, x4, x5。 b. 预测变量: (常量), x6, x3, x2, x4。 c. 因变量: y 系数 模型 非标准化系数 B 1 (常量) x2 x3 x4 x5 x6 2 (常量) x2 x3 x4 x6 a. 因变量: y 5922.827 4.864 2.374 -817.901 14.539 -846.867 6007.320 5.068 2.308 -824.261 -862.699 标准 误差 2504.315 2.507 .842 187.279 147.078 291.634 2245.481 1.360 .486 167.776 232.489 标准系数 试用版 t 2.365 1.940 2.818 -4.367 .099 -2.904 2.675 3.727 4.750 -4.913 -3.711 Sig. .040 .081 .018 .001 .923 .016 .022 .003 .001 .000 .003 a .677 .782 -1.156 .050 -.899 .706 .760 -1.165 -.916 y6007.3205.068x22.308x3824.261x4862.699x6
(3)逐步回归
模型汇总
模型
R
1 2 3
.498 .697 .811 cba
标准 估计的误
R 方 .248 .485 .657 调整 R 方
.194 .406 .572 差 1092.83206 937.95038 796.60909 a. 预测变量: (常量), x3。 b. 预测变量: (常量), x3, x5。 c. 预测变量: (常量), x3, x5, x4。
Anova 模型 1 回归 平方和 5502210.090 df 1 均方 5502210.090 F 4.607 Sig. .050 ad 学习指导参考资料
完美WORD格式编辑
残差 总计 2 回归 残差 总计 3 回归 残差 总计 1.672E7 2.222E7 1.079E7 1.144E7 2.222E7 1.461E7 7615032.418 2.222E7 14 15 2 13 15 3 12 15 1194281.918 6.130 .013 b 5392697.554 879750.910 4869041.506 634586.035 7.673 .004 c a. 预测变量: (常量), x3。 b. 预测变量: (常量), x3, x5。 c. 预测变量: (常量), x3, x5, x4。 d. 因变量: y 系数 模型 非标准化系数 B 1 (常量) x3 2 (常量) x3 x5 3 (常量) x3 x5 x4 a. 因变量: y 5161.259 1.511 472.298 3.188 212.325 1412.807 3.440 348.729 -415.136 标准 误差 1142.744 .704 2150.138 .913 86.643 1865.912 .782 92.220 169.163 标准系数 试用版 t 4.517 2.146 .220 3.492 2.451 .757 4.398 3.782 -2.454 Sig. .000 .050 .830 .004 .029 .464 .001 .003 .030 a .498 1.050 .737 1.133 1.210 -.587 y1412.8073.440x3348.729x5415.136x4
(4)两种方法得到的模型是不同的,回退法剔除了x5,保留了x6, x3, x2, x4作为最终模型。而逐步回归法只引入了x3。说明了方法对自变量重要性的认可不同的,这与自变量的相关性有关联。相比之下,后退法首先做全模型的回归,每一个变量都有机会展示自己的作用,所得结果更有说服力
学习指导参考资料
完美WORD格式编辑
第六章 多重共线性的情形及其处理
6.6
解:由下表我们可以看出
系数 模型 非标准化系数 B 1 (常量) x1 x2 x3 x4 x5 x6 a. 因变量: y -6381.575 -.593 .549 -.756 .080 .006 -.010 标准 误差 2736.958 .279 .199 .911 .031 .006 .014 标准系数 试用版 t -2.332 -2.127 2.753 -.830 2.590 .918 -.750 Sig. .035 .052 .016 .420 .021 .374 .466 共线性统计量 容差 VIF a -1.040 2.260 -.495 .281 .038 -.027 .003 .001 .002 .064 .434 .574 318.536 897.470 472.951 15.706 2.305 1.742 方差扩大因子最大的为VIF2=897.470,故首先应剔除变量x2.将剩下变量继续进行回归得下表: 系数 模型 非标准化系数 B 1 (常量) x1 x3 x4 x5 x6 a. 因变量: y -2677.422 -.053 1.433 .036 .006 .002 标准 误差 2858.846 .237 .533 .032 .008 .015 标准系数 试用版 t -.937 -.221 2.690 1.137 .822 .157 Sig. .364 .828 .017 .274 .424 .878 共线性统计量 容差 VIF a -.092 .937 .127 .041 .006 .006 .009 .087 .434 .647 160.620 112.478 11.509 2.303 1.545 此时,有最大的方差扩大因子VIF1=160.620,且此时x1系数为负,故x1也应被剔除,继续将剩下变量进行回归得: 系数 模型 非标准化系数 B 1 (常量) x3 x4 x5 x6 -2214.129 1.318 .031 .006 .003 标准 误差 1888.503 .109 .019 .007 .015 标准系数 试用版 t -1.172 12.068 1.586 .841 .209 Sig. .258 .000 .132 .412 .837 共线性统计量 容差 VIF a .862 .107 .041 .008 .199 .221 .434 .671 5.023 4.523 2.302 1.489 学习指导参考资料
完美WORD格式编辑
系数 模型 非标准化系数 B 1 (常量) x3 x4 x5 x6 a. 因变量: y -2214.129 1.318 .031 .006 .003 标准 误差 1888.503 .109 .019 .007 .015 标准系数 试用版 t -1.172 12.068 1.586 .841 .209 Sig. .258 .000 .132 .412 .837 共线性统计量 容差 VIF a .862 .107 .041 .008 .199 .221 .434 .671 5.023 4.523 2.302 1.489 此时,所有方差扩大因子都小于10,故回归方程如下:
y=-2214.129+1.318x3+0.031x4+0.006x5+0.003x6
学习指导参考资料
完美WORD格式编辑
第七章 岭回归
1.岭回归估计是在什么情况下提出的?
答:当解释变量间出现严重的多重共线性时,用普通最小二乘法估计模型参数,往往参数估计方差太大,使普通最小二乘法的效果变得很不理想,为了解决这一问题,统计学家从模型和数据的角度考虑,采用回归诊断和自变量选择来克服多重共线性的影响,这时,岭回归作为一种新的回归方法被提出来了。
2.岭回归估计的定义及其统计思想是什么?
答:一种改进最小二乘估计的方法叫做岭估计。当自变量间存在多重共线性,∣X'X∣≈0时,我们设想给X'X加上一个正常数矩阵kI(k>0),那么X'X+kI 接近奇异的程度小得多,考虑到变量的量纲问题,先对数据作标准化,为了计算方便,标准化后的设计阵仍然用X表示,定义为
ˆX'XIX'y1 ,称为的岭回归估计,其中k称为岭参数。
3.选择岭参数k有哪几种主要方法?
答:选择岭参数的几种常用方法有1.岭迹法,2.方差扩大因子法,3.由残差平方和来确定k值。
4.用岭回归方法选择自变量应遵从哪些基本原则? 答:用岭回归方法来选择变量应遵从的原则有: 1.在岭回归的计算中,我们假定设计矩阵X已经中心化和标准化了,这样可以直接比较标准化岭回归系数的大小,我们可以剔除掉标准化岭回归系数比较稳定且绝对值很小的自变量。 2.当k值较小时标准化岭回归系数的绝对值并不是很小,但是不稳定,随着k的增加迅速趋于零。像这样的岭回归系数不稳定,震动趋于零的自变量,我们也可以予以删除。 3.去掉标准化岭回归系数很不稳定的自变量,如果有若干个岭回归系数不稳定,究竟去掉几个,去掉哪几个,这并无一般原则可循,这需根据去掉某个变量后重新进行岭回归分析的效果来确定。
5.对第5章习题9的数据,逐步回归的结果只保留了3个自变量x1,x2,x5,用y对这3个自变量做岭回归分析? 答:
6.对习题3.12的 问题,分别用普通最小二乘和岭回归建立GDP对第二产业增加值x2,和第三产业增加值x3的二元线性回归,解释所得到的回归系数? 答:
R-SQUARE AND BETA COEFFICIENTS FOR ESTIMATED VALUES OF K
K RSQ x2 x3 ______ ______ ________ ________
学习指导参考资料
完美WORD格式编辑
.00000 .99923 .774524 .225943 .05000 .99803 .512296 .463711 .10000 .99629 .489067 .463649 .15000 .99367 .473860 .456649 .20000 .99025 .461162 .448152 .25000 .98615 .449761 .439303 .30000 .98147 .439219 .430476 .35000 .97628 .429332 .421821 .40000 .97067 .419984 .413400 .45000 .96470 .411101 .405242 .50000 .95842 .402632 .397352 .55000 .95189 .394536 .389732 .60000 .94514 .386782 .382376 .65000 .93822 .379344 .375274 .70000 .93116 .372200 .368419 .75000 .92398 .365330 .361799 .80000 .91672 .358717 .355405 .85000 .90939 .352345 .349227 .90000 .90202 .346201 .343255 .95000 .89462 .340271 .337480 1.0000 .88720 .334545 .331892
学习指导参考资料
完美WORD格式编辑
系数 非标准化系数 标准系数 a模型 B 标准 误差 试用版 t Sig. 1 (常量) 4352.859 679.065 6.410 .000 第二产业增加值 1.438 .151 .775 9.544 .000 第三产业增加值 .679 .244 .226 2.784 .017 a. 因变量: GDP
R-SQUARE AND BETA COEFFICIENTS ESTIMATED VALUES OF K
K RSQ x2 x3 ______ ______ ________ ________
.00000 .99923 .774524 .225943 .01000 .99888 .587428 .408049 .02000 .99866 .548878 .441659 .03000 .99847 .531054 .454593 .04000 .99827 .520110 .460694 .05000 .99803 .512296 .463711 .06000 .99776 .506176 .465082 .07000 .99745 .501080 .465475 .08000 .99710 .496653 .465244 .09000 .99672 .492691 .464593 .10000 .99629 .489067 .463649
Run MATRIX procedure:
****** Ridge Regression with k = 0.01 ******
Mult R .999439 RSquare .998878 Adj RSqu .998691 SE 1301.292455
ANOVA table
df SS MS Regress 2.000 1.81E+010 9.04E+009 Residual 12.000 20320345 1693362.1
学习指导参考资料
FOR 完美WORD格式编辑
F value Sig F 5341.336020 .000000
--------------Variables in the Equation----------------
B SE(B) Beta B/SE(B) x2 1.090606 .060219 .587428 18.110661 x3 1.226660 .097506 .408049 12.580325 Constant 3980.247846 738.314258 .000000 5.390994
------ END MATRIX -----
结合表及图形可知,用普通最小二乘法得到的回归方程为
ˆy4352.8591.438x20.679x3 .显然回归系数3=0.679明显不合理。
从岭参数图来看,岭参数k在0.0到0.1之间,岭参数已基本稳定,再参照复决定系数,当k=0.01时,复决定系数R=0.998691,仍然很大,固用k=0.01做回归得到的未标准化的岭回归方程为
2ˆ=3980.2479+1.09061x21.2267x3y。
7.一家大型商业银行有多家分行,近年来,该银行的贷款额平稳增长,但不良贷款额也有较大比例的提高,为弄清楚不良贷款形成的原因,希望利用银行业务的有关数据做些定量分析,以便找出控制不良贷款的办法,表7.5是该银行所属25家分行2002年的有关业务数据。 (1)计算y与其余四个变量的简单相关系数。
(2)建立不良贷款y对4个自变量的线性回归方程,所得的回归系数是否合理? (3)分析回归模型的共线性。
(4)采用后退法和逐步回归法选择变量,所得回归方程的回归系数是否合理,是否还存在共线性?
(5)建立不良贷款y对4个自变量的岭回归。 (6)对第4步剔除变量后的回归方程再做岭回归。
(7)某研究人员希望做y对各项贷款余额,本年累计应收贷款.贷款项目个数这三个变量的回归,你认为这种做是否可行,如果可行应该如何做?
相关性 学习指导参考资料
完美WORD格式编辑
本年累计本年固定贷款项目个数x3 .700 .848 .586 资产投资额x4 .519 .780 .472 不良贷款y 各项贷款余额x1 .844 1.000 .679 应收到款x2 .732 .679 1.000 Pearson 相不良贷款y 关性 各项贷款余额x1 本年累计应收到款x2 贷款项目个数x3 本年固定资产投资额x4 Sig. (单不良贷款y 侧) 各项贷款余额x1 本年累计应收到款x2 贷款项目个数x3 本年固定资产投资额x4 N 不良贷款y 各项贷款余额x1 本年累计应收到款x2 贷款项目个数x3 本年固定资产投资额x4 1.000 .844 .732 .700 .519 .848 .780 .586 .472 1.000 .747 .747 1.000 . .000 .000 .000 . .000 .000 .000 . .000 .000 .001 .004 .000 .009 .000 .004 .000 .000 .001 .009 . .000 .000 . 25 25 25 25 25 25 25 25 25 25 25 25 25 25 25 25 25 25 25 25 25 25 25 25 25 系数 非标准化系数 模型 1 (常量) 各项贷款余额x1 本年累计应收到款x2 B -1.022 .040 .148 标准 误差 .782 .010 .079 标准系数 试用版 t -1.306 3.837 1.879 Sig. .206 .001 .075 共线性统计量 容差 VIF a .891 .260 .188 .529 5.331 1.890 学习指导参考资料
完美WORD格式编辑
贷款项目个数x3 本年固定资产投资额x4 a. 因变量: 不良贷款y .015 -.029 .083 .015 .034 -.325 .175 -1.937 .863 .067 .261 .360 3.835 2.781
共线性诊断 方差比例 本年固定条件索模型 维数 特征值 1 1 2 3 4 5 4.538 .203 .157 .066 引 1.000 4.733 5.378 8.287 (常量) .01 .68 .16 .00 .15 各项贷款余本年累计应贷款项目个额x1 .00 .03 .00 .09 .87 收到款x2 .01 .02 .66 .20 .12 数x3 .00 .01 .01 .36 .63 资产投资额x4 .00 .09 .13 .72 .05 a .036 11.215 a. 因变量: 不良贷款y 后退法得
系数 非标准化系数 模型 1 (常量) 各项贷款余额x1 本年累计应收到款x2 贷款项目个数x3 本年固定资产投资额x4 2 (常量) 各项贷款余额x1 本年累计应收到款x2 本年固定资产投资额x4 3 (常量) B -1.022 .040 .148 .015 -.029 -.972 .041 .149 -.029 -.443 标准 误差 .782 .010 .079 .083 .015 .711 .009 .077 .014 .697 标准系数 试用版 t -1.306 3.837 1.879 .175 -1.937 -1.366 4.814 1.938 -2.006 -.636 Sig. .206 .001 .075 .863 .067 .186 .000 .066 .058 .531 a .891 .260 .034 -.325 .914 .261 -.317 学习指导参考资料
完美WORD格式编辑
各项贷款余额x1 本年固定资产投资额x4 a. 因变量: 不良贷款y .050 -.032 .007 .015 1.120 -.355 6.732 -2.133 .000 .044 逐步回归得 系数 非标准化系数 模型 1 (常量) 各项贷款余额x1 2 (常量) 各项贷款余额x1 本年固定资产投资额x4 a. 因变量: 不良贷款y B -.830 .038 -.443 .050 -.032 标准 误差 .723 .005 .697 .007 .015 标准系数 试用版 t -1.147 7.534 -.636 6.732 -2.133 Sig. .263 .000 .531 .000 .044 a .844 1.120 -.355
R-SQUARE AND BETA COEFFICIENTS FOR ESTIMATED VALUES OF K
K RSQ x1 x2 x3 x4 ______ ______ ________ ________ ________ ________
.00000 .79760 .891313 .259817 .034471 -.324924 .05000 .79088 .713636 .286611 .096624 -.233765 .10000 .78005 .609886 .295901 .126776 -.174056 .15000 .76940 .541193 .297596 .143378 -.131389 .20000 .75958 .491935 .295607 .153193 -.099233 .25000 .75062 .454603 .291740 .159210 -.074110 .30000 .74237 .425131 .286912 .162925 -.053962 .35000 .73472 .401123 .281619 .165160 -.037482 .40000 .72755 .381077 .276141 .166401 -.023792 .45000 .72077 .364000 .270641 .166949 -.012279 .50000 .71433 .349209 .265211 .167001 -.002497 .55000 .70816 .336222 .259906 .166692 .005882 .60000 .70223 .324683 .254757 .166113 .013112 .65000 .69649 .314330 .249777 .165331 .019387 .70000 .69093 .304959 .244973 .164397 .024860 .75000 .68552 .296414 .240345 .163346 .029654
学习指导参考资料
完美WORD格式编辑
.80000 .68024 .288571 .235891 .162207 .033870 .85000 .67508 .281331 .231605 .161000 .037587 .90000 .67003 .274614 .227480 .159743 .040874 .95000 .66508 .268353 .223510 .158448 .043787 1.0000 .66022 .262494 .219687 .157127 .046373
Run MATRIX procedure:
****** Ridge Regression with k = 0.4 ******
Mult R .802353780 RSquare .643771588 Adj RSqu .611387187 SE 2.249999551
ANOVA table
df SS MS Regress 2.000 201.275 100.638 Residual 22.000 111.375 5.062
学习指导参考资料
完美WORD格式编辑
F value Sig F 19.87906417 .00001172
--------------Variables in the Equation----------------
B SE(B) Beta B/SE(B) x1 .025805860 .003933689 .574462395 6.560218798 x4 .004531316 .007867533 .050434658 .575951348 Constant .357087614 .741566536 .000000000 .481531456
------ END MATRIX ----- Y对x1 x2 x3 做岭回归
Run MATRIX procedure:
****** Ridge Regression with k = 0.4 ******
Mult R .850373821 RSquare .723135635 Adj RSqu .683583583 SE 2.030268037
ANOVA table
df SS MS Regress 3.000 226.089 75.363 Residual 21.000 86.562 4.122
F value Sig F 18.28313822 .00000456
--------------Variables in the Equation----------------
B SE(B) Beta B/SE(B) x1 .016739073 .003359156 .372627316 4.983118685 x2 .156806656 .047550034 .275213878 3.297719120 x3 .067110931 .032703990 .159221005 2.052071673 Constant -.819486727 .754456246 .000000000 -1.086195166
------ END MATRIX -----
学习指导参考资料
完美WORD格式编辑
由图及表可知,(1)y 与x1 x2 x3 x4 的相关系数分别为0.844,0.732,0.700,0.519. (2)y
对
其
余
四
个
变
量
的
线
性
回
归
方
程
为
ˆ=-1.022+0.40x10.148x20.015x30.029x4y固所得的回归系数是不合理的。 (3)由于条件数
由于
x4的系数为负,说明存在共线性,
k5=11.25>10,说明存在较强的共线性。
(4)由上表可知由后退法和逐步回归法所得到的线性回归方程为
ˆ=-0.443+0.050x10.032x4y 由于
x4的系数为负,说明仍然存在共线性。
(5)Y对其余四个自变量的岭回归如上表所示。 (6)选取岭参数k=0.4,得岭回归方程理的解释。
(7)用y对x1 x2 x3 做岭回归,选取岭参数k=0.4,岭回归方程为
ˆ=0.357+0.0258x10.0453x4y,回归系数都能有合
ˆ=-0.819+0.0167x10.157x20.067x3y回归系数都能有合理的解释,由 B / SE(B) 得近
似的t值可知,x1 x2 x3 都是显著的,所以y对x1 x2 x3的岭回归是可行的。
学习指导参考资料
因篇幅问题不能全部显示,请点此查看更多更全内容