您的当前位置:首页正文

第六讲 多重共线性.

来源:帮我找美食网


第6章 多重共线性

6.1 多重共线性及其产生的原因

6.1.1 多重共线性(Multicollinearity)的定义

从数学意义上去解释变量之间存在共线性,就是对于变量x1,x2,xk,如果存在不全为零的常数1,2,k,使得下式成立

1x12x2kxk0 (6.1.1)

则称变量x1,x2,xk之间存在完全共线性。在计量经济学中,一个具有两个以上解释变量的线性回归模型里,如果解释变量之间存在式(6.1.1)那样的关系,则称这些解释变量之间存在完全的多重共线性。

完全多重共线性还可以用矩阵形式加以描述。设解释变量矩阵X为

11X = 1x11x21xk1x12x22xk2

x1nx2nxkn所谓完全的多重共线性,就是XX0。或者rank(X)k+1,表明在矩阵X中,至少有一个列向量可以由其余的列向量线性表示。

所谓近似共线性或不完全多重共线性是指对于k个解释变量xt(t=1,2,3,…k),如果存在不全为零的数1,2,k使得

1x12x2kxku0 (6.1.2)

成立,其中u为随机误差项。

如果k个解释变量之间不存在上述完全或不完全的线性关系式,则称无多重共线性。如果用矩阵表示,这时X为满秩矩阵,即rank(X)=k+1。

6.1.2 多重共线性产生的原因

根据经验,多重共线性产生的经济背景和原因有以下几个方面:

1.经济变量之间往往存在同方向的变化趋势 2.经济变量之间往往存在着密切的关联度 3.在模型中引入滞后变量也容易产生多重共线性

4.在建模过程中由于解释变量选择不当,引起了变量之间的多重共线性

6.2 多重共线性造成的影响

6.2.1 完全共线性下参数估计量不存在

多元线性回归模型

YXBU

的普通最小二乘估计量为

ˆ(XBX)1XY

如果解释变量之间存在完全多重共线性,由于X矩阵的系数行列式XX0,逆矩阵

ˆ。 (XX)1不存在,无法得到参数估计式B例如,对于二元线性回归模型:

yb0b1x1b2x2u

如果两个解释变量完全相关,如x2x1,该二元线性回归模型退化为一元线性回归模型

yb0(b1b2)x1u

这时,只能确定综合参数b1b2的估计值,却无法确定b1,b2各自的估计值。

6.2.2 近似共线性造成的影响

1.增大最小二乘估计量的方差

ˆ仍然满足线ˆ(XX)1XY仍然可以算出,并且B由于XX0,所以参数估计值Bˆ的协方差矩阵: 性、无偏性和最小方差性。但是由于XX0,Bˆ)2(XX)1 (6.2.1) cov(B中的对角线元素的数值将很大。即各共线变量的参数的OLS的估计值方差很大,即估计值的精度很低。

ˆ的方差为 可以证明,参数估计值bj21ˆ) (6.2.2) var(bi22(xitxi)1Ri其中:Ri2表示第i个解释变量对模型中其他解释变量作辅助回归模型

xif(x1,x2,xi1,xi1,xk)时的决定系数,当只有两个解释变量x1、x2时,则Ri2就是

22变量x1、x2的相关系数的平方,即R12R2。式(6.2.2)中第二项因子1/(1Ri2)称r12为方差膨胀因子(Variance Inflating Factor),记成VIFi

VIFi则有

1 (6.2.3) 21Ri2ˆ)var(bVIFi (6.2.4) i(xitxi)2当xi与模型中其他解释变量存在严重多重共线性时,即Ri21,VIFi,Ri2接近于1,共线性程度越强。如果Ri2=0,则VIFi1,此时不存在多重共线性。

2.参数估计量经济含义不合理

3.变量的显著性检验和模型的预测功能失去意义 在多元线性回归模型中,参数显著性检验的t统计量为

ˆbti~t(nk1)

ˆ)s(biˆ的方差很大,其标准差亦随之增大,t统计量偏小,这样容易淘汰一些不应淘汰的解由于bi释变量,使统计检验的结果失去可靠性。

ˆ的置信区间很大,ˆ)2(XX)1中的对角线元素的数值很大, 由于cov(B从而B使区

间估计用于判断参数估计值的可靠性失去意义。变大的方差容易使预测的“区间”变大,从而降低预测精度,使预测失去意义。

4.回归模型缺乏稳定性

6.3 多重共线性的检验

6.3.1 相关系数检验法(Klein判别法)

如果用矩阵表示相关系数,两个不同解释变量xi与xj的相关系数记作rij,那么解释变量之间的相关系数矩阵可以表示为

r11r12r21r22rk1rk2r1kr2krkk=1r12r211rk1rk2r1kr2k1 (6.3.1) 其中对角线元素全为1,若rij2R2,则这两个变量xi、xj之间的共线性是较为严重的。

EViews软件中可以直接计算(解释)变量的相关系数矩阵: [命令方式] COR 解释变量名

[菜单方式] 将所有解释变量设置成一个数组,并在数组窗口中点击View\Correlations。

6.3.2 辅助回归模型检验

解释变量之间存在多重共线性可以看做是一个解释变量对其余解释变量的近似线性组合。可以将每个解释变量xi对其余解释变量xj进行回归,得到k个回归方程:

x1f(x2,x3,,xk)

x2f(x1,x3,,xk) (6.3.2)

……

xkf(x1,x2,,xk1)

2分别求出其拟合优度R1、R2、…、Rk及统计量F1、F2、…、Fk,如果其中最大的一个Ri222接近1,Fi显著地大于临界值,则xi与其余xj存在多重共线性。

6.3.3 方差膨胀因子检验

ˆ的方差可以表示成: 对于多元线性回归模型,参数估计值biˆ)var(bi其中:

212VIFi

(xitxi)21Ri2(xitxi)2

VIFi1 (6.3.3) 21Ri为方差膨胀因子,Ri2表示第i个解释变量与模型中其他解释变量辅助回归模型的决定系数。Ri2度量了xi与其余解释变量的线性相关程度,Ri2越接近于1,VIFi就越大,说明xi与其余解释变量之间多重共线性越强,反之越弱。一般地,当VIFi5或VIFi10时(此时

Ri2>0.8或Ri2>0.9),认为模型存在较严重的多重共线性。

6.3.4 特征值检验

考察解释变量的样本数据矩阵:

11X=1x11x21xk1x12x22xk2

x1nx2nxkn当模型存在完全多重共线性时,rank(X)k+1,XX0;而当模型存在严重多重共线性时,XX0,根据矩阵代数知识,若1,2,k1为矩阵XX的k+1个特征值,则有

XX12k10 (6.3.4)

这表明特征值i(i=1,2,…,k+1)中至少有一个近似地等于0。

利用特征值还可以构造两个用于检验多重共线性的指标:条件数(或病态数)CN(Condition Number)和条件指数(或病态指数)CI(Condition lndex)。其指标定义为

CN=最大特征值/最小特征值

CICN (6.3.5)

这两个指标都反映了特征值的离散程度,数值越大,表明多重共线性越严重。一般的经验法则是:CI>10即认为存在多重共线性,大于30认为存在严重的多重共线性。

6.3.5 根据回归结果判断

在运用OLS法建立样本线性回归模型时,由EViews软件可直接得到决定系数R(或

2R2)、F统计量值、t统计量值。如果R2(或R2)很大,且F值显著地大于给定显著性水平

下的临界值,而发现:(1)系数估计值的符号与理论分析结果相违背;;(2)某些变量对应

的回归系数t值偏低或不显著;(3)当一个不太重要的解释变量被删除后,或者改变一个观测值时,回归结果显著变化,则该模型可能存在多重共线性。

例6.3.1 分析我国居民家庭电力消耗量与可支配收入及居住面积的关系,以预测居民家庭对电力的需求量(具体数据见表6.3.1)。

表6.3.1 我国居民家庭电力消耗量与可支配收入及居住面积统计资料

年人均家庭电力消耗 人均居住面积 年度 量(千瓦小时)y 21.2 23.2 26.4 31.2 35.3 42.4 46.9 54.6 61.2 72.7 83.5 93.1 101.8 年人均可支配收入 (平方米)x1 指数(1978=100)x2 12.45 13.02 13.49 13.94 14.42 14.87 15.44 15.64 16.99 16.65 17.25 17.82 18.33 243.17 254.28 265.39 277.61 273.49 281.33 289.71 307.66 321.07 339.33 356.58 383.95 399.85 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 首先,作家庭电力消耗量电量与家庭可支配收入的回归模型,结果如下:

ˆt113.80220.544127yx2t (6.3.6)

t = (-20.36438) (30.27122)

R20.988138 DW =1.071197 F =916.3468

可见,收入对用电量有很好的解释作用。然后,作用电量与住房面积的的回归方程,结果如下:

ˆt161.285913.92949yx1t (6.3.7)

t = (-10.15772) (13.61214)

R20.943961 DW =1.031819 F =185.2903

同样,住房面积对电力也有很好的解释作用。作二元回归方程,结果如下:

表6.3.2 回归结果

ˆt125.35302.808595yx1t0.44085x2t (6.3.8)

t = (-14.98992) (1.74882) (7.189749)

R20.990916 R20.9891 DW =1.338435 F =545.4382

住房面积的系数在方程(6.3.7)中是显著的,在方程(6.3.8)中不显著;从F统计量值可以看出,收入和住房面积对电力消费量的共同影响是显著的。

(1)相关系数检验:数组窗口中点击View\Correlations,结果如表6.3.3所示:

表6.3.3 相关系数

x1与x2相关系数高达0.963124,两者高度正相关。

图6.3.1 住房面积与收入之间的关系图

(2)辅助回归模型检验:将住房面积对收入进行回归:

ˆ1t4.1126560.036772xx2t

t = (4.271016) (11.87226)

R20.927608 DW=0.856038 F=140.9505

因此,住房面积与收入之间存在显著的线性关系。

(3)方差膨胀因子检验:

VIF11113.81368 221R110.927608方差膨胀因子VIF110,因此,模型存在存在严重的多重共线性。

(4)不显著系数法:从方程可以看出,拟合优度R0.990916,R0.9891非常高,

2F =545.4382F0.05(2,1321)4.10,R、F值较大,而住房面积的系数在方程(6.3.8)

22中不显著,说明模型存在多重共线性。

6.4 多重共线性的解决方法

6.4.1 保留重要的解释变量,去掉次要的或可替代的解释变量 6.4.2 利用先验信息改变参数的约束形式

根据经济理论或其他信息,找出参数间的某种关系,并将这种关系作为约束条件与样本

信息结合起来,进行有约束的最小二乘估计。例如,著名的Cobb-Douglas生产函数中:

YALK

劳动投入量L与资金投入量K之间通常是高度相关的,如果已知附加信息:1(即规模报酬不变),则有YALKAL1KAL(KYK),或者:A(),记LLLyYK,k,则C-D生产函数可以表示成: LLyAk

此时二元模型转化成一元模型,当然不存在多重共线性的问题,可以利用OLS法估计A,ˆ ˆ1进而得到6.4.3 变换模型的形式

对原设定的模型进行适当的变换,也可以消除或削弱原模型中解释变量之间的相关关系。具体有三种变换方式,一是变换模型的函数形式;二是变换模型的变量形式;三是改变变量的统计指标。

例6.4.1 在电力消费量函数中,电力消费量与收入和住房面积之间可能是对数形式的模型,而不是线性模型。我们利用对数模型拟合上述数据,结果如下:

表6.4.1 回归结果

ˆt10.090983.008058lnylnx1t1.003509lnx2t (6.4.4)

t = (-8.761518) (5.235737) (2.209634)

R20.988284 R20.985941 DW =2.193484 F =421.7588

与方程(6.3.8)相比,在对数模型中,收入和住房面积系数在统计上都是显著的,回归模

型在整体上也是显著的。说明我们原先设计的线性回归模型是有误的。

例6.4.2 根据表6.4.2,建立我国进口需求与GNP和消费价格指数之间的关系模型。 表6.4.2 我国进口支出与GNP和消费价格指数 (单位:亿元人民币)

年份 GNP(当年价) 进口总额IM 消费价格指数CPI 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 8989.1 10201.4 11954.5 14922.3 16917.8 18598.4 21662.5 26651.9 34560.5 46670.0 57494.9 66850.5 73142.7 78017.8 1257.8 1498.3 1614.2 2055.1 2199.9 2574.3 3398.7 4443.3 5986.2 9960.1 11048.1 11557.4 11806.5 11622.4 100.0 106.5 114.3 135.8 160.2 165.2 170.8 181.7 208.4 258.6 302.9 328.0 337.2 334.5 根据表6.4.2中的数据,回归结果如表6.4.3所示。

表6.4.3 回归结果

ˆ3146IM.9230.052946GNP34.19776CPI

t = (-2.062) (0.867) (1.984)

R20.97044 R20.965065 DW =0.806121 F =180.5594

回归结果表明,在5%的显著性水平下,收入和价格的系数各自均不是统计显著的。模型通过F检验。我们可以断定方程(6.4.5)中存在严重的多重共线性。为解决这个问题,我们可以用实际进口额对实际收入进行回归,得到如下结果:

表6.4.4 回归结果

ˆ/CPI5.14630.1971IMGNP/CPI

t = (-1.715) (10.245)

R20.8974 R20.8889 DW =0.7594 F =104.9688

这表明,实际进口额与实际收入显著正相关。这样,通过将名义变量转换为实际变量,显然削弱了原模型中的多重共线性。

6.4.4 综合使用时序数据与截面数据

在模型的参数估计中,如果模型利用的是时间序列数据,这时模型又存在多重共线性,可考虑用时间序列数据与截面数据相结合的办法来修正多重共线性对模型的影响。

6.4.5 逐步回归法(Frisch综合分析法)

从所有解释变量中间先选择影响最为显著的变量建立模型,然后再将模型之外的变量逐个引入模型;每引入一个变量,就对模型中的所有变量进行一次显著性检验,并从中剔除不显著的变量;逐步引入——剔除——引入,直到模型之外所有变量均不显著时为止。这种消除多重共线性的方法称为逐步回归法也称Frisch综合分析法。 具体步骤为

(1)利用相关系数从所有解释变量中选取相关性最强的变量建立一元回归模型。 (2)在一元回归模型中分别引入第二个变量,共建立k-1个二元回归模型(设共有k个解释变量),从这些模型中再选取一个较优的模型。选择时要求模型中每个解释变量影响显著,参数符号正确,R值有所提高。

(3)在选取的二元回归模型中以同样方式引入第三个变量;如此下去,直至无法引入新的变量时为止。

26.4.6 增加样本容量 6.4.7 主成分回归

例6.4.2 服装需求函数。根据理论和经验分析,影响居民服装需求Cd的主要因素有可支配收入Y、流动资产拥有量L、服装类价格指数P表6.4.5给出了有c和总物价指数P0。关统计资料。

表6.4.5 服装需求函数有关统计资料 年 份 1979 服装 可支配 流动资产 服装类价 物价总 需求Cd 收入Y 拥有量L 格指数PC 指数P0 8.4 82.9 17.1 92 94

1980 1981 1982 1983 1984 1985 1986 1987 1988 设服装需求函数为

9.6 10.4 11.4 12.2 14.2 15.8 17.9 19.3 20.8 88.0 99.9 105.3 117.7 131.0 148.0 161.8 174.2 184.7 21.3 25.1 29.0 34.0 40.0 44.O 49.0 51.O 53.O 93 96 94 100 101 105 112 112 112 96 97 97 100 101 104 109 111 111 Cdb0b1Yb2Lb3Pcb4P0ut

根据以上数据,利用EViews软件,得如下回归结果。

表6.4.6 回归结果

ˆ13.204420.097836CY0.014448L0.19722PPdc0.03341320

t = (-1.761428) (3.707635) (0.295116) (-2.204878) (2.239056)

R20.998046 R20.996482 DW=3.359692 F=638.3684

给定显著性水平0.05,查F分布表,得临界值F0.05(4,5)= 5.19,FF0.05,回归

方程显著。

1.多重共线性检验 (1)相关系数检验

在命令窗口键入:COR CD Y L PC P0,输出的相关系数矩阵为

表6.4.7 相关系数矩阵

可见每个因素都与服装需求高度相关,而且解释变量之间也是高度相关的。 (2)辅助回归模型检验

建立每个解释变量对其余解释变量的辅助回归模型:

ˆ221.50361.053973YPc3.946661P01.526361L

t = (-3.050175) (-0.801344) (2.386769) (3.544921)

R20.992164 R20.988246 DW=2.25151 F=253.242

ˆ31.252070.091728PY1.341507PL c00.219625t = (-0.984417) (-0.801344) (3.313063) (1.073073)

R20.986309 R20.979463 DW=2.818167 F=144.0798

ˆ42.701150.123404PY0.481972PL 0c0.156257t = (3.953038) (2.386769) (3.313063) (-1.326844)

R20.992102 R20.988153 DW=2.612393 F=251.2234

ˆ52.51751L0.443431Y0.733129PPc1.451810

t = (0.894373) (3.544921) (1.073073) (-1.326844)

R20.981982 R20.972972 DW=1.640034 F=108.9972

从以上辅助回归模型中的R、F统计量的数值可以看出,解释变量Y、Pc、PL、L之间存在较为严重的多重共线性。

(3)方差膨胀因子检验

从以上辅助回归模型可知,VIF1127.6;VIF255.5;VIF373.0; VIF4126.6明显大于10,解释变量Y、Pc、PL、L之间存在较为严重的多重共线性。

2.消除多重共线性:逐步回归法

(1)对服装需求Cd分别关于Y、L、Pc、P0建立一元回归模型:

2ˆ1.248873C0.117888Y dt = (-3.361814) (42.48604)

R20.995588 R20.995036 DW=2.638544 F=1805.063

ˆ38.519040.516411CPdc

t = (-9.16819) (12.53628)

R20.951562 R20.945507 DW=2.401329 F=157.1583

ˆ2.1181670.326873CL dt = (2.585761) (15.30956)

R20.966994 R20.962869 DW=0.46838 F=234.3827

ˆ53.650810.663243CPd0

t = (-14.77097) (18.6585)

R20.977537 R20.974729 DW=2.17201 F=348.1394

根据理论分析,可支配收入应该是服装需求最主要的影响因素,相关系数检验也表明,可支配收入与服装需求的相关性最强。所以,以Cdb0b1Yu作为最基本的模型。

(2)加入服装价格指数Pc,对服装需求Cd关于Y、Pc建立二元回归模型:

表6.4.8 回归结果

ˆ1.5262370.126162CY0.03781Pdc

t = (0.314253) (8.570373) (-0.573229)

R20.995785 R20.994581 DW=2.533749 F=826.9501

可以看出,加入Pc后,R稍为有所减少,参数估计值的符号也正确,并没有影响Y系数的显著性,所以在模型中保留Pc。

(3)加入流动资产L,对服装需求Cd关于Y、L、Pc建立三元回归模型:

表6.4.9 回归结果

2 ˆ1.0633840.139069CY0.037762L0.036178Pdc

t = (0.208468) (5.695997) (-0.679042) (-0.52664)

R20.996086 R20.994129 DW=3.162207 F=509.0113

加入L后,调整后拟合优度不但没有增加,反而减少,L参数估计值的符号不正确,并且,L和Pc系数均不显著,因此,在模型中略去L,保留Pc。

(4)加入一般商品价格指数P0,对服装需求Cd关于Y、Pc、P0建立回归模型:

表6.4.10 回归结果

ˆ12.445650.104243CY0.186628PPdc0.3131560

t = (-1.919462) (7.546991) (-2.473848) (2.59190)

R20.998012 R20.997018 DW=3.496692 F=1003.869

可以看出,加入P0后,调整后拟合优度有所增加,系数均显著且符号正确,因此,在模型中略去L,保留P0。

6.5 案例分析——我国钢材供应量模型

通过分析我国1978~1997年钢材供应量的历史资料,可以建立一个单一方程模型。根据理论及对现实情况的认识,影响我国钢材供应量y(万吨)的主要因素有生铁产量x1(万吨),原煤产量x2(万吨),电力产量x3(亿千瓦小时),固定资产投资x4(亿元),国内生产总值x5(亿元),铁路运输量x6(万吨)。数据详见表6.5.1。

表6.5.1 我国1978~1997年钢材供应量资料

obs y x1 3479.00 3673.00 3802.00 3417.00 3551.00 3738.00 4001.00 4384.00 5064.00 5503.00 5943.00 x2 6.18 6.35 6.20 6.22 6.66 7.15 7.89 8.72 8.94 9.28 9.80 x3 2566.00 2820.00 3006.00 3093.00 3277.00 3514.00 3770.00 4107.00 4495.00 4773.00 5452.00 5848.00 6212.00 6775.00 7539.00 8395.00 9281.00 x4 x5 x6 1978 2208.00 1979 2497.00 1980 2716.00 1981 2670.00 1982 2920.00 1983 3072.00 1984 3372.00 1985 3693.00 1986 4058.00 1987 4386.00 1988 4689.00 1989 4859.00 1990 5153.00 1991 5638.00 1992 6697.00 1993 7716.00 1994 8428.00 1995 8979.80 668.72 3624.10 110119.0 699.36 4038.20 111893.0 746.90 4517.80 111279.0 638.20 805.90 885.26 1052.43 1523.51 4862.4 107673.0 5294.7 113532.0 5934.5 118784.O 7171.0 124074.0 8964.4 130708.0 1795.32 10202.2 135636.0 2101.69 1l962.5 140653.0 2554.86 14928.3 144948.0 2340.52 16909.2 151489.0 2534.00 18547.9 150681.0 3139.03 21617.8 152893.O 4473.76 26638.1 157627.0 6811.35 34634.4 162663.0 9355.35 46759.4 163093.0 6159.00 10.54 6635.00 10.80 6765.00 10.87 8094.00 11.16 8956.00 11.50 9261.00 12.40 9535.99 13.61 10070.30 10702.97 58478.1 165855.0 1996 9338.02 10124.06 13.97 10813.10 12185.79 67884.6 168803.0 1997 9978.93 10894.17 13.73 11355.53 13838.96 74772.4 169734.0 设模型的函数形式为:

yb0b1x1b2x2b3x3b4x4b5x5b6x6u (6.5.1)

1.运用OLS估计方法对式(6.5.1)中的参数进行估计,EViews过程如下: (1)在File菜单中选New项,建立文件库workfile,输入起始与终止时间。 (2)直接在光标处键入命令格式:

Data y x1 x2 x3 x4 x5 x6 回车后即可输入数据。

(3)在Quick菜单中选Estimate Equation项,对参数作OLS估计,输出结果见表6.5.2。

表6.5.2 回归结果

2.分析

由F=1078.794>F0.05(7,12)=2.91(显著性水平=0.05),表明模型从整体上看钢材供应量与解释变量之间线性关系显著。 3.检验

计算解释变量之间的简单相关系数。EViews过程如下:

(1)在Quick菜单中选Group Statistics项中的Correlation命令。在出现Series List对话框时,直接输入x1,x2,x3,x4,x5,x6变量名即可出现结果(见表6.5.3)。

表6.5.3 相关系数

(2)由表6.5.3可以看出,解释变量之间存在高度线性相关。此外,还可以作辅助回归模型检验、作方差膨胀因子检验等,检验结果是类似的,即模型中解释变量存在多重共线性。 4.修正

(1)运用OLS方法逐一求y对各个解释变量的回归。经分析在6个一元回归模型中钢材供应量y对电力产量x3的线性关系强,拟合程度较好,见表6.5.4。

表6.5.4 回归结果

ˆ18.20041y0.882819x3

t = (-0.192313) (60.43348)

2R20.995096 R0.994823 DW0.893671F3652.205

(2)逐步回归。将其余解释变量逐一代入式(6.5.2)得如下几个模型:

ˆ210.83680.809015yx30.051567x4

t = (1.20092) (16.0738) (1.527483)

2R20.995688 R0.99518 DW=0.93224 F1962.523

ˆ21.204980.296587yx10.513910x30.075581x4

t = (0.118753) (2.258252) (3.716785) (2.353501)

2R20.996730 R0.996117 DW=0.648255 F1625.568

ˆ252.50850.277699yx10.475091x30.094372x40.003891x6

t = (-0.337101) (1.928386) (2.706663) (1.578267) (0.376901)

2R20.996761 R0.995897 DW=0.643793 F1153.8385

在式(4.5.5)中x6,对y的影响并不显著,故将x6删去,得如下模型(见表6.5.5)。

表6.5.5 回归结果

从表6.5.4可以看出,在删除x6后,模型的统计检验均有较大改善。考虑截距项t值不显著,将常数项去掉得如下模型见表6.5.6。

表6.5.6 回归结果

经过上述逐步回归分析,表明y对x1、x3、x4的回归模型为较优。最终回归结果如下:

ˆt0.303922yx1t0.511118x3t0.073463x4t

t = (2.701647) (3.864973) (2.834456)

R20.996761 R20.996342DW0.0.644479F2588.461

思考与练习

1.什么是多重共线性?产生多重共线性的经济背景是什么? 2.多重共线性对模型的主要影响是什么? 3.简述检验多重共线性与消除多重共线性的方法。

4.什么是方差膨胀因子(VIF)?根据VIF1/(1R2),你能说出VIF的最小可能值和最大可能值吗?VIF多大时,认为解释变量间的多重共线性是比较严重的?

5.在用诸如GDP、失业、货币供给、利率、消费支出等经济时间数据进行回归分析时,常常怀疑存在多重共线性,为什么?

6.对于线性回归模型

YXBU

ˆ(XX)1XY 的最小二乘估计量Bˆ会出现什么情况? (1)当X之间出现不完全共线性时,B(2)用什么方法检验不完全多重共线性?

7.建立产出(y)对资本投入(K)和劳动(L)的生产函数模型的过程中,可能遇到的主要问题是什么?

8.考虑表1一组样本数据:

表1 样本数据

y -10 -8 -6 -4 -2 0 2 4 6 8 10 x1 1 2 3 4 5 6 7 8 9 10 11 x2 1 3 5 7 9 11 13 15 17 19 21 现假定你想用y对x1和x2作一多元回归:ytb0b1x1tb2x2tut

请回答下列问题:(1)你能估计出这一模型的参数吗?为什么?(2)如果不能,你能估计哪一参数或参数组合?

9.表2给出了一组消费支出(y),周收入(x1)和财富(x2)的假设数据。

表2 消费支出、周收入和财富数据 (单位:美元)

y 70 65 90 95 110 115 120 140 155 150 x1 80 100 120 140 160 180 200 220 240 260

x2 810 1009 1273 1425 1633 1876 2252 2201 2435 2686 请回答以下问题:

(1)估计模型: ytb0b1x1tb2x2tut (2)存在多重共线性吗?为什么?

(3)估计模型:ytb0b1x1tut,ytb0b1x2tut。你从中知道些什么? (4)估计模型:x2tb0b1x1tut,你从中发现了什么?

(5)如果x1,x2存在严重的共线性,你将舍去一个解释变量吗?为什么?

10.在研究生产函数时,我们得到以下两种结果:

ˆ5.040.887lnK0.893lnL (1) lnQs(1.40)(0.087)(0.137)

R20.878 n=21

ˆ8.570.0272lnQt0.460lnK1.285lnL (2) s(2.99)(0.0204)(0.333)(0.324)

R20.889 n=21

其中:Q=产量;K=资本;L=劳动时数;t=时间(技术指标);n=样本容量。 请回答以下问题

(1)证明在模型(1)中所有的系数在统计上都是显著的(0.05) (2)证明在模型(2)中t和LnK的系数在统计上是不显著的(0.05); (3)可能是什么原因造成模型(2)中LnK的不显著性;

(4)如果t和LnK之间的相关系数为0.98,你将从中得出什么结论?

(5)模型(1)中,规模报酬为多少? 11.将下列函数用适当的方法消除多重共线性: (1)消费函数为Cb0b1Wb2Pu

其中C、W、P分别代表消费、工资收入和非工资收入,W与P可能高度相关,但研究表明b2b1/2。

(2)需求函数为Qb0b1Yb2Pb3Psu

其中Q、Y、P、Ps分别代表需求量、收入水平、该商品本身价格以及相关商品价格水平,P与Ps可能高度相关。

12.某公司经理试图建立识别对管理有利的个人能力模型,他选取了15名新近提拨的职员,作一系列测试,决定他们的交易能力(x1)、与其他人联系的能力(x2)及决策能力(x3),每名职员的工作情况(y)依次对这三个变量作回归,原始数据如表3。

表3 样本数据

y x1 x2 x3 80 75 84 62 92 75 63 69 68 87 92 82 74 80 62 50 51 42 42 59 45 48 39 40 55 48 45 45 61 59 72 74 79 71 85 73 75 73 71 80 83 80 75 75 70 18 19 22 17 25 17 16 19 20 30 33 20 18 20 15 请回答以下问题:(1)建立回归模型:ytb0b1x1tb2x2tb3x3tut,并进行回归分析。(2)模型是否显著?(3)计算每个bi的方差扩张因子VIFi,并判断是否存在多重共线性?

13.表4给出了美国1971-1986年期间的年数据。

表4 美国1971~1986年有关数据

年度 y x1 x2 x3 x4 4.89 4.55 7.38 x5 79367 82153 85064 86794 85846 88752 92017 96048 1971 10227 112.0 121.3 776.8 1972 10872 111.0 125.3 839.6 1973 11350 111.1 133.1 949.8 1974 8775 117.5 147.7 1038.4 8.61 1975 8539 127.6 161.2 1142.8 6.16 1976 9994 135.7 170.5 1252.6 5.22 1977 11046 142.9 181.5 1379.3 5.50 1978 11164 153.8 195.3 1551.2 7.78 1979 10559 166.0 217.7 1729.3 10.25 98824 1980 8979 179.3 247.0 1918.0 11.28 99303 1981 8535 190.2 272.3 2127.6 13.73 100397 1982 7980 197.6 286.6 2261.4 11.20 99526 1983 9179 202.6 297.4 2428.1 8.69 100834 1984 10394 208.5 307.6 2670.6 9.65 105005 1985 11039 215.2 318.5 2841.1 7.75 107150 1986 11450 224.4 323.4 3022.1 6.31 109597 其中,y:售出新客车的数量(千辆);x1:新车,消费者价格指数,1967=100;x2:所有物品所有居民的消费者价格指数,1967=100;x3:个人可支配收入(PDI,10亿美元);x4:利率;x5:城市就业劳动力(千人)。考虑下面的客车需求函数:

lnytb0b1lnx1tb2lnx2tb3lnx3tb4lnx4tb5lnx5tut

(1)用OLS法估计样本回归方程;

(2)如果模型存在多重共线性,试估计各辅助回归方程,找出哪些变量是高度共线性的。 (3)如果存在严重的共线性,你会除去哪一个变量,为什么?

(4)在除去一个或多个解释变量后,最终的客车需求函数是什么?这个模型在哪些方面好于包括所有解释变量的原始模型。

(5)你认为还有哪些变量可以更好地解释美国的汽车需求?

13.表5给出了天津市1974-1987年粮食销售量y(,常住人口数xt(,t万吨/年)1万人)人均收入xt 2(元),肉销售量xt 3(万吨/年),蛋销售量xt 4(万吨/年),鱼虾销售量xt5(万吨/年)的时间序列数据。

(1)用OLS法建立关于天津市粮食销售量的多元线性回归模型:

yt = 0 + 1 xt1 + 2 xt2 + 3 xt3 + 4 xt4 + 5 xt5 + ut

(2)用逐步回归法确定一个较好的回归模型。

表5 变量 y,x1,x2,x3,x4,x5的数据 年 1974 yt 98.45 x1 560.2 603.11 668.05 715.47 724.27 736.13 748.91 760.32 774.92 785.30 795.50 804.80 814.94 x2 153.20 190.00 240.30 301.12 361.00 420.00 491.76 501.00 529.20 552.72 771.16 811.80 988.43 x3 6.53 9.12 8.10 10.10 10.93 11.85 12.28 13.50 15.29 18.10 x4 1.23 1.30 1.80 2.09 2.39 3.90 5.13 5.47 6.09 7.97 x5 1.89 2.03 2.71 3.00 3.29 5.24 6.83 8.36 10.07 12.57 1975 100.70 1976 102.80 1977 133.95 1978 140.13 1979 143.11 1980 146.15 1981 144.60 1982 148.94 1983 158.55 1984 169.68 1985 162.14 1986 170.09 1987 178.69 19.61 10.18 15.12 17.22 11.79 18.25 18.60 11.54 20.59 23.53 11.68 23.37 828.73 1094.65 资料来源:《天津统计年鉴》(1988)。

因篇幅问题不能全部显示,请点此查看更多更全内容

Top