您的当前位置:首页正文

第七章 虚拟变量回归

来源:帮我找美食网


第七章 虚拟变量回归

第一节 虚拟变量的性质

在实际建模过程中,被解释变量不但受定量变量影响,同时还受定性变量影响。例如需要考虑性别、民族、不同历史时期、季节差异、政府的更迭(工党-保守党)、经济体制的改革、固定汇率变为浮动汇率、从战时经济转为和平时期经济等。这些因素也应该包括在模型中。

一、基本概念

由于定性变量通常表示的是某种特征的有和无,所以量化方法可采用取值为1或0。这种变量称作虚拟变量(dummy variable)。虚拟变量也称:哑元变量、定性变量等等。通常用字母D或DUM加以表示(英文中虚拟或者哑元Dummy的缩写)。

用1表示具有某一“品质”或属性,用0表示不具有该“品质”或属性。 虚拟变量使得我们可以将那些无法定量化的变量引入回归模型中。

虚拟变量应用于模型中,对其回归系数的估计与检验方法和定量变量相同。 虚拟变量表示两分性质,即“是”或“否”,“男”或“女”等。 下面给出几个可以引入虚拟变量的例子。

例1:你在研究学历和收入之间的关系,在你的样本中,既有女性又有男性,你打算研究在此关系中,性别是否会导致差别。

例2:你在研究某省家庭收入和支出的关系,采集的样本中既包括农村家庭,又包括城镇家庭,你打算研究二者的差别。

例3:你在研究通货膨胀的决定因素,在你的观测期中,有些年份政府实行了一项收入政策。你想检验该政策是否对通货膨胀产生影响。

上述各例都可以用两种方法来解决,一种解决方法是分别进行两类情况的回归,然后看参数是否不同。另一种方法是用全部观测值作单一回归,将定性因素的影响用虚拟变量引入模型。

二、虚拟变量设置规则

虚拟变量的设置规则涉及三个方面: 1.“0”和“1”选取原则

虚拟变量取“1”或“0”的原则,应从分析问题的目的出发予以界定。

从理论上讲,虚拟变量取“0”值通常代表比较的基础类型;而虚拟变量取“1”值通常代表被比较的类型。

“0”代表基期(比较的基础,参照物);“1”代表报告期(被比较的效应)。

例如,比较收入时考察性别的作用。当研究男性收入是否高于女性时,是将女性作为比较的基础(参照物),故有男性为“1”,女性为“0”。

2.属性(状态、水平)因素与设置虚拟变量数量的关系

定性因素的属性既可能为两种状态,也可能为多种状态。例如,性别(男、女两种)、季节(4种状态),地理位置(东、中、西部),行业归属,所有制,收入的分组等。

(1,0)天气阴 (D,D)=(0,1) 天气雨如:12 (0,0)其 他虚拟变量数量的设置规则 1.若定性因素具有 m(m≥2) 个相互排斥属性(或几个水平),当回归模型有截距项时,只能引入m个虚拟变量;

2.当回归模型无截距项时,则可引入m个虚拟变量;否则,就会陷入“虚拟变量陷阱”。

1

例 (虚拟变量陷阱)

研究居民住房消费支出 Y i 和居民可支配收入xi 之间的数量关系。回归模型的设定为: Yi=1 0+1Xi+ui()现在要考虑城镇居民和农村居民之间的差异,如何办? 为了对 “城镇居民”、“农村居民”进行区分,分析各自在住房消费支出 上的差异,

D设 1 i = 1 为城镇; 1i = 0 为农村。 ,则模型为 =+X+D+uDYi01i11i(2)

(模型有截距,“居民属性”定性变量只有两个相互排斥的属性状态( m=2),故只设定一个虚拟变量。)

若对两个相互排斥的 “居民属性” ,引入m=2个虚拟变量,则有

则模型(1)为 则对任一家庭都有: D1+D2=1

即产生完全共线,陷入了“虚拟变量陷阱”。“虚拟变量陷阱”的实质是:完全多重共线性。

第二节 虚拟解释变量的回归

在计量经济学中,通常引入虚拟变量的方式分为加法方式和乘法方式两种:即

原模型

实质:加法方式引入虚拟变量改变的是截距;乘法方式引入虚拟变量改变的是斜率。 一、加法类型

(1)一个两种属性定性解释变量而无定量变量的情形

例:按性别划分的教授薪金 序号 1 2 3 4 5 6 7 起薪,Y (千美元) 22 19 18 21.7 18.5 21 20.5 性别 (男=1,女=0) 1 0 0 1 0 1 1 2

8 9 10 Dependent Variable: Y Method: Least Squares

17 17.5 21.2 0 0 1

Std. Error 0.31176

9

0.44090

8

t-Statisti

c

57.7350

3

7.43919

1

0.0001 19.6400

0

1.84944

4

2.29318

7

2.35370

4

55.3415

6

0.00007

3

Prob. 0.0000

Date: 11/23/11 Time: 22:19 Sample: 1 10

Included observations: 10

Variable

C D

R-squared Adjusted R-squared

S.E. of regression

Sum squared resid

Log likelihood Durbin-Watson stat

0.667284

Prob(F-statistic)

3.888000 -9.465934 0.697137 0.857913

18.00000 3.280000

0.873701 Coefficien

t

Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion F-statistic

Yi = 18 + 3.28 Di

薪 金 ˆ3.28ˆ18女教授 男教授

(2)包含一个定量变量,一个定性变量模型

设有模型,

3

yt = 0 + 1 xt + 2D + ut ,

其中yt,xt为定量变量;D为定性变量。当D = 0 或1时,上述模型可表达为,

0 + 1xt + ut , (D = 0) yt = (0 + 2) + 1xt + ut , (D = 1)

60Y4020002040X60

D = 1或0表示某种特征的有无。反映在数学上是截距不同的两个函数。若2显著不为零,说明截距不同;若2为零,说明这种分类无显著性差异。

例:中国成年人体重y(kg)与身高x(cm)的回归关系如下: –105 + x D = 1 (男) y = - 100 + x - 5D = – 100 + x D = 0 (女) 注意:

① 关于定性变量中的哪个类别取0,哪个类别取1,是任意的,不影响检验结果。但解释模型时一定注意1,0是怎样分配的。

②定性变量中取值为0所对应的类别称作基础类别(base category)。

③ 对于多于两个类别的定性变量可采用设一个虚拟变量而对不同类别采取赋值不同的方法处理。如:

1 (大学) D = 0 (中学) -1 (小学)。

(3)一个定性解释变量(两种以上属性)和一个定量解释变量的情形

4

(4)两个定性解释变量(均为两种属性)和一个定量解释变量的情形

例:研究大学教师的年薪是否受到性别、学历的影响。性别和学历是两个不同的标准。按性别标准教师可以分成男、女两类,应该引入一个虚拟变量;按学历标准大学教师可以分为大学本科学历、硕士学历、博士学历三类,应该引入两个虚拟变量,共引入三个虚拟变量:

令Y代表年薪, X代表教龄,建立模型:

YiB0B1XiB2D2iB3D3iB4D4iui

可以看出基准类是本科女教师,B0为刚参加工作的本科女教师的工资;B1为参加工作时间对工资的影响;B2是性别差异系数;B3和B4为学历差异系数,B3是硕士学历与本科学历的收入差异,B4是博士学历与本科学历的收入差异;通过上述分析,我们可以确定Bi的符号。

在这个问题中,一共有六个类别,但是我们只引入了三个虚拟变量,而不是五个。 在就多个标准引入虚拟变量时,应该注意每一标准下引入虚拟变量个数应该是这一标准下类别数目减一,所以我们在本例中只引入三个虚拟变量而不是五个。如果引入五个虚拟变

5

量就会陷入虚拟变量陷阱。

运用OLS得到回归结果,再用t检验讨论因素 是否对模型有影响。

加法方式引入虚拟变量的主要作用为: 1.在有定量解释变量的情形下,主要改变方程截距; 2.在没有定量解释变量的情形下,主要用于方 差分析。

二、乘法类型 基本思想

以乘法方式引入虚拟变量时,是在所设立的模型中,将虚拟解释变量与其它解释变量的乘积,作为新的解释变量出现在模型中,以达到其调整设定模型斜率系数的目的。或者将模

型斜率系数表示为虚拟变量的函数,以达到相同的目的。 乘法引入方式:

(1)截距不变;

(2)截距和斜率均发生变化; 分析手段:仍然是条件期望。

以上只考虑定性变量影响截距,未考虑影响斜率,即回归系数的变化。当需要考虑时,可建立如下模型:

yt = 0 + 1 xt + 2 D + 3 xt D + ut ,

其中xt为定量变量;D为定性变量。当D = 0 或1时,上述模型可表达为,

(0 + 2 ) + (1 + 3)xt + ut , (D = 1) yt = 0 + 1 xt + ut , (D = 0) 通过检验 3是否为零,可判断模型斜率是否发生变化。

100Y80605070Y604030204020X020406010002040T600

情形1(不同类别数据的截距和斜率不同) 情形2(不同类别数据的截距和斜率不同)

例:用虚拟变量区别不同历史时期(file:dummy2)

中国进出口贸易总额数据(1950-1984)见下表。试检验改革前后该时间序列的斜率是否发生变化。定义虚拟变量D如下

0 (1950 - 1977)

D =

1 (1978 - 1984)

6

中国进出口贸易总额数据(1950-1984) (单位:百亿元人民币)

trade

time

1950 1951 1952 1953 1954 1955 1956 1957 1958 1959 1960 1961 1962 1963 1964 1965 1966 1967

0.415 0.595 0.646 0.809 0.847 1.098 1.087 1.045 1.287 1.493 1.284 0.908 0.809 0.857 0.975 1.184 1.271 1.122

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

1968 1969 1970 1971 1972 1973 1974 1975 1976 1977 1978 1979 1980 1981 1982 1983 1984

1.085 1.069 1.129 1.209 1.469 2.205 2.923 2.904 2.641 2.725 3.550 4.546 5.638 7.353 7.713 8.601 12.010

D

time D

trade

time 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35

0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 D

time D 0 0 0 0 0 0 0 0 0 0 29 30 31 32 33 34 35

以时间time为解释变量,进出口贸易总额用trade表示,估计结果如下:

trade = 0.37 + 0.066 time - 33.96D + 1.20 time D

(1.86) (5.53) (-10.98) (12.42)

0.37 + 0.066 time (D = 0, 1950 - 1977) =

- 33.59 + 1.27 time (D = 1, 1978 - 1984) 上式说明,改革前后无论截距和斜率都发生了变化。进出口贸易总额的年平均增长量扩大了18倍。

三、虚拟解释变量综合应用 (1)结构变化分析

结构变化的实质是检验所设定的模型在样本期内是否为同一模型。显然,平行回归、共点回归、不同的回归三个模型均不是同一模型。

平行回归模型的假定是斜率保持不变(加法类型,包括方差分析);

共点回归模型的假定是截距保持不变(乘法类型,又被称为协方差分析); 不同的回归的模型的假定是截距、斜率均为变动的(加法、乘法类型的组合)。 例:比较改革开放前、后我国居民(平均)“储蓄—收入”总量关系是否发生了变化?

模型的设定形式为 :

7

回归方程:

显然,只要 、 不同时为零,上述模型就能刻画改革开放前后我国居民储蓄收入模型结构是否发生变化。

(2)交互效应分析 交互作用

一个解释变量的边际效应有时可能要依赖于另一个解释变量。为此,Klein和Morgen(1951)提出了有关收入和财产在决定消费模式上相互作用的假设。他们认为消费的边际倾向不仅依赖于收入,而且也依赖于财产的多少 ——较富有的人可能会有不同的消费倾向。

由于YZ捕获了收入和财产之间的相互作用而被称为交互作用项。

显然,刻画交互作用的方法,在变量为数量(定量)变量时, 是以乘法方式引入虚拟变量的。

例: 是否发展油菜籽生产与是否发展养蜂生产的差异对农副产品总收益的影响研究。模型设定为:

(1)式中, 以加法形式引入虚拟变量暗含何假设?

(1)式以加法形式引入,暗含的假设为:菜籽生产和养蜂生产是分别独立地影响农副品生产总收益。但是,在发展油菜籽生产时,同时也发展养蜂生产,所取得的农副产品生产总收益,可能会高于不发展养蜂生产的情况。即在是否发展油菜籽生产与养蜂生产的虚拟变量 D 2 3间,很可能存在着一定的交互作用,且这种交互影响对被解释 i和 Di变量农副产品生产收益会有影响。

问题:如何刻画同时发展油菜籽生产和养蜂生产的交互作用? 基本思想:在模型中引入相关的两个变量的乘积。

区别之处在于,上页定义中的交互效应是针对数量变量,而现在是定性变量,又应当如何处理?

8

(3)分段回归分析

作用: 提高模型的描述精度。

虚拟变量也可以用来代表数量因素的不同阶段。分段线性回归就是类似情形中常见的一种。

一个例子: 研究不同时段我国居民的消费行为。实际数据表明,1979年以前,我国居民的消费支出 呈缓慢上升的趋势;从1979年开始,居民消费支出为快速上升趋势。

如何刻画我国居民在不同时段的消费行为?

基本思路:采用乘法方式引入虚拟变量的手段。显然,1979年是一个转折点,可考虑在这个转折点作为虚拟变量设定的依据。若设X* =1979,当 t<X* 时可引入虚拟变量。(为什么选择1979作为转折点?)

依据上述思路,有如下描述我国居民在不同时段消费行为模型:

分析:

9

第九章 设定误差

采用OLS法估计模型时,实际上有一个隐含的假设,即模型是正确设定的。

这包括两方面的含义:函数形式设定正确和解释变量选择正确。但在实践中这个假设却不一定能实现。可能犯下列三个方面的错误: l选择错误的函数形式 l遗漏有关的解释变量 l包括无关的解释变量

从而造成所谓的“误设定”问题。 一、选择错误的函数形式

这类错误中比较常见的是将非线性关系作为线性关系处理。函数形式选择错误,所建立的模型便无法反映所研究现象的实际情况,会产生很严重的后果。因此,应当根据实际问题,选择正确的函数形式。

在前面各章的介绍中采用的函数形式以线性函数为主,下面再介绍几种比较常见的函数形式的模型。这几种模型是:双对数模型,半对数模型,双曲函数模型和多项式回归模型。 1.双对数线性模型

如我们经常研究的生产函数模型:著名的生产函数柯布—道格拉斯生产函数:

YALKeu (9.1.1)

对于模型(9.1.1)通过两边同时取对数,可以得到:

lnYlnb0b1lnLb2lnKu (9.1.2)

***令 YlnY,b0lnb0,LlnL,KlnK代入模型(9.1.2)

Y*b0b1L*b2K*u (9.1.3)

在实际经济活动分析中,双对数模型的应用是非常广泛的,其原因在于,它有一个很吸引人的特点,也就是斜率b1,b2度量了产出对资本投入和劳动力投入的弹性。

Yd(lnY)d(Y)d(Y)证明: b1Y

d(lnL)d(lnL)d(L)Ld(L)Ld(lnY)而上式参数的经济意义就表示弹性。

10

例题1:

下列表中给出的1978-1998年间总产出(用国内生产总值GDP度量),劳动投入(用从业人员度量,单位万人),以及资本投入(用固定资产度量),运用OLS法建立我国的生产函数模型为:

lnY2.76360.5616lnL0.8230lnK (9.1.4)

(3.1788)(0.8694)(1.4815)(1.4815)(0.0651)(12.6464)R20.9926,R20.9912

年份 1978 1980 1985 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 国内生产总值Y 3605.6 4551.3 8792.1 11784.0 14704.0 16466.0 18319.5 21280.4 25863.6 34500.6 46690.7 58510.5 68330.4 74894.3 79853.3 从业人员L 40152 42361 49873 52783 54334 55329 63909 64799 65554 66373 67199 67947 68850 69600 69957 固定资本投入K 1073.9 1318.0 2641.0 3742.0 4624.0 4339.0 4732.0 5940.0 8317.0 12980.0 16856.3 20300.5 23336.1 25154.2 28180.8 从上式可以看出:偏斜率系数0.5616表示产出对劳动投入的弹性,也就是说其表示在资本投入保持不变的情况下,劳动投入每增加一个百分点,平均产出增加0.56%。如果将两个弹性系数相加,我么那将得到一个重要的经济参数—规模报酬参数,它反映了产出对投入的比例变动。如果两个弹性系数之和为1,则称为规模报酬不变;如果两个弹性系数之和大于1,则称规模报酬递增。在本例中,弹性系数之和是1.3846,表明中国经济是规模报酬递增的。

2.半对数模型

半对数模型指的是因变量和解释变量中一个为对数形式而另一个为线性的模型。应变量为对数形式的称为对数-线性模型(log-lin model)。解释变量为对数形式的称为线性-对数模型(lin-log model)。我们先介绍前者,其形式如下: lnYt01Xtut对数-线性模型中,斜率的含义是Y的百分比变动,即解释变量X变动一个单位引起的因变量Y的百分比变动。这是因为,利用微分可以得出:

dlnY1dYdY 1(dX1)dXYdXY

这表明,斜率度量的是解释变量X的单位变动所引起的因变量Y的相对变动。将此相对

11

变动乘以100,就得到Y的百分比变动,或者说得到Y的增长率。

由于对数-线性模型中斜率系数的这一含义,因而也叫增长模型(growth model)。

增长模型通常用于测度所关心的经济变量(如GDP)的增长率。例如,可以通过估计下面的半对数模型

ln(GDPt)01tut

得到一国GDP的年增长率的估计值,这里t为时间趋势变量。

例2:1973-1987年间美国未偿付消费者信贷的增长

下表给出了1973-1987年间美国未偿付消费者信贷的数据,Y单位为百万美元表示未偿付消费者信贷额,t表示年份数,试估计未偿付消费者信贷的年增长率并进行分析。

年份 1973 1974 1975 1976 1977 1978 1979 1980 Y 190601 199365 204963 228162 263808 308272 347507 349386 t 1 2 3 4 5 6 7 8 年份 1981 1982 1983 1984 1985 1986 1987 Y 366597 381115 430382 511768 592409 646055 685545 t 9 10 11 12 13 14 15 要估计未偿付消费者信贷的年增长率,即估计以下模型:lnYt=1+2t+ut 根据以上数据得到回归结果如下:

ˆ12.0070.0946tlnY t Se:0.03190.0035 t:376.4026.03 R20.9824回归系数均是统计显著的,回归方程显著成立。 对回归结果解释如下:

回归系数0.0946表示未偿付消费者信贷Y的年增长率为9.46%. 对截距12.007解释如下, 当t=0时,lnY0=12.007,

即当t=0时,Y0≈163911.7,即1973年初未偿付消费者信贷量为163911.7百万美元。 线性-对数模型的形式如下:

Yt01lnXtut

dY1与前面类似,可用微分得到 1dXX

dYdYX因此 1XY的绝对变动YY11dXdXXX 这表明 X的相对变动XX 12

上式表明,Y的绝对变动量等于1 乘以X的相对变动量。因此, 线性-对数模型通常用于研究解释变量每变动1%引起的因变量的绝对变动量是多少这类问题。 例3:1973-1987年美国GNP与货币供给间的关系

下表给出了1973-1987年间美国GNP与货币供给的数据,Y表示GNP,X表示货币供给用M2度量单位均为亿美元。试估计货币供给每增加一个百分点,GNP的绝对变动量。

年份 1973 1974 1975 1976 1977 1978 1979 1980 Y 1359.3 1472.8 1598.4 1782.8 1990.5 2249.7 2508.2 2723.0 X 861.0 908.5 1023.2 1163.7 1286.7 1389.0 1500.2 1633.1 年份 1981 1982 1983 1984 1985 1986 1987 Y 3052.6 3166.0 3405.7 3772.2 4014.9 4240.3 4526.7 X 1795.5 1954.0 2185.2 2363.6 2562.6 2807.7 2901.0 根据以上数据估计以下模型:

Yt=1+2lnXt+ut 得到回归结果如下: Yˆ16329.02584.8lnXtt

t:23.49427.549 2R 0.9832回归系数均是统计显著的,回归方程显著成立。 对回归结果解释如下:

回归系数2584.8表示货币供给每增加一个百分点,GNP的绝对变化量为25.848亿美元。 3.双曲函数模型 1Yutt01双曲函数模型的形式为:

Xt不难看出,这是一个仅存在变量非线性的模型,很容易用重新定义的方法将其线性化。双曲函数模型的特点是,当X趋向无穷时,Y趋向0,反映到图上,就是当X趋向无穷时,Y将无限靠近其渐近线(Y= 0)。双曲函数模型通常用于描述著名的恩格尔曲线和菲利普斯曲线。

4.多项式回归模型

多项式回归模型通常用于描述生产成本函数,其一般形式为:

Yi01Xi2Xi2pXipui

其中Y表示总成本,X表示产出,P为多项式的阶数,一般不超过四阶。

多项式回归模型中,解释变量X以不同幂次出现在方程的右端。这类模型也仅存在变量非

13

线性,因而很容易线性化,可用OLS法估计模型。 二、模型中遗漏有关的解释变量

模型中遗漏了对因变量有显著影响的解释变量的后果是:将使模型参数估计量不再是无偏估计量。

下面用一个简单例子说明:

设正确模型为Y= 0+ 1X1+ 2X2+u…… (9.2.1) 而实际估计的模型为Y= 0+ 1X1+u… (9.2.2)

也就是说忽略了对Y有重要影响的变量X2估计式(9.2.2),得

X1X1YY ˆ15.112 X1X1而由式(9.2.1)有

YY1X1X12X2X2uu5.12

将式(5.12)代入式(5.11),得

X1X11X1X12X2X2uu ˆ12X1X1

X1X1X2X2X1X1uu 1222XXXX1111

取期望值,得

X1X1X2X2 ˆ112EE2 X1X1

X1X1uu E2 X1X1 X1X1X2X2ˆ112EE 2X1X1

X1X1uuE 2X1X1

上式右边第三项等于零,而第二项方括号中内容可以看做回归方程X2= + X1+u中斜率系

ˆ。可以预期, X1和X2之间存在一定程度的相关,从而第二项不等于0, 数的估计量

ˆ1是真实参数1的一个有偏估计量。 因此,遗漏有关的解释变量将使参数估计量产生偏倚

ˆ11故E 14

三、包括无关的解释变量

模型中包括无关的解释变量,参数估计量仍无偏,但会增大估计量的方差,即增大误差。 设正确模型为Y= 0+ 1X1+u… (9.13) 而实际估计的模型为

Y= 0+ 1X1+ 2X2+u…… (9.14)

也就是说X2与Y无关,因而应有2=0

ˆ,即ˆ是真实参数1的无偏估计量。 可以证明 E1112 ˆ但是Var122 1r12X1X1

其中r12是X1和X2的相关系数。 2ˆ1而Var2 X1X1

ˆ1Varˆ因而Var,由于r12一般不等于0, 121r12

ˆVarˆ1因此有Var 1故模型中包括无关的解释变量,参数估计量仍无偏,但会增大估计量的方差,即增大误差。 四. 解决解释变量误设定问题的原则

在模型设定中的一般原则是尽量不漏掉有关的解释变量。因为估计量有偏比增大误差更严重。但如果方差很大,得到的无偏估计量也没有多大意义,因此也不宜随意乱增加解释变量。

在回归实践中,有时要对某个变量是否应该作为解释变量包括在方程中作出准确的判断不是一件容易的事,因为目前还没有行之有效的方法可供使用。尽管如此,还是有一些有助于进行判断的准则可用,它们是: 选择解释变量的四条准则

1. 理论:从理论上看,该变量是否应该作为解释变量包括在方程中? 2. t检验:该变量的系数估计值是否显著?

3. R:该变量加进方程中后,R是否增大?

4. 偏倚:该变量加进方程中后,其它变量的系数估计值是否显著变化? 如果对四个问题的回答都是肯定的,则该变量应该包括在方程中;

如果对四个问题的回答都是“否”, 则该变量是无关变量,可以安全地从方程中删掉它。这是两种容易决策的情形。

但根据以上准则判断并不总是这么简单。在很多情况下,这四项准则的判断结果会出现不一致。例如,有可能某个变量加进方程后,R增大,但该变量不显著。 因此,当这四项准则出现不一致的情况时,作出正确判断不是一件容易的事,一般而言采用的办法是将理论准则放在第一位,再多的统计证据也不能将一个理论上很重要的变量变成“无关”变量。否则产生不正确结果的风险很大。 五. 检验误设定的RESET方法

上面给出了选择解释变量的四条准则。可是,有时这些准则不能提供足够的信息使研究人员确信其设定是最恰当的,在这种情况下,可考虑使用一些更正规的检验方法来比较不同

222 15

估计方程的性质。

这类方法相当多,有一、二十种,这里就不一一列出,仅介绍拉姆齐(J. B. Ramsey)的回归设定误差检验法(RESET法)。 RESET检验法的思路

ˆ2,Yˆ3和Yˆ4等项作为解释变量,然 RESET检验法的思路是在要检验的回归方程中加进Y后看结果是否有显著改善。如有,则可判断原方程存在遗漏有关变量的问题或其它的误设定

问题。 直观地看,这些添加的项是任何可能的遗漏变量或错误的函数形式的替身,如果这些替身能够通过F检验, 表明它们改善了原方程的拟合状况,则有理由说原方程存在误设定问题。

ˆ2,Yˆ3和Yˆ4 等项形成多项式函数形式,多项式是一种强有力的曲线拟合工具,因而如果存Y在误设定,则用这样一个工具可以很好地代表它们。

如果不存在误设定,则可以预期,这些新添加项的系数不显著异于0,因为不存在让它们做替身的东西。 RESET检验法的步骤

拉姆齐RESET检验的具体步骤是: (1) 用OLS法估计要检验的方程,得到

ˆˆXˆX Yˆi011i22iˆ2,Yˆ3和Yˆ4 ,然后用OLS法估计: ˆ(i=1,2,…,n)(2) 由上一步得到的值Y,计算 Yiˆi24Yˆi35Yˆi4ui Yi01X1i2X2i3Y(3) 用F检验比较两个方程的拟合情况(类似于上一章中联合假设检验采用的方法),如果两方程总体拟合情况显著不同,则得出原方程可能存在误设定的结论。 使用的检验统计量为: (RSSMRSS)/MF RSS/(nk1)其中:RSSM为第一步中回归(有约束回归)的残差平方和,RSS为第二步中回归(无约束回归)的残差平方和,M为约束条件的个数,这里是M=3。

拉姆齐RESET检验仅能检验误设定的存在,而不能指出是哪一类的误设定,即不能得到正确的模型是什么。另一方面,如果模型设定正确,RESET检验能够排除误设定的存在,转而去查找其它方面的问题。

第九章 案例分析

以引子中所提出的问题为例,分析影响中国进口量的主要因素(数据如表9.3所示)。

表9.3 单位:人民币亿元、亿美元

进口总额IM年份 GDP (人民币) IMdollar(美元) 1980 1981

EXCHANGE 进口总额 汇率 4517.8 4862.4 298.8000 375.3800 200.17 220.15 16

149.8400 170.5100

1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 5294.7 5934.5 7171.0 8964.4 10202.20 11962.50 14928.30 16909.20 18547.90 21617.80 26638.10 34634.40 46759.40 58478.10 67884.60 74462.60 78345.20 82067.50 89468.10 97314.80 105172.3 117251.9 364.9900 422.6000 637.8300 1257.800 1498.300 1614.200 2055.100 2199.900 2574.300 3398.700 4443.300 5986.200 9960.100 11048.10 11557.40 11806.50 11626.10 13736.40 18638.80 20159.20 24430.30 34195.60 192.85 213.90 274.10 422.52 429.04 432.16 552.75 591.40 533.45 637.91 805.85 1039.59 1156.14 1320.84 1388.33 1423.70 1402.37 1656.99 2250.94 2435.53 2951.70 4127.60 189.2600 197.5700 232.7000 293.6600 345.2800 372.2100 372.2100 376.5100 478.3200 532.3300 551.4600 576.2000 861.8700 835.1000 831.4200 828.9800 827.9100 827.8300 827.8400 827.7000 827.7000 827.7000 数据来源:《中国统计年鉴2004》中国统计出版社 设定如下的模型。

IMt12GDPtut (9.50)

其中,IMt是进口总额,GDPt是国内生产总值。

为了分析此模型是否有变量设定误差,进行变量设定误差检验。

有人认为,货物与服务的进口量受到一国的生产规模、货物与服务的进口价格、汇率等其他影响因素,而不能只仅用GDP来解释商品进口的变化。因此,设定的回归模型应该

17

为:

IMt12fGDPt3gExchangetut (9.51)

其中:GDP为国内生产总值,的汇率,

fGDP为GDP的线性函数,Exchange为美元兑换人民币

gExchange为Exchange的线性函数。

如果是这样,显然设定的回归模型(9.50)

式中可能遗漏了变量GDP、Exchange以及两者的线性组合。那么GDP、Exchange以及两者的线性组合是否被遗漏的重要变量呢?

依据表9.3的数据,录入到EViews响应的数据表中,考证IM=f(GDP)基本关系图:

35000300002500020000IM1500010000500000200004000060000GDP80000100000120000 对(9.50)进行回归,有回归结果

imi1067.3370.2307GDPiei

se= (792.2620) (0.0142) t= (-2.0288) (16.2378)

22 R0.9230 R0.9195 DW=0.5357 F=263.6657

并作(9.50)回归的残差图:

1000080006000400020000-2000-4000-6000808284868890929496980002IM Residuals 显然,存在自相关现象,其主要原因可能是建模时遗漏了重要的相关变量造成的。

1、DW检验

模型imi1067.3370.2307GDPiei的DW统计量表明,存在正的自相关,由于遗漏变量exchange或GDP 已经按从小到大顺序排列,因此,无需重新计算d统计量。对n=24和k'1,5%的德宾-沃森d-统计量的临界值为dL1.273和dU1.446,

18

0.5357dL1.273,表明存在显著的遗漏变量现象。

为此,进行如下的校正:

Dependent Variable: IM Method: Least Squares Date: 07/08/05 Time: 15:40 Sample (adjusted): 1981 2003

Included observations: 23 after adjustments

Variable

Coefficient

Std. Error

t-Statistic

Prob.

C GDP GDP(-1) EXCHANGE EXCHANGE^2

-224.3632 1.148259 -0.822444 -4.290746 -0.018637

1892.132 0.151433 0.147359 8.348744 0.008353

-0.118577 7.582606 -5.581213 -0.513939 -2.231162

0.9069 0.0000 0.0000 0.6135 0.0386

R-squared

Adjusted R-squared S.E. of regression Sum squared resid Log likelihood Durbin-Watson stat

0.978691 Mean dependent var 0.973956 S.D. dependent var 1456.525 Akaike info criterion 38186370 Schwarz criterion -197.3443 F-statistic 1.962659 Prob(F-statistic)

8434.222 9025.326 17.59515 17.84200 206.6799 0.000000

其中,exchange的系数在统计意义上不显著,可以剔除,则有:

19

Dependent Variable: IM Method: Least Squares Date: 07/08/05 Time: 15:43 Sample (adjusted): 1981 2003

Included observations: 23 after adjustments

Variable

Coefficient

Std. Error

t-Statistic

Prob.

C GDP GDP(-1) EXCHANGE^2

-1159.179 1.142897 -0.815842 -0.022569

511.0396 0.148119 0.143928 0.003291

-2.268276 7.716070 -5.668420 -6.857844

0.0352 0.0000 0.0000 0.0000

R-squared

Adjusted R-squared S.E. of regression Sum squared resid Log likelihood Durbin-Watson stat

0.978378 Mean dependent var 0.974965 S.D. dependent var 1428.041 Akaike info criterion 38746720 Schwarz criterion -197.5118 F-statistic 2.047965 Prob(F-statistic)

8434.222 9025.326 17.52277 17.72024 286.5846 0.000000

可以认为,这时模型设定无变量设定误差。

2、LM检验

按照LM检验步骤,首先生成残差序列ei(用EE表示),用EE对全部解释变量(包括遗漏变量)进行回归,有:

20

Dependent Variable: EE Method: Least Squares Date: 07/08/05 Time: 15:45 Sample (adjusted): 1981 2003

Included observations: 23 after adjustments

Variable

Coefficient

Std. Error

t-Statistic

Prob.

C GDP GDP(-1) EXCHANGE^2

448.1584 0.912201 -0.815842 -0.022569

511.0396 0.148119 0.143928 0.003291

0.876954 6.158568 -5.668420 -6.857844

0.3915 0.0000 0.0000 0.0000

R-squared

Adjusted R-squared S.E. of regression Sum squared resid Log likelihood Durbin-Watson stat

0.727360 Mean dependent var 0.684312 S.D. dependent var 1428.041 Akaike info criterion 38746720 Schwarz criterion -197.5118 F-statistic 2.047965 Prob(F-statistic)

-37.56085 2541.624 17.52277 17.72024 16.89632 0.000014

2

227.37776再计算nR230.7273616.72928,查表0.025,显然,16.729287.37776,拒绝H0:受约束回归模型,接受H1:无约束回归模型的假设,即

确实存在遗漏变量。因此,在本章的引子中不能判断虽然简单但遗漏了重要变量的方程(1)比复杂的方程(2)更好

21

22

因篇幅问题不能全部显示,请点此查看更多更全内容

Top