楚新元 | All in R

Welcome to R Square

虚拟变量回归模型

楚新元 / 2021-08-24


  本案例研究对象为美国 1970-1995 年间收入存储关系,案例来源:古扎拉蒂《经济计量学》(第 4 版,张涛译)例 6-4,详见第 145-147 页。

  表 1 给出了美国1970-1995年个人可支配收入(即税后收入)和个人储蓄,单位是10亿美元。目标是估计上述时期个人储蓄 \(Savings_{t}\) 和个人可支配收入 \(Income_{t}\) 的函数关系。

  为了估计储蓄函数,需要在整个区间上做 \(Savings_{t}\)\(Income_{t}\) 的回归。如果做这样的回归,则个人储蓄和个人可支配收入在整个样本区间内保持同样的关系。但这是一个不切实际的假设。众所周知,1982 年美国经历了和平时期最严重的经济衰退,当年的失业率达到 9.7%,创下了自 1948 年以来最高的记录。类似这样的事情可能会打破个人储蓄和个人可支配收入之间的关系。为了验证,我们把样本数据分为两个时期,1970-1981 年和 1982-1995 年,即分成萧条前后两个时期。

options(digits = 4)
library(readxl)
library(kableExtra)
data = read_xls("./data/Table6_7.xls")
data %>% 
  kable(
    caption = "美国个人储蓄和个人可支配收入(1970-1995年)",
    format = "html",
    booktabs = TRUE
  ) %>% 
  kable_styling(
    full_width = TRUE,
    font_size = 14
  ) %>% 
  add_footnote(
    label = "数据来源:总统经济报告,1997年,数据单位为十亿美元,摘自表B-28,第332页。",
    notation = "none"
  )
表 1:美国个人储蓄和个人可支配收入(1970-1995年)
Year Savings Income D
1970 61.0 727.1 0
1971 68.6 790.2 0
1972 63.6 855.3 0
1973 89.6 965.0 0
1974 97.6 1054.2 0
1975 104.4 1159.2 0
1976 96.4 1273.0 0
1977 92.5 1401.4 0
1978 112.6 1580.1 0
1979 130.1 1769.5 0
1980 161.8 1973.3 0
1981 199.1 2200.2 0
1982 205.5 2347.3 1
1983 167.0 2522.4 1
1984 235.7 2810.0 1
1985 206.2 3002.0 1
1986 196.5 3187.6 1
1987 168.4 3363.1 1
1988 189.1 3640.8 1
1989 187.8 3894.5 1
1990 208.7 4166.8 1
1991 246.4 4343.7 1
1992 272.6 4613.7 1
1993 214.4 4790.2 1
1994 189.4 5021.7 1
1995 249.3 5320.8 1
数据来源:总统经济报告,1997年,数据单位为十亿美元,摘自表B-28,第332页。

  原则上来说,能够分别对上述两个时期进行回归。但我们可以仅估计一个形式,只需要在模型中引入一个虚拟变量,比如 \(D_{t}\),1982 年以前赋值为 1,1982 年及以后赋值为 0。建立计量经济模型的表达式如下:

$$ Savings_{t}=\alpha_{1}+\alpha_{2} D_{t}+\beta_{1} Income_{t}+\beta_{2}\left(D_{t} Income_{t}\right)+u_{t} $$

  表 2 给出了回归结果。回归结果表明,差别截距 \(\alpha_{2}\) 和差别斜率 \(\beta_{2}\) 都是统计显著的,说明两个时期的储蓄-收入函数关系发生了改变。

fit1 = lm(Savings ~ Income, data = data)
fit2 = lm(Savings ~ D * Income, data = data)
fit1b = coef(fit1)
fit2b = coef(fit2)

library(stargazer)
stargazer(
  label = "tab:tb2",
  fit1, fit2,
  type = "html",
  title = "美国储蓄-收入关系的回归结果",
  dep.var.labels = "Savings", 
  intercept.bottom = FALSE,
  intercept.top = TRUE,
  header = FALSE,
  covariate.labels = c(
    "Intercept",
    "D",
    "Income",
    "D * Income"
  )
)
美国储蓄-收入关系的回归结果
Dependent variable:
Savings
(1)(2)
Intercept62.420***1.016
(12.760)(20.160)
D152.500***
(33.080)
Income0.038***0.080***
(0.004)(0.014)
D * Income-0.065***
(0.016)
Observations2626
R20.7670.882
Adjusted R20.7580.866
Residual Std. Error31.120 (df = 24)23.150 (df = 22)
F Statistic79.100*** (df = 1; 24)54.780*** (df = 3; 22)
Note:*p<0.1; **p<0.05; ***p<0.01

  根据表 2 结果,可以推导出两个时期的储蓄回归方程。

$$ \widehat{Savings_{t}} = 1.0161 + 152.4786 D_{t} + 0.0803 Income_{t} - 0.0655\left(D_{t} Savings_{t}\right) $$

  储蓄-收入:1970-1981年

$$ \begin{aligned} \widehat{Savings}_{t} = 1.0161 + 0.0803 Income_{t} \end{aligned} $$

  储蓄-收入:1982-1995年

$$ \begin{aligned} \widehat{Savings_{t}} &= (1.0161 + 152.4786) + (0.0803 - 0.0655) Income_{t} \\ &=153.4947 + 0.0149Income_{t} \end{aligned} $$

  可以看出,萧条前后两个时期的边际消费倾向(MPS,即收入美增加 1 个单位而增加的额外储蓄)存在显著差异。1970-1981 年的 MPS 为 8 美分,而 1982-1995 年的 MPS 仅为 1 美分。

  案例更多内容请参阅古扎拉蒂和波特著《经济计量学精要》。