乐于分享
好东西不私藏

找不到工具变量? 试试AEJ上的预测工具变量IV法, 从找不到好IV到自己造一个.

找不到工具变量? 试试AEJ上的预测工具变量IV法, 从找不到好IV到自己造一个.

凡是搞计量经济的,都关注这个号了

邮箱:econometrics666@126.com

所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.

传统的IV寻找过程,堪称一场三重修行。第一重是相关性,要求与内生变量高度相关;第二重是外生性,要求与误差项无关;第三重是排他性,要求只通过内生变量影响结果变量。

在现实的政策评估中,政策分配往往与经济禀赋、政治诉求深度绑定,想要找到一个干净的外生冲击,简直比登天还难。

有没有更优解吗?

当然有。今天我们要介绍的预测工具变量(Predicted instrumental variables),正是为破解该困境而出现的。

它的核心逻辑很简单,当真实的处理变量内生时,先用外生因素构建一个假想世界的预测版本,再用该预测值作为工具变量。

让我们看一个经典案例,

在巴西,电网建设往往偏向经济发达地区,若直接回归就会产生严重的偏误。但经济学家发现,水电站的选址成本取决于地形(水流越大、坡度越陡,发电成本越低)。于是,他们利用地形数据预测了一个基于成本最小化的假想电网。地形是老天爷定的,不会随人的经济活动改变。这个基于地形预测出来的假电网,就成了一个完美的工具变量。

这种方法不仅成就了Lipscomb等在AEJ: Applied Economics上的经典研究,近期也被国内学者巧妙地应用于西部陆海新通道等政策评估中,为因果推断提供了新的稳健性证据。

预测IV到底该如何构建?外生性如何论证?排他性约束怎么检验?

1.预测IV的代表作是用地形预测巴西电网

预测工具变量的标志性文献,当属Lipscomb、Mobarak和Barham 2013年发表于AEJ:AE的论文,题为《电气化的发展效应:来自巴西水电站地形布局的证据》。

研究的问题是什么?巴西1960—2000年间大规模电网扩张是否推动了县域经济发展?

内生性挑战有哪些?电网建设绝非随机分配。政府往往优先将电力输送至人口密集、经济活跃的地区(正向选择),或出于政治考量向落后地区倾斜(负向选择)。无论哪种情形,OLS估计都会产生系统性偏误。

工具变量的构建是怎样的?该研究的天才之处在于,巴西85%的电力依赖水力发电,而水电站的选址成本高度取决于地形条件,水流量越大、河床坡度越陡,建设成本越低、发电效率越高。

基于此,作者构建了一个三步走的预测电网模型。

第一步(预算约束),以每十年实际新建水电站数量作为建设预算,确定各期可建设的电站规模。

第二步(成本排序),用水流汇聚量、河床坡度、是否位于亚马逊等地形变量,通过Probit回归估计每个网格点建设水电站的适宜度得分,并按此排序,得分最高者最先获得水电站,直至该期预算耗尽。

第三步(输电延伸),用成本最小化算法规划从每座预测水电站出发的输电线路,并假设输电站周边50公里范围内的网格点获得电力覆盖。

如此得到的假设性电网覆盖率,就是工具变量。其逻辑在于,地形是老天爷定的,山坡陡不陡、水流怎么走,不会因人搬家或搞经济而改变,也不是政府能随意规划的。

识别结果如何?比OLS,2SLS估计的电气化效应显著更大。这反映出OLS存在向下偏误,政府倾向于向欠发达地区送电,压低了平均估计量。

IV纠偏后,完全电气化可使县域HDI提升约9—11个百分点,相当于将1980年中位数县推至第69百分位;人均收入效应约为10%的电气化覆盖率对应近10%的收入增长;就业率提升约17—18个百分点。

作者还做了一系列检验来支持工具变量的有效性。a.预测电网的空间排序与人口密度/GDP排序的Spearman相关系数极低(接近零),说明地形优先序与经济活动分布高度正交;

b.滞后发展指标(住房价值、HDI)无法预测工具变量,排除反向因果;

c.在第二阶段控制水流、坡度、亚马逊等地理变量后,工具变量仍保持显著的第一阶段预测力,说明识别力来自模型的非线性与预算约束产生的截断效应,而非地理变量的直接影响。

2.国内文章预测陆海新通道站点城市

国内研究同样涌现出关于预测工具变量应用的研究。《经济学(季刊)》2026年发表的《畅通双循环对经济增长的拉动效应——以西部陆海新通道建设为例》,在稳健性检验中使用了预测工具变量法对基准DID结果进行再验证。

西部陆海新通道自2017年启动、2019年上升为国家战略,通过陆海联运连接西南五省区市与北部湾出海口。论文以乡镇为单元,用卫星夜间灯光亮度衡量经济增长,检验站点城市开通是否显著地提升了所辖乡镇的经济增长水平。

不过,站点城市的选择并非随机,经济发展水平更高、二产比重更大、距北部湾更近的城市,更可能被纳入站点体系。即便通过交错DID控制了前定特征,遗漏变量问题仍难以完全被排除。

预测IV的构建。参考Lipscomb et al.(2013)和Lu et al.(2023)的框架,作者用以下外生自然地理因素估计各城市成为站点的潜在建设成本:气候变量方面,包括平均降水量、地表粉尘浓度、平均气温、日最高气温、平均地表气温、日照时数;灾害变量方面,采用省级地震灾害次数;距离变量方面,分别计算到北部湾港、深圳港、厦门港以及海岸线的距离,共11个预测变量。

文章两步走的逻辑如下。第一步(排他性检验):将上述11个预测变量逐一对乡镇经济增长进行回归。结果显示,所有变量的系数均不显著,它们与乡镇层面的经济活动无直接关联,满足排他性条件。

第二步(预测与估计):依据各城市估计的潜在建设成本进行排序,预测其成为站点城市的概率,将预测的是否为潜在站点城市作为工具变量,进行2SLS估计。

结果呢?第一阶段中,工具变量与是否开通陆海新通道站点显著正相关(系数0.328,KP F统计量17.644,通过弱工具变量检验);第二阶段中,西部陆海新通道开通在1%水平上显著促进乡镇经济增长(系数0.068),与基准DID结果方向一致,验证了主回归的稳健性。

3.方法论要点与使用指南

综合上述两篇文献,预测工具变量法的核心要点可归纳如下。

3.1 构建假想世界的三个条件
条件
含义
检验方式
可预测性
预测变量对处理变量具有强解释力
第一阶段F统计量(Kleibergen-Paap)> 10
外生性
预测变量来自不受政策干预的外生因素
理论论证和领域知识
排他性
预测变量不直接影响结果变量
直接对结果变量回归,系数应不显著
3.2 常见的外生变量来源

a.地形与自然地理,如坡度、水流、海拔、距海岸线距离,这是Lipscomb et al.(2013)的经典路径。

b.气候与灾害,如降水量、气温、地震频率,郑世林等(2026)即采用这一路径。

c.历史遗留特征如历史政区、殖民时期基础设施布局等与当期政策分配无关的历史变量。

3.3 排他性的验证逻辑

排他性条件无法直接检验,但可以通过以下方式增强可信度。

a.直接回归法(郑世林等),将每个预测变量单独对结果变量回归,系数不显著则提供间接佐证。

b.控制预测因子法(Lipscomb et al.),在第二阶段直接控制地形变量,若2SLS系数稳健,说明IV的识别力来自模型结构(预算截断、非线性),而非地形变量的直接效应。

c.跨国稳健性(Lipscomb et al.),用美国水电数据重新估计成本参数,结果方向一致,表明预测模型捕捉的是工程技术成本,而非巴西特有的需求偏好。

3.4 与其他方法的比较
传统IV是找到一个现成的外生变量,预测IV是用外生因素建构出一个只反映供给侧成本的合成变量。核心差异有两点。

第一,传统IV中外生变量本身直接作为instrument;第二,预测IV中外生变量通过结构模型(成本排序加预算截断)

生成instrument,识别力来自模型的非线性与截断机制,而非地理变量的直接效应。

这也是为什么在第二阶段直接控制坡度、水流等地形变量后,matlab_instrument的第一阶段仍然显著。如果识别力只来自地形本身,加入地形控制后instrument就应该失效。

1.最全! 我国适合”断点回归”的政策都整理出来了, 让你有做不完的RDD断点政策评2.最全! 我国适合”合成控制法”的政策都整理出来了, 让你有做不完的SCM政策评估3.最全106页! 我国适合DID双重差分的政策都整理出来了, 让你有做不完的DID政策4.最全! 我国适合DDD三重差分的政策都整理出来了, 让你有做不完的DDD政策论

7.最全! 我国各种X的工具变量IV都整理出来了, 8.最全! 把CFPS研究过的全部自变量X与因变量Y做成数据库了, 全网第一份CFPS选题数据库.9.最全! 把CHFS研究过的全部自变量X与因变量Y做成数据库了, 第一份CHFS金融选题数据库.10.中国健康与养老CHARLS选题库, X与Y的研究组合助你研究老年人问题.11.把CSMAR研究过的自变量X与因变量Y做成数据库了, 第一份公司与金融微观选题数据库.12.三农微观数据选题库, 从此AI轻易助你选择经过检验了的X与Y的不同组合选题.13.CHIP和CEPS选题数据库, 轻松助你选择经过检验了的X与Y的不同组合家庭收入和教育选题.

下面这些短链接文章属于合集,可以收藏起来阅读,不然以后都找不到了。

8年,计量经济圈近2500篇不重类计量文章,

可直接在公众号菜单栏搜索任何计量相关问题,

Econometrics Circle

数据系列空间矩阵 | 工企数据 | PM2.5 | 市场化指数 | CO2数据 |  夜间灯光官员方言 | 微观数据| 内部数据
计量系列匹配方法 | 内生性 | 工具变量 | DID | 面板数据 | 常用TOOL | 中介调节 | 时间序列 | RDD断点 | 合成控制 | 200篇合辑 | 因果识别 | 社会网络 | 空间DID
数据处理Stata | R | Python | 缺失值 | CHIP/ CHNS/CHARLS/CFPS/CGSS等 |
干货系列能源环境 | 效率研究 | 空间计量 | 国际经贸 | 计量软件 | 商科研究 | 机器学习 | SSCI | CSSCI | SSCI查询 | 名家经验
计量经济圈组织了一个计量社群,有如下特征:热情互助最多前沿趋势最多、社科资料最多、社科数据最多、科研牛人最多、海外名校最多。因此,建议积极进取和有强烈研习激情的中青年学者到社群交流探讨,始终坚信优秀是通过感染优秀而互相成就彼此的。
本站文章均为手工撰写未经允许谢绝转载:夜雨聆风 » 找不到工具变量? 试试AEJ上的预测工具变量IV法, 从找不到好IV到自己造一个.

猜你喜欢

  • 暂无文章