《如何科学评估经济政策的效应?.docx》由会员分享,可在线阅读,更多相关《如何科学评估经济政策的效应?.docx(21页珍藏版)》请在第一文库网上搜索。
1、如何科学评估经济政策的效应?一、科学评估方法的基本逻辑从科学的意义上来说,评估一项政策的实施效应其背后的基本逻 辑应该是:在给定其他条件相同的情况下,实施政策后的表现(例如 价格)与假定没有实施政策后的表现的差异。这句话虽然很简单,但 其背后的前提条件是非常苛刻的。举一个通俗的例子,假定我们要评 估的是大学教育对工资的贡献度,我们可以造一个时空穿梭机器,首 先让某人在现实中读大学,然后记录他工作时的收入A,接着我们用 时空穿梭机将他再送回去,这次不让他上大学,记录他另一个平行世 界中的收入B,则A-B就是此人上大学的教育回报。在政策评估的方 法论中,这个例子中的B就是A的完美的反事实对照组 (
2、CounterfactuaI),也就是说,一旦其接受政策干预,则表现是A, 如果没有接受政策干预,结果就是B。但是我们知道,上述例子在任何的学科领域都是无法实现的,因 为历史都是单线程往前发展的,理论上我们无法构造出一个完美的平 行世界,因此我们就无法获得一个政策实施后的反事实对照组。在现 实世界中,一个人要么受到政策的干预,要么就是没有收到干预。以 上大学为例,现实世界中的某个人,其只可能占据两种状态的一种, 要么真的上大学了,要么就没有,我们无法看到一个人上大学状态下 的反事实(没上大学),也无法观察到没有上大学人群的反事实(上 大学)。因此,如果从一种极致的科学评估的角度来看,严格来说是
3、 无法从这个例子中去评估上大学的效应。自然而然,我们经常采取的方法是,直接比较那些受到政策干预 的人群和未受到政策干预的人群的差别,将这个差别等价于政策实施 的效果,这种简单比较的统计方法,其背后包含了一个极其苛刻的要 求,那就是用未受到政策干预的人群作为政策干预人群的反事实,这 句话的潜台词是说,如果那些受到干预的人群没有收到干预,其结果 应该与未受到干预人群的结果是一致的。很遗憾的是,在大多数的现 实政策中,这一前提条件往往是无法满足的,从而导致了整个评估结 果的巨大偏误。举例说明,医疗卫生支出是政府需要大力进行资助的 领域,但是作为决策层来说,任何的决策都是一种权衡和选择,用在 医疗卫生
4、领域的多了,用在教育、基建等就必须减少,因此在做具体 的决策之前,就需要准确评估医疗卫生对国民健康的改善程度。我们 可以采取随机抽样问卷的方式,询问一个人在过去一周是否去过医院, 这个问题会呈现两种状态,如果去过医院,则是受到了医疗的干预, 如果没有去过,则是未干预组;同时,我们还让接受问卷的人回答其 自评健康程度,健康程度分为5档,1至5分别表示健康程度由差到 好。最后,我们将调查的结果分组汇总起来,就得到如下的统计表格。由于是随机发的问卷,去医院的只占全部人群的一小部分,因此 在近10万份的问卷中,仅有7774人是去过医院的,剩下的90049 人是没有去过医院的。我们将去过医院的人群的健康
5、程度取均值,其 健康程度是3.21,而没有去过医院的人群的平均健康程度为3.93。采 用简单对比的办法,我们会得出医疗恶化健康的错误结论。正如上一 段所说,当我们简单地将处理组(去医院)和控制组(没去医院)进 行对比时,其背后隐含的假设是,如果去医院的那些人没有去医院时, 他们和那些真正没去医院的人群的健康程度是相同的。我们假定去医 院的人是生病了,而没去医院的人则没有生病,前面那句话的意思是, 生病的人和没有生病的人,他们的健康程度是相同的。显而易见,这 个前提条件是无法满足的,假设那些去医院的人没去医院,他们的健 康程度也远低于实际上没去医院的人。因此,没去过医院的人群不能 作为去过医院人
6、群的反事实参照组。由于没去过医院的人群的健康程 度更好,因此这种简单对比会严重低估医疗的效应。在表1的例子中, 健康的效应应该是正向的,但由于低估的程度非常大,超过了理论上 的正向效应,简单对比就会得出负向的健康效应。另一种经常犯的错误是,简单对比政策前后的差异,并将这种时 间上的差异等价于政策效应。这种纵向对比,其背后隐含的假设是, 一旦没有实施该政策,该时间节点之后的表现应该与之前完全一致, 因此将节点之前的表现作为节点之后的反事实参照组。但在实际的经 济社会中,至少有两大类因素会使得这个假设不成立。一是时间趋势, 即某些因素会随着时间的推移逐步增加或者减少,比如人的年龄、一 个国家的CP
7、l等,即使没有相应的政策干预,这些因素也会呈现一定 的时间趋势,因此政策干预前的CPI并不能作为干预后的反事实参照 组。二是共同冲击,这类因素往往是在国家层面统一实施的宏观调控, 共同冲击会使得我们关注的指标也发生变化,而这种变化往往与政策 效应是混合在一起的,很难将其单独分离出来。我们以2011年实施的房产税试点政策为例,来说明纵向对比的 偏误。2011年2月份,为了遏制房地产价格过快上升的势头,我国 开始在部分城市进行房产税的试点,选择了上海和重庆两个试点城市。 与其他税种不同,房产税是在持有环节征收,等价于增加了房屋的持 有成本,理论上与提高利率的作用渠道是类似的,可以挤出一部分投 资性
8、的需求,进而发挥调节房价的作用。当然,房产税还有其他更加 重要的作用,例如为地方政府筹集可持续收入等等,因此该税种自试 点开始就被寄予厚望。但实际结果看上去却是不尽人意的,决策层和 舆论界都认为房产税试点没有起到遏制房价的作用,这种结论的来源 正是简单的纵向对比。如图1所示,重庆的房产税试点从2011年2 月开始,但是我们并没有看到重庆房价在试点时出现过下降,相反, 试点当年的房价反而上涨了 11%,看上去重庆的房产税政策并没有使 得重庆的房价下降,因此,就得出房产税无效的结论。这种简单的对比是错误的,房价没有下降并不代表房产税没有效 应,两者不可以简单地等价。按照科学意义上的评估方法,房产税
9、的 效应应该是比较重庆实际房价和假设没有房产税时的房价,当我们简 单对比房产税前后的实际房价时,就隐含了一个重要的假设,那就是 假设没有房产税时,重庆2011年的潜在房价水平应该跟2010年相同。 但由于存在时间趋势和共同冲击两个因素,重庆2011年的潜在房价 水平应该远远高于2010年。通俗来说,有房产税时的重庆房价上涨 了 11%,假设没有房产税,重庆的房价可能上涨了 15%,此时4%的 差距(15%-11%)才是房产税对房价的遏制效应。现实世界中,我们 是无法知道假设2011年没有房产税时的重庆房价,不过我们还是可 以大体上用其他城市的房价对重庆的趋势进行判断,与重庆相邻的成 都市,其2
10、011年的房价上涨了 13%,是大于有房产税的重庆市的房 价上涨幅度的,趋势上来说,重庆的潜在房价上涨幅度应该是超过 11%,房产税政策是有效果的。因此,简单进行纵向对比,严重低估 了重庆房产税政策的效应。政策评估的科学方法,其本质上是要找到反事实参照组。反事实 参照组要满足两个基本条件:一是要保证呈现反事实的特征,即一旦 实验组没有受到政策影响,实验组的结果应该与反事实组是完全一致 的;二是反事实参照组不能受到实验组的影响,即那些受到政策干预 的人群不能把这种影响传递给其他人,理论上是允许实验组内部的互 相影响,但如果这种影响外溢到参照组,无论这种外溢是主观还是客 观原因,都会导致对政策效应
11、估计的偏误,一般情况下都是低估了政 策的效应。例如在房产税的例子中,重庆和上海实施了房产税之后, 如果这些城市居民可以非常容易地到其他城市购房的话,那么在重庆 和上海的房产税政策的效应就外溢到了其他城市,不过幸运的是,由 于大多数城市都对非户籍居民采取限购房产的政策,因此房产税的外 溢效应是比较小的。显然,按照“穿越剧”的方式构造反事实参照组是不现实的,不 过我们还是可以基于这样科学的视角,采取其他类似方法来构造一种 近似的“穿越剧”。常见的构造方法有两类:一是通过数据筛选的方 法,二是随机试验的方法。数据筛选的最佳例子是同卵双胞胎的数据, 这一数据构造借鉴了医学和药物学的科学方法。在药物进入
12、临床应用 阶段,需要对药物的实际效果进行评估,因此需要招聘一些志愿者来 服用药物,但是不能简单根据志愿者报名的情况直接进行药物试验, 因为我们无法排除志愿者自身的特征对药物作用的影响。因此,在最 理想的情况下,药物公司需要招聘一些同卵双胞胎的群体,给予双胞 胎的其中一个服用药物,而另一个则不服用,在一段时间之后再评估 他们的各项指标。不过,这里面还要进一步排除心理因素的作用,即 那些服用了药物的双胞胎个人可能因为自我心理暗示,导致实际作用 大于药物作用,这样也会高估药物作用。因此,一个完美的实验,除 了需要双胞胎的组别之外,还不能让参加的那组人干扰药物实验,如 果这样的话,则还需要进行安慰奖检
13、验(PlaCebOteSt)的设计。具体 来说,就是要给予双胞胎组别同时服用,其中双胞胎的一半服用真实 药物,另一半服用一种外形无差别的糖丸,双胞胎的两方都以为自己 服用了药物,心理干扰因素的作用对两方同时存在,他们事后的差异 就完全是药物的作用。第二种构造反事实参照组的方法是随机试验,更准确地说,是随 机干预实验(RandomizedControIIedTreatmenLRCT)O 该方法最近几 年在发展中国家非常盛行,由于其相对清晰和简单的实验设计,也被 世界银行大范围应用于一些扶贫项目的效应评估。这一方法的核心在 于“随机”二字,采用的是统计学的原理,即如果可以用随机的方法 来选择哪些人
14、群接受政策干预的话,同时保证受政策干预的人群数量 足够大,那么从统计学上,就可以将随机分组的结果等同于政策效应。 我们同样以表1的就医为例,如果采用随机试验的方法,应该是针对 那些有就医需求的所有人群,通过抛硬币的方法来决定是否可以去医 院,例如当抛硬币为正面时,就可以上医院,如果为反面,则不能上 医院,由于抛硬币的正反面结果是一个随机冲击,因此对那些有就医 需求的人群通过抛硬币的方法,就是一种随机分组,我们事后来评估 有就医需求并去医院(正面硬币)和有就医需求并没有去医院(反面 硬币)的健康差异,就是医疗对健康的实际改善程度。这两种构造反事实组的方法虽然能够满足科学评估的要求,但在 政策评估
15、方面的应用性不强。同卵双胞胎的数据筛选方法局限于就业 和收入方面的应用,例如可以评估教育(上大学)或党员身份对收入 的影响,但由于绝大部分同卵双胞胎都在同一个辖区,大多数的政策 又是对该辖区进行全覆盖,因此很难找到同一组双胞胎受不同政策影 响的数据。随机试验方法的应用性比数据筛选方法好一些,但也存在 另外两个问题:一是面临伦理难题,例如前面的就医例子,采用抛硬 币的方法,就是一个伦理问题;二是很多随机试验,在操作过程中很 难完全满足随机性的要求,为了操作便利性,一些随机试验并不是在 个体层面随机筛选,而是在村镇甚至更加总层面的随机筛选,这就在 一定程度上损害了该方法的科学性。二、常见的几种评估
16、方法和案例剖析绝大多数的政策并不是根据评估的要求来实施的,因此政策评估 的数据并不是一种实验数据,而是一种观测数据,即政策实施之后收 集的数据。在大多数情况下,政策评估方并没有直接参与到政策的设 计和实施过程,无法按照科学评估方法的要求来构造和生产数据,因 此任何利用观测数据的政策评估就必须非常小心和科学论证,针对不 同的数据结构和政策类型采用不同的评估方法,并反复检验该方法的 适用性。根据政策实施的过程,可以将一个国家或部门的政策分为三类, 不同的政策类型刚好对应了不同的评估方法。第一种是“先行先试” 的政策,这类政策往往是决策层无法准确预判其社会和经济影响,政 策的容错空间小,需要挑选一些地区或者行业做政策试点,如果试点 的效果比较理想,则可以在全国层面推广,反之则不推广。例如,2016 年5月1日在全国实施的“营改增”,就是在2012年开始进行试点的, 1994年至2012年增值税和营业税并存的状况,严重阻碍了制造业和 服务业的分工和发展,也导致了服务业的重复征税问题,因此将服务 业的营业税改为增值税就显得非常必要。不过