如何科学评估经济政策的效应？.docx

资源描述

《如何科学评估经济政策的效应？.docx》由会员分享，可在线阅读，更多相关《如何科学评估经济政策的效应？.docx（21页珍藏版）》请在第一文库网上搜索。

1、如何科学评估经济政策的效应?一、科学评估方法的基本逻辑从科学的意义上来说，评估一项政策的实施效应其背后的基本逻辑应该是：在给定其他条件相同的情况下，实施政策后的表现（例如价格）与假定没有实施政策后的表现的差异。这句话虽然很简单，但其背后的前提条件是非常苛刻的。举一个通俗的例子，假定我们要评估的是大学教育对工资的贡献度，我们可以造一个时空穿梭机器，首先让某人在现实中读大学，然后记录他工作时的收入A,接着我们用时空穿梭机将他再送回去，这次不让他上大学，记录他另一个平行世界中的收入B,则A-B就是此人上大学的教育回报。在政策评估的方法论中，这个例子中的B就是A的完美的反事实对照组（

2、CounterfactuaI）,也就是说，一旦其接受政策干预，则表现是A, 如果没有接受政策干预，结果就是B。但是我们知道，上述例子在任何的学科领域都是无法实现的，因为历史都是单线程往前发展的，理论上我们无法构造出一个完美的平行世界，因此我们就无法获得一个政策实施后的反事实对照组。在现实世界中，一个人要么受到政策的干预，要么就是没有收到干预。以上大学为例，现实世界中的某个人，其只可能占据两种状态的一种, 要么真的上大学了，要么就没有，我们无法看到一个人上大学状态下的反事实（没上大学），也无法观察到没有上大学人群的反事实（上大学）。因此，如果从一种极致的科学评估的角度来看，严格来说是

3、无法从这个例子中去评估上大学的效应。自然而然，我们经常采取的方法是，直接比较那些受到政策干预的人群和未受到政策干预的人群的差别，将这个差别等价于政策实施的效果，这种简单比较的统计方法，其背后包含了一个极其苛刻的要求，那就是用未受到政策干预的人群作为政策干预人群的反事实，这句话的潜台词是说，如果那些受到干预的人群没有收到干预，其结果应该与未受到干预人群的结果是一致的。很遗憾的是，在大多数的现实政策中，这一前提条件往往是无法满足的，从而导致了整个评估结果的巨大偏误。举例说明，医疗卫生支出是政府需要大力进行资助的领域，但是作为决策层来说，任何的决策都是一种权衡和选择，用在医疗卫生

4、领域的多了，用在教育、基建等就必须减少，因此在做具体的决策之前，就需要准确评估医疗卫生对国民健康的改善程度。我们可以采取随机抽样问卷的方式，询问一个人在过去一周是否去过医院, 这个问题会呈现两种状态，如果去过医院，则是受到了医疗的干预，如果没有去过，则是未干预组；同时，我们还让接受问卷的人回答其自评健康程度，健康程度分为5档，1至5分别表示健康程度由差到好。最后，我们将调查的结果分组汇总起来,就得到如下的统计表格。由于是随机发的问卷，去医院的只占全部人群的一小部分，因此在近10万份的问卷中，仅有7774人是去过医院的，剩下的90049 人是没有去过医院的。我们将去过医院的人群的健康

5、程度取均值，其健康程度是3.21,而没有去过医院的人群的平均健康程度为3.93。采用简单对比的办法，我们会得出医疗恶化健康的错误结论。正如上一段所说，当我们简单地将处理组（去医院）和控制组（没去医院）进行对比时，其背后隐含的假设是，如果去医院的那些人没有去医院时, 他们和那些真正没去医院的人群的健康程度是相同的。我们假定去医院的人是生病了，而没去医院的人则没有生病，前面那句话的意思是, 生病的人和没有生病的人，他们的健康程度是相同的。显而易见，这个前提条件是无法满足的，假设那些去医院的人没去医院，他们的健康程度也远低于实际上没去医院的人。因此，没去过医院的人群不能作为去过医院人

6、群的反事实参照组。由于没去过医院的人群的健康程度更好，因此这种简单对比会严重低估医疗的效应。在表1的例子中，健康的效应应该是正向的，但由于低估的程度非常大，超过了理论上的正向效应，简单对比就会得出负向的健康效应。另一种经常犯的错误是，简单对比政策前后的差异，并将这种时间上的差异等价于政策效应。这种纵向对比，其背后隐含的假设是, 一旦没有实施该政策，该时间节点之后的表现应该与之前完全一致, 因此将节点之前的表现作为节点之后的反事实参照组。但在实际的经济社会中，至少有两大类因素会使得这个假设不成立。一是时间趋势, 即某些因素会随着时间的推移逐步增加或者减少，比如人的年龄、一个国家的CP

7、l等，即使没有相应的政策干预，这些因素也会呈现一定的时间趋势，因此政策干预前的CPI并不能作为干预后的反事实参照组。二是共同冲击，这类因素往往是在国家层面统一实施的宏观调控, 共同冲击会使得我们关注的指标也发生变化，而这种变化往往与政策效应是混合在一起的，很难将其单独分离出来。我们以2011年实施的房产税试点政策为例，来说明纵向对比的偏误。2011年2月份，为了遏制房地产价格过快上升的势头，我国开始在部分城市进行房产税的试点，选择了上海和重庆两个试点城市。与其他税种不同，房产税是在持有环节征收，等价于增加了房屋的持有成本，理论上与提高利率的作用渠道是类似的，可以挤出一部分投资性

8、的需求，进而发挥调节房价的作用。当然，房产税还有其他更加重要的作用，例如为地方政府筹集可持续收入等等，因此该税种自试点开始就被寄予厚望。但实际结果看上去却是不尽人意的，决策层和舆论界都认为房产税试点没有起到遏制房价的作用，这种结论的来源正是简单的纵向对比。如图1所示，重庆的房产税试点从2011年2 月开始，但是我们并没有看到重庆房价在试点时出现过下降，相反，试点当年的房价反而上涨了 11%,看上去重庆的房产税政策并没有使得重庆的房价下降，因此，就得出房产税无效的结论。这种简单的对比是错误的，房价没有下降并不代表房产税没有效应，两者不可以简单地等价。按照科学意义上的评估方法，房产税

9、的效应应该是比较重庆实际房价和假设没有房产税时的房价，当我们简单对比房产税前后的实际房价时，就隐含了一个重要的假设，那就是假设没有房产税时，重庆2011年的潜在房价水平应该跟2010年相同。但由于存在时间趋势和共同冲击两个因素，重庆2011年的潜在房价水平应该远远高于2010年。通俗来说，有房产税时的重庆房价上涨了 11%,假设没有房产税，重庆的房价可能上涨了 15%,此时4%的差距（15%-11%）才是房产税对房价的遏制效应。现实世界中，我们是无法知道假设2011年没有房产税时的重庆房价，不过我们还是可以大体上用其他城市的房价对重庆的趋势进行判断，与重庆相邻的成都市，其2

10、011年的房价上涨了 13%,是大于有房产税的重庆市的房价上涨幅度的，趋势上来说，重庆的潜在房价上涨幅度应该是超过 11%,房产税政策是有效果的。因此，简单进行纵向对比，严重低估了重庆房产税政策的效应。政策评估的科学方法，其本质上是要找到反事实参照组。反事实参照组要满足两个基本条件：一是要保证呈现反事实的特征，即一旦实验组没有受到政策影响，实验组的结果应该与反事实组是完全一致的；二是反事实参照组不能受到实验组的影响，即那些受到政策干预的人群不能把这种影响传递给其他人，理论上是允许实验组内部的互相影响，但如果这种影响外溢到参照组，无论这种外溢是主观还是客观原因，都会导致对政策效应

11、估计的偏误，一般情况下都是低估了政策的效应。例如在房产税的例子中，重庆和上海实施了房产税之后, 如果这些城市居民可以非常容易地到其他城市购房的话，那么在重庆和上海的房产税政策的效应就外溢到了其他城市，不过幸运的是，由于大多数城市都对非户籍居民采取限购房产的政策，因此房产税的外溢效应是比较小的。显然，按照“穿越剧”的方式构造反事实参照组是不现实的，不过我们还是可以基于这样科学的视角，采取其他类似方法来构造一种近似的“穿越剧”。常见的构造方法有两类：一是通过数据筛选的方法，二是随机试验的方法。数据筛选的最佳例子是同卵双胞胎的数据，这一数据构造借鉴了医学和药物学的科学方法。在药物进入

12、临床应用阶段，需要对药物的实际效果进行评估，因此需要招聘一些志愿者来服用药物，但是不能简单根据志愿者报名的情况直接进行药物试验, 因为我们无法排除志愿者自身的特征对药物作用的影响。因此，在最理想的情况下，药物公司需要招聘一些同卵双胞胎的群体，给予双胞胎的其中一个服用药物，而另一个则不服用，在一段时间之后再评估他们的各项指标。不过，这里面还要进一步排除心理因素的作用，即那些服用了药物的双胞胎个人可能因为自我心理暗示，导致实际作用大于药物作用，这样也会高估药物作用。因此，一个完美的实验，除了需要双胞胎的组别之外，还不能让参加的那组人干扰药物实验，如果这样的话，则还需要进行安慰奖检

13、验(PlaCebOteSt)的设计。具体来说，就是要给予双胞胎组别同时服用，其中双胞胎的一半服用真实药物，另一半服用一种外形无差别的糖丸，双胞胎的两方都以为自己服用了药物，心理干扰因素的作用对两方同时存在，他们事后的差异就完全是药物的作用。第二种构造反事实参照组的方法是随机试验，更准确地说，是随机干预实验(RandomizedControIIedTreatmenLRCT)O 该方法最近几年在发展中国家非常盛行，由于其相对清晰和简单的实验设计，也被世界银行大范围应用于一些扶贫项目的效应评估。这一方法的核心在于“随机”二字，采用的是统计学的原理，即如果可以用随机的方法来选择哪些人

14、群接受政策干预的话，同时保证受政策干预的人群数量足够大，那么从统计学上，就可以将随机分组的结果等同于政策效应。我们同样以表1的就医为例，如果采用随机试验的方法，应该是针对那些有就医需求的所有人群，通过抛硬币的方法来决定是否可以去医院，例如当抛硬币为正面时，就可以上医院，如果为反面，则不能上医院，由于抛硬币的正反面结果是一个随机冲击，因此对那些有就医需求的人群通过抛硬币的方法，就是一种随机分组，我们事后来评估有就医需求并去医院（正面硬币）和有就医需求并没有去医院（反面硬币）的健康差异，就是医疗对健康的实际改善程度。这两种构造反事实组的方法虽然能够满足科学评估的要求，但在政策评估

15、方面的应用性不强。同卵双胞胎的数据筛选方法局限于就业和收入方面的应用，例如可以评估教育（上大学）或党员身份对收入的影响，但由于绝大部分同卵双胞胎都在同一个辖区，大多数的政策又是对该辖区进行全覆盖，因此很难找到同一组双胞胎受不同政策影响的数据。随机试验方法的应用性比数据筛选方法好一些，但也存在另外两个问题：一是面临伦理难题，例如前面的就医例子，采用抛硬币的方法，就是一个伦理问题；二是很多随机试验，在操作过程中很难完全满足随机性的要求，为了操作便利性，一些随机试验并不是在个体层面随机筛选，而是在村镇甚至更加总层面的随机筛选，这就在一定程度上损害了该方法的科学性。二、常见的几种评估

16、方法和案例剖析绝大多数的政策并不是根据评估的要求来实施的，因此政策评估的数据并不是一种实验数据，而是一种观测数据，即政策实施之后收集的数据。在大多数情况下，政策评估方并没有直接参与到政策的设计和实施过程，无法按照科学评估方法的要求来构造和生产数据，因此任何利用观测数据的政策评估就必须非常小心和科学论证，针对不同的数据结构和政策类型采用不同的评估方法，并反复检验该方法的适用性。根据政策实施的过程，可以将一个国家或部门的政策分为三类，不同的政策类型刚好对应了不同的评估方法。第一种是“先行先试” 的政策，这类政策往往是决策层无法准确预判其社会和经济影响，政策的容错空间小，需要挑选一些地区或者行业做政策试点，如果试点的效果比较理想，则可以在全国层面推广，反之则不推广。例如，2016 年5月1日在全国实施的“营改增”,就是在2012年开始进行试点的， 1994年至2012年增值税和营业税并存的状况，严重阻碍了制造业和服务业的分工和发展，也导致了服务业的重复征税问题，因此将服务业的营业税改为增值税就显得非常必要。不过

展开阅读全文