基于微观非实验数据政策效应评估方法评价和比较-turnitin论文查重

摘要：社会政策是政府发挥职能的重要手段，对政策实施的效果进行量化评估，有助于政府

源于：毕业小结www.udooo.com

决策的科学化、合理化。本文基于非实验数据，归纳了目前微观政策领域各种致力于构建“反事实”的政策效应评估方法，包括工具变量法（IV）、断点回归（RD）、双重差分（DID）和匹配方法（Matching），阐述了其各自的优势、劣势及适用条件，并对实际政策评估中各模型的选用进行了简要述评。
关键词：政策效应评估；反事实；准实验方法；匹配方法；工具变量法；断点回归；双重差分
16748131（2012）04004208
Review and Comparison of Researches on PolicyEvaluation Based on Micro Nonexperimental Data
WEI Mengxing
（Graduate School，Chinese Academy of Social Science，Beijing 102488，China）
Abstract: Social policy is an important means for governments to realize their function. Quantitative evaluation on the effect of policy implementation can help the governments make decisions scientifically and reasonably. Based on nonexperimental data，this paper summarizes the evaluation methods for all kinds of the “counterfactual” policy effects deliberately constructed in current micropolicy field， such as instrumental variable method， regression discontinuity method，differenceindifference method and matching method， elaborates the advantages， disadvantages and applicable conditions of each method， and makes brief review of the selection of each model in the practice of policy evaluation.
Key words: policy effect evaluation；counterfactual；quasiexperiment method；matching method；instrumental variable method；regression discontinuity method；differenceindifference method 
进行政策评价是计量经济学研究的核心目的之一。中国经济正处于高速发展阶段，社会改革也在逐步深化，政策、规则的改变频频发生，这为政策评价方法与理论的发展提供了一个绝佳的背景。对政策实施的效果进行量化评估，有助于政府决策的科学化、合理化。通过构建“反事实”对政策效应进行评估是当前政策评价研究中的热点，从搜集到的文献来看，目前的研究成果主要集中在以劳动经济学为主的微观领域，在宏观领域并未取得太多进展。有鉴于此，本文将对国内外微观政策评估领域的研究方法做一综述，阐述各种方法在应用上的优势及劣势，总结其适用条件，并对实证研究中各模型的选用进行简要述评。
卫梦星：基于微观非实验数据的政策效应评估方法评价与比较

一、政策效应评估的基本问题

1.“反事实”

检测定总体中有两组或多组群体，能够在两期或多期观测到其中的个体数据，并且在某些时期某些个体受到了一项新政策的“干预”（treatment）。在政策评估中，通常把接受政策干预的样本称为实验组，把未受政策干预的样本称为控制组。要估计一项政策的实施效应，一个简单的逻辑就是对所有个体在政策实施前后的结果变量做比较，将差值作为个体的处置效应（treatment effect），进而可推知政策实施效应。
在二元选择的情况下，定义指示变量D，当Di=1时，认为个体i选择接受政策的影响；反之，当Di=0时则视为个体选择不接受政策影响。Di由一系列个体特征因素决定，不同个体之间的选择相互独立。若定义时期0为政策未实施的时期，1为政策实施后的时期，则个体i的处置效应可以写作：
τi=Yi(1)－Yi(0)
但由于道德因素、社会成本等原因，现实中的政策只有极少数采用随机实验的方式实施，研究者可观测到的数据多是非实验数据。这就意味着社会实验政策实施以后，研究者不可能同时观测到同一个体在接受和不接受政策干预时的表现。对于实验组中的个体，研究者无法观测其在未接受政策干预时的表现；而对于控制组中的个体，研究者也无法预测其在接受政策干预时的表现。也就是说，存在着两组“反事实”（counterfactual）。因此，如何构建 “反事实”就成为政策效应评估中的关键。本文所讨论的各种评估方法的不同，本质上是其构建“反事实”的方法不同。

2.个体的异质性决策

在政策实践中，个体并非通过随机委派的方式接受政策干预。多数情况下政策的实施是区域性的，区域中的个体会预测自己接受政策干预时可能获得的净收益，进而通过迁移等反应来决定是否接受政策影响。也就是说，个体存在私人信息，并根据私人信息进行参与决策。

摘自：论文查重{#GetFullDomain}

工具变量法是一个相对简单的估计方法，但是有两个重要的缺陷：（1）工具变量的选择问题。在政策评估问题中，要找出满足条件的工具变量并不容易。在实践中，尤其是当纵向数据和政策实施前的数据可以获得时，研究者多使用因变量的滞后变量作为工具变量。但是，这同样会引发相关性，并不能从根本上解决问题。（2）如果个体对于政策的反应不同，只有当个体对政策反应的异质性并不影响参与决策时，工具变量才能识别ATT、ATE。但这是一个很强的检测定，有时研究者不得不检测定非理性，或者忽略研究对象的行为异质性（Heckman，1997）。

2.断点回归

RD是一种类似于随机受控实验的准实验方法。它的主要思想是：当个体的某一关键变量的值大于临界值时，个体接受政策干预；反之，则不接受政策干预。一般而言，个体在接受干预的情况下，无法观测到其没有接受干预的情况。而在RD中，小于临界值的个体可以作为一个很好的控制组来反映个体没有接受干预时的情况，尤其是在变量连续的情况下，临界值附近样本的差别可以很好地反映干预和结果变量之间的因果联系，进而计算出ATE、ATT等政策效应变量。
RD最早是由美国西北大学的心理学家Campbell于1958年首先发展设计出来的，但一直没有得到广泛的应用。Hahn 等（2001）为断点回归的模型识别和模型估计进行了严格意义上的理论证明，并提出了相应的估计方法。自此之后，RD在经济学上的应用才开始盛行。到目前为止，对这一方法的研究成果还主要集中在劳动经济学领域。国内学者运用RD进行分析的研究还比较少见，余静文等（2010a）研究了城市圈所产生的集聚效应、辐射效应，考察了其对地区收入差距的影响；余静文等（2010b）还使用该方法考察了城市圈对区域经济绩效的影响，发现城市圈产生的辐射效应和政府治理结构转变所带来的效应会促进城市圈区域的经济发展。
RD是一种类似于随机实验的方法，也是准实验方法中最具有可信性的方法。Lee（2008）认为在随机实验不可得的情况下，断点回归能够避免参数估计的内生性问题，从而真实反映出变量之间的因果关系。RD方法应用的关键检测设是要求在断点附近的个体的特征相同，这一检测设可以通过统计分析得到检验。由此可见，RD的吸引力不仅在于它的实验性，还在于它的因果推断可以方便地得到检验。

3.双重差分

近年来，DID在政策评估研究得到了广泛应用。DID处理选择偏差的基本思想是：允许存在不可观测因素的影响，但检测定它们是不随时间变化的。检测定不可观测因素Uit可分解为Uit=φi+θt+μit，其中φi是个体固定效应，不随时间变化；θt是个体所处的共同的环境带来的效应，对于所有个体而言都相同；μit是个体时点效应。DID检测定实验组和控制组在研究的区间内具有相同的个体时点效应，也就是说μit相同，因此通过对截面单位在项目实施前后的结果取差值，就能排除φi、θt的影响。反之，若在政策实施条件下，个体时点效应μit不相同，则DID就不再是一致估计量。
应用DID评估政策效应的基本步骤是利用面板数据建立双固定效应模型并估计参数：

其中，Tit=1表示实验组对象，反之则表示控制组对象；Ait=1表示政策实施后的区段，反之亦然；TitAit是交叉项，其系数β3表示实验组对象在接受政策后结果变量的变动程度，反映了政策变动的效应，是目标变量。参数β1表示没有政策干预时，实验组与控制组的经济行为如何随时间变动，而参数β2则反映实验组和控制组中任何不随时间变动的差异。应用DID评估政策效应的一个关键检测设是：当不存在政策干预时，β3=0，这一检测设只有在实验组与控制组性质非常接近时才是合理的。表1概括了DID方法的基本原理。
表1DID方法的基本原理

Heckman 等（1985，1986）最早提出使用DID方法对社会公共政策的实施效应进行评估，此后对DID方法的研究和应用成果层出不穷，典型的有：Card 等（1990，1994）对移民政策、最低工资制度对工资和就业的影响进行了研究；Puhani（2000）对波兰1991年实施的失业救济政策改革对失业持续期的影响进行了评估；Stewart（2004）对英国1999—2001年引入的最低工资制度对就业的影响进行了评估；Donohue 等（2005）发现美国与加拿大的谋杀率之间具有相同的变化趋势，从而以取消死刑的加拿大作为控制组，评估了美国恢复死刑制度对降低谋杀率的影响，结果表明美国执行的死刑政策并未对社会谋杀发生率起到遏制作用；Chen 等（2008）使用中国2000个家庭的数据对世界银行发展项目的效应进行了评估。
国内学者近年来也开始运用DID方法对政策效应进行评估，主要的研究有：周黎安等（2005）就农村税费改革对农民收入增长所产生的影响进行了评估；朱宁宁等（2008）对我国建筑节能政策的实施效应进行了评估；黄清（2009）对2002—2005年电力行业放松规制的政策效应进行了实证检验和研究；刘生龙等（2009）评估了西部大开发对于西部地区经济增长及中国区域经济收敛的作用；聂辉华等（2009）使用全国层面的企业数据，胥佚萱等（2011）使用上市公司数据分别对2004年开始在东北地区实行的增值税转型政策的影响进行了研究；俞红海等（2010）基于上市公司数据，对股权分置改革的有效性进行了实证分析；李楠等（2010）利用中国工业行业数据，对国有企业改革的绩效进行了评估。
DID方法允许不可观测因素的存在，而且允许不可观测因素对个体是否接受干预的决策产生影响，从而放松了政策评估的条件，使得政策评估的应用更接近于经济现实，因而应用更广。但是，研究者在应用中也应该充分认识到DID方法的局限性：
（1）数据要求更加苛刻。DID方法以

源于：免费论文www.udooo.com

面板数据模型为基础，不仅需要横截面单位的数据，还需要研究个体的时间序列数据，特别是政策实施前的数据。因此，相比于Matching，DID方法要求更多的数据。（2）个体时点效应μit未得到控制。DID要求很强的识别检测设，它要求在政策未实施时，实验组和控制组的结果变量随时间变化的路径平行，这一检测设并没有考虑个体时点效应μit的影响。由于μit的影响，在项目实施前后，实验组和和控制组个体行为的结果变量并不平行，此时应用传统的DID方法就会出现系统性误差。
（3）未考虑个体所处的环境对个体的不同影响。DID方法检测定环境因素的冲击对处于相同环境中的个体会产生相同的影响，即θt对所有个体都相同。但实际中，实验组和控制组个体可能因为某些不可观测因素的影响，使得其在面临相同的环境因素的冲击时做出不同的反应，此时DID的应用就会出现问题。
针对以上问题，国外学者在使用DID的过程中，逐步对其进行了扩展，扩展的方向主要有两个：一是考虑DID中未控制的因素，从而进一步放松其应用条件；二是将DID与Matching等其他政策评估方法结合起来，提出新的估计量。比如：Bell 等（1999）考虑了个体所处的环境对个体的不同影响，提出了经趋势调整的估计量；Heckman 等（1997）提出了“条件DID”这一新的估计量（conditional DID estimator），将 Matching与DID方法结合起来应用，不仅能大大降低选择偏差，且结果更为可信。但不容忽视的是，条件DID仍要满足“共同支撑域”检测定。

4.匹配方法

匹配是一种非实验方法，是对于一些没有采用或不方便采用实验方法区分实验组和控制组的数据采用的一种近似实验的方法。匹配方法检测定，控制协变量之后，具有相同特征的个体对政策具有相同的反应。换句话说，不可观测因素不影响个体是否接受政策干预的决策，选择仅仅发生在可观测变量上。因此，对每一个实验组个体而言，可以根据可观测特征为其选择一个控制组个体构成反事实。
在实证分析中，根据选择控制组时匹配方法的不同，Matching又可分为协变量匹配（covariant Matching， CVM）和倾向得分匹配（propensity score matching， P）等。其中，CVM

源于：论文格式范文模板www.udooo.com

涉及多个协变量，会导致“维度灾难”、计算过于复杂等问题。Rosenbuam 等（1983）指出，如果协变量能使得条件独立检测设（conditional independence assumption，CIACIA是由Lechner1999年提出的概念，又被称为unfoundedness （Rosenbaum et al， 1983）或selection on observables（Heckman et al，1985）。匹配方法的基本前提可表示为：Y(0),Y(1)⊥D|X或者Y(0),Y(1)⊥D|P(X)，二者分别是CVM和P下条件独立检测设的不同表示形式。CIA意味着所有能同时影响干预分配机制和结果变量的混杂因素都能被观察到，这样就可消除由不可观测因素引起的选择偏差，进而估计政策效应。）成立，那么倾向得分（propensity score，PS）作为协变量的一个函数，当然也能使得CIA成立。通过将协变量中蕴含的信息转移至PS中，P可以克服CVM的劣势，成功降维，从而在实践中应用更多。
Rusenbaum 等（1983）提出的利用P来消除混杂因素所引起的偏差，在提出之初并没有受到很大关注，但是近些年被广泛应用于医药、经济、政策评估等领域，成为政策效应评价中最常用的方法。Perkins 等（2000）讨论了此方法在流行病药效学上的应用，Gilligan 等（2007）对在埃塞俄比亚农村实施的应急食品救援政策的效应进行了评估，Sandra 等（2009）对法国的一项再就业培训项目的效应进行了评估。国内学者近年来也开始运用P方法对社会公共政策的效应进行评估。陈玉萍等（2010）运用P方法研究了滇西南山区改良陆稻技术的采用对农户收入的影响，解决了应用传统方法分析农业技术效应时，因农户技术采用存在的自我选择而带来的因果干涉问题；李佳路（2010）运用P方法，采用S省30个国家扶贫开发重点县2009年的农村贫困监测数据，对扶贫项目的减贫效应进行了评估。
P作为非参数方法，不需要对可观测因素的条件均值函数和不可观测因素的概率分布进行检测设，因而相比参数方法具有优势。但是，P也有局限性，主要表现为以下几点：
（1）极强的前提检测设。P的应用必须满足CIA和共同支撑域检测定，这两个检测定合起来称为“强可忽略性”检测设。一旦违背这一检测定，ATE和ATT就会出现偏误。Heckman 等（1997）通过检测设检验表明当“强可忽略性”检测定不满足时，不宜应用P的方法对政策效应进行评估；Heckman（2008）通过理论分析认为当存在未观测到的混杂因素时，P方法不仅不能消除系统误差，反而会带来新的偏差；刘凤芹等（2009）运用蒙特卡罗模拟实验的结果也表明P对强可忽略性检测设非常敏感，即使是轻度的违背，P的估计结果偏差也超过50%；Kannika 等（2010）运用实际数据，对比参数方法与P方法的结果，进一步验证了P的应用需要满足“强可忽略性”检测定。
（2）不能为所有的实验组个体找到控制组个体。匹配方法仅能为处在共同支撑域上的个体找到合适的对照个体。如果对于不同个体而言，处置效应是同质的，那么共同支撑域的检测定不会对政策效应的大小造成影响；反之，如果处置效应是不同质的，共同支撑域的检测定使得某些实验组个体很难找到“反事实”，处置效应无法识别。换句话说，如果匹配过程损失了大量的观察值，处置效应的估计量就仅在共同支撑域上具有一致性特征。在异质性响应中，如果实验组个体的处置效应差别很大，估计出的ATT就不能代表政策的平均回报。
（3）数据量要求极大。Matching方法往往应用于截面数据，为了保证条件独立检测设成立，需要尽可能多地搜集协变量信息，将混杂因素分离出来。同时，为了保证能找到与实验组个体特征最为接近的控制组，研究者也需要收集大量的个体数据，以保证结果的精度。（4）结果的稳健性受到多种挑战。P方法计算得到的ATE或ATT的稳健性受到多种因素的影响，如干预分配机制方程的设定、匹配算法的选择等。刘凤芹等（2009）运用蒙特卡罗模拟实验的结果表明，P对误差项分布不敏感，对隐指标方程的误设极为敏感；在共同支撑域较小时，P对具体匹配方法的选择极其敏感。
综上所述，Matching的应用必须满足很强的检测设前提，并且要具有相当的数据量。如果研究者认为无法验证强可忽略性检测定，手头的数据样本又不够大，就必须选用其他的政策评估方法，如DID和样本选择模型等，它们都明确允许有未被观测到的混杂因素的存在。

四、研究评述

本文对政策评价的基本原理做了简单阐述，指出构建“反事实”是政策效应评估的核心。目前利用微观非实验数据构建“反事实”的方法主要有RD、IV、DID和Matching等方法，其中，RD类似于随机实验，因果推断最为清晰，结果最为可信，检测设的可检验性也最强，但适用的范围还较小；IV、DID、Matching是目前微观政策评价中的常用方法。本文从适用数据类型、对混杂因素的处理以及参数识别三方面对三种方法做简要比较，如表2所示。
表2基于微观非实验数据的政策效应评估方法比较
数据类型及容量对方法的选用至关重要。IV法多用于截面数据，但在纵向数据和重复截面数据中也有应用；（条件）DID方法对重复截面数据的处理效果最佳，但必须能够获得政策实施前的相关数据；Matching能很好地应用于截面数据和纵向数据，但需要大量的个体数据作为支撑，当数据量充足时，简单的P模型也能获得理想的政策效应参数。仅就数据要求而言，Matching所需的数据量最大。
不同方法对不可观测因素的处理也不相同。IV和Matching检测定不存在未被观测到的混杂因素，所有能同时影响干预分配机制及结果变量的混杂因素都被观测到，个体接受或不接受政策干预都取决于可观测变量。从这个意义上讲，IV和Matching是基于可观测变量的评估方法。而DID则容忍不可观测因素的存在，且允许其对个体决策产生影响，通过检测定及差分消除不可观测因素的影响。从对不可观测因素的处理而言，DID更为严谨。
当处置效应同质时，IV、DID和Matching均可识别ATT、ATE，但当处置效应异质时，各种方法对ATT、ATE的识别情况各不相同。此外，Matching是非参数方法，不用设定方程，更具一般性；DID方法不用施加严格的外生检测设，只要处置效应能以可加方式进入结果方程，甚至都不用定义结果方程。相比而言，IV需要对方程施加严格的外生检测定，实证分析中需要做更多的检验。
综上所述，各种方法的适用条件各有不同，优劣各异，在政策效应评估实践中，研究者必须以经济理论为基础，根据政策本身的特点，结合所能获取的数据特征选择适用的方法，并选择符合研究目的的政策效应参数进行识别和估计。
参考文献：
陈玉萍，吴海涛，陶大云，等.2010.基于倾向得分匹配法分析农业技术采用对农户收入的影响——以滇西南农户改良陆稻技术采用为例［J］.中国农业科学（5）：36673676.
黄清.2009.电力行业放松规制改革政策效果的实证研究——基于发电业数据的双重差分模型检验［J］.山西财经大学学报（1）：4956.
刘凤芹，马慧. 2009.倾向得分匹配方法的敏感性分析［J］.统计与信息论坛（10）：713.
刘生龙，王亚华，胡鞍钢.2009.西部大开发与区域经济收敛［J］.经济研究（9）：94105.
李佳路. 2010.扶贫项目的减贫效果评估：对30个国家扶贫开发重点县调查［J］.改革（8）：125132.
李楠，乔榛. 2010.国有企业改制政策效果的实证分析——基于双重差分模型的估计［J］.数量经济技术经济研究（2）：321.
聂辉华，方明月，李涛. 2009.增值税转型对企业行为和绩效的影响［J］.管理世界（5）：1735.
胥佚萱，林志伟.2011.增值税转型改革与企业固定资产投资决策——基于中国上市公司数据的面板双重差分模型分析［J］.税务与经济（1）：9097.
俞红海，徐龙炳.2010.股权分置改革有效改善了公司绩效吗？——基于双重差分模型的估计［J］.浙江工商大学学报（1）：5662.
余静文，赵大利. 2010a.城市群落崛起、经济绩效与区域收入差距［J］.中南财经政法大学学报（4）：3038.
余静文，王春超. 2010b.转型时期中国城市圈的经济绩效［J］.当代经济科学（5）：1522.
周黎安，陈烨. 2005.中国农村税费改革的政策效果：基于双重差分模型的估计［J］.经济研究（8）：4453.
朱宁宁，朱建军，刘思峰，等.2008.我国政府建筑节能政策（措施）的实施效果评价［J］.中国管理科学（10）：576580.
ANGRIST，JOSHUA D. 1990. Lifetime Earnings and the Vietnam Era Draft Lottery： Evidence from Soc

摘自：学年论文范文www.udooo.com

ial Security Administrative Records ［J］.American Economic Review，80：313336.
ANGRIST，JOSHUA D，ALAN B K. 1991. Does Compulsory School Attendance Affect Schooling and Earnings［J］. Quarterly Journal of Economics，106：9761014.
BELL B，BLUNDELL R，VAN REENEN J. 1999.Getting the unemployed back to work： an evaluation of the New Deal proposals［J］. International Tax and Public Finance，6：339360.BJORKLUND A， MOFFITT R. 1987.The Estimation of Wage Gains and Welfare

源于：科技论文www.udooo.com

Gains in SelfSelection Models［J］.Reviews of Economics and Statistics， 69：4249.
BOUND J，DID J，REGINA B. 1995. Problems with Instrumental Variables Estimation when the Correlation between the Instruments and the Endogenous Explanatory Variable is Weak［J］. Journal of the American Statistical Association，90：443450.
CARD，DID，ALAN B K. 1992a. Does School Quality Matter? Returns to Education and the Characteristics of Public Schools in the United States［J］. Journal of Political Economy，100：140.
CARD，DID，ALAN B K. 1992b. School Quality and Black–White Relative Earnings： A Direct Assesent［J］. Quarterly Journal of Economics，107：151200.
DANIEL O G，JOHN H. 2008. The Impact of Ethiopia’s Productive Safety Net Programme and its Linkages［C］. IFPRI Discussion Paper 00839.
DONOHUE，JOHN J，JUSTIN W. 2005. Uses and Abuses of Empirical Evidence in the Death Penalty Debate［J］. Stanford Law Review，58：791845.
EHRLICH，ISAAC. 1975. The Deterrent Effect of Capital Punishment：A Question of Life and Death［J］. American Economic Review，65：397417.
EHRLICH，ISAAC. 1977. Capital Punishment and Deterrence：Some Further Thoughts and Additional Evidence［J］. Journal of Political Economy，85：741788.
EHRLICH，ISAAC. 1987. On the Issue of Causality in the Economic Model of Crime and Law Enforcement：Some Theoretical Considerations and Experimental Evidence［J］. American Economic Review，77：99106.
EHRLICH，ISAAC. 1996. Crime，Punishment，and the Market for Offenses［J］.Journal of Economic Perspectives，10：4367.
HAHN，TODD，VANDER K. 2001. Identification and estimation of treatment effects with a regression discontinuity design［J］. Econometrica，69：201209.
HECKMAN J J. 1997. Instrumental Variables： A Study of Implicit Behioral Assumptions Used in Making Program Evaluations［J］. The Journal of Human Resources，32：441462.
HECKMAN J J. 2008. Econometric causality［J］. International Statistical Review，52： 127.
HECKMAN J J，H I. 1997. Matching as an Econometric Evaluation Estimator： Evidence from Evaluating a Job Training Programme［J］. The Review of Economic Studies， 70： 605654.
HECKMAN J J，ROBB R. 1985. Alternative Methods for Evaluating the Impact of Interventions// JAMES J HECKMAN， Singer B. Longitudinal Analysis of Labor Market Data. New York： Cambridge University Press：352.
HECKMAN J J，ROBB R. 1986. Alternative Methods For Solving The Problem of Selection Bias in Evaluating The Impact of Treatments on Outcomes［M］//Wainer H. Drawing Inferences from SelfSelected Samples. Berlin：SpringerVerlag.

源于：大学生论文www.udooo.com

基于微观非实验数据政策效应评估方法评价和比较

一、政策效应评估的基本问题

1.“反事实”

2.个体的异质性决策

2.断点回归

3.双重差分

4.匹配方法

四、研究评述

相关论文

频道推荐

热门论文阅读

排行榜

猜你喜欢