二数据和方法_世界银行经济评论（2016/No.3/第30卷）-QQ阅读女频现言网

上QQ阅读APP看书，第一时间看更新

二数据和方法

调查数据

为了本文的研究，我们从比哈尔农村地区的150个乡村中收集了两轮用家庭面板结构表示的数据。第一轮数据收集的时间在2009年5～7月，第二轮数据收集的时间为2010年的5～7月。这些数据收集的时间段是农业低迷的时期，因此也就可能是比哈尔农村就业保证计划实施的高峰时段。这两轮数据收集都包含回忆之前12个月发生过的事情的问题。第一次调查之前一年的雨季（2008年7～8月），位于戈西河流域某些区域的汇水区发生了严重的洪灾。而2009年雨季时，雨水就很稀少，在第二次考察期间，诸多地区还出现了旱灾。

根据2001年人口普查的村庄表，我们先后推行了一项由两阶段构成的抽样设计。在第一阶段，以2008～2009年的行政管理数据为基础，从比哈尔农村就业保证计划覆盖的较高和较低的两层次中随机选择150个村庄。在第二阶段，在每个村庄中随机选择20个家庭，从所有村庄初始清单中以及少数选定的特性中选择三个层次的数据。这一分层的方法确保了样本既包含计划的参与者也包含那些可能会有参与者的家庭。我们使用了适当的样本权重以反映抽样设计。

这些调查收集了一系列家庭层面特点的信息，包括人口统计学、社会经济地位（包括资产所有权和消费）、就业和工资、政治参与度、社会网络以及关于比哈尔农村就业保证计划参与度的信息和相关的过程问题。

我们对包含至少一男一女两名成年成员的家庭进行了访问，访问内容包括他们在比哈尔农村就业保证计划中的参与情况、在最近的一个工作场所对于该计划的体验、关于该项目的了解和看法、农村劳动力市场以及女性的作用等。在选取个体时，我们偏向于本计划的参与者。抽样家庭中的成年人平均人数为2.5人（中位数为2.0人），但成年人的数量范围为1～11。所以，我们并没有采访所有抽样家庭中的所有成年人，在某些情况下，一些家庭中也只有一位成年人。我们的目标是抽取一个能够代表总体参与者样本的个体样本。然而，事实是，相对于男性而言，女性通常会待在家里，因此我们也很难找到那些我们希望访问的人。同样，随着时间的推移这种情况也是属实的，正如相比任何一轮的调查，这种情况反应在一个小的个体面板中。其中接近69%的受访参与者都是已婚男性户主，而他们的配偶和未婚子女则分别占18%和8%。此外，在每个村庄，关键的信息人都被问到了关于村庄现实和社会基础结构，以及如何接触到政府项目的问题。

总体而言，在两轮调查中，共有3000户家庭和大约5000个人接受了访问。平衡的面板包括2728户家庭以及3749名受访个体。这两轮调查之间，未接受采访的家庭为8%，并且没有集中在任何一个特别的阶层。拒绝接受采访的人相对较少；在未接受采访的家庭里面，有大约2/3是因为调查小组访问村庄时家中无人。

2009年2月和8月，我们还在比哈尔北部和南部精心挑选的6个村庄里开展了定性研究（Gaya, Khaimur, Kishanganj, Muzaffarpur, Purnea以及Saharsa）。定性的结果报告发布在《发展选项》（2009）、《印度格拉曼服务》（2009），另外参见Sunai（2009）的论述。德塔等人（Dutta et al. , 2013）提供了研究结果及其影响的总结。这些定性研究的结论将被我们用来解读一些定量研究的结果。

评估放弃的收入

从文献中，我们可以确定两项评估放弃的收入的方法。第一种是结构性的方法，遵循经济学中对观测的结果进行建模的长期方法，假定人们对其参与这样一个项目的收益保持消息灵通以及理性的（信息客观的）预期。人们接着可以对其参与的抉择以及劳动力供应的决策进行建模，并且（在某些条件下）重新得到他们得到的利益的估计量。第二种方法几乎未对行为作出假设，并且使用了标准的“简化模式”冲击评估方法。这需要对那些参与者的均值和挑选的未参与者组（均值）做对比。遵循一种或两种方法，在持久的可识别的假设下，多种方法被用来评估冲击，其中包含时间分配计量经济学模型和匹配估计量。放弃的收入均值估计量从占劳动福利制度收入的25%（印度马哈拉施特拉邦）到50%（阿根廷）不等。分别来源于达特和拉维里昂（Datt and Ravallion, 1994）以及拉兰和拉维里昂（Jalan and Ravallion, 2003）。拉维里昂等人（Ravallion et al. , 2005）（使用不同的方法）确认了阿根廷的结果。

然而，通过这两种方法，关于放弃的机会潜在的大量经济相关的个体特质信息会被忽视。并且这一信息被那些决定是否参加的人清楚地知晓。这就引出了赫克曼（Heckman）等人所谓的“根本异质性”（也被称为“相关随机系数”），他们证明从标准计量经济学的估计量（包含那些使用随机分配作为工具变量的估计量）中得到的关于甚至是总体平均影响的推断是错误的。长期以来，这样的异质性在估算文献中都是一个关注点。早期的讨论包含赫克曼和罗布（Heckman and Robb,1985）以及布约克兰德（Bjorklund, 1987）。这一问题源于估算者缺乏关于放弃的机会的信息。

还有第三条路径估算放弃的收入，也就是我们在本文中使用的。我们并不知道之前有人使用过这种方法。Jha等人（2012）同样问过在“圣雄甘地农村就业保证计划”工作的受访者他们是否认为存在任何其他的工作。然而，他们并没有询问关于放弃的收入的问题，而是运用了现行的工资率进行估值。这是一种通过向个体参与者提出反事实问题的，处理异质性问题的非参数方法。我们援引结构性方法中的关键假定，也就是参与者对他们从参与活动中获得的收入持有无偏见的期望。差别在于，我们试图直接从参与者那里获得信息。随后，我们也不必用结构的或简化模式的方法对计量经济学估计量做出任何标准的假设，特别地假定回归残差项拥有零均值，这取决于处置状态或某些状态（工具变量）的关联。这一方法存在优势，我们能够估算平均冲击，包括对于贫困的衡量标准，并且能够从非参数角度假定调查回答中只存在传统的测量误差。我们对于利益的个体估算假定参与者对从项目中获得的收益持有无偏见的期望。虽然这是结构性方法的一个存在已久的假定，但它依然受到质疑，可能会出现测量误差。在评估贫穷冲击时，我们通过获取收入的条件均值来解决这一问题。我们还从替代性工作的数据中给出观测结果，以提高通过我们的方法得到的平均放弃收入的有效性信心。

从根本上说，每一个被取样的个体都被问及，如果他们没有获得劳动福利制度的工作机会，他们对于就业和收入的期望。如果受访者回答他们会在没有这一项目的情况下工作，那么我们会问他们关于工作天数和工资的问题。在试验阶段，我们会对具体问题（根据当地方言）进行适当的调整。我们也会问他们关于实际收入的问题。因此我们基本上向个体询问了收入问题。我们的方法拥有一定的优势，那就是我们获得了关于个体的冲击信息，将现存机会的特有的信息包含在内——那种在考察研究中不大可能存在的信息。因此，我们就能开展很好的分布分析法，而这是对贫穷冲击进行评估所必需的。

事实上，比哈尔农村就业保证计划的参与者在村庄内所拥有的获得收入的唯一选择就是为当地的地主或一些非农业活动开展临时性的手工劳作。比哈尔农村就业保证计划的大部分参与者都没有土地，并且在村庄世代居住。可以假定在整个农业年中，他们对于自己的劳动收入选择有清晰的认识。

我们发现，通过精心设计，受访者回答问题的比率比较高；相对于更为普通的“目标性”问题，这些问题并不会很难。对访问者进行适当的培训，在我们调查的第一阶段，关于放弃的收入问题的总体回应率能达到92%，在第二轮调查中，总体回应率可达到98%。

当然，这里会存在一些异常值，或许反应出对于调查问题的误解。然而（我们将继续展现），在报告中放弃的收入的平均值与未参与项目的同类工人的平均工资率十分接近时，这样的答案就是有意义的。我们还对自己过高估计放弃的收入的可能性进行了稳健性检验。即使大幅高估放弃的收入，我们的主要结果对此仍是稳健的。

正如在序言中指出的一样，由于双重计算，在我们对放弃的收入的加总估算中，存在着潜在的上升偏差；两个不同的调查受访者可能会想到同一份放弃的工作机会，由此加总的放弃的收入将低于个体报告的（放弃的收入）总和。同样，在家庭成员之间，也存在着替代的可能性，一个成年人也会承担起比哈尔农村就业保证计划参与者放弃的工作。我们将会对我们的结果所使用的方法论导致我们高估放弃的收入可能的敏感性进行检验。

对于清理和分析这些数据，我们建立了一定的程序：

•对于家庭劳作或者自有生意（通常是自有农场），放弃的收入被假定为零，基于这样的工作可以随时进行重新分配从而确保很少甚至是没有放弃的收入的合理假设。

•对每一个人，都会问在比哈尔农村就业保证计划工作一段时间所放弃的工作和放弃的收入问题。随后，将特定性别的中位数作为家庭数值使用，以开展家庭贫穷估算。

•如果数据仍然遗漏，放弃的收入遗漏的数值会被家庭所在村庄的社会阶层（放弃的收入）中位数或是村庄的中位数（遍及所有社会阶层）替代。

•大约有10%的受访者报告称其放弃的收入大于其从公共工作中获得的收入。由于涉及的工作在公共工作与其他临时性工作之间是类似的——都涉及非工资收益不明显的手工劳动——因此人们不大可能放弃工资较高的工作来参加这一计划。我们认为这些受访者很有可能误解了这一调查的问题，或者时间单位输入存在一定的偏差。因此，我们将这些视为一种错误。我们选择删除这些数据，因此在任何阶段放弃的收入都不会超过从公共工作中获得的收入。

在估算贫穷衡量标准时，我们遵循标准的做法，把我们的衡量方法建立在综合性的消费加总之上（使用基于全国抽样调查就业—失业计划的调查模型）。贫困线是第一轮（调查）人均消费水平的中位数，随着时间的推移，我们借助农业劳动力的消费者物价指数对此进行更新，以此获得第二轮（调查）的贫困线。从而获得第一轮的人均贫困线为6988卢比，第二轮的人均贫困线为7836卢比。然而，认识到任何贫困线都一定存在某种程度上的武断性，我们还对一系列潜在贫困线的冲击进行了估算。

应当指出的是，在本研究背景中，将消费作为福利衡量标准，会忽视比哈尔农村就业保证计划相对于其他工作选项的时间负效用之间的所有差异。这在非福利主义人士对项目评估的传统中是常见的。参见贝思利和科特（Besley and Coate, 1992），达特和拉维里昂（Datt and Ravallion, 1994）以及阿里卡—拉格朗日和拉维里昂的探讨（Alik-Lagrange and Ravallion, 2015）。比哈尔农村就业保证计划中开展的工作类型与所有的临时性手工劳动十分相似，因此对于全职雇佣工人而言，这似乎不是什么问题。对于失业的工人而言，由于工作产生负效用的猜测，工作就会存在增加的福利成本。这种可能性的隐含之意将在阿里卡—拉格朗日和拉维里昂（Alik-Lagarange and Ravallion, 2015）的论文中进一步探讨。

在设定本计划成本以进行开展反事实分析时，我们把比哈尔农村就业保证计划在中央管理数据里的所有公共开支（数据）都包含进来。这些数据包含材料、监控以及比哈尔农村就业保证计划工资；在第一轮（调查）和第二轮（调查）中，非工资成本分别占据了比哈尔项目总开支的36%和39%（Dutta et al. ,2014）。我们使用的精确预算为，第一轮（调查）中每户858.42卢比，第二轮（调查）中每户1194.92卢比。管理数据表明，2008～2009财年的总开支为130.58亿卢比，2009～2010财年的总开支为181.77亿卢比（Dutta et al. ,2014，第1章）。这些资金被比哈尔农村1520万户家庭所享有。近期的数据给出了稍高的估算，但是我们最好使用基于调查的数值以便保持内在的一致性。

随后，对于反事实贫困衡量标准的计算其实就是一种简单的会计练习。真实的（观察到的）后比哈尔农村就业保证计划贫困衡量标准基于观测到的人均消费分布y=（y1, …, yn）（其中yi是家庭i中的人均消费）。在没有比哈尔农村就业保证计划的情况下，反事实则以分布y-w+f为基础，其中w是从比哈尔农村就业保证计划中获得的真实工资的n维向量，f是由于参加比哈尔农村就业保证计划而导致放弃的收入的n维向量。基于这两种分布的衡量标准之间的差异随后对贫穷造成了一定的冲击。相反，当反事实是基本收入设计时，贫困衡量标准基于y-w+f+c分布，其中c是该计划人均成本（工资成本+非工资成本）（可以将它按比例缩小，以考虑遗漏的情况）。相反，对于以当前定量供应卡分配为基础的反事实，相关的分布为y-w+f+（c/p）r，其中r=（r1, …, rn）指代定量供应卡的分配（如果家庭i拥有低于贫困线卡，ri=1并且如果家庭i没有此卡，则ri=0），p是拥有定量供应卡的家庭比例。

还需要指出的是，后比哈尔农村就业保证计划的分布潜在地反映了该计划的一般均衡效应。虽然由于在比哈尔农村中存在大量的定量供应，我们依然希望上述效应较小（第二部分），此类效应可根据设计和现金转移支付的不同而不同。我们对于反事实贫困率的计算假定，这种效应在不同计划之间是相同的。