倾向评分匹配是纠正观察性研究中自我选择偏差的灵丹妙药

全文

短讯

刘一楚^*

美国密苏里州圣路易斯市圣路易斯大学卫生管理和政策系，邮编63104

*通讯作者：Saint Louis University，Saint Louis，Mo 63104，USA，Tel：（314）977-1304 echu刘电子邮件：echuliu@slu.edu

摘要

观察性研究通常存在自我选择问题，这是由于选择物体到治疗和对照组的非随机性。结果，通过依赖于常规方法，例如普通的最小二乘（OLS）回归来确切地估计治疗效果。公共卫生的许多研究人员使用倾向分数匹配，以纠正与自我化问题相关的偏差，以获得治疗效果的确切估计。然而，倾向 - 分数匹配不是自我选择问题的灵丹妙药。本文解释了为什么有时倾向分数匹配可能不起作用，并给予公共卫生的实证研究人员对其他方法的温和介绍，这些方法在该领域不太熟悉，用于纠正自我选择问题。

介绍

公共卫生领域越来越多的实证研究人员对利用观察数据评估治疗效果(如政策、服务或程序)感兴趣。使用观察性数据来研究治疗效果有几个优点，如研究人员在收集数据上花费的时间和精力更少，研究样本量更大。然而，观察性研究的缺点之一是对效果的可能偏差估计，这一直是许多实证研究人员所关注的问题。这种偏差的来源是将对象选择为“处理组”的非随机性，“处理组”指的是数据集中受某些策略影响、接受某些服务或经历某些流程的对象。非随机选择最终导致治疗组和对照组不可比较，在文献中称为“自我选择问题”，简单比较两组利益的平均结果，会导致对治疗效果的误导性估计。这是因为没有办法知道平均结果的差异——如果有差异，并且在统计学意义上是显著的——是由于治疗还是这两组之间的内在差异。

为了在观察性研究中获得无偏估计的治疗效果，Rosenbum PR和Rubin DB[1]提出了一种称为“倾向评分匹配”的方法，在进行估计时考虑治疗组和对照组之间存在的根本差异。其思路如下。如果治疗组和对照组之间的内在差异可以根据“可观察”特征向量来定义，然后，我们就可以根据这个向量为研究中的每个对象计算一个分数，并且在取兴趣的平均结果之间的差异时，只包括那些分数相同的观察结果，因为这些观察结果基于这个分数将是“可比的”。因此，在对评分进行控制后，偏差将被消除，在文献中称之为“倾向评分”。

Rosenbum PR和Rubin DB[1]提出的方法很简单，包括STATA在内的一些统计软件都有用户编写的模块，可以实现这种方法。然而，当涉及到实现时，有几个问题和注意事项。首先，在计算倾向评分时，应该包含多少可观察特征始终是一个具有挑战性的决定。其次，任何研究者几乎不可能在治疗组和对照组中找到具有相同倾向分数的观察结果，特别是当用于计算倾向分数的变量数量增加时。所有感兴趣的读者都可以参考Becker SO和Ichino A[2]对这些问题和潜在解决方案的更详细的讨论。

问题

基于我与公共卫生的许多实证研究人员的互动，其中许多人认为，使用倾向分数是自我选择问题的灵丹妙药。但是，如前一段所述，Rosenbum Pr和Rubin DB [1]假设治疗组和对照组之间的差异是由于一些可观察的特性。这意味着如果治疗和对照组之间的差异也是由于一些不观察到的特征，例如偏好，因此Rosenbum Pr和鲁宾DB [1]提出的方法将是不合适的¹．

当治疗组和对照组之间的差异是由于观察结果的可观察和不可观察特征造成的时，治疗效果的估计仍然是可能的。例如，如果研究人员使用的数据集只有一年，则是估计治疗指标效果的最直观的方法T._一世(观察属于治疗组= 1;否则等于0)是通过控制可观察特征的向量来运行以下回归X_一世使用此数据'

在哪里y_一世是因变量，ε_一世是误差项，β是系数的矢量，γ是定义治疗效果的系数，我指的是下标一世^TH.观察。如果存在一些不可观察的因素影响个体接受治疗的决定，并且这些变量显然无法在方程（1）中控制，那么它们将隐藏在ε_一世．因此，之间的相关性T._一世和ε_一世将不等于零，并且在普通最小二乘法(OLS)中对γ的估计将不再是对T._一世在…上y_一世，因为γ的OLS估计将结合直接效果T._一世在…上y_一世以及不可观察的因素对y_一世此外，β和γ系数估计显著性的统计检验可能会出现I型或II型误差。

纠正由于不可观测而导致的自我选择问题

工具变量（IV）回归是由于不可观测而导致的自我选择问题的一个潜在解决方案。该方法已广泛应用于经济学的许多应用领域，以估计治疗效果，但公共卫生领域的学者对此知之甚少。IV回归的思想可以用方程（1）来解释例如，假设存在一个变量向量。Z._一世Z._一世决定T._一世，但只影响y_一世通过它对T._一世．换句话说，Z._一世与之相关T._一世但不相关的ε_一世．然后可以分两步进行IV回归。在第一步，回归T._一世关于ix和Z._一世执行，并计算预测值T._一世ϒˆT._一世是计算出来的。第二步,，T._一世式(1)用ˆ代替T._一世以及回归y_一世在…上X_一世ˆT._一世，得到的系数估计值为ϒ将是一个无偏见的治疗效果估计。IV回归背后的直觉解释如下。由于之间的相关性T._一世和ε_一世在等式（1）中，当由于不可观察的可能性而自我选择问题时，不等于零，更换T._一世与ˆT._一世这是基于与数据不相关的变量计算的ε_一世在等式（1）中，将消除T._一世和ε_一世并精确估计系数ϒ可能的Cameron和Trivendi[3]温和地介绍了IV回归及其背后的直觉，大多数统计软件包都有可用于进行IV回归的命令。

虽然IV回归直观且易于实现，但有时可能难以找到有效的IV。当获得IV是不可行的，由于UnoSsevables由于unoSsevables而导致的选择问题的另一个可能解决方案估计具有面板数据的固定效果模型（如果可用）。面板数据指的是数据集，其中我们在几个不同的时间点观察到对象的特征，即，我们对相同的对象有几个观察，并且可以描绘与方程式（2）中的具有面板数据的最简单的固定效果模型

下标在哪里一世提到一世^TH.观察和下标T指的是T.^TH.时期α^一世是一个特定于个体的参数，它是时不变的，并作为个体之间不可观测的异质性的代理。因此，面板固定效应模型允许我们控制未观察到的受试者特征，以获得对影响的精确估计T._一世．

通常，我们可以遵循两种方法来估计面板固定效应回归模型，例如等式（2），包括FirstZifferencing和最小方形虚拟变量（LSDV）。Cameron和Trivendi [3]易于理解对这两种方法的假设和实现的解释。统计数据库大多数软件包，包括SAS和Stata，具有可用于执行这两种方法的命令。但是，它需要注意的是，遵循哪种方法是无关紧要的，任何短面板（几个时间段和许多人）数据集都不适合面板固定效果模型，因为该模型利用了时间维度受到控制的受试者。如果时间维度不够高，那么α_一世例如，在等式（2）中，未识别。

结论

像自然科学那样建立实验室，在观察性研究中进行实验是不可能的。因此，许多与治疗效果估计相关的工作的结果是有偏差的，因为它受到了治疗和对照组选择的非随机性的影响。本文的目的是提醒公共卫生领域的实证研究人员，根据对非随机性来源的假设(“对可观察对象的选择”与“对不可观察对象的选择”)，可以应用的统计方法是不同的。倾向评分匹配只是其中一种方法。此外，本文不讨论一些更先进的治疗评估统计方法，如差分(difference-in-difference, DID)和回归不连续设计。有兴趣的读者可以参考Cameron和Trivedi[4]。

参考文献

Rosenbum PR，Rubin DB（1983）倾向评分在因果效应观察性研究中的中心作用。生物计量学70:41-55[参考。]
Becker SO，Ichino A（2002）基于倾向性得分的平均治疗效果估计。Stata杂志2:358-377[参考。]
Cameron AC, Trivedi PK(2010)使用Stata的微观计量经济学。Stata出版社，College Station TX. [参考。]
Cameron AC，Trivedi PK（2005）《微观计量经济学：方法与应用》。剑桥大学出版社，纽约。[参考。]

在这里下载临时PDF

PDF

文章信息

物品类型：短讯

引用：Liu E（2016）。倾向评分匹配是纠正观察性研究中自我选择偏差的灵丹妙药。流行病公共卫生杂志第1版（2）：doihttp://dx.doi.org/10.16966/2471-8211.109

出版历史记录：

收到日期：2015年12月24日

接受日期：2016年2月1日

出版日期：2016年2月5日

全文

德赢娱乐国际SCI Forschen期刊

新杂志