因果推断新估算器提升面板数据分析

原创

用户11764306

发布于 2026-06-09 18:06:11

在最近的一次某机构机器学习大会上，某机构学术研究顾问、斯坦福大学教授、新晋诺贝尔奖得主吉多·因本斯就“面板数据”背景下因果效应的估算问题分享了见解。

自2013年起，某机构每年举办内部机器学习大会。在2015年的第三届大会上，因本斯曾就因果性与机器学习进行过广受欢迎的教程。九年后的2024年10月，已担任某机构学术研究顾问十年的因本斯，作为主题演讲者之一再次登台。

在他的演讲中，因本斯讨论了因果推断——这是他三十多年来的研究重点，也是诺贝尔委员会在颁奖词中强调的主题。他特别考虑了所谓的“面板数据”，即在离散时间点上观测多个单元（如产品、客户或地理区域）和结果（如销售额或点击量）。在特定时间段内，部分单元接受“处理”（如特殊产品促销或新环境法规），其影响反映在结果测量中。因果推断正是确定结果变化中有多大比例可归因于处理的过程，这需要调整由数据总体趋势产生的虚假相关性，而这些趋势可从未处理（控制）单元中推断。

因本斯首先谈到在某机构工作的价值：“我从2014年开始与某机构的同事们合作。能与这里的人交流，了解他们研究的问题和疑问，一直是我研究的真正乐趣和灵感来源。在我的计量经济学、统计学和方法论研究中，与那些在实际中应用这些方法的人交谈，总是让我觉得非常有益。”

面板数据

随后，他直接进入演讲主题。面板数据通常由一对矩阵表示，行代表单元，列代表时间点。一个矩阵的条目是特定单元在特定时间的测量值；另一个矩阵只取二值，表示给定单元在对应时间段是否接受了处理。

理想情况下，对于给定的单元和时间段，我们会进行一个实验：单元不接受处理，然后时间倒流，再在有处理的情况下重复实验。但时间无法倒流。因此，对于矩阵中每个受处理的单元格，我们估算如果未施加处理，相关测量值会是多少，这一估算基于其他单元和时间段的结果。

为便于解释，因本斯考虑了只有一个单元、仅在一个时间间隔内接受处理的情况：“一旦我有了能有效处理这种情况的方法，我所要建议的特定方法就能非常自然地扩展到更一般的处理分配机制。”

控制估算

因本斯描述了五种估算受处理单元在同一时间段内未受处理时结果的标准方法。

双重差分法：对处理前所有未处理数据进行回归分析，然后用回归函数估算受处理单元未受处理时的结果。
合成控制法：将受处理单元的控制版本合成为其他控制单元的加权平均。例如，估算加州1989年禁烟法规的效果时，寻找其他州的凸组合，使其1989年前的吸烟率与加州实际吸烟率匹配（如40%亚利桑那、30%犹他、10%华盛顿、20%纽约），然后用这些权重估算加州的“反事实”吸烟率。
带截距的合成控制法：在合成控制方程中加入截距项。
矩阵补全法：在标准双重差分函数中加入一个低秩矩阵项。
合成双重差分法：根据控制单元与受干预单元的相似性，对单元-时间测量值与回归曲线之间的距离进行加权。

缺点

因本斯接着指出了这些方法的问题。第一，它们将结果矩阵和处理矩阵视为行（单元）和列（时间点）可交换的——即无论矩阵行列顺序如何，结果相同。单元可交换性似乎合理，但时间维度不同：预测2020年的结果时，2019年的测量值比1983年的有用得多。

第二，这些方法在单单元-时间对受处理的特殊情况下效果良好，但当处理分配更随机时则表现不佳。因为随机分配下，单元在不同时间段会进出控制组，使得准确回归分析变得困难。

一个新的估算器

因此，因本斯提出了一种基于矩阵补全法的新估算器，但增加了两组权重来调整每个控制单元对回归分析的贡献。