实验设计方法(快手因果推断与实验设计)

/ 0评 / 0

测试方法(自动快速因果推断和测试设计)

导读:了解和识别用户动作指标之间的关系是实验分析的目的。在社区氛围下,影响用户行动的因素更加复杂,关系识别更加困难。如何应用各种学科的方法,对群落进行宏观或微观的建模和分析,系统地评价各种策略的长期生态影响,是需要解决的主要问题。

在本文中,金雅然博士将以Aauto quickless中直播的现实义务为例,介绍Aauto quickless中因果推理和实验设计的相关工作。重要内容包括:①Aauto faster中直播场景遇到的因果推理问题和技巧框架;②基于观察数据或实验数据的因果推理技巧案例;③涉及网络效应的复杂实验设计。

01 Aauto faster直播场景中遇到的因果推理问题及技巧框架

在Aauto Quicker中,我们会遇到这四类问题:用户鼓励设计、推荐策略评估、产品功效迭代以及产品和方向的长期价值预估。

实验设计方法(快手因果推断与实验设计)

我们通常有几种方法来解决这些问题:

基于观测数据的因果关系推断,即从已有的实验和非实验数据中提取因果关系;

在产品设计中建立准确的AB测试,合理计算指标,度量产品功效和迭代的影响;

通过数据和实验联合结构的经济模型、机器学习算法和反事实推理,可以回答长期效应问题。

解决这些问题的核心是应用因果推理。

实验设计方法(快手因果推断与实验设计)

因果推断的核心是在数据存在相关性的前提下,考虑数据之间的因果关系。义务是在给定的假设中选择模型框架,从关联中划分因果关系,准确估计因果分析的大小,用统计推断验证推断的准确性,回答推断结果有多大波动。

在因果推理中,我们通常使用以下两种框架:

实验设计方法(快手因果推断与实验设计)

鲁宾的潜在结果模型的核心是找到一个合适的对照组。通常我们要衡量用户是否受到实验的影响,但是对于同一个用户,我们只能观察到一个受影响/不受影响的情况,所以我们需要找到一个合适的比较组来衡量未被观察到的影响。我们通常会构造一些鉴别检验,比如经济学上的RCT检验是通过的,互联网上经常会用到AB检验,或者根据观察到的数据用适当的方法找到比较组。

实验设计方法(快手因果推断与实验设计)

Pearl因果图模型使用有向图来描述变量之间的因果关系。通过计算因果图中的条件分布,可以得到变量之间的因果关系。有向图表明应该应用这些条件离差来消除估计偏差,其核心是消除估计检验离差和其他变量引起的偏差。

Pearl框架和Rubin框架之间有一些联系。在草图中,潜在结果模型中工具变量和匹配方法对估计偏差的消除与Pearl的框架思想是一致的。

但是,Pearl的框架可以处理多个变量之间的复杂关系。

实验设计方法(快手因果推断与实验设计)

综上所述,潜在结果和因果图是推测虚拟事实的两种互补方法。目标是在存在混杂变量的情况下,计算干扰变量对结果的影响,并对因果关系进行假设,掌握带来偏差的变量。区别在于,Rubin框架衡量的因果效应是干预前后的预期差,而在Pearl框架下,我们衡量的是干预前后的离差。Rubin框架解决了因果效应测量和统计推断的问题,Pearl框架更倾向于确定因果关系。

实验设计方法(快手因果推断与实验设计)

从这两个框架延伸出来,Aauto Quicker将在不同的场景下应用不同的工具解决实际问题。AB test赞助我们观察策略或产品变化的影响。在一些无法做实验或者多个实验结合的场景下,会有一些其他的方法,下面会介绍。

02例基于观察数据或实验数据的因果推理技巧

1.产品功效评估:DID及其扩展案例

实验设计方法(快手因果推断与实验设计)

双差应用于存在不可观察的个体固定效果的场景。固定的效果被差异去除了。假设的关键在于,政策干预前存在平行趋势,实验干预效果不随时间和光线而变化。双差可以用来排除后期可能存在的那些干扰因素,可以估计测试结果。

实验设计方法(快手因果推断与实验设计)

实验设计方法(快手因果推断与实验设计)

双差假设是用户同时受到影响,测试处置效应对用户的影响相同,但这些假设很难满足。比如测试结果上线时,用户的动作会发生变化,不同用户的动作不一致。当测试组中有不同的用户时,传统的DID模型在估计测试结果时会有偏差。所以我们对DID方法进行了修改,根据用户状态有无变化分为不同的类型。我们分别测量了不同类型用户的DID,然后加权平均得到修正后的DID测试后果值。

实验设计方法(快手因果推断与实验设计)

当对一个群体或一个地区进行治疗时,很难找到一个单独的对照组。在这种情况下,采用综合掌握法构建虚拟对照组。原理是构建一个虚拟的比较组,通过从治疗前的数据中学习权重来拟合实验组开始前的数据,模仿实验组用户没有接受实验的结果,构建合成掌握组。实验开始后,评估实验组和综合掌握组的差异。

2.推荐策略评估:因果推理和机器学习

实验设计方法(快手因果推断与实验设计)

因果分析和机器学习有一些区别。因果分析语言的核心在于因果关系的认定,即合理估计处置前后的现有条件与期望的差异,也可以是缺失数据的处置问题。在因果推断中,我们非常关心如何准确估计结果以及结果的方差。在机器学习中,我们用精度来衡量机器学习模型的好坏,其目的是在训练集上估计一个条件期望,从而使测试集上的MSE最小。机器学习可以通过数据驱动的交叉验证(模型参数)的方法,选择一个最优的模型情境。与传统的计量经济学方法相比,它不需要复杂的假设,如函数形式的假设。从这个意义上说,机器学习可以更准确地预测。

但在因果推理问题上,机器学习的局限性在于,无论在技术资源网络中使用什么机器学习方法,都不能放松因果认定的条件;同时,机器学习模型中常用的正则化和过拟合处理会带来有偏估计,所以我们需要明确这种估计的偏差;在统计推断中,机器学习的局限性在于有些模型不能直接计算方差,有时即使能计算出来,方差的收敛速度也可能达不到预期,所以针对这些问题,下面介绍几种方法。

①双机器学习模型

实验设计方法(快手因果推断与实验设计)

很多时候因果推断会遇到变量混杂的问题,比如试图分析直播推荐的多样性对用户活跃度的影响,但这些都与用户历史有关。传统的计量经济学方法可以解决这个问题,但是依赖于很多强假设,得到的估计不一定合理,而双机器学习为这个问题提供了解决方案。

双机器学习假设所有混合变量都可以观测,其正则化过程可以达到高维变量选择的目的。类似于弗里希-沃-洛弗尔定理,该模型通过正交化解决了正则化带来的偏差。

除了以上所述,还有一些问题需要解决,如ML模型中的偏差和估计有效性问题,这些问题可以通过样本分裂和交叉拟合的方法来解决。具体来说,我们将数据分为训练集和估计集。在训练集中,我们应用机器学习分别拟合影响,在估计集中,我们根据拟合的函数估计残差。这样,我们就可以修改偏差。在偏差修正的基础上,我们可以为所有的估计方法构造一个矩条件,得到置信区间的推断,进而得到一个好的统计估计。

②因果随机森林模型

实验设计方法(快手因果推断与实验设计)

我们通常会探究策略对不同用户异质性的影响,即哪些用户更容易受到影响,影响程度有多大。传统的方法是多维分析,但是效率低,容易出错。这时候可以结合机器学习的方法。这里选择决策树方法,因为决策树的桶特性可以赞助异构问题的解决。与传统方法相比,因果树做了两处修改:

将数据分为训练集和估计集。训练集的一部分去除结构树,估计集的另一部分去除因果效应和方差。

在树划分方法中,每个节点的方差用于修改目标函数。

通常我们会结合实验来做分析。比如在实验中,通过因果树传播因果效应,然后选择实验后果明显的用户进行特征分析,找到敏感用户,帮助我们了解策略的影响,进行下一次迭代。

③用于隆起建模的元学习器

实验设计方法(快手因果推断与实验设计)

隆起——建模是定位敏感人群的另一种方式,不同于因果树的步骤。核心是用测试数据对测试结果变量进行建模,用得到的模型估计条件平均处置的后果。提升建模有不同的学习方法,包括S-学习者、T-学习者和X-学习者。与因果树相比,元学习器是一种间接的建模方法,可以快速实现,但在某些场景下误差较大。

3.用户行为链接研究:因果图

实验设计方法(快手因果推断与实验设计)

我们通常通过因果图来讨论用户动作链接。鲁宾学派常用来衡量变量之间的一级关系,但是当我们面对一些未知的问题时,我们想知道哪些变量真正影响了我们关心的结果变量,变量与用户动作链接之间的交互作用是什么,有效的过程指标是什么。在这些时候,我们使用因果图的方法。

在因果图的生成中,我们经常遇到的限制是算法级的。比如我们在优化目标函数的时候,需要遍历所有的因果图,这是一个NP难的问题。我们需要有效的算法来获得期望的估计。市面上的算法大致可以分为两类:

Cons技术资源网络训练算法

基于分数的算法

03复杂实验设计

实验设计方法(快手因果推断与实验设计)

我们通常在实验设计中遇到的困难是网络效应的检测和反应。在直播中,网络效应的表现方式有很多种。在这种网络效应的存在下,尝试了一些方法,如双边实验、时间片轮换实验、合成母盘法等。

1.双边实验设计

实验设计方法(快手因果推断与实验设计)

双边实验中,主播端和观众端都是分流的。主播这边一部分挂挂件,观众这边一部分能看到,另一部分看不到。双边实验的优点是可以同时检测双方的后果,同时可以赞助检测组间的迁移和溢出。知道了群体间的溢出和干扰,就可以通过双边实验更准确地计算出处置效应。在挂件方案中,我们认为N3代表未完全处置的后果,Y代表处置后的结果,对N3和Y进行微分,计算产品功效的影响。此外,双边实验可以更好地赞助我们的归因。

实验设计方法(快手因果推断与实验设计)

然而,双边实验只能描述群体之间的短暂溢出。在个体间相互干扰的复杂情况下,双边实验无法赞助我们确定测试结果。比如在直播PK关键时刻的情况下,我们通过时间片轮换实验来解决这个问题,即在某些测试对象上反复切换测试组策略和比较组策略。

2.时间胶片旋转测试

实验设计方法(快手因果推断与实验设计)

时间片旋转的核心在于:

时间电影的选择

总测试周期的选择

随机切换中技术资源的网间点是什么?

当时的光粒度比较粗糙,时间上的干扰造成的偏差会小一些,但方差会大一些,影响测试结果。为了解决这个问题,采用的方案是最优设计。

实验设计方法(快手因果推断与实验设计)

优化设计的核心假设是:

结果有一个绝对上限。

用户无法知道下一次是不是测试组。

如果时间片之间存在干扰,那么干扰的影响是固定的、有限的。

当我们不知道如何设计时间片测试中的时间节点时,通常的步骤是估计一个时间,通过测试确认结转的下限,根据下限找到最优的切换时间点,通过测试组和比较组的选择,再进行一次测试估计因果效应。缺点是测试周期长,没有办法观察HTE(异质处理估计)。

04问答环节

问:Q:DID和ABtest有什么区别?什么时候用DID代替ABtest?

答:两种维度不同的方法,ABtest是指在测试对象上做一些随机的比较,但是滞后于其他的。即使在这个AB测试中,当我们遇到AB的一个大的后果时,我们也可以使用DID。DID不一定是基于实验,而是可以根据不同的用户群进行比较,比如。

问:双机学习和PSM的结果有什么区别?

答:维度不同的两种方法。PSM的核心假设是我们首先测量适当性分数。基于适当性分数,我们认为当适当性分数相似时,治疗组和对照组可以计算因果效应。双重机器学习是指,我们对于混杂变量对治疗的影响和混杂变量对结果的影响的函数形式是未知的,这涉及到高维变量的选择。同时,估计我们要估计的因果变量需要两步,这是一个重要的区别。

问:中情局的假设经常不被满足。应该如何降低影响?

答:目前包括双机学习在内的很多方法都得到了很大的扩展。比如当一些合适的工具变量有一些合适的工具方法进行扩展,可以用一些匹配的方法构造一些符合条件的样本,但是这个东西并不完全准确,往往是由人工逻辑决定的。

问:因果图的构建是预设的还是模型构建输出的?

答:重要的是模型的输出,但在算法中,我们可以定义哪些变量是父节点,哪些是子节点。如果最终结果与假设相反,我们会发现假设的父节点下没有子节点。

问:如何评价因果图判定的准确性?

答:①通过模拟数据看准确性;②根据测试数据,在有限的测试方法下,我们发现结论具有相当的稳健性,当然理论上可能需要一些证明。

今天的分享到此结束。谢谢你。

共享客人:

实验设计方法(快手因果推断与实验设计)