Google长期AB测试——从在线实验里避免短期收益陷阱

Google长期AB测试——从在线实验里避免短期收益陷阱

在AB测试中,我们一般会关注某个变化带来的短期影响。比如:

  •  新功能会给我们带来更高转换率吗?
  •  改变设计是否会让更多的用户参与到特定功能?

如果答案是肯定的,就开始把改动全面推向所有用户。

但是,短期目标可能会与企业更关键的长期目标发生冲突。比如,一家超市突然提高价格,可能会在短期带来更高利润。但长远看,如果更多的顾客改从竞争对手那里购买商品,那么这家店的收入就会减少。

(图源:Unsplash)

本文中,我将对在线实验的先驱之一 —- Google进行介绍,看看Google是如何通过长期实验来解决上述问题的;以及我们能从中学习到的一些用AB测试实现持续成功的方法。如果你想了解更多数据分析相关内容,可以阅读以下这些文章:
不可不知的数据科学基础 ——AB Testing
200万人阅读的AB Testing好文
学会了 Tableau 和 R 的这个用法以后,4875个有志之士拿到了FLAG的offer
Sampling 101:详解统计学中的抽样技术

权衡用户价值与收益

用户价值和收入之间的权衡并不是直观。但是你可能会问,企业不就应该通过提供用户价值来赚钱吗?

是,也不是。举个例子,想想报纸、杂志或电视节目。对用户来讲,更少的广告和更多的内容确实会更有价值。但这些都会对出版商的收入有明显影响。

产品开发(Product Development)领域也是这样。无论是想提高用户留存率,吸引更多用户;还是鼓励更多用户使用某个功能:任何努力优化背后的长期目标,都是为了增加收益。实验时,我们通常专注于改进其中的一个主要成分。

对于Google这样的搜索引擎,他们具体收入分布如下:

从等式我们不难看出:改善其中任一部分,总体收入值都会增加。

但是,想要达到这些效果并不容易。因为各部分总是相互纠缠在一起。增加某一指标,可能会影响等式中的另一部分。最终,可能对整体造成负面影响。

比如,我们想要查看每个任务的查询量。这个指标,就是用户在Google Search上找到他问题答案需要搜索的次数。从等式中可以看到,这是总收入的直接来源。但是,如果为了留住用户,而降低搜索结果的质量,对Google的收入来说可能是个很错误的想法。因为这会导致越来越多用户转向其他搜索引擎(比如Bing或DuckDuckGo),最终造成用户数量(等式中另一个组成部分)迅速减少。

与AB测试的关系

通常来说,这些效果的影响是存在一定的时间间隔的。假如Google降低了搜索结果的质量,那么用户可能要花一些时间来决定要不要尝试其他搜索引擎。而在此之前,团队会观察到每个用户的查询量有所增加,收入也会略有增加。

在AB测试中,我们衡量的指标要与变化之间存在密切联系,而且它也必须是收入的驱动力。界定一个较小范围,不但可以节省时间,还能更简单的把兴趣指标转化为处理方法。

如我们所见,对整体目标(增加收益)的长期影响,可能会与我们的预期完全相反,这种矛盾尤其在对用户体验产生了负面影响时更加突出。

Google对长期影响的衡量

Google团队很清楚这个困境的存在。所以,他们尝试开发了一种方法来评估页面广告数量变化带来的长期影响。

Google Search上的广告 (图源:作者)

除了可能会将用户拱手让给竞争对手之外,增加广告数量也会对整体收益产生更多负面影响。比如,它会让用户习惯性忽略广告,这种现象被称为广告漠视或广告盲区(ad blindness)

这种效应会降低用户点击广告的频率,最终降低Google的收入。

为了权衡和量化长期投放广告与较低点击率之间的关系,该团队进行了一项长期实验。分为以下三个阶段:

  • 前期:对照组和实验组体验相同,以确保两组具有可比性。
  • 实验:实验组广告曝光较多,在此阶段可以观察到使用该解决方法的短期效果。
  • 后期:两组再次回到Google Search的正常体验。这一阶段,可以观察到实验组的学习效果。如果用户点击广告的频率明显低于没有使用该方法的用户,那么实验组的用户就是习惯性忽略广告了。
增加广告曝光对Google Search的长期影响(图源:作者)

通过这个实验,团队可以观察到广告点击率的变化以及随着时间的推移对收益的影响。然后,结合短期变化和学习效果,可以计算出整体的长期效果。

在后期,投入与控制组数量相同的广告时,可以看到实验组中用户点击率更低。所以团队确实可以观察到学习效果:

与对照组相比,两种变量的用户在发布后的广告点击率(图源:Hohnhold等)

注:如上图所示,Google在实验中又加入了第三组。在实验阶段,变量组用户看到的广告是少于对照组的,但结果却显示,播放更多广告的组产生了相反的效果。

无法进行长期实验怎么办?

通过上述方法,Google可以在改变展示广告数量的同时,量化短期和长期变化之间的权衡。

另外,团队还可以利用他们的发现来创建一个公式,通过短期结果来衡量一个变化的总体影响。然后在AB测试中把这个估计值当作主要指标。

长期实验的缺点

问题是,有很多其他公司(想要采用这种方法的)并没有Google这样的资源和流量。Bing的一个研究团队指出,长期实验也存在一些严重的缺陷。

该团队指出了长期AB测试存在的问题,具体如下:

  • Cookie流失:进行试验时,必须先确定用户身份,然后再将其分类。如果用户不需要登录某项服务(Google Search和大多数网站都是这样),那么识别用户的唯一方法就是cookie。由于用户可以随时更改他们的浏览器或删除他们的cookie,因此,保持一个稳定的样本几乎是不可能的。实验进行得越久,这个问题就会变得越严重。
  • 幸存者偏差:增加实验组的广告负荷可能会增加用户流失率。所以,忠诚度较低的用户会有更高流失率。随着实验的推进,实验组中的忠实用户比例可能会更高。这种情况下,对照组和实验组就不再具有可比性。
  • 选择偏差:由于Cookie的流失,后期的实验组可能只由忠实用户组成,所以不具有代表性。
  • 副作用:有时实验会涉及一些个性化设置。在比较对照组和实验组后期的情况时,实验组可能会有更好体验,因为他们的帐户设置得更好。
  • 假设有一项新功能,可以测试回家路上的交通流量,并实时提醒Google Maps的用户。向用户提供的信息在实验后还可以继续使用,并且能显着改善用户体验。

这些缺陷并不是所有的长期实验都有。比如,假设用户必须登录才能使用特定服务(参考Netflix或Spotify),那么Cookie流失就不会是问题。

评估长期影响的替代方法

虽然有(复杂的)方法来解决或减轻上述副作用,但资源较少的企业该如何衡量实验的长期影响呢?

在评估AB测试成功与否时,应把客户终身价值(Customer Lifetime Value)作为指导原则。

简单来说,就是我们在进行实验时必须选择正确的度量标准。在选择特定的目标和度量标准时,增加客户终身价值(Customer Lifetime Value)作为指导原则。在选择试验成功的短期指标时,应该充分了解这项业务。

例如,Netflix团队知道用户留存率与用户对产品的参与度相关。衡量用户留存率的重大变化不仅耗时,而且对Netflix这种已经有了很高的留存率的公司,还很棘手。所以,团队将用户粘性作为AB测试的主要指标来代替留存率,这样更容易衡量,并能更快得出结果。

以下是牺牲(短期)收益,改善用户体验的更多灵感:

在进行多次长期研究之后,Google把移动端上的广告量减少了50%。可以预见的是,由于呈现给用户的广告数量大幅减少,游戏营收会大幅下降。但实际上,该团队发现,由于网站上的用户体验得到了显着改善,所以对Google Search的收益能力产生了长期的积极影响。

总结

对于产品团队而言,短期收入的增长变化看似是一个绝佳机会,但我们必须了解,那些既得利益往往与企业的长期发展目标不一致。

为了解决这一难题,产品团队应将客户终身价值(Customer Lifetime Value)当作他们实验工作的中心。

在我看来,有两个因素至关重要:

  • 实验需要专注于改善用户体验,而不是推动短期收益。想想Google 50%的广告削减带来的长期收益。
  • 应该使用对企业有积极影响的长期目标的指标来评估实验的成功。比如,Netflix使用的敏感指标很容易受到影响,但它和用户留存率是呈正相关的。

感谢阅读!你还可以订阅我们的YouTube频道,观看大量数据科学相关公开课:https://www.youtube.com/channel/UCa8NLpvi70mHVsW4J_x9OeQ;在LinkedIn上关注我们,扩展你的人际网络!https://www.linkedin.com/company/dataapplab/

原文作者:Dennis Meisner
翻译作者:Lea
美工编辑:过儿
校对审稿:Jiawei Tong
原文链接:https://towardsdatascience.com/what-we-can-learn-from-googles-long-term-ab-test-64e45b649cc4