社交媒体中,AB测试是怎么应用的?

社交媒体中,AB测试是怎么应用的?

AB 测试的概念其实很简单:就是将用户随机分配到对照组或实验组,并检查—与对照组相比,实验组中的用户是否表现出预期的行为变化(或根本没有任何变化)但是,如果用户之间相互交互,想把对照组和实验组区完全分开来变得几乎不可能,那该怎么做呢?如果你想了解更多数据分析相关内容,可以阅读以下这些文章:
想了解AB测试?重要概念合集就在这里!
如何通过面试中的AB测试问题(以doordash为例)
Google长期AB测试——从在线实验里避免短期收益陷阱
如何使用AB测试,提高产品效率?

像Facebook、谷歌、和LinkedIn这样的公司都因AB测试的工作而出名。但鉴于他们产品的高度互联性,这些公司都会面临上述这个问题,这可能会导致实验结果出现偏差,甚至会损伤用户体验。那么这些公司是如何解决这些问题的呢?

社交媒体中 AB 测试的挑战

在进行 AB 测试时,人们通常会假设每个人在测试中的反应仅取决于自己的分配,而不取决于其他人的分配。这被称为稳定单位处理价值假设(Stable Unit Treatment Value Assumption)

让我们假设一个大型社交网络平台(如 LinkedIn 或 Facebook)正在测试一种改进过的算法,以提高推送对用户的相关性,目的是增加内容的参与度。如果用户 A 在实验组中,并与对照组中的用户 B 互联,那么用户 A 的行为变化可能会影响用户 B 的行为。用户 A 可能对要改进的内容表现出更高的参与度,从而分享更多的帖子、图片和文章。这最终会对用户 B 产生影响,因为用户B会在没有接触到新体验的情况下开始做同样的事情。

实验的成功与否,是通过实验组和对照组之间平均结果的差异来衡量的。例如,我们可以查看转化率的差异。这被称为平均处理效应(Average Treatment Effect)。就像在社交媒体中的那样,溢出效应(Spillover Effects)会偏向平均处理效应,因为我们无法再次准确获得在实验组中引入变化而带来的好处。就新闻动态的新算法而言,溢出效应可能不仅会增加实验组的参与度,还会增加对照组的参与度。这是因为,对照组中的用户也可能被鼓励更多地参与推送。然而,这也削弱了实验的正面效果,在社交媒体中使用标准 AB 测试方法最终可能导致结论出现错误。

除了统计结果存在风险偏差之外,社交媒体或协作应用程序中的 AB 测试也可能会带来一些用户体验问题。例如,在视频聊天应用程序或高度协作的应用程序(如 Google Docs)中测试新功能时。如果正在进行视频通话或同一文档中协作的用户没有相同的功能,这可能会导致用户感到困惑,体验感同时也会变差,从而导致诸如“你看不到右下角新的黄色按钮吗?”这种问题

经典的AB 测试的方法可能会由于统计结果存在偏差,从而导致业务决策出错,严重损害用户体验感。

集群抽样(Cluster Sampling)

集群抽样,也称为网络分桶,是处理溢出效应的一种常用方法,目标是将用户分成实验组和对照组,以便尽可能地减少组之间的交互。在进行 AB 测试时,用户通常会被随机分配到不同的版本中,这就导致了前面提到的溢出效应。取而代之的方法是集群抽样,随机化是在用户集群级别进行的。换句话说,如果用户是对照组的一部分,他们直接通过网络连接的很大一部分用户也会分配给对照组。

以最小化信息流的方式拆分这些组非常复杂,可以使用多种集群算法来实现这一目标。一种被称为 e-net 的方法基于以下想法:

  • 1. 找到 k 个节点作为集群中心,它们之间的距离大于特定阈值
  • 2. 将剩余的节点随机分配到它们最近的中心

在 Google Cloud Platform 这类的协作应用程序中,可以使用更具确定性的方法来创建这些集群。相互交互的用户数量受到他们协同工作的项目数量的限制。因此,可以创建在相同项目上工作的用户集群,从而将集群之间的溢出效应降低到接近 0(如果用户加入了属于不同集群中的用户的新项目,溢出效应仍然会发生)

对实验组进行集群也存在一些问题。例如,集群大小和网络中的集群数量需要权衡。一方面,为了实现ab测试的高统计效率,集群单位要尽可能多。另一方面,用户组内不同集群的数量越多,这些集群的隔离程度就越低。例如,如果只有一两个集群,那么溢出效应将远远小于100个或更多集群的溢出效应。另一个要求就是,在实验组之间要有相同的集群大小,这有助于减少方差并增加检验的功效。

AB-测试集群

实验组被组织成集群后,集群就可以分配给对照组或处理单元,然后在集群上进行测试。首先,在集群级别上计算转化率等指标,然后再在实验组级别上计算平均值。最终,这些结果可用于计算平均实验效果。

这种方法也可以用来证明网络效应的普遍存在。例如,实验时,在用户级别上随机化的AB测试可以与在集群级别随机化的另一个测试并行运行。如果两种方案之间的平均处理效果存在显着差异,则可以将其视为网络效应存在的证据。

其他挑战

在集群上而不是在用户级别上进行随机化,只能解决在社交媒体中进行 AB 测试时出现的部分问题。另一个需要考虑的问题是将用户划分为集群时,用户之间连接的强度和方向。与 Facebook 或 LinkedIn 相比,Instagram 和 Twitter 等网络的结构差异很大。网红在这些网络中扮演着重要角色,他们是一个相对较小的用户群体,却能够对许多用户产生巨大影响。与此同时,这些联系大多只朝着一个方向发展:影响者可以对他们的追随者产生影响,但反之则不然。

想象一个极端情况,其中一个用户非常有名,以至于网络中的所有其他用户都关注他。无论网络如何划分,该用户都可以影响所有这些用户。但在不那么极端的情况下,仅仅将用户聚集在联系最密切的群体中,也可能无法减少溢出效应。解决这一问题的一种可能方法是,使用影响者作为初始集群中心,并通过多数投票将剩余用户分配给这些集群。

总结

一般来说,AB 测试应用广泛,且研究深入。与此同时,AB测试在社交媒体中出现的问题还未得到解决,仍需更深入的研究。无论是寻找正确的聚类方法,还是对平均处理效果的理想化评估,仍有许多问题需要克服。但由于 AB 测试是 Facebook 和 Twitter 等大型科技公司所有产品开发活动的核心,我们可以期待,解决这些非常有趣的问题的方法将会在不久以后出现。感谢你的阅读!你还可以订阅我们的YouTube频道,观看大量数据科学相关公开课:https://www.youtube.com/channel/UCa8NLpvi70mHVsW4J_x9OeQ;在LinkedIn上关注我们,扩展你的人际网络!https://www.linkedin.com/company/dataapplab/

原文作者:Dennis Meisner
翻译作者:Lia
美工编辑:过儿
校对审稿:Jiawei Tong
原文链接:https://towardsdatascience.com/ab-testing-challenges-in-social-networks-e67611c92916