大数据告诉你Tiktok为何让人如此上头?
Tik Tok正在风靡全球。根据Sensor Tower,这个短视频APP在全球的应用程序商店和Google Play上的下载量已超20亿,这款轰动一时的软件背后,到底有什么魔力让你如此着迷?毫不意外,答案就是机器学习支持的推荐引擎。本文将带你了解Tik Tok风靡的原因,以及它背后的算法。如果你想了解更多数据分析相关内容,可以阅读以下这些文章:
Machine Learning知识点:机器学习里的聚类分析技巧
三个月如何搞定机器学习的数学原理?
研究了2000+笔记本,我们总结了最适合机器学习、数据科学和深度学习的电脑
评估机器学习算法的指标
不过说实话,谁不喜欢那些可可爱爱的小猫小狗的短视频呢?特别是在疫情封锁的抑郁时期。
但这只是Tik Tok成功的部分原因。不到两年时间,它从一个小众的“假唱”软件发展到2020年的病毒式传播的应用,月活跃用户近8亿。数据统计结果显示,Tik Tok上带有#coronavirus标签的短视频总浏览量达到530亿次。
2020年1月,TikTok成为美国下载量最多的应用程序。(根据SensorTower)
它还因洗脑的歌曲、滑稽的模仿视频而出名。
数据显示,人们通常每天要花52分钟在Tik Tok上,而花在Snapchat、Instagram和Facebook的时间分别为26、29和37分钟。
除了能增长growth hacking(指通过非正常手段增加网站或其他产品的运营数据的做法),这款60秒的短视频应用程序还集模仿、喜剧、舞蹈和才华于一身。同时配备了业内最好的推荐引擎之一,用户就无需搜索或者选择困难。只要点击一下就会为你提供个性化的内容。
这种无尽且容易获取的即时幸福感带来的冲击,让人很难停止浏览TikTok。有些人说,它就是时间的终极杀手,会占据你一切的空闲时间,还时常给人一种“TikTok五分钟,现实生活一小时”的错觉。
接下来,我们一起来讨论如何使用机器学习来分析用户的兴趣和喜好,然后通过互动向不同用户推送个性化内容。
推荐引擎对于数据科学领域来说并不陌生。反而,它因为缺乏图像识别或语言生成等令人眼花缭乱的效果,被人们看做老一代的人工智能系统。
但不管怎样,这个推荐引擎仍是AI系统较为重要的一部分,几乎能在所有的在线网络服务或平台等广泛领域中使用。比如,YouTube视频下方的推荐,你收到的来自Amazon的广告邮件、还有你在浏览Kindle书店时会看到你可能喜欢的书。
事实上,Gomez-Uribe和Netflix的产品总监Neil Hunt在发表的研究论文中说道,个性化和推荐的结合的效应每年给Netflix节省了超过10亿美元。另外,有80%的订阅者是从引擎推荐列表中选择视频的。
接下来,让我们一起看一下TikTok有什么特别之处。
1. 推荐引擎简介
关于推荐引擎,实用的文章和在线课程太多了,大家可以自行搜索学习。
下面是一些你可以用到的建立推荐引擎的基础知识:
- 从头构建推荐引擎的全面指南:链接 (大约需要35分钟阅读,40-60分钟复制python代码)
- Andrew Ng 的推荐引擎视频:链接(观看视需要一个小时)
除了基本的工业化推荐引擎之外,还需要集成一个强大的后端和架构设计。下面来看一个主要的例子。
实时系统应该要有一个坚实的数据基础(用来收集、存储)可以支持多个抽象层(算法层、服务层和应用层)解决不同的业务问题。
2. TikTok 推荐工作流
TikTok从未向公众或科技界公开过他们的核心算法。但是,根据公司发布的零散信息,以及极客使用逆向工程技术发现的踪迹,我得出了以下结论:
(——这只是我个人的解释和推断,可能与TikTok的实际做法有所不同)
步骤0:用户生成内容(UGC)的双重审计(Duo-Audit)系统
在Tiktok,每天有数量庞大的新作品上传,如果只靠机器审核,很容易被钻空子,但纯靠人工审核又不太现实。所以,双重审核成为Tiktok算法筛选视频内容的第一道门槛。
机器审查一般是通过双重审计模型(基于计算机视觉)识别你的视频图像和关键词。主要有两方面功能:
- 1)审核剪辑、文案是否违规。如果疑似违规,就会被机器拦截并标记为黄色或红色,进行下一步的人工审核
- 2)通过提取视频中的图片和关键帧,模型会把提取的内容与其海量存档内容库进行匹配。一旦捕获到盗用抄袭的作品,就会降低他们的流量并进行降权推荐。
人工审核主要集中在3方面:视频标题、封面截图和视频关键帧。对于模型标记的可疑内容,技术人员会对其逐个审核。如果认定存在违规,就会实行删除视频、停用账号等处罚。
步骤1:冷启动
TikTok推荐机制的核心是信息流的漏斗算法。内容通过双重审核后,进行冷启动流量池的第一轮曝光。比如,你发布了一条新作品,通过审核后,TikTok会自动为你匹配200-300名活跃用户的初始流量池,增加你的曝光率。
这种机制下,只要你有能力产出优质内容,即使是新手也能与拥有数万粉丝的老手竞争,因为起点都一样。
步骤2:数据加权
Tiktok会通过在初始流量池中获得的浏览量,对其中数据进行收集、分析。主要分析浏览过程中的点赞量、浏览量、观看量、评论量、粉丝量、转发量、分享量等。
然后,推荐引擎会根据这些数据以及你的帐户评估(无论你是不是高质量创作者)是否要给你的作品加权。
如果引擎决定给你的内容加权,那么排名前10%的作品能再增加1万次曝光。
步骤3:加大流量推荐
对步骤2流量池的反馈进一步分析,来决定是否要更大加权。这一步中,如果一些特定的用户群体(如体育爱好者、时尚爱好者)发表的内容很出色,就会进一步增加权重、加强推荐力度。
整个过程主要就是“猜你喜欢”。推荐引擎会建立一个用户档案库,来寻找内容和用户组之间的最佳匹配。
步骤4:进入精品推荐池(Tiktok的顶级流量池)
只有不到1%的内容最终会进入精品推荐池。在这个池中,内容的曝光量会比其他高出一个数量级。因为热门内容几乎会被推荐给所有用户。(比如最近不管是谁,都可能想看最新的抗议视频“Black lives matter”)
其他步骤:延迟“引爆”
不少Tiktok用户注意到,他们几周前发布了几条影响力平平的帖子,几周后却突然火了。
主要有以下两个原因:
- 首先,TikTok有一个算法(绰号“掘墓人gravedigger”),可以重新挖掘高质量的旧内容,然后对其进行曝光。如果你的内容被这个算法选中,就表明你的帐户有很多足够垂直的内容。这个标签能增加你的内容可见性。
- 然后是“潮流效应”。也就是说,如果你的某个内容获得了成百上千万次观看后,就会把流量引至你的个人主页,增加旧内容的观看次数。这通常发生在垂直创作者(比如,逗猫视频创作者)中。一条爆火的视频会点燃其他所有高质量的视频(人们希望看到你家小猫更多可爱、好奇的视频)。
限制:流量高峰
如果一个Tiktok账号的作品通过了信息流漏斗(双重审核、增加权重和扩大引流),那么这个帐户就会获得更多的曝光、互动和粉丝。
但是,根据研究,这种高曝光时间一般很短,通常不会超过一周。过了这个时间段,这条爆火视频甚至整个账号就会冷却,包括后续的视频也很难流行。
为什么呢?
主要原因是TikTok希望引入多样性,并消除算法中的非人为偏见。
通过这种设计,推荐引擎就不会倾向于某一特定类型的内容,从而确保新内容可以有平等的机会进入到精品推荐池。
感谢你的阅读!你还可以订阅我们的YouTube频道,观看大量数据科学相关公开课:https://www.youtube.com/channel/UCa8NLpvi70mHVsW4J_x9OeQ;在LinkedIn上关注我们,扩展你的人际网络!https://www.linkedin.com/company/dataapplab/
原文作者:Catherine Wang
翻译作者:Lea
美工编辑:过儿
校对审稿:Jiawei Tong
原文链接:https://towardsdatascience.com/why-tiktok-made-its-user-so-obsessive-the-ai-algorithm-that-got-you-hooked-7895bb1ab423