数据故事化101:数据科学家和AI从业者的基本策略

数据故事化101:数据科学家和AI从业者的基本策略

你向你的同事和客户展示枯燥乏味的数据的日子结束了!

释放数据故事化的力量,将你的职业生涯推向新的高度!在这篇文章中,你将学习如何使用数据讲故事来吸引你的观众,使你的信息具有粘性,并从竞争中脱颖而出。如果你想了解更多关于数据科学的相关内容,可以阅读以下这些文章:
数据科学家必备的3个Jupyter Notebook扩展工具
助手类(Helper Classes)工具:帮助你精通数据科学工作流
2023年,你可以做10件简单的事情来提高你的数据科学技能
打好数据科学和机器学习的基础——6本书带你学数学

无论你是经验丰富的专家还是刚入门的小白,这些技术都将帮助你把数据转化为引人注目的叙事,从而推动结果。在这篇文章的最后,你将会得到一个框架,将数据故事化的关键元素纳入到你的下一个演示、演讲或提案中。

但你为什么要担心呢?

作为一名人工智能或数据从业者,你将技术概念和数据见解转化为相关术语的能力对于赢得利益相关者和推动项目成功至关重要。

十字路口的人-由作者创建的图像(Canva Text-to-Image)

你正站在两条路的交叉口。第一条道路是从数据中提取的见解和情报,第二条道路是项目利益相关者、业务经理和那些决定你命运的人(有点戏剧性,但你能理解的)

为了确保利益相关者了解数据科学团队工作的技术需求、增值和影响,数据科学家、数据工程师和机器学习(ML)工程师有必要进行有效沟通。这样基本上控制了这两条道路交叉口的交通流量。

这篇文章旨在:

  • 在数据科学和机器学习的背景下介绍讲故事的方法
  • 提供关于如何培养讲故事技巧的建议
  • 强调有效讲述数据科学故事的好处
  • 提供一个你可以采用的框架,将讲故事纳入不同的场景中,比如向非技术利益相关者展示数据集。

在行动中用数据讲故事

让我们从以下问题开始:

优秀的故事叙述需要什么?

图片来自Unsplash,作者Product School

为了理解数据故事化的力量,让我们看看一个案例研究,它展示了使用数据讲好故事的关键元素。通过分析现实生活中的例子,你将更好地理解有效的数据故事化是什么样子,以及如何在你的工作中使用这些技术。

就背景而言,这篇文章的作者使用数字、数据和信息阐述了常见的全球共同问题的影响和缺乏行动的消极后果。在这种情况下,使用数据来讲述一个特定的故事,使提出的问题变得真实,同时,所提出的解决方案也变得具体和可实现。

在这篇文章中,作者使用数据将全球问题带入生活,并使所提出的解决方案具体化和可实现。作者使用数字、数据和信息来说明这些问题的影响和不作为的后果,有效地讲述了一个故事,使提出的问题变得真实,解决方案变得可以实现。

剖析一个用数据讲述的好故事

图片来自Canva

随着世界人口的持续增长,特别是在非洲,我们看到了一系列后果,包括经济繁荣、收入差距扩大和财富分配不均。人口规模的增长会对一个民族、国家或大陆产生各种各样的影响。

阿什利·柯克曾是《每日电讯报》的数据记者,他在《100年后非洲将是什么样子》一文中谈到了人口规模的增长对非洲经济的意义。

阿什利使用数据和动态可视化,从拉各斯、达喀尔和开罗等主要城市的角度,将非洲正在进行的转型带入生活中。故事叙述不仅是战略性的,强调任何良好的数据驱动叙事的基本结构,而且它还无缝地融合了事实信息、轶事、数据、图表和图形,以创造一个引人入胜的、信息丰富的主题描述。

本文的开头部分描述了情况的背景和主要观点:

“非洲能否将其巨大的人口增长转化为经济发展和生活质量的提高?”

开篇部分提供了背景,并为主要观点奠定了基础,而事实信息、关键日期、数字和第一人称陈述则使叙事立足于现实。图表有助于可视化非洲主要城市的转型,突出了人口增长、教育率和预期寿命等关键数据点。

文章的中间部分深入探讨了这些城市面临的冲突和问题,使用数据、轶事和个人描述来描绘出一幅微妙的图景,展示了其中的挑战和机遇。最终,这篇文章展示了数据从业人员如何使用数据来讲述一个与读者产生共鸣的强大的、人性化的故事。

在数据科学中讲故事不仅仅是为了展示事实和数字-而是为了创造一个与你的听众联系起来的可亲的和卓越的叙述。这就是为什么阿什利的文章包括生活在重点城市的个人叙述和轶事,为数据驱动的分析增添了人性化的色彩。

在整篇文章中,阿什利还加入了对专家的采访,为这些变化如何影响人们的生活提供了额外的背景和理解。

阿什利的文章提出了许多问题,但在结尾部分讨论了已经实施的或正在提出的解决方案,从而达到了很好的效果。机构采取行动解决教育、气候和冲突等问题,增强了阿什利对读者的叙述。

在下一节中,我们将为你提供一个逐步构建自己的数据驱动故事的框架,这样你就可以在你的下一个演讲、文章或视频中有效地向利益相关者展示你的发现。

在数据科学中讲故事的一个有效框架

讲故事的成功可以归结为三个关键因素:背景、叙事和数据。结合这些元素你可以创造一个引人注目的故事,与你的观众产生共鸣并推动你的议程。无论你是在讲述一个事实还是虚构的故事,这些内容都是构建一个有意义的、以数据为导向的叙事是至关重要的。

有效的数据故事化依赖于三个关键组成部分:背景、争议和解决方案。这些元素如下图所示,它们构成了制作一个引人注目的故事的基础。在本节中,我们将研究这些关键的组成部分,看看如何使用它们来提高你数据故事化的技能。当将这些成分作为基本成分时,从业人员如何将它们与其他方法结合起来,创造一个用数据讲述的引人注目的故事,并提高他们的数据故事化技能就变得很明显了。

讲故事的组成部分的说明:背景、争议和解决方案-图片来自作者

1 背景

有效的数据故事化的第一步是设置背景。如果没有背景信息,数据可能会令人困惑和误导,导致项目取消和商业损失。

这就是为什么为你的数据提供背景是如此重要-它有助于赋予数字以意义,并让你的受众更好地理解手头的问题或话题。请记住,仅靠数据不足以提供可操作的见解或有意义的解决方案。必须包括其他支持元素,以使你的数据真正有意义和有影响。

讲故事的背景是提供信息来加强、支持和揭示从数据样本中提取的关键发现,以提供观点。有很多方法可以做到这一点,包括使用演员、轶事、可视化、数据标签、图表等。这样做的目的是让你的听众更好地了解你的数据是在什么环境下收集的,以及它是如何与更大的图景联系在一起的。通过包括这些强化材料,你可以帮助你的听众理解你的数据并看到你的发现的意义。

“2021年,英国销售了305,300辆插电式电动汽车,同比增长约140%。”

——Statista, acea.auto

https://www.statista.com/statistics/804772/sales-volume-electric-vehicles-eu/

上面的材料很有趣,但这些数据在事情的大背景下意味着什么?如果没有背景或个人经历,可能会很难理解这个数字的意义。这就是讲故事的意义所在。通过使用轶事、可视化和其他辅助材料,我们可以赋予我们的数据意义,并帮助我们的受众在更深的层次上与它建立联系。让我们用一个名叫詹姆斯的演员来说明这一问题。

作者注:请注意,下面的故事是编造的,用于说明本文所阐述的观点。

“2020年2月,当詹姆斯每天在M24上通勤上下班时,收看了他的早间广播节目《今日英国》。节目中的对话围绕着反对石油公司的活动人士日益增加的示威活动,以及吸引公众对气候变化的认识。有一句话让詹姆斯印象深刻:‘英国产生的碳排放量是世界平均水平的两倍,这意味着以个人为基础,我们英国人排放的碳气体比地球上大多数人都多。’”

“这句话让詹姆斯铭记在心,他决定采取行动,或者至少尽自己的一份力。詹姆斯回忆说起听到他的工作同事谈论电动汽车,尽管詹姆斯因为缺乏兴趣而拒绝了对话。但现在,詹姆斯的兴趣达到了顶峰,在研究了拥有一辆大众ID.3所需的存款金额后,他有意识决定购买一辆大众ID.3。他就这么做了。到2021年年中,詹姆斯拥有了一辆电动汽车。詹姆斯不是唯一一个决定采取行动的人;数百万英国居民这样做了。要么加大回收力度,要么减少电力和天然气的使用,要么购买电动汽车。英国公众对气候变化影响的认识促进了2021年电动汽车销量的增长。因此,2021年电动汽车销量超过30万辆;这是前一年销售量的两倍多。詹姆斯是新的电动汽车所有者之一。英国现在是电动汽车销量领先的国家之一。

“一名男子为电动汽车充电的未来主义描绘”
作者在MidJourney的图像

增加的背景信息使用了演员和轶事来赋予初始数据点一些活力。图形和图表也是提供背景的关键,如下图所示。

图表显示2021年插入式电动汽车在部分欧洲国家的销量。资料来源:欧洲;Statista;各种来源(国家汽车制造商协会);ACEA;2021年(CC BY-ND 4.0)(https://www.statista.com/statistics/804772/sales-volume-electric-vehicles-eu/

2 争议

故事叙述中的争议是你的故事的对手,而解决方案则是迎接挑战的英雄。将争议理解为需要解决的问题、冲突或议题会更容易。它是你的故事背后的驱动力,也是你需要解决方案的原因。没有争论,就没有解决问题的必要,你的故事也就毫无意义了。因此,在起草数据驱动的叙述时,要明确指出争端以及你的解决方案如何清楚地解决它。这将帮助你创造一个引人注目的、有影响力的故事,与观众产生共鸣。

让我们继续创造一个争议来有效地讲述一个故事,并有效地推动最初数据点的观点:

“2021年,英国销售了305,300辆插电式电动汽车,同比增长约140%。”

“英国是使用能源和发电的化石燃料的净进口国。化石燃料为我们的交通、电力和技术服务,甚至严重依赖化石燃料能源输出的国内项目提供动力。问题是,英国决心到2050年大幅减少对化石燃料的依赖。因此,问题是英国如何减少化石燃料的消耗,转向低碳能源作为替代。此外,化石燃料是气候变化的一个巨大因素,导致了全球气温升高和极端天气的出现。”

未来主义描绘的世界受到化石燃料利用和依赖性影响的负面影响
作者在MidJourney的图像

3 解决方案

解决方案是你的数据驱动故事的核心,也是你的数据存在的原因,也是背景和争议背后的原因。在阿什利·柯克(Ashley Kirk)的文章中,该解决方案结合了旨在改善非洲经济的促进因素的举措和行动。它包括基础设施发展、改善安全、现代化以及国际援助。

解决方案可以有多种形式,例如重新配置现有的系统、实施新方法和提高对教育材料的认识。

在数据驱动的故事中展示你的解决方案时,重要的是要直接、明显和令人难忘。模棱两可的解决方案会导致更多的问题,削弱你的信心和表达能力。一个清晰、可操作的解决方案允许后续步骤,并帮助你的计划在拥挤的领域脱颖而出。是时候停止把自己当成一个个体,而是把自己当成一个通过每个项目的完成来销售自己及其服务的公司。

让我们根据我们正在构建的初始数据点以及解决方案将解决的争议来完成解决方案的制定。下面是对初始数据点和争议的提醒。

数据点:

“2021年,英国销售了305,300辆插电式电动汽车,同比增长约140%。”

争议:

“英国是使用能源和发电的化石燃料的净进口国。化石燃料为我们的交通、电力和技术服务,甚至严重依赖化石燃料能源输出的国内项目提供动力。问题是,英国决心到2050年大幅减少对化石燃料的依赖。因此,问题是英国如何减少化石燃料的消耗,转向低碳能源作为替代。此外,化石燃料是气候变化的一个巨大因素,导致了全球气温升高和极端天气的出现。”

以下是提议的解决方案:

“詹姆斯降低碳足迹的旅程始于意识。公众意识到大量依赖化石燃料所造成的问题及其对环境的破坏,是实现英国到2050年减少化石燃料依赖的国家目标的第一步。为了接触到更多像詹姆斯这样的人,我们建议扩大世界自然基金会碳排放量应用程序的规模,以包括人工智能驱动的功能,实现基于历史数据和预测能源需求预测的每户能源消耗等服务。这项扩大规模的举措将需要1亿英镑的资金,并将在项目批准一年后向公众交付。”

同样,我提出的解决方案是虚构的,应该仅用于说明问题。明确地说,建议的解决方案引用了这个故事,以使它更容易记住。我已经包括了关于项目成本和时间表的信息,以表明它是直接的。如果我们愿意,我们可以很容易地在我快速拼凑的这个虚构的解决方案中找到缺陷,但你应该从这里获得的是组成一个理想解决方案的元素:让人印象深刻、直截了当。

“数据故事化既是一门艺术,也是一门科学,作为人工智能/数据从业者,我们可以将其分解为易于遵循的步骤。正如广泛讨论的那样,一个引人注目的数据驱动故事应该包括以下组成部分:

  1. 背景——为你的叙述奠定基础并提供一些背景。
  2. 争议——讨论与背景相关的问题。
  3. 解决方案——最后,解释和讨论解决方案,以结束或缓解已确定的问题。

将各个部分组合在一起

图片来自Unsplash,作者Mourizal Zativa

总结一下,在编写数据驱动的故事时,你可以遵循以下框架:

  1. 开篇部分:首先要陈述事实,强调争议的影响或解决方案的价值。通过几个段落和解释背景来扩展这一点。
  2. 中间部分:介绍并扩展背景中的争议。用轶事、事实、数字、图表和图形来说明问题。然后,介绍并展开关于解决方案的争议。使用轶事、事实、数字、图表和图形来展示所提出的解决方案的影响和附加值。
  3. 结束部分:通过创造现实之间的对比来总结没有解决方案的负面后果和有解决方案的好处。下一步包括一个行动呼吁,以封装用数据讲述故事的预期结果。

将沟通有效的数据驱动故事的关键组件、元素和注意事项结合起来,你将得到如下所示的图表。

讲故事的组件、元素和注意事项的完整图标
图片来自作者

当我们在提供争议和解决方案的同时提供背景时,我们创建了一个强大的三重奏,帮助个人理解问题,感到有动力帮助解决问题,并知道他们如何采取行动。

我们可以通过将数据背景化和用背景信息支持关键信息来创建一个更加知情和更多参与的公众。无论是通过轶事、可视化还是数据标签,目标都是提供背景,增强对数据驱动故事的影响和理解。

总结

随着公司、社会乃至整个世界变得越来越受数据驱动,我们将看到对人工智能可解释性和数据简化的需求呈上升趋势。人工智能和数据行业各级从业人员和专业人员需要发展数据故事化技能,以弥合与非技术利益相关者、客户和广泛的社会在领域、数据集和技术方面的理解偏差。

你的数据故事化之旅并没有结束于此。培养数据故事化技能还有许多其他方面没有在本文中介绍,例如通过包括数据可视化、设计注意事项、文档等来增强数据故事化的演示和宣传。但是,本文中的三个步骤将为你提供一个强大的基础,你可以从这里开始构建数据故事化技能。

下一步是将从本文中学到的知识融入到你的下一个项目、实践或组织中。在接下来的文章中,我将深入研究增强数据故事化演示文稿的材料。

感谢阅读,我希望你觉得这篇文章有用。你还可以订阅我们的YouTube频道,观看大量大数据行业相关公开课:https://www.youtube.com/channel/UCa8NLpvi70mHVsW4J_x9OeQ;在LinkedIn上关注我们,扩展你的人际网络!https://www.linkedin.com/company/dataapplab/

原文作者:Richmond Alake
翻译作者:马薏菲
美工编辑:过儿
校对审稿:Chuang
原文链接:https://macxima.medium.com/data-engineering-scala-or-python-4df5c6384ab4