简单有效的 5 步框架,掌握数据可视化!

简单有效的 5 步框架,掌握数据可视化!

我一直对可视化数据非常感兴趣。以视觉图像呈现我的想法和发现,并讲故事,一直是我的强项。

我们都知道数据可视化在大数据时代的重要性。你的教授会喜欢精心设计的课堂报告,你的老板喜欢你通过可视化来发现模式、趋势和业务见解。你也在新 iPhone 发布时看到了可视化效果,对吧?

通过可视化讲述一个引人入胜的故事,你可能会感到难以实现,但相信我,这并不是什么难事。我之所以能够坚持这样做,是因为随着时间的推移,我已经开发出了自己的5步框架,并且每次都能保证准确无误。

图源:Freepik 摄影:Freepik

关键是要反复练习框架,直到你自然而然地创造出“魔法”。

我将通过一个例子介绍这个框架。在这个例子中,我用的是美国大型超市数据集,包含某电子商务平台从 2014 年到 2018 年的交易列表,这些数据可以在 Kaggle 上找到。然后,下载数据(仅需要一个免费的 Kaggle 帐户),然后按照示例进行操作: https://www.kaggle.com/juhi1994/superstore。如果你想了解更多数据分析相关内容,可以阅读以下这些文章:
数据可视化你会了,那设计呢? —— Tableau 中的设计思维
数据可视化Data Visualization需要哪些图表技能?
数据科学必备技能:如何用Power BI做数据可视化
用漏斗可视化,讲好数据故事

1. 明确目的

大家很容易忽略这一点,包括我。在了解要可视化的内容之前,你就开始浏览数据。你花了几个小时来分析数据,然后突然意识到:这并没有什么用。

所以首先,你需要明确目的。

  • 你想解决什么?
  • 你想通过你的可视化传达什么?
  • 你的可视化将如何帮助用户?
  • 你想用可视化实现什么?

这些简单的问题可以帮助你在下一阶段提高工作效率。

实际操作:

针对本文示例,即美国大型超市数据集,您可能需要解决以下问题:

  • 1. 各州之间的销售情况如何?
  • 2. 各产品利润如何?
  • 3. 哪个产品的利润较高?
  • 4. 各产品的利润占比如何?

我只是列出一小部分问题,你还可以提出别的问题。接下来,我们将以第一个问题为例,即各州之间的销售情况如何。

2. 了解数据

现在你已经清楚了目的或要回答问题,接下来,你需要了解你手上的数据。

你需要非常了解你的数据集。数据集可能有数百列,乍一看可能会一头雾水。但是沉下心来,熟悉这些变量,了解每个变量代表什么,以及变量在数据集中的重要性。

现在你已经有了明确的目的(从第 1 步开始),并且已经了解了每个变量所代表的含义,接下来,你要过滤出可视化所需的列。

分析数据集还可以弄清楚你是否可以直接使用数据,还是需要作出适当修改。

实际操作:

在检查数据时,为了更好分析数据,你可能会问这些问题:

  • 1. 数据集中的每个变量代表什么?
  • 2. 回答这个问题需要哪些变量?
  • 3. 解决这个问题需要做出哪些修改?
  • 4. 需要绘制哪些变量?

现在你已经有了明确的目的,也对数据有了清楚的了解,可以进入下一步了。

3. 定义你的目标受众

了解你的目标受众非常重要,因为这可以帮助你明确可视化内容。

例如,如果你的受众是数据科学家,你可能会使用 matplotlib 作为可视化工具。但是,假设你要展示给商业分析师或销售人员;使用 matplotlib 创建可视化就不太合适了。你可以用 像MS Excel 、 Tableau 、或 PowerBI 这些工具。

如果你正在向客户推销你的数据,你要希望你的数据尽可能地吸引他们。在这种情况下,你可能并不想使用 MS Excel,而是选择使用 Tableau 或 PowerBI。

了解目标受众不仅限制你使用什么工具,还包括你使用的标题、说明文字。

实际操作:

以下问题可以帮助你更好地了解目标受众:

  • 1. 你的目标受众是谁?(或者你为谁创建可视化?)
  • 2. 你的目标受众是技术人员吗?
  • 3. 他们在说明数据方面具备哪些能力?
  • 4. 他们希望可视化的形式是什么?(例如,在线仪表板、MS Excel 表、演示文稿)

在本文示例中,我们假设销售人员是我们的目标受众。我们可以选择创建 Tableau 仪表板,显示美国不同州之间的销售情况。

4. 开发可视化

前 3 个步骤可以帮助你清楚地了解要创建的可视化。接下来,我们要动手开发可视化了。

可视化类型

选择正确的可视化类型非常重要。如果选择失误,那么到目前为止你所做的所有努力都将以失败告终。

选择不同的可视化类型:

  • 1. 条形图:如果需要比较数据,可以使用条形图。
  • 2. 折线图:这类图表可用于可视化数据随时间变化的趋势。例如,一年中某产品的价格变动,一年中产生的每日利润变化。
  • 3. 饼状图:这类图表可用于显示构成内容,显示所占百分比。例如,每种产品贡献的利润百分比。
  • 4. 地图:这类图标可用于可视化基于地理位置的数据,帮助最终用户更好地了解该位置。
  • 5. 甘特图(Gantt charts)该图表经常出现,用于可视化项目进度或活动随时间的变化。

可视化的类型不限于以上五种。为了节省时间,我只提到了上述五种。选择了正确的图表类型后,也要注意颜色和比例选择。

实际操作:

在本示例中,我们可以创建一个类似于下图的条形图。

图片由作者提供

5. 测试和改进

在此阶段,你将测试可视化,并做出改进。我们在开发时很有可能因为自己的偏见做出假设。为了减少这种情况,你可以向同事寻找反馈和意见。

实际操作:

在本示例中,我们可以将在上述步骤中创建的条形图改进为地图。(我在前面的步骤中特意创建了条形图,以显示可以通过反馈做出的改进)

图片由作者提供

最后,让我们回顾一下。

简单的五步框架,帮助你节省创建可视化的时间。

  • 1. 明确目的:明确你要解决的问题。
  • 2.分析数据:检查数据,并清楚地了解每个变量所代表的内容。根据问题过滤变量。
  • 3. 定义目标受众:了解目标受众可以帮助你决定在开发阶段使用的工具和用语。
  • 4. 开发可视化:现在,你已经确切地知道了要创建的内容。为数据集选择正确的可视化类型,开始创建。
  • 5. 测试和改进:获取有关已开发可视化的反馈,并做出改进。最后,与利益相关者分享。

数据可视化就是这么简单。只有你实际操作了,才能知道多么有效。祝你一切顺利!

非常感谢你读到这里。希望你喜欢我的文章,也希望本文对你有所帮助。你还可以订阅我们的YouTube频道,观看大量数据科学相关公开课:https://www.youtube.com/channel/UCa8NLpvi70mHVsW4J_x9OeQ;在LinkedIn上关注我们,扩展你的人际网络!https://www.linkedin.com/company/dataapplab/

原文作者:Anushiya Thevapalan
翻译作者:Lia
美工编辑:过儿
校对审稿:Jiawei Tong
原文链接:https://towardsdatascience.com/a-simple-yet-effective-5-step-framework-to-master-data-visualization-a1825e050c7c