搞定业内所有面试的数据可视化万能套路是什么?
不论是Data Cleaning 还是Exploratory Data Analysis (EDA) 都有它固定的模式。这个“模式”在EDA 的 Data Visualization 中更加明显。因此,在这里给大家分享一下 Data Visualization 的代码。数据可视化对于呈现数据分析的结果非常重要。好的数据可视化需要我们有很强的 storytelling 能力。
这篇文章主要讲解这些代码的用途和不同类型图表的绘制,以及如何运用代码让你的图表变得更有趣更有效。
本文章使用的数据都来自Kaggle的礼品店电商数据,以下codes通过一些小的改变就可以运用到不同的数据集中。我的目的是在一些通用数据集上演示如何将数据可视化。同时,我所使用的数据都已经被清洗过了,所以我们只会讲解数据可视化的部分。
Unit price表示每件商品的价格。在电商中,我们通常很关心价格的分布。我们用Seaborn的一行代码来绘制这个图表,剩下的内容都是用来label数据的。从下图可以看出,大部分商品的单价都少于$800,最高的礼品单价高达$8,000。
接着我们还是用Seaborn来绘制分布图。在这里我们仅绘制了销售量的分布。我们可以看出大部分商品的销售量都小于30。那么,每个国家的订单数量又是多少呢?
因为这个零售电商是英国的,所以英国的订单量最大。也因此我们将不拿英国和其他国家的数据做对比。到这里可能有的同学已经注意到了,用 dataframe.groupby 来描绘不同组别的连续数据非常有用。
我们不用 matplotlib 就能绘制出数据框架。至于是用水平条形图还是竖直的柱状图取决于具体的项目需求。我们在这里选择了水平条形图是为了更清楚地将国家的名字显示在图标的左边。后面我们也会看到竖直柱状图的用法。
下图我们可以看到有注解的竖直柱状图。有时候我们会想要显示每个柱形代表的百分比数据。在这个例子中,我们想要知道一周中每天的订单量,并了解他们占一周订单量的百分比。通过上面的codes我们可以学习如何在图上标注百分比并且不影响整体视觉效果。
最后,我们想知道顾客每个月的消费总额(总销售金额)。有时候我们也想对比现在和之前的数据。在这个图中,我们绘制了一条折线图来表示这个月和上个月销量的百分比的变化。
数据可视化其实就是storytelling。你要清楚地知道谁是你的观众?你想要你的观众从图表中获取什么信息?能从图表中得到什么可行的建议?如果想要学习如何用数据可视化吸引关注的注意力并有效表达你的想法,给大家推荐一本非常有用的数据可视化读物:
Storytelling with Data: A Data Visualization Guide for Business
Professionals.
原文作者:Admond Lee
翻译作者:喝豆奶的Narcia
美工编辑:喝豆奶的Narcia
校对审稿:卡里
原文链接:https://towardsdatascience.com/the-simple-yet-practical-data-visualization-codes-bca99971cdb2