数据可视化Data Visualization需要哪些图表技能?
表格数据虽然应用广泛,但它有一个很大的问题——与我们的大脑不兼容。但如果可以用视觉效果呈现数据,你的分析将会非常出色!
绝大多数数据都存储在表格中,这是能够让计算机理解的最佳形式。然而,人类是视觉生物,我们更擅长理解视觉数据。用图表表示呈现数据就很不一样了;在此基础之上,选择正确的图表类型也非常重要。本文将为你介绍这些图表的类型,以及他们的最佳应用场景。如果你想了解更多数据分析相关内容,可以阅读以下这些文章:
用SQL分析——用户参与度和活动直方图的分析
如何用Power BI 创建完美图表
分析了2020年北美5500个数据科学岗位,我们用这8张图给你总结了求职热点
Plotly实现5种经典简便的可互动图表
有些图表更适合表示数字数据(1,1.2,3,4…),而有些则擅长将分类数据可视化(猫,狗…)。图表还可以根据可以可视化的数据维度(表格数据的列)进行分类。
- 条形图(Bar Chart)
到目前为止,我认为最有用的图表就是条形图,因为它适用于大多数情况。条形图非常适合呈现数字,并对数据进行分类。通常,该图表可以呈现 1 – 2 个数据维度,但你可以用分组(也称为分组条形图Grouped bar chart)来添加更多维度,一般分为水平方向条形图,以及垂直方向条形图(也称为柱状图)。
- 线型图(Line chart)
日期-时间的数据非常常见,折线图是可视化这类数据的最佳图表之一。即便有多个数据维度,我们也可以通过线型图轻松地读取数据,但是,这些数据值必须在相近的范围内。折现图能够可视化趋势及季节的能力,他的价值是无法衡量的。
- 直方图(Histogram)
在处理数值数据时,常常会先检查数的据分布,这就是直方图的作用。直方图可以呈现一个值在数据集中出现的频率,帮助你检测偏斜度(skewness)、异常值(outlier)等。直观来看,直方图与条形图相似,但本质上是不同的。
- 散点图(Scatter plot)
散点图是数值数据分析的必备图形,也是检测两列数据之间相关性的最佳工具,非常适合检测异常值。条带/群图是散点图的一种特殊形式,可用于呈现分类关系。
- 箱形图(Box plot)
数据分布也可以用各种统计指标(中位数、四分位数、IQR……)表示。箱线图中包含大多数重要指标,且结构紧凑,非常适合比较不同的数据分布。但是,如果你不习惯使用箱型图,你可能会觉得有点不直观。
- 热图(Heatmap)
热图是一个三维图表,只能表示 2 个分类值和 1 个数值。听起来这种图表需要在非常确切的情况才能使用,但实际上,这种数据列组合有很多用例。我认为热图是用 3 个数据维度表示复杂模式的最直观的方法之一。气泡图(Bubble chart)也可以用来描述相同的模式。
特殊数据集的特殊图表:
- 词汇云(Wordcloud)
分析文本数据难度很大,可视化文本数据更是如此,但也不是不可能。词汇云是一种在狭小空间中表示不同词汇或短语数量的好方法。
- 雷达图(Radar chat)
雷达图是一种非常特殊的图表,可通过易于理解的方式呈现多维数值数据。
结论
选择合适的图表时,你需要非常慎重。图表可以呈现信息,那么同时也可以掩盖信息。因此,你需要一再谨慎。图表设计也非常重要,你需要时刻观察,动态调整。
在一份报告中,数据可视化通常是最具影响力的要素。想要生成一份优秀的报告?那就让你的可视化效果更出色一些吧!希望这篇文章对你有所帮助!你还可以订阅我们的YouTube频道,观看大量数据科学相关公开课:https://www.youtube.com/channel/UCa8NLpvi70mHVsW4J_x9OeQ;在LinkedIn上关注我们,扩展你的人际网络!https://www.linkedin.com/company/dataapplab/
原文作者:Perdih Vladimir
翻译作者:Lia
美工编辑:过儿
校对审稿:Jiawei Tong
原文链接:https://medium.com/@perdih.vladimir/must-have-charts-for-your-data-analysis-toolbox-66f4a655ef33