一篇文章带你了解探索性数据分析

一篇文章带你了解探索性数据分析

这是数据分析中我最喜欢的部分:获取枯燥的平面数据,并通过可视化将其变为现实。” — 约翰·图基

探索性数据分析 (Exploratory Data Analysis – EDA) 会应用一组用于探索、描述和总结数据性质的统计技术,以确保分析的客观性和互操作性。本文我们将通过对 QS 世界大学排名(2017-22)数据集的分析,向你介绍 EDA 的过程。如果你想了解更多关于数据分析的相关内容,可以阅读以下这些文章:
8 种数据挖掘技术,让你成为更好的数据分析师
Python为什么这么火?如何利用Python进行数据分析?
20个常用函数——用Excel做数据分析
数据分析领域的10位杰出女性

在本文中,我们将通过对 QS 世界大学排名(2017-22)数据集的分析,向你介绍 EDA 的过程。

(复制此链接到浏览器打开可下载数据:

https://www.kaggle.com/datasets/padhmam/qs-world-university-rankings-2017-2022)

EDA 的工具

有很多工具可以被用于开发 EDA,其中比较流行的是R和Python 。R 是 R Foundation for Statistical Computing 支持的开源编程语言。它具有易于使用的界面和富有表现力的语法,可以让统计学家、数据分析师、研究人员等人检索、清理、分析、可视化和呈现数据。另一方面, Python在更大程度上促进了快速的应用程序开发。

把Python和 EDA 结合,它可以用于识别数据集中的缺失值,以确保我们很好地处理机器学习中的缺失值。当然,你也可以选择MS Excel和Tableau等其他软件。

EDA 的步骤

1.数据收集:

数据的收集是探索性数据分析的一个重要方面。在这个过程中,我们要定位数据,并将其放入我们系统。

2.数据清洗:

数据清理,就死从数据集中删除不需要的变量、值、以及任何异常的行为。这些异常可能会严重扭曲数据,对结果产生负面影响。

  • 消除缺失值、异常值以及额外的行和列。
  • 重新格式化和重新索引数据。

3.数据预处理:

这是一个处理计算机不能理解的真实数据(例如文本、图像、和视频)的过程,因此在此步骤中,我们将使用整洁和结构化的信息制作易于分析的数据,让它们能够被机器理解。

4.数据可视化:

为了更好地理解数据,我们必须让数据变得简单易懂,所以当我们以图表等可视数据的形式表示它时,它将帮助分析师和其他人快速地理解数据。

不同类型的 EDA

1. 单变量分析(Univariate Analysis)

单变量分析是分析数据的最简单形式。正如名称“uni”所暗示的那样,单变量分析是对一个变量的分析。它有助于数据分析师了解单个变量的值是如何分布的。它分别探索数据集中的每个变量。它会分析每个变量的特征,但不会研究和其他变量直接的影响或关系。

  • 单变量非图形:集中趋势、偏差、偏度、峰度等。
  • 单变量图形:直方图、箱线图、饼图、密度图等。

2. 双变量分析(Bivariate Analysis)

双变量分析会分析两个变量,并确定它们之间的关系。其中一个变量是因变量,另一个是自变量。它还可以帮助检验简单的关联假设。

  • 双变量非图形:相关分析、回归分析等。
  • 双变量图形:散点图、折线图等。

3. 多变量分析(Multivariate Analysis)

当必须同时分析两个以上的变量时,我们就需要进行多变量分析。在处理现实世界的数据时,我们所做的很多预测都是基于多变量数据,因为在给定时间点或一段时间内可能有多个因素影响变量。多元分析的常见类型包括聚类分析、因子分析和多元回归分析。

用R 做 EDA分析

1. 数据收集:

Kaggle 收集了关于 QS 世界大学排名(2017-2022)的数据。QS 世界大学排名是由 Quacquarelli Symonds 每年发布的全球大学排名。QS排名得到国际排名专家组(IREG)的批准,被视为世界上阅读量最大的三个大学排名之一。

2. 数据清洗:

由于数据中多列有缺失值,让我们删除缺失值超过 4 个的行,因为我们无法分析缺失很多属性的大学。

3. 单变量分析:

像上文解释的,单变量分析不会给出两个或多个变量之间的任何关系。它只是解释和描述数据集。在这里,我们找到了平均值、中位数、标准差等。

4. 双变量分析:

上图展示了大学规模与研究产出的关系。与产出“中”和产出“低”相比,具有“非常高”和“高”研究产出的大学规模更大。

我们还得到了一个右偏分布。异常值似乎对均值影响不大。大多数大学的每个教员都有 5 到 20 名学生。

5. 多元分析:

与其他大学相比,研究成果“非常高”的大学的“师生比例”要低得多。

就规模而言,与公立大学相比,私立大学的“师生比例”要低得多。另一个有趣的观察是,平均“师生比”随着大学“规模”的增加而增加。

结论

探索性数据分析是进行数据分析时重要的第一步,因为它可以发掘出数据中重要的关系,因此可以作为分析过程中的指导手册。

以上就是本文的全部内容。谢谢你的阅读!如果你有任何反馈或想法,请在评论中告诉我。你还可以订阅我们的YouTube频道,观看大量大数据行业相关公开课:https://www.youtube.com/channel/UCa8NLpvi70mHVsW4J_x9OeQ;在LinkedIn上关注我们,扩展你的人际网络!https://www.linkedin.com/company/dataapplab/

原文作者:Anushree Mukherjee
翻译作者:Jiawei Tong
美工编辑:过儿
校对审稿:Miya
原文链接:https://medium.com/@anushree.mukherjee/exploratory-data-analysis-658b71580190