揭秘 10 大数据科学术语(面试中最常见问题)

揭秘 10 大数据科学术语(面试中最常见问题)

本文为你揭秘了一系列有关数据科学的流行术语。了解这些术语很重要,因为它们经常出现在数据科学工作面试中。话不多说,让我们进入正题。如果你想了解更多数据分析相关内容,可以阅读以下这些文章:
我总结了2021年,人们对于数据科学的几个误解
数据科学家应该看的4部电影——我们要如何有责任地使用数据?
数据科学家面试,我被问到这六个问题
如何征服数据科学面试中的Python编程考试

因变量(Dependent)和自变量(Independent)

因变量(目标变量)受研究中的自变量驱动。例如,零售商店的收入取决于走进商店的顾客数量。在这里,商店收入是因变量,走进商店的顾客数量是自变量。

前者的名称来源是因为它取决于自变量。而后者的名称来源是因为它独立于可能影响因变量的其他变量。比如,降雨量(自变量)与走进商店的顾客数量无关。这两个自变量都可以用于做出更好的预测。

在处理预测数据科学问题时,通常会有一个因变量和多个自变量。

异常值(Outlier)

异常值(Outlier)是指不处于变量正常范围内的值。例如,如果人类平均预期寿命约为 70 岁,那么119 岁的人则会被看作是异常值,因为他的年龄远远超出了正常范围。在处理数据科学问题时,我们通常都会检查数据集中的异常值。因为在处理预测问题时,数据中的异常值可能会影响算法的选择。

有序数据(Ordinal Data)

分类数据中,当数据处于某种顺序时,该数据就为有序数据(Ordinal Data)例如,机票属于有序数据,因为包含头等舱、二等舱等顺序。

面对有序分类数据时,最好使用整数的编码。只需将这些数据转换为与推断序列对齐的整数表示。通过这种方式,算法将可以发现其规律。比如,随着变量值的增加或减少,这些数据如何影响结果。

独热编码(One-Hot Encoding)

独热编码(One-Hot Encoding)是一种数据转换技术,可用于将类别(categorical)转换为数值(numerical)表示。独热编码的最大优势在于,它有助于避免搞混机器学习模型。

简单来说,性别、城市、国家等属性是无序的。无序意味着这类数据内部没有顺序,即所有性别都是相同等级的。我们在将此非序属性转换为整数时,许多算法会假设较高的值更重要/更不重要,但实际上并不是这样。该问题是解决方法,是通过独热编码将非序属性转换为二进制表示。

偏度(Skewness)和峰度(Kurtosis)

偏度(Skewness)是了解数据分布的一种度量方式。当数据的偏度接近 0 时,这意味着数据接近对称分布。当左侧与右侧完全相同时,该分布为对称分布。当数据呈负偏态时,这意味着大多数数据点大于均值。在正偏态数据中,大多数数据点都小于平均值。

峰度(Kurtosis)也是一种可以更好地了解数据分布的度量方式。如果数据具有正峰度,这意味着与正态分布相比,该分布具有更高的峰值。这实际上意味着可能存在许多异常值。

不平衡数据集(Imbalanced Dataset)

不平衡数据集(Imbalanced Dataset)是指目标属性(即被预测的属性)分布不均匀的数据集。在处理数据科学问题时,这类数据集非常常见。例如,预测欺诈性信用卡交易就是不平衡数据集的最佳案例。因为大多数信用卡交易都是真实数据。然而,也有一些欺诈交易。

我们需要着重处理不平衡数据集,因为常规的方法(例如构建模型或评估性能)是行不通的。

数据缩放(Scaling)

数据缩放(Scaling)是一种将数据集(自变量)的所有特征缩放至同一水平的技术。来个简单的例子,某数据集有年龄和薪水这两大特征:年龄在 20-75 岁之间,薪水在 50K 到 500K 之间。

当我们使用基于梯度下降的算法,或任何基于距离的算法,在将特征传递给算法之前,将特征缩放到同一范围非常重要。如果不缩放特征,那么更高尺度的特征会影响预测结果。

相关性(Correlation)

相关性(Correlation)是一种统计度量,用于解释两个特征之间的关系。假设我们有两个特征 ——A 和 B。如果 A 和 B 彼此正相关,则意味着如果 A 增加,B 也会增加。反之,如果 A 和 B 呈负相关,那么如果其中一个增加,另一个就会减少。

相关性通常用于构建模型时选择哪些特征。如果特征高度相关,则意味着这些特征相互依赖。但这些特征并非真正独立,因此通常在构建模型时会从从特征列表中删除其中一个。

置信区间(Confidence Interval)和置信水平(Confidence Level)

对于初学者来说,置信区间和置信水平很容易搞混。但一旦你理解了这个概念,就不会弄混这两个概念了。

我们来看一个真实例子。一家电子商务公司想知道用户在最终下单之前浏览的商品平均数量,但是,跟踪每个用户的点击流数据又非常复杂。因此,最好的方法是计算样本的平均值,并得出估计值。在分析样本用户数据时,我们希望得出一个估计范围。例如,在最终下单之前,用户一般会查看 4 到 9 件商品,“4-9”就是是置信区间。每100个用户中,属于这个范围的用户数量的确定性就是置信级别。 

同方差性(Homoscedasticity)和异方差性(Heteroscedasticity)

同方差性(Homoscedasticity)是线性回归中的一个重要假设,也是工作面试中常见的问题。同方差性是指——自变量和因变量的残差在自变量的不同值之间是相同的。

举个简单的例子,我们有一个自变量,即“财产多少”,因变量为“财产价值”。这意味着,我们使用“财产多少”预测“财产价值”,而误差就是残差。如果误差不随“财产多少”的不同值而变化,那么该数值满足同方差性。如果与财产较少相比,财产较多的残差较高,则为异方差。

正在数据科学面试做准备?记住这十个术语,希望能对你有所帮助。如果你喜欢这类文章,欢迎关注我们的公众号!你还可以订阅我们的YouTube频道,观看大量数据科学相关公开课:https://www.youtube.com/channel/UCa8NLpvi70mHVsW4J_x9OeQ;在LinkedIn上关注我们,扩展你的人际网络!https://www.linkedin.com/company/dataapplab/

原文作者:Sharan Kumar Ravindran
翻译作者:Lia
美工编辑:过儿
校对审稿:Jiawei Tong
原文链接:https://towardsdatascience.com/decoding-the-top-10-data-science-jargons-for-beginners-commonly-asked-in-interviews-436b5afbe3c0