如何学习数据科学所需的数学知识?

如何学习数据科学所需的数学知识?

作为一名数据科学家,不仅仅是使用即插即用的机器学习软件包。首先,你必须了解算法的实际作用,并知道何时以及为何使用它,学习算法的过程就是研究底层数学的过程。

要成为一名高水平的数据科学家,你必须对基础数学有高标准的了解。这就是残酷的事实。然而,所需的数学知识并不是博士学位甚至硕士学位的水平。其中大部分内容在高中后几年和许多本科课程的前几年就已涉及。

因此,在本文中,我想详细介绍数据科学真正需要的数学知识,以及你应该学习的内容和有用的资源。如果你想了解更多关于数据科学的相关内容,可以阅读以下这些文章:
所有数据科学家都应该知道的三个常见假设检验
如何开始自己的第一个数据科学项目?
导航数据驱动时代:为什么你需要掌握数据科学基础
数据科学家常见的13个统计错误,你有过吗?

视频来自:https://www.youtube.com/watch?v=fIzYsrR-5Bs&t=16s

现在,数据科学是一个很大的领域,本身仍没有明确的定义。不同公司的数据科学家的职责往往略有不同,因此每个职位所需的数学知识最终也会有所不同。

不过,在我看来,所有数据科学家都应该了解一些基础领域,这些基础领域可能会涵盖职位描述中的大部分要求以及面试中可能被问到的问题。

需要指出的是,这些内容更多是针对入门级和初级职位的,而不是针对那些想成为OpenAI、Tesla或Tesla的机器学习研究员的人。那是另一码事,我没有这方面的经验,而且是围绕着研究而不是产业路线展开的。

一般来说,你应该学习三类数学:

  • 概率与统计
  • 微积分
  • 线性代数

这些领域各自的规模都很大,人们会用整个职业生涯来学习和研究它们。我们的目标是对数据科学职业生涯中会遇到的典型问题和大多数面试问题有广泛的了解,而不是学习所有的知识!

总之,让我们深入这些主题,讨论你应该了解的知识。在每一节中,我都会分为“学什么”和“怎么学”,这样你就可以为自己的数据科学路线图制定一个清晰的计划!

注:根据你作为数据科学家所从事的工作领域,你可能还会接触到其他数学领域。

在我看来,概率论和统计学可能是数据科学家最需要精通的领域。在工作中,你每天都会用到它们,而微积分和线性代数就不那么重要了。

大多数机器学习实际上都源于统计学习理论。

与其他领域一样,概率论和统计学也是一个广阔的领域,有着大量活跃的研究。不过,我们只需要了解几个领域的基础知识。

  • 描述统计—这对于一般分析非常有用。如平均数、中位数、标准差、定量、相关性以及基本的可视化图表,如柱状图、条形图、折线图、饼图和小提琴图。
  • 概率分布—你需要了解二项分布、泊松分布、正态分布和伽马分布等分布,以便在构建模型或向利益相关者传达结果时对数据做出准确的假设。
  • 概率论—许多机器学习算法都基于统计学习,而统计学习来自于对概率工作原理的理解。最重要的概念是最大似然估计、中心极限定理和贝叶斯统计。最大似然估计用于推导所有常见的损失函数,如最小二乘法和对数损失。
  • 假设检验与可信区间—A/B检验随处可见,它们只是统计假设检验。数据专家经常使用的几种测试包括Z检验、T检验和Chi-Square检验,但根据所处行业的不同,也会出现其他测试。与之相辅相成的一个概念是置信区间。
  • 建模与推理—很多机器学习算法都是一些有上百年历史的统计模型的翻版。线性回归和广义线性模型是你应该了解的主要两种模型。

当然,在这些子域中还有更多的领域值得探索,如果我把你应该学习的每一个可能的主题都一一列举出来,那就太详尽了。维基百科上有一个很好的页面,介绍了统计及其各个子域的整体概况。

链接:https://en.wikipedia.org/wiki/Outline_of_statistics?source=post_page—–86c6643b0c59——————————–

如果你喜欢照本宣科,那么下面这本由Peter Bruce、Andrew Bruce和Peter Gedeck合著的《数据科学家实用统计学》可能是最受从业者好评的一本书,因为它是专门为数据科学家设计的,而不仅仅是一本普通的统计学教科书。

链接:https://www.oreilly.com/library/view/practical-statistics-for/9781491952955/?source=post_page—–86c6643b0c59——————————–

最后,如果你想以视频的形式进行学习,那么freeCodeCamp有大量的资源,但我还是推荐下面的统计视频。

视频来自:https://www.youtube.com/watch?v=xxpc-HPKN28&t=9180s

微积分是机器学习算法真正“学习”的核心。它们的“学习”是通过优化完成的,而优化则是通过微积分的基本原理实现的。

微积分有两个主要领域:微分和积分,但让我们将它们进一步细分。

你应该学习的领域有:

  • 什么是导数,它在测量什么?极限和无穷大是需要理解的概念。
  • 学习常见函数(正弦、余弦、指数、tan等)的导数以及如何推导导数。
  • 什么是转折点,最大值和最小值与它们有什么关系?这些都是梯度下降法背后的主要直觉。
  • 神经网络的反向传播算法背后是链和乘积规则。
  • 了解偏导数及其在多元微积分中的应用。这是梯度下降算法背后的命脉,为大量算法提供了动力。
  • 凸函数和非凸函数的区别。这一点很重要,因为它能告诉你是否能找到最佳解决方案,这对你解决优化问题特别有用。
  • 雅各布矩阵和希斯矩阵,在深度学习中非常有用。
  • 泰勒级数和展开式。许多算法都使用近似函数。

可以说,整合在数据科学中使用得较少,但它仍然很重要,因为它与区分相反:

  • 什么是积分,它有什么作用?
  • 常见函数(正弦、余弦、指数、自然对数)的积分规则
  • 分式积分和代换。
  • 面积和体积计算的积分。
  • 傅里叶级数及其应用。傅里叶级数及其应用:傅里叶级数在时间序列分析中非常强大,可用于模拟季节性。

下面这本由Marc Peter Deisenroth编写的教科书《机器学习数学》涵盖了我上面列出的所有内容,甚至更多。你可能不需要学习这本书中的所有内容,书中的一些主题有点高深,但如果你需要学习,你的微积分知识将更加出色。

链接:https://www.amazon.co.uk/Mathematics-Machine-Learning-Peter-Deisenroth/dp/110845514X?source=post_page—–86c6643b0c59——————————–

如果你喜欢视频形式,freeCodeCamp也有一门很好的微积分课程。

视频来自:https://www.youtube.com/watch?v=HfACrKJ_Y2w&t=13s

最后,你可以使用Brilliant.org和Khan Academy等在线学习平台来学习微积分以及统计学和线性代数。

链接:https://brilliant.org/?source=post_page—–86c6643b0c59——————————–

链接:https://www.khanacademy.org/math/differential-calculus?source=post_page—–86c6643b0c59——————————–

线性代数是研究向量、矩阵及其在线性空间中的变换的数学领域。

矩阵是许多机器学习算法的支柱。例如,TensorFlow中的“张量”(Tensor)基本上就是一个来自线性代数的多维矩阵!

  • 向量—什么是向量?如何计算向量的大小、方向和分量?这些都是你应该知道答案的问题。它还与微积分相交,形成向量微积分!单词嵌入就是在机器学习中使用向量的一个例子。
  • 矩阵—了解什么是矩阵以及如何应用矩阵。例如,一个有n个特征和m行的数据集可以是一个nxm矩阵。另一个例子是神经网络的权重和偏差存储为一个矩阵。
  • 矩阵运算和变换—迹、逆、转置和点积是数据科学中使用的矩阵变换。例如,寻找矩阵的特征值和特征向量是原理成分分析(PCA)的基础。
  • 线性方程组—这在优化问题中经常出现,因为我们需要考虑多个约束条件和不同的因素。你应该学习消元、行减和克拉默法则等技巧。

与统计学和微积分一样,线性代数也是一个庞大的领域,人们将自己的职业生涯奉献给了学习和研究。对于数据科学的入门级职位来说,上述清单绰绰有余,老实说,在大多数情况下,中高级职位也是如此。

与以往一样,freeCodeCamp提供了涵盖上述所有内容的精彩视频课程。

视频来自:https://www.youtube.com/watch?v=JnTa9XtvmfI

同样,《机器学习数学》教科书中有一节关于线性代数的内容,并附有练习题。

链接:https://www.amazon.co.uk/Mathematics-Machine-Learning-Peter-Deisenroth/dp/110845514X?source=post_page—–86c6643b0c59——————————–

数学是数据科学家必不可少的一部分,你必须掌握基础知识。我知道这很可怕,但所需的水平并不高,所以我相信大多数人都能通过足够的时间和努力学好它。三大基石是统计学、微积分和线性代数。熟练掌握这三个领域的知识将为你在数据科学领域的职业生涯打下坚实的基础。你不需要了解这些领域的所有知识,只需要了解我在这篇文章中列出的核心概念!

感谢阅读!你还可以订阅我们的YouTube频道,观看大量大数据行业相关公开课:https://www.youtube.com/channel/UCa8NLpvi70mHVsW4J_x9OeQ;在LinkedIn上关注我们,扩展你的人际网络!https://www.linkedin.com/company/dataapplab/

原文作者:Egor Howel
翻译作者:Qing
美工编辑:过儿
校对审稿:Jason
原文链接:https://towardsdatascience.com/how-to-learn-the-math-needed-for-data-science-86c6643b0c59