打好数据科学和机器学习的基础——6本书带你学数学
作为一名数据科学家,需要建立坚实的数学基础。本文让我们深入了解我们列出的这6本书,从复杂数学概念的直观解释到动手练习和示例,这些书籍将助你一臂之力。如果你想了解更多关于数据科学的相关内容,可以阅读以下这些文章:
每个数据科学家都应该养成的15个好习惯
将ChatGPT用于数据科学
你的第一份数据科学工作中要避免的错误
0经验?一样能成为一名成功的数据科学顾问!
众所周知,数学基础扎不扎实,可能决定了在数据科学和机器学习等领域能否取得成功。这些学科在很大程度上依赖于统计分析、概率论、线性代数等数学概念。
无论你是希望进入数据科学和机器学习领域的初学者,还是希望提高数学技能的经验丰富的专业人士,这些书籍都能提供一系列资源满足你的需求。从复杂数学概念的直观解释到动手练习和示例,这些书籍将助你一臂之力。
事不宜迟,让我们深入了解我们列出的这6本书——其中主要涵盖:
- 线性代数
- 概率论
- 统计数据
- 多元微积分
- 最优化理论
目录:
- 线性代数导论(Introduction to Linear Algebra)
- 线性代数和数据学习(Linear Algebra and Learning from Data)
- 机器学习的线性代数和优化(Linear Algebra and Optimization for Machine Learning)
- 数据科学家的实用统计(Practical Statistics For Data Scientists)
- 概率导论(Introduction to Probability)
- 机器学习的数学(Mathematics for Machine Learning)
1 线性代数导论
Introduction to Linear Algebra
这本排在目录第一位的书,以帮助读者建立一个扎实的线性代数基础为目标,涵盖其中的各种基础知识。这本有名的《线性代数导论》由Gilbert Strang所著,内容来源于麻省理工大学的线性代数课程。
如果你是一个想学习线性代数的基础知识的初学者,这本书将是你的完美之选。
目录:
- 简介
- 解线性方程组
- 向量空间和子空间
- 正交性
- 决定因素
- 特征值和特征向量
- 线性变换
- 应用
- 数值线性代数
- 复向量与复矩阵
2 线性代数和从数据中学习
Linear Algebra and Learning from Data
线性代数和从数据中学习,终于在一起了!作为《线性代数导论》的作者,这本《线性代数和从数据中学习》同样是Gilbert Strang所著,是第一本将线性代数,深度学习和神经网络一起教授的教材。
这本教材可读性强且严谨,包含完整的线性代数和相关数学课程。学生需要学习这些课程才能掌握深度学习:四个基本子空间,奇异值分解,特殊矩阵,大型矩阵计算技术,压缩感知,概率统计,优化,神经网络结构,随机梯度下降和反向传播。
读完第一本书,或者你的线性代数基础很扎实,希望将你的知识与深度学习理解联系起来,这本书将是你的不二之选。
目录:
- I.1—AX的乘法,使用A的列
- I.2—矩阵-矩阵乘法AB
- VII.1—深度神经网络的构建
- 基本因子分解中的参数计数
- Dan Drucker的矩阵导数:证明A是最接近的秩矩阵
- 中心极限定理(288页)
- 作为移动窗口的卷积
3 线性代数和机器学习优化
Linear Algebra and Optimization for Machine Learning
第三本书是Charu C. Aggarwal的《线性代数和机器学习优化》。这本书的亮点在于更侧重于最优化理论及其与线性代数的关系,在机器学习的背景下介绍线性代数和优化。
这本教材的目标读者是计算机科学、数学和数据科学领域的研究生和教授。高年级本科生也可使用本教材。本教材的章节组织如下:
- 线性代数及其应用:本章重点介绍线性代数的基础知识及其在奇异值分解、矩阵分解、相似矩阵(核方法)和图形分析中的常见应用。许多机器学习应用已经被用作示例,例如谱聚类、基于核的分类和离群点检测。线性代数方法与机器学习的例子紧密结合,使本书不同于一般的线性代数类书籍。本章的重点是线性代数与机器学习的相关方面,教导读者如何应用这些概念。
- 优化及其应用:许多机器学习都是作为一个优化问题提出的,在这个问题中,我们试图最大化回归和分类模型的准确性。以优化为中心的机器学习的“母问题”是最小二乘回归。有趣的是,这个问题同时出现在线性代数和优化中,并且是连接这两个领域的关键问题之一。最小二乘回归也是支持向量机、逻辑回归和推荐系统的起点。此外,降维和矩阵分解的方法也需要优化方法的发展。本章讨论了计算图优化的一般观点及其在神经网络反向传播中的应用。
目录:
- 线性代数与最优化导论
- 线性变换与线性系统
- 特征向量与可对角化矩阵
- 优化基础:机器学习观点
- 高级优化解决方案
- 约束优化与对偶
- 奇异值分解
- 矩阵分解
- 相似线性代数
- 图的线性代数
- 计算图中的优化
4 数据科学家的实用统计
Practical Statistics For Data Scientists
第四本书是Peter Bruce、Andrew Bruce和Peter Gedeck的《数据科学家的实用统计》。这本书教你以实用的方式建立一个强大的统计基础。
作为最好的数据科学统计书籍之一,《数据科学家的实用统计》涵盖了数据科学中使用的各种统计程序,避免了最常见的错误。
作者首先解释了数据科学是如何从探索性数据分析开始的。然后,他们继续讨论随机抽样、实验设计、回归、分类方法和从数据中学习的统计机器学习方法等重要主题。
无论你是否有R编程经验,这本书都是数据科学统计的最佳书籍之一。读完这本书,你将获得数据科学家所需的统计视角。
目录:
- 探索性数据分析
- 数据和抽样分布
- 统计实验与显著性检验
- 回归与预测
- 分类
- 统计机器学习
- 无监督学习
5 概率导论
Introduction to Probability
第五本书是Joseph k. Blitzstein和Jessica Hwang的《概率导论》。
《概率导论》教材提供了理解统计学、随机性和不确定性所需的语言和工具。这本书教学了大量的应用和例子,包括重合指数,悖论,Google网页级别,Markov链和Monte Carlo模拟(MCMC)。遗传学、医学、计算机科学和信息理论学都是会用到这些应用或例子的重要领域。
作者以通俗易懂的方式解释概念,使用现实世界的例子给予阐释。他们用各种各样的故事来揭示基本统计分布和条件作用之间的联系,以简化复杂的问题。使用R这个免费的统计软件包,你可以在每一章后进行计算和模拟。这本书提供了许多直观的解释,插图和练习问题。
目录:
- 概率与计数
- 条件概率
- 随机变量及其分布
- 预期
- 连续型随机变量
- 矩
- 联合分配
- 变换
- 条件预期
- 不等式与极限定理
- Markov链
- Markov链和Monte Carlo模拟
- 泊松过程
6 机器学习的数学
Mathematics for Machine Learning
最后一本书是Marc Peter Deisenroth、A.Aldo Faisal和Cheng Soon Ong合著的《机器学习的数学》。这本书是学习理解基本机器学习算法所需数学知识的绝佳选择。
目录:
第一部分:数学基础
- 介绍和动机
- 线性代数
- 解析几何
- 矩阵分解
- 向量演算
- 概率与分布
- 持续优化
第二部分:主要的机器学习问题
- 当模型遇到数据时
- 线性回归
- 主成分分析降维
- 高斯混合模型密度估计
- 支持向量机分类
感谢阅读!你还可以订阅我们的YouTube频道,观看大量大数据行业相关公开课:https://www.youtube.com/channel/UCa8NLpvi70mHVsW4J_x9OeQ;在LinkedIn上关注我们,扩展你的人际网络!https://www.linkedin.com/company/dataapplab/
原文作者:Youssef Hosni
翻译作者:高佑兮
美工编辑:过儿
校对审稿:Chuang
原文链接:https://medium.com/geekculture/6-best-books-to-learn-mathematics-for-data-science-machine-learning-a3924497cf66