机器学习&数据科学不可不读的十本书
这十本关于机器学习和数据科学的免费电子书将带给你如沐春风般的体验。这一系列的书刊可以帮助你赢在起跑线上,早日成为人生赢家。这个list首先涵盖了关于统计基础的书籍,在掌握了基础知识之后,就可以开始阅读list里关于机器学习基础的书籍了,之后就能开始接触一定的拔高和拓展知识了。掌握知识后就可以对更高深的一两个课题有所接触了。最后就是要去读一读如何将这些你所学的融合为一体的书籍了。希望这些经典课题与最新热门课题的融合能够让你领悟到对于机器学习和大数据不一样的新的体验和兴趣。
1. Think Stats: Probability and Statistics for Programmers.
《统计思维:程序员数学之概率统计》
By Allen B. Downey
Think Stats 是一本写给码畜们的关于概率与统计学的初阶介绍类书籍。
这本书主要是介绍一些可以用来处理实际数据和讨论相关问题的基本方法。这本书讨论了一个基于美国国家卫生研究院(National Institutes of Health)数据的实际案例,来开展相关话题和知识点的讨论。这本书鼓励读者们去做一些基于真实数据集的project。
2. Probabilistic Programming & Bayesian Methods for Hackers
《贝叶斯方法:概率编程与贝叶斯推断》
By Cam Davidson-Pilon
这本书相比于数学更注重与对贝叶斯方法论(Bayesian Method)和概率性编程的理解。
贝叶斯方法论是对数学分析自然而然的估计与推论,然而贝叶斯方法论的推理非常繁杂难懂。一般情况下,关于贝叶斯推论的关键内容主要建立在概率论的两三个章节上,之后才会是真正讲解什么是贝叶斯推论。然而,按照这种讲解构架,由于贝叶斯的一些数学部分实在是很难被掌握,通常的书里只会介绍几个简单的,人为编造的案例。这些不符合真实世界的例子会让读者们有一种对于贝叶斯推论有一种 “so what” 的情绪。读者们无法认知到贝叶斯推论的重要性和实用性。事实上,这种想法只是其他作者最开始接触贝叶斯的初始理解而已。
3. Understanding Machine Learning: From Theory to Algorithms
《深入理解机器学习:从原理到算法》
By Shai Shalev-Shwartz & Shai Ben-David
机器学习是近几年来计算机领域里蹿红最快也确实有很多广泛应用的“小鲜肉”。 这本书的编写要义在于给读者一个原则性的对机器学习的介绍以及其联系到的算法案例。这本书介绍了如何通过实用且基本的机器学习和数学推导,来将原理转换为实际算法的理论解释。除了对于最基本东西的解释论述,这本书还包括了之前那些书目中没有提到的重要的课题。课题包括:计算机学习的计算复杂度,稳定性和凸性(convexity)的概念,随机梯度下降、神经网络和有结构的输出式学习的重要算法范例,以及 PAC-Bayes 和 compression-based bounds 等新兴概念。
4. The Elements of Statistical Learning
《统计学习要点》
By Trevor Hastie, Robert Tibshirani & Jerome Friedman
本书在大家都认知的一个基础框架上论述了在统计学领域上的一些重要的理论。尽管这本书的最主要主题是要讨论统计学知识,但它的重心却没有落在数学理论上。这本书为读者们提供了很多彩色插图和案例说明来阐明知识论点。这本书不仅仅对于统计学家来说很有价值,它对致力于科学工业进行数据挖掘的有志之士也有很大的阅读价值。这本书的知识网非常的广,从监督式学习(预测)到非监督式学习都有一定的设计。同时书中还提到了神经网络,支持向量机,分级树和分级助推(这是相关话题在所有书籍中第一次被综合讨论)之类的其他话题。
5. An Introduction to Statistical Learning with Applications in R
《统计学习导论:基于R应用》
By Gareth James, Daniela Witten, Trevor Hastie and Robert Tibshirani
这本书对于统计学习基础方法的介绍。这本书是写给非数学专业的大三大四本科生,研究生和博士生的。这本书包括了很大量的R语言的实例。这些实例都附有如何将统计方法使用进真实世界情形设置的详细解释。这些资源对于想要成为优秀的数据科学家的人来说是很有实际练习价值的。
6. Foundations of Data Science
(数据科学基础) (没有official中文名)
By Avrim Blum, John Hopcroft, and Ravindran Kannan
计算机科学的传统研究领域目前还处在一个很重要的地位,大家会使用计算机处理一些实际应用问题,然而越来越多的研究人员将目光转向了使用计算机从大量的数据库中提取和理解有用的信息。由于上述的原因,我们这本书呢就涵盖了未来四十年都会非常有用的原理学说。这些书中提到的原理就像我们四十年前会提到自动化相关理论和算法等原理一样,它们在这过去的四十年里对学生们在数据科学上的研究起到了很大的作用。
7. A Programmer’s Guide to Data Mining: The Ancient Art of the Numerati
《写给程序员的数据挖掘实践指南》
By Ron Zacharski
这本书的编写理念是引导读者通过实践编程来学习相关知识的。作者更建议读者去真正地一边通过Python去做书中给的练习和例子来学习书中的内容,而不是被动地去单纯阅读这本书。作者希望读者们可以积极地参与进这个编程的实战中,去尝试数据挖掘的技术。这本书是通过讲知识点分解成不同步骤来教学的。不同的步骤也就落在不同的小模块里面。当你真正学完这本书的时候,你就可以掌握一个对于数据挖掘技术的基本理解了。
8. Mining of Massive Datasets
《大数据:互联网大规模数据挖掘与分布式处理》
By Jure Leskovec, Anand Rajaraman and Jeff Ullman
你可能曾经为没有在斯坦福上过学而感到遗憾,这本书的存在可以在一定程度上弥补你心灵的缺失。它主要是基于斯坦福大学CS246(大数据库挖掘)和CS345A(数据挖掘)两门课来编写的。
这本书的设置遵循了课程本身的设置理念,它是为没有相关经验的本科计算机学生准备的。如果读者想要去了解更深层的东西,大多数章节都附有可以让你继续阅读相关课题的参考书目。
9. Deep Learning
《深度学习》
By Ian Goodfellow, Joshua Bengio and Aaron Courville
这是一个帮助读者了解笼统的机器学习领域和深度学习课题的书。这本书的电子版已经完成,并且在网上长期免费阅读。
10. Machine Learning Yearning
《机器学习的渴望》 By Andrew Ng
人工智能(AI), 机器学习(machine learning) 和 深度学习(deep learning) 正在转变着第二产业。但是建立一个机器学习系统需要你做出以下一些决策:
– 应该收集更多的训练数据吗?
– 应该使用端对端的深度学习吗?
– 如何处理与测试集不匹配的训练集?
等等。。。