数据工程师必看的11本书!

数据工程师必看的11本书!

在本文中,我将讨论学习数据工程感兴趣的人可能感兴趣的数据工程书籍和资源。我意识到市场上并没有很多关于数据工程的综合概念解释的书籍。其中一些书籍介绍了如何使用特定工具和数据平台架构,而另一些则是我最喜欢的睡前读物:令人惊讶地容易入睡而且枯燥无味。有些书籍适用于战略决策,而有些可能看起来有点过时但仍然有用。希望你会觉得有趣。
如果你想了解更多关于数据工程师的相关内容,可以阅读以下这些文章:
2023年数据工程师的需求将如何?
数据工程师Data Engineer的常用工具指南
数据工程师都做哪些工作?带你了解我的一天
DS vs DE:数据科学家与数据工程师的薪资对比

01 Python数据工程
Data Engineering with Python

使用Python处理海量数据集来设计数据模型和自动化数据管道
Paul Crickard,2020年

对于那些想要学习开源Apache数据工程工具的人来说,这是一本很棒的书。它涵盖了所有基本的数据工程主题,如数据建模,并提供了大量最常见的数据转换示例。正如书中所提到的,它是关于Python和数据建模的,所以读者将专注于ETL技术,使用Python工具提取、清理和丰富数据集。它详细解释了Apache Kafka和Apache Spark,但也涵盖了使用文件格式、数据转换和清理的基本要素。这本书对数据管道部署以及数据环境提供了一些非常好的观点。

02 数据工程基础
Fundamentals of Data Engineering

Joe Reis, Matt Housley著
2022年6月发布
出版商:O ‘Reilly Media, Inc.

总的来说,这是一本非常好的书,我相信这是我目前正在写的书中最接近的一本。它涵盖了基本原理,确实很棒。然而,它并没有解释如何成为一名数据工程师。根据这本书,进入这个角色没有捷径,也没有简单的方法。读者需要花2-3年的时间来研究这个特定的领域。

我喜欢这本书的地方在于,它提供了一种对技术和架构的独立观点。

我们不会在这本书看到任何营销,在第2章中,它非常清晰地关注了数据工程生命周期,并解释了它是如何从项目需求收集和管道设计开始工作的,并涵盖了该领域的最佳实践。

这本书都是关于SQL和Python以及如何使用它们来解决现实世界的数据工程任务。第4章介绍了选择正确数据工程技术的框架。

总的来说,这是我的最爱之一。它不仅涵盖了数据生成、ETL、聚合和清理的复杂性,而且还关注了可能对数据工程管理人员有用的策略。

03 数据仓库工具包:维度的权威指南
The Data Warehouse Toolkit: The Definitive Guide to Dimensional

建模,第三版
Ralph Kimball , Margy Ross著
2013年发布
出版商(s):Wiley

我记得在几年前开始使用Snowflake时买了这本书。

这本书发布于2013年,仍然适用于许多数据建模场景。

我喜欢这本书的地方在于它的案例研究。它提供了来自不同行业的20多个真正有用的场景,如零售、营销等。它帮助我在更高的层次上理解维度建模和数据仓库设计。基本上,它解释了关于事实表和维度表以及如何在数据仓库解决方案中运行ETL的一切知识。

即使是现在,读这本书来见证数据仓库平台的发展也是非常有趣的。

04 数据网格
Data Mesh

Zhamak Dehghani著
2022年发布
出版者:Wiley

对数据网格原理的清晰而新颖的概述。数据网格和分散的数据管理无疑是数据工程领域的主要趋势之一。

数据网格定义了当我们拥有不同的数据领域(公司部门)及其团队和共享数据资源时的状态。

对于那些想要学习数据网格设计、策略和架构的人来说,这本书是一本很好的读物。本书以逻辑一致的方式解释了数据所有权模型,以超越传统的数据仓库方法,转向分散和分布式的数据平台。

05 数据管道口袋参考:移动和处理数据分析第1版
Data Pipelines Pocket Reference: Moving and Processing Data for Analytics 1st Edition

James Densmore著
格式:Kindle版
2021年2月发布
出版商:O ‘Reilly Media, Inc.

这是我最喜欢的关于数据管道的书之一。在我的职业生涯中,一些Python和SQL代码片段对我非常有用。本书的Github存储库代码演示了如何从外部数据源提取数据并将其转换为数据集。

这本书介绍了一种“构建vs购买”的方法,这是数据工程师的任务。事实上,目前市场上有许多托管ETL解决方案,如Stitch、Fivetran等。本书涵盖了数据管道设计原则,并解释了如何为成功的分析创建强大的数据处理。这本书从体系结构的角度解释了数据管道设计的许多关键点。它还涵盖了云中现代数据基础设施、数据管道监控和警报等方面。

06 构建现代数据平台:大规模企业Hadoop指南
Architecting Modern Data Platforms: A Guide to Enterprise Hadoop at Scale

Jan Kunigk, Ian Buss, Paul Wilkinson, Lars George著
2019年发布
出版商:O ‘Reilly Media, Inc.

这本书很好地解释了Hadoop技术。尽管该技术在中小企业层面不是很流行,但它认为企业应用仍然是可行的。这是一本有趣的读物,重点关注实际使用案例,旨在创建云端和本地的大数据基础设施。我相信对于经验丰富的数据工程师来说,这本书将对他们在云端创建企业级管道并确保高水平的安全性和可用性非常有用。

这不是我经常读的书,但仍然很有用,因为它概述了一些被认为已经过时的内容,了解到Hadoop仍然存在是一件好事。

07 Spark:权威指南:大数据处理简化第一版
Spark: The Definitive Guide: Big Data Processing Made Simple 1st Edition

Bill Chambers, Matei Zaharia著
2018年发布
出版商:O ‘Reilly Media, Inc.

当谈到数据湖的大数据管道中的ETL时,这是我最喜欢的一个。我们都喜欢Spark的卓越可扩展性和成本效益。对于想要学习数据湖中可扩展数据处理的初学者和中级用户来说,这是一本很棒的书。它涵盖了一些基本的数据工程概念和使用Apache Spark进行数据湖数据处理。Apache Spark被用于许多云产品中,例如AWS Glue。它使本书成为有抱负的数据工程师的绝佳选择。

08 流式系统:大规模数据处理的内容、地点、时间和方式第1版
Streaming Systems: The What, Where, When, and How of Large-Scale Data Processing 1st Edition

Tyler Akidau, Slava Chernyak, Reuven Lax著
2018年发布
出版商:O ‘Reilly Media, Inc.

这是一本关于流式数据处理设计模式的优秀书籍。它解释了流数据处理管道及其核心原理。对于数据工程师来说,理解数据管道设计模式的本质并正确应用它们是非常重要的,例如批处理数据处理、流式ETL等。由于流处理,应用程序可以触发对新数据事件的即时响应。

流式处理是企业数据必备的解决方案。

这本书帮助我选择正确的方式来处理数据,并创建接近实时的分析管道。通常情况下,并不总是需要使用流式处理,这可能会成为一种昂贵的解决方案。

09 用数据讲故事:商业专业人士的数据可视化指南第1版
Storytelling with Data: A Data Visualization Guide for Business Professionals 1st Edition

Cole Nussbaumer Knaflic(作者)
2015年发布
出版者:Wiley

这是一本关于数据可视化技术和商业智能(BI)的优秀书籍。虽然商业智能是数据工程的重要组成部分(反之亦然),但这本书并不是一本职业指南。该书解释了数据工程如何补充商业智能。它展示了如何以富有信息性、引人入胜的方式传达数据洞见。这本书对我的仪表盘设计帮助很大。我会把它加入我的书架。

10 流利的Python:清晰,简洁,有效的编程第二版
Fluent Python: Clear, Concise, and Effective Programming 2nd Edition

Luciano Ramalho著
2022年发布
出版商:O ‘Reilly Media, Inc.

另一本关于Python的非常有用的书,我一直留着。Python是数据工程的重要组成部分,它使本书非常有用。本书分为五个部分,涵盖了数据工程师在数据管道中可能需要使用的几乎所有内容,例如上下文管理器、装饰器、生成器和异步编程等。

11 数据工程师应该知道的97件事:来自专家的集体智慧
97 Things Every Data Engineer Should Know: Collective Wisdom from the Experts

Tobias Macey著
2021年发布
出版商:O ‘Reilly Media, Inc.

这是一本很棒的书,它证实了现在对数据工程师的需求很高。本书汇集了数据工程师的经验。他们中的许多人为在大数据和人工智能领域取得显著成功的公司设计了数据管道和ETL流程。很高兴看到人们仍然愿意分享他们的知识并解释他们是如何解决具有挑战性的ETL问题的。本书包含97个用例,几乎每个数据工程师都可以使用这些用例进行数据处理和数据管道设计。我喜欢每天读一篇。

结论

如果你是一个学习者或渴望掌握新的数据技能的数据爱好者,那么在云中有很多免费的机会。我强烈建议在其中一家云平台供应商那里建立帐户,开始学习市场上可用的数据工程工具。其中许多平台提供免费的基础服务,探索最新的数据工程进展不需要任何费用。只需确保在使用免费服务时密切关注计费情况。本文中给出的书籍概述将支持你的学习曲线。其中大部分假设读者能够熟练地使用JSON、SQL、REST API,并了解Python编程的基础知识。

感谢阅读!你还可以订阅我们的YouTube频道,观看大量大数据行业相关公开课:https://www.youtube.com/channel/UCa8NLpvi70mHVsW4J_x9OeQ;在LinkedIn上关注我们,扩展你的人际网络!https://www.linkedin.com/company/dataapplab/

原文作者:Mike Shakhomirov
翻译作者:Dou
美工编辑:过儿
校对审稿:Jason
原文链接:https://towardsdatascience.com/data-engineering-books-f373005d53fc