五本顶级的数据清理和特征工程书籍
数据清理和特征工程是数据科学家日常工作的重要部分,这是每天必做的事情,能够有效地清理数据和设计功能,将达到事半功倍的效果。要想扩展你的知识和技能,你可以找到很多这方面的书,我浏览了大部分,本文将推荐五本顶级的数据清理和特征工程书籍。如果你想了解更多关于数据科学的相关内容,可以阅读以下这些文章:
3步走方略——用Python为数据科学项目收集数据
担任数据科学经理的前半年,我学到了什么?
数据科学家应知的三个回归事项
提升数据科学水平的五个必备知识
目录
- Bad Data
- Data Wrangling with Python
- Feature Engineering and Selection
- Feature Engineering and Selection
- Feature Engineering for Machine Learning
1.Bad Data
Q.Ethan Mccallum
第一本书是由Q.Ethan Mccallum(https://qethanm.cc/)编辑的Bad Data Handbook: Cleaning Up The Data So You Can Get Back To Work(https://amzn.to/3b5yutA)。该书是19位机器学习从业者的论文集,是关于数据准备和管理的有用知识。
什么是坏数据?有些人认为这是一种技术现象,就像丢失的值或格式错误的记录,但坏数据远不止如此。在这本手册中,数据专家Q.Ethan McCallum召集了来自数据领域各个角落的19名同事,描述了他们如何把数据从糟糕的状态恢复过来的。
在众多的主题中,你将发现如何:
- 测试你的数据,看看它是否可以进行分析
- 将电子表格数据转换为可用的形式
- 处理隐藏在文本数据中的编码问题
- 开发一个成功的web抓取工具
- 使用NLP工具来揭示在线评论的真实情绪
- 解决可能影响分析工作的云计算问题
- 避免造成数据分析障碍的策略
- 采用系统方法进行数据质量分析
目录
- 第一章:什么是坏数据?
- 第二章:是我的错觉,还是这些数据真的很奇怪?
- 第三章:用于人类消费而非机器消费的数据
- 第四章:隐藏在纯文本中的错误数据
- 第五章:(重新)组织网络数据
- 第六章:从相互矛盾的网络评论中发现说谎者和困惑者
- 第七章:坏数据会站出来吗?
- 第八章:血液、汗液和尿液
- 第九章:当数据和现实不匹配时
- 第十章:偏见和错误的微妙来源
- 第十一章:不要让完美成为优秀的敌人:坏数据真的很糟糕吗?
- 第十二章:数据库被攻击时:何时坚持使用文件的指南
- 第十三章:蹲伏的桌子,隐藏的网络
- 第十四章:云计算的神话
- 第十五章:数据科学的阴暗面
- 第十六章:如何养活和照顾你的机器学习专家
- 第十七章:数据可追溯性
- 第十八章:社交媒体:可擦除墨水?
- 第十九章:数据质量分析解密:知道数据何时足够好
2.Data Wrangling with Python
Jacqueline Kazil & Katharine Jarmul
第二本书是Jacqueline Kazil(https://www.linkedin.com/in/jackiekazil/)和Katharine Jarmul(https://www.linkedin.com/in/katharinejarmul/)撰写的Data Wrangling with Python: Tips and Tools to Make Your Life Easier(https://amzn.to/35DoLcU)。本书的重点是帮助你将原始的数据转换为可用于建模的表单的工具和方法。
数据争论是数据准备的通用或口语化的术语,可能包括一些数据清理和特征工程。在这本书中,你将以实用的方式了解更多关于数据争论的内容。通过各种分步练习,你将学习到如何高效地获取、清理、分析和呈现数据。你还将了解如何自动化数据处理、安排文件编辑和清理任务、处理大数据集,以及如何使用自己获得的数据创建引人注目的故事。
这本书将教会你:
- 基本Python语法、数据类型和语言概念
- 处理机器可读和人类可消费数据
- 抓取网站和API以获得大量有用的信息
- 清理和格式化数据以消除数据集中的重复和错误
- 了解何时标准化数据,何时测试和编写数据清理脚本
- 使用新的Python库和技术去探索和分析数据集
目录
- 第一章:Python简介
- 第二章:Python基础知识
- 第三章:读取数据
- 第四章:处理Excel文件
- 第五章:PDF和Python的问题解决
- 第六章:获取和存储数据
- 第七章:数据清理:调查、匹配和格式化
- 第八章:数据清理:标准化和脚本
- 第九章:数据探索与分析
- 第十章:数据展示
- 第十一章:Web抓取:从Web获取和存储数据
- 第十二章:高级网页抓取:屏幕爬取与网页爬虫
- 第十三章:API
- 第十四章:自动化和扩展
- 第十五章:结论
3.Feature Engineering and Selection
Max Kuhn & Kjell Johnson
列表中的第三本书是Max Kuhn(https://www.linkedin.com/in/max-kuhn-864a9110/)和Kjell Johnson(https://www.linkedin.com/in/kjell-johnson-9a65b33/)撰写的Feature Engineering and Selection(https://amzn.to/2Yvcupn)。这本书描述了为特征工程建模准备原始数据的一般过程。
开发预测模型的过程包括许多阶段。资源过度集中于建模算法,却忽略了建模过程的其他关键方面。
这本书描述了为建模寻找预测因子的最佳表示以及为提高模型性能寻找预测因子最佳子集的技术。各种示例数据集被用来说明技术以及再现结果的R程序。即使R语言可能不是你的首选,但它讨论方法的广度也是值得你拥有的。总之,这是一本必备的书。
目录
- 第一章:引言:即使R语言可能不是你的首选,但它讨论方法的广度也是值得你拥有的,总之这是一本必备的书。
- 第二章:例证:预测缺血性中风的风险
- 第三章:预测建模过程
- 第四章:探索性可视化
- 第五章:编码分类预测器
- 第六章:工程数值预测器
- 第七章:检测交互效应
- 第八章:处理缺失数据
- 第九章:使用配置文件数据
- 第十章:特征选择概述
- 第十一章:贪婪的搜索方法
- 第十二章:全局搜索方法
4.Python Feature Engineering Cookbook
Soledad Galli
第四本书是Python Feature Engineering Cookbook(https://www.amazon.com/gp/product/B0BGXXCDMZ/ref=dbs_a_def_rwt_bibl_vppi_i0)。由Soledad Galli编写的涵盖70多个创建、工程和转换功能的机器学习模型指南(https://www.amazon.com/gp/product/B0BGXXCDMZ/ref=dbs_a_def_rwt_bibl_vppi_i0)。
特征工程——转换变量和创建特征的过程。虽然耗时,但可以确保机器学习模型无缝隙地运行。这本第二版的Python功能工程指南将通过向你展示如何使用开源的Python库,通过大量实用的、实际的指南来加速这一过程,从而消除功能工程的难题。
该版本首先解决了基本数据挑战,如缺失数据和分类值,然后又讨论处理倾斜分布和异常值的策略。最后几章展示如何从各种类型的数据(包括文本、时间序列和关系数据库)挖掘新特征。在众多开源Python库的帮助下,你将学习如何以高性能、可复制和优雅的方式实现每个特性工程方法。
在这本书的结尾,你将拥有构建可以部署到生产环境中的端到端和可复制的特征工程管道所需的工具和专业知识。
本书面向机器学习和数据科学的学生和专业人员,以及那些从事机器学习模型部署的软件工程师们,可以帮助他们了解更多关于数据转换和创建新特性的信息,从而更好地训练机器学习模型。
目录
- 输入缺失数据
- 编码类别变量
- 转换数值变量
- 执行变量离散化
- 使用异常值
- 从日期和时间提取特征
- 执行功能缩放
- 创建新功能
- 用工具从关系数据中提取相应特征
- 用tsfresh在时间序列中创建特征
- 从文本变量中提取特征
5.Feature Engineering for Machine Learning
Alice Zheng & Amanda Casari
榜单的最后一本书是Alice Zheng(https://www.linkedin.com/in/alice-zheng-46b99482/)和Amanda Casari(https://www.linkedin.com/in/amcasari/)的
Feature Engineering for Machine Learning(https://amzn.to/2zZOQXN)。
在这本实用的书中,你将学习把特征(原始数据的数字表示)提取并转换为机器学习模型格式的技术。每一章都会指导你解决一个数据问题,例如如何表示文本或图像数据。加起来,正好是特征工程的主要原理。
在这本书里,Alice Zheng和Amanda Casari并不是简单地解释这些原理,而是通过练习来突出实际应用。最后一章则通过处理具有多种特征工程技术的真实结构化数据集,将所有内容汇集在一起。代码示例中使用了包括NumPy、Pandas、Scikit-learn和Matplotlib在内的多个Python包。
你将学习:
- 数字数据的特征工程:过滤、装箱、缩放、对数变换和功率变换
- 自然文本技术:单词包、n-gram和短语检测
- 用于消除非信息特征的基于频率的滤波和特征缩放
- 分类变量的编码技术,包括特征散列和二进制计数
- 基于主成分分析的特征工程模型
- 模型叠加的概念,使用k均值作为特征化技术
- 基于人工和深度学习技术的图像特征提取
目录
- 第一章:机器学习管道
- 第二章:简单数字的奇招
- 第三章:文本数据:展平、过滤和分块
- 第四章:特征缩放的效果:从单词包到Tf-Idf
- 第五章:分类变量:机器鸡时代的鸡蛋计数
- 第六章:降维:用PCA压缩数据包
- 第七章:通过K-Means模型叠加的非线性特征
- 第八章:自动生成特征:图像特征提取和深度学习
- 第九章:回到未来:构建学术论文推荐人
感谢阅读。你还可以订阅我们的YouTube频道,观看大量大数据行业相关公开课:https://www.youtube.com/channel/UCa8NLpvi70mHVsW4J_x9OeQ;在LinkedIn上关注我们,扩展你的人际网络!https://www.linkedin.com/company/dataapplab/
原文作者:Youssef Hosni
翻译作者:王文龙
美工编辑:过儿
校对审稿:Chuang
原文链接:https://medium.com/geekculture/5-top-data-cleaning-and-feature-engineering-books-for-data-scientists-83d36baf80ca