数据人必知的5个异常值检测小技巧,你用过哪个?
数据集中可能存在异常值的原因有多种,例如人为错误(错误的数据输入)、测量错误(系统/工具错误)、数据操作错误(错误数据的预处理错误)、采样错误(从异构来源创建样本)等。检测和处理这些异常值对于学习一个健壮且可推广的机器学习系统非常重要。本文我们将介绍每个“数据爱好者”都必须了解的 5 种异常值检测技术。
数据工程师都做哪些工作?带你了解我的一天
随着时间的推移,数据变得愈发重要,有些人甚至把它称为“新型汽油”。数据工程师的工作是让原始数据剥离源头,变成干净的数据,妥善保存、并进行分析。更准确地说,数据工程师构建的系统(有时称为管道)可以移动、转换、清理并聚合数据,帮助企业更快获取信息。本文将带你了解数据工程师的一天。
数据科学家实力展现:如何用数据讲故事?
数据可视化专家Stephen Fifth 说:“数字有重要的故事要讲。 你要给予他们清晰而令人信服的声音。” “数据讲故事”一词与许多事物相关——数据可视化、信息图表、仪表板、数据演示等等。 数据讲故事不仅仅是创建具有视觉吸引力的数据图表,更是一种传达数据洞察力的结构化方法。本文将带你了解如何用数据讲故事。
如何用Python对数据排序?常用方法都在这里!
所有数据工作者都需要在某个时候编写代码来对项目或数据进行排序。 排序对于应用程序中的用户体验至关重要。Python的 排序提供了强大的功能,可以在粒度级别进行基本排序或自定义排序。在本文中,你将学习如何在不同的数据结构中对各种类型的数据进行排序、自定义顺序以及在 Python 中使用的不同的排序方法。