数据

Nov
22

Google BigLake是Snowflake、Redshift & Co.的杀手吗?

由于大多数企业数据源存储在不同的数据孤岛中,如不同的云存储,数据平台等,利用这些数据的首要需求是数据湖(data lake)或数据湖仓(data lakehouse)。通过 BigLake,谷歌引入了一个引擎,其中可以将所有企业数据以及耦合数据源聚集在一起。这包括 Snowflake 等数据仓库技术,Tableau 等商业智能工具,以及 AWS 和 Azure 等公共云存储中最重要的内容。

By Zhang Bonnie | Blog
DETAIL
Sep
11

SQL数据清理及准备 – 看这一篇就够了

为清理和准备数据进行分析所采取的步骤:检查重复数据并将其删除、删除多余的空格、在需要时分离或组合单元格中的值、检查某些列中的值是否在适当的范围内、检查异常值、纠正拼写或输入错误的数据、向数据中添加新的相关行、如果缺少初始条件,则检查空值并根据其他条件检索记录,检查值是否遵循准确的模式。

By Zhang Bonnie | Blog
DETAIL
Aug
05

谷歌正在打击微软 Azure 及其数据服务

凭借其谷歌云,谷歌可能落后于AWS和Azure,但在数据分析方面它与领导者并驾齐驱。因此,谷歌现在希望通过其旗舰BigQuery提供独立于云和平台的数据分析,这是合乎逻辑的,因为你使用哪种云存储并不重要。

By Zhang Bonnie | Blog
DETAIL
Jul
09

数据人必知的5个异常值检测小技巧,你用过哪个?

数据集中可能存在异常值的原因有多种,例如人为错误(错误的数据输入)、测量错误(系统/工具错误)、数据操作错误(错误数据的预处理错误)、采样错误(从异构来源创建样本)等。检测和处理这些异常值对于学习一个健壮且可推广的机器学习系统非常重要。本文我们将介绍每个“数据爱好者”都必须了解的 5 种异常值检测技术。

By Zhang Bonnie | Blog
DETAIL
Jun
24

Web3.0——元宇宙和全新的数字经济,你准备好了吗?

Web 3.0 是下一代互联网架构。确保您的企业为这个时代可能带来的变化做好了准备,本文将介绍Web 3.0和元宇宙的相关情况。

By Zhang Bonnie | Blog
DETAIL
Mar
24

数据工程师都做哪些工作?带你了解我的一天

随着时间的推移,数据变得愈发重要,有些人甚至把它称为“新型汽油”。数据工程师的工作是让原始数据剥离源头,变成干净的数据,妥善保存、并进行分析。更准确地说,数据工程师构建的系统(有时称为管道)可以移动、转换、清理并聚合数据,帮助企业更快获取信息。本文将带你了解数据工程师的一天。

By Zhang Bonnie | Blog
DETAIL
Oct
27

数据科学家实力展现:如何用数据讲故事?

数据可视化专家Stephen Fifth 说:“数字有重要的故事要讲。 你要给予他们清晰而令人信服的声音。” “数据讲故事”一词与许多事物相关——数据可视化、信息图表、仪表板、数据演示等等。 数据讲故事不仅仅是创建具有视觉吸引力的数据图表,更是一种传达数据洞察力的结构化方法。本文将带你了解如何用数据讲故事。

By Zhang Bonnie | Blog
DETAIL
Sep
29

如何用Python对数据排序?常用方法都在这里!

所有数据工作者都需要在某个时候编写代码来对项目或数据进行排序。 排序对于应用程序中的用户体验至关重要。Python的 排序提供了强大的功能,可以在粒度级别进行基本排序或自定义排序。在本文中,你将学习如何在不同的数据结构中对各种类型的数据进行排序、自定义顺序以及在 Python 中使用的不同的排序方法。

By Zhang Bonnie | Blog
DETAIL