数据

Dec
13

为什么数据管道无法实现100%自动化?

无论您的数据管道在技术上多么完美、多么富有弹性,即使是最优秀的数据团队也无法预测或超越摄取的某些方面。我遇到过的两个最重要的“无法控制”的挑战是:(1)与供应商相关的故障或“上游”故障,我们所能做的就是提交工单并等待回复。(2)无法预测的加载时间。我确实想讨论一下无法预测的加载时间,重点是以不可预测的时间间隔或通过非常规渠道接收数据源。

By Zhang Bonnie | Blog
DETAIL
Dec
13

pandas中的4种if-else技术,你应该使用哪一种?

在这篇博客中,我们探索了不同的方法来有效地将if-elif-else逻辑应用于Pandas数据帧。尽管选择的方法可能取决于具体的用例,但性能分析显示df.loc[]或pd.cut()对于较大的数据集通常是最高效的。然而,其他方法更灵活,可能在需要更复杂的条件逻辑或自定义分箱的情况下更受欢迎。

By Zhang Bonnie | Blog
DETAIL
Dec
11

Meta的数据工程:内部技术栈的高级概述

本文概述了我们作为Meta数据工程师日常使用的内部技术栈。我们的想法是阐明我们所做的工作,以及工具和框架如何使我们的日常数据工程工作更高效,并分享我们在此过程中做出的一些设计决策和技术权衡。

By Zhang Bonnie | Blog
DETAIL
Nov
30

大数据源终极指南

作为一名有抱负的数据分析师或数据科学家,你可能会很快意识到,拥有大型数据集来训练和测试您的解决方案是多么重要。以下是我的一些尝试,希望能为寻找用于ML、统计分析和测试的结构化数据的朋友们提供方便,这些数据集是由慷慨向公众提供这些数据集的个人和公司汇编而成的。

By Zhang Bonnie | Blog
DETAIL
Oct
19

Netflix系统设计:构建高可用、可扩展的流媒体平台

Netflix是一种让用户订阅的流媒体服务,允许会员在互联网设备上观看电视节目和电影。它可在Web、iOS、Android、电视等平台上使用。让我们设计一个类似Netflix的视频流媒体服务,类似于亚马逊Prime Video、Disney Plus、Hulu、YouTube、Vimeo等服务。

By Zhang Bonnie | Blog
DETAIL
Oct
07

解读10个常见的管理术语

嘿,各位技术爱好者和数据向导!我是Gabe,一个数据迷,擅长处理数据并将其转化为有意义的见解。但今天,我要帮助你们解读经理们的神秘语言。你知道,他们在会议上抛出的术语常常让我们摸不着头脑,想知道,“他们到底在说什么?”所以,当我们深入研究10个最常见的管理术语并揭示它们背后的真相时,请做好准备。

By Zhang Bonnie | Blog
DETAIL
Sep
13

关系数据库系统正在成为一个问题——如何解决它?

如果你不喜欢SQL,你就不会喜欢RDBMS,因为SQL本身就是一个奇幻的世界。并不是所有的SQL都是相同的,你了解MySQL和它自己的术语,你了解微软的T-SQL和世界著名的Oracle PL/SQL,也许不必在意它们彼此都不兼容。这些我都见过——金融、交通、酒店、社交媒体、视频流服务等等。无论你去哪里,都可能找到关系数据库,这个世界似乎完全是在关系数据库上运行的。

By Zhang Bonnie | Blog
DETAIL
May
17

2023年你需要知道的13个数据行业流行语

2022年,数据处于所有技术进步的前沿。这一年都是关于小数据、日常工作的自动化、对云的更强依赖、对业务的强大预测模型,以及高管们只希望看到仪表板。我们在2022年听到了对新数据术语的介绍,它们在2023年成为我们词汇的一部分,这篇博客是关于那些肯定会在我们生活中出现的数据和技术专业人士的热门词汇。

By Zhang Bonnie | Blog
DETAIL