Blog

Dec
19

ChatGPT悄悄推出了一个(无代码)功能,可能会对多个初创公司造成严重冲击

ChatGPT的一项新功能让科技公司创始人们焦头烂额。不是因为聊天功能,不是因为插件的功能,甚至不是因为浏览功能,而是因为这个新功能可以让任何人创建适合其特定需求的ChatGPT版本。GPT将人工智能定制转化为无缝的、无代码的体验,专为ChatGPT Plus社区服务。目前还无法确定它是否会(完全)摧毁这些初创公司。而这些初创公司肯定也有自己的想法,让自己与众不同来区别于其他竞争对手。但可以肯定的是,我现在不想处于这些创始人的境地。我很好奇,如果这是你的初创公司,你会怎么做?

By Zhang Bonnie | Blog
DETAIL
Dec
17

我尝试了50种人工智能工具,以下是我的最爱

在过去的几个月里,我一直在深入探索一款人工智能工具,事实证明它在我的职业生涯和日常生活中发挥了巨大的价值—ChatGPT。它的最新更新甚至真正超出了我的预期。但是,这只是冰山一角。我还想向你展示许多其他人工智能工具。以下是我最喜欢的人工智能工具。

By Zhang Bonnie | Blog
DETAIL
Dec
17

数据工程师必看的11本书!

如果你是一个学习者或渴望掌握新的数据技能的数据爱好者,那么在云中有很多免费的机会。我强烈建议在其中一家云平台供应商那里建立帐户,开始学习市场上可用的数据工程工具。其中许多平台提供免费的基础服务,探索最新的数据工程进展不需要任何费用。只需确保在使用免费服务时密切关注计费情况。本文中给出的书籍概述将支持你的学习曲线。其中大部分假设读者能够熟练地使用JSON、SQL、REST API,并了解Python编程的基础知识。

By Zhang Bonnie | Blog
DETAIL
Dec
13

为什么数据管道无法实现100%自动化?

无论您的数据管道在技术上多么完美、多么富有弹性,即使是最优秀的数据团队也无法预测或超越摄取的某些方面。我遇到过的两个最重要的“无法控制”的挑战是:(1)与供应商相关的故障或“上游”故障,我们所能做的就是提交工单并等待回复。(2)无法预测的加载时间。我确实想讨论一下无法预测的加载时间,重点是以不可预测的时间间隔或通过非常规渠道接收数据源。

By Zhang Bonnie | Blog
DETAIL
Dec
13

pandas中的4种if-else技术,你应该使用哪一种?

在这篇博客中,我们探索了不同的方法来有效地将if-elif-else逻辑应用于Pandas数据帧。尽管选择的方法可能取决于具体的用例,但性能分析显示df.loc[]或pd.cut()对于较大的数据集通常是最高效的。然而,其他方法更灵活,可能在需要更复杂的条件逻辑或自定义分箱的情况下更受欢迎。

By Zhang Bonnie | Blog
DETAIL
Dec
11

Meta的数据工程:内部技术栈的高级概述

本文概述了我们作为Meta数据工程师日常使用的内部技术栈。我们的想法是阐明我们所做的工作,以及工具和框架如何使我们的日常数据工程工作更高效,并分享我们在此过程中做出的一些设计决策和技术权衡。

By Zhang Bonnie | Blog
DETAIL
Dec
08

LeMA:对于一个LLM来说,学习数学就是在犯错!

大型语言模型(LLMs)以其解决复杂问题的能力令人惊叹。更大型的模型展现出在数学和问题解决方面的推理能力。此外,通过诸如思维链等提示技术,这些模型取得了显著的成果。当然,模型并不总是得出正确答案。因此,随着时间的推移,人们提出了更多的策略,这仍然是一个活跃的研究领域。例如,模型可以在CoT数据上进行微调(由问题、答案和解释答案的基础构成的数据对)。另一种方法是在大量的数学数据、编码和STEM(科学、技术、工程和数学)方面进行微调。值得一提的例子有谷歌的Minerva和LLemma。

By Zhang Bonnie | Blog
DETAIL
Dec
06

使用生成式AI编写代码的正确方法

测试驱动开发(TDD)的前提是在编写任何代码之前编写所有单元测试。如果你完整地构建单元测试,确保覆盖了所有的业务需求,那么你可以边编写代码边进行测试。几年前,当我还是开发经理时,我认为这是一个很棒的想法。在我之上的高级经理和主管喜欢听我的团队编写了数百个单元测试,以及我们如何为测试划分优先级以保持高质量。我向其他团队介绍了TDD,并展示了我的团队是如何成功使用它的。

By Zhang Bonnie | Blog
DETAIL