机器学习

Dec
08

LeMA:对于一个LLM来说,学习数学就是在犯错!

大型语言模型(LLMs)以其解决复杂问题的能力令人惊叹。更大型的模型展现出在数学和问题解决方面的推理能力。此外,通过诸如思维链等提示技术,这些模型取得了显著的成果。当然,模型并不总是得出正确答案。因此,随着时间的推移,人们提出了更多的策略,这仍然是一个活跃的研究领域。例如,模型可以在CoT数据上进行微调(由问题、答案和解释答案的基础构成的数据对)。另一种方法是在大量的数学数据、编码和STEM(科学、技术、工程和数学)方面进行微调。值得一提的例子有谷歌的Minerva和LLemma。

By Zhang Bonnie | Blog
DETAIL
Nov
20

面向机器学习工程师的Python设计模式:Builder

人工智能开发人员的一项基本技能是编写干净、可重复使用的代码。因此,今天我将使用Deepnote在Python中介绍另一种设计模式。Builder模式将一个复杂对象的构建与表示分离。该模式具有灵活性和可扩展性,支持创建具有可变属性的复杂对象,同时保持客户端代码的整洁性和易用性。所有这些都使我们能够以一种清晰一致的方式构建复杂的对象。

By Zhang Bonnie | Blog
DETAIL
Oct
30

为什么流利的英语比数学或编程对ML更重要

拥有流利的英语,你可以:最有效地学习机器学习工作所需的大量信息,与招聘人员甚至首席执行官建立自信的人际关系,不会在面试中结结巴巴导致失败,在项目中获得同事的尊重,在不让自己尴尬的情况下协商薪水并要求升职,通过阅读和实施SOTA研究论文来提升你的技能和职业生涯,参加会议,这样的例子不胜枚举。让我详细地谈谈每个观点,以更好地说服你。

By Zhang Bonnie | Blog
DETAIL
Oct
26

金融中的机器学习:利用随机森林掌握时间序列分类

随机森林是机器学习中的一种集成学习技术,它将多个决策树组合在一起进行预测。它们值得研究,因为它们具有高准确性,可以处理分类和回归任务,并且能够抵抗过度拟合,同时需要最少的超参数调整,使它们成为数据科学和预测建模中强大且多功能的工具。本文展示了如何编写一个简单的分类随机森林模型来预测标准普尔500指数的每日涨跌走势。

By Zhang Bonnie | Blog
DETAIL
Oct
23

每个机器学习工程师都应该知道的线性代数!!

线性代数是基础数学框架,是数据科学的核心原理。从数据操作和转换到机器学习模型解释,线性代数是每个数据科学家都应该知道的不可或缺的工具。通过理解关键概念,如矩阵、向量、特征值和特征向量,数据科学家可以有效地处理、分析和提取复杂数据集的见解。在本文中,我们将探讨线性代数如何为数据科学中的机器学习做出贡献。它们有助于以图形化的方式理解机器学习模型,而我们人类擅长通过视觉几何来理解机器学习模型。

By Zhang Bonnie | Blog
DETAIL
Oct
07

NLP不是你想的那样

欢迎来到NLP的故事——一个关于模拟人类语言的编程科学发展的故事。还有那些以个人发展的名义冒充编程科学的人。NLP的两个领域都有其伦理问题和危险。这就是我写这篇文章的原因。这是一种消除歧义的尝试,提高人们对NLP认识的尝试,并使你能够采取小的行动来更有意识地对待语言。这才是有意义的变革可能开始的地方。

By Zhang Bonnie | Blog
DETAIL
Sep
25

提高ML模型稳健性的5种交叉验证方法

在一个接受交叉验证的世界里,这些问题得到了解决。交叉验证的神奇之处在这个5-fold交叉验证过程的示例中得以展现:新模型在四个fold上进行训练,并在每次迭代的最后一个fold上测试,以确保使用所有数据。平均分数及其标准差作为置信区间报告,提供了对模型性能的真实度量。交叉验证有很多变体,我们将在本文中介绍最重要的五种。

By Zhang Bonnie | Blog
DETAIL
Sep
07

谷歌的新WebAgent对其自身的生存构成威胁?

WebAgent在自主网络搜索方面树立了新的技术标杆,通过引入模块化、局部-全局注意力等几个概念,让我们看到了人工智能架构的未来,这些概念让我们更接近这样一个未来:你只需简单地提出需求,互联网将轻松满足你。

By Zhang Bonnie | Blog
DETAIL