
AI代理架构与框架的崛起
这些架构不仅仅是先进的模型——它们包含了一些正在逐步成型的核心构建模块,这些模块赋予了AI代理及相关应用自主行动、动态适应、无缝互动并探索数字环境的能力。
随着AI代理能力的提升,构建者们逐渐形成了一些核心组件和方法。
需要指出的是,虽然关于AI代理、代理发现及其未来应用的讨论尚存许多猜测,但我在此分享的见解,主要基于具体的研究论文以及我在实际环境中构建、分支和测试的原型。如果你想了解更多关于AI代理的相关内容,可以阅读以下这些文章:
如何在企业中设计与实施AI代理
人工智能代理的崛起:智能应用开发的新时代
打造属于你的人工智能代理系统:从入门到精通
如何构建人工智能代理系统?
首先,让我们来了解一些关键概念。
什么是AI代理?
从宏观层面来看,AI代理是一个能够自主或半自主执行任务的系统。即便在半自主情况下,代理也可以借助工具实现目标,而其中的“人在环”(human-in-the-loop)也可视为一种工具。
AI代理的任务种类繁多,从安排会议的虚拟助手到在数字环境中探索和互动的复杂系统不一而足。尤其是在数字环境中,苹果的Ferret-UI和WebVoyager,以及微软和其他公司的研究表现尤为突出。
AI代理通常以大型语言模型(LLM)或基础模型(FM)为核心,赋予其自主运行的能力。
通过分解任务、规划并执行一系列操作,AI代理可以高效解决复杂问题。
它们的思维过程类似于人类推理,能够将模糊的问题分解为多个可以解决的步骤。
这些代理可以调用多种工具,例如程序、API、网络搜索等,来完成任务并找到解决方案。

大型动作模型(LAM)
正如大型语言模型(LLM)变革了自然语言处理领域,大型动作模型(LAM)也有望改变AI代理与环境互动的方式。
我在最近的一篇文章中探讨了LAM的崛起及其对AI代理未来的影响。Salesforce AI研究团队开源了多个LAM模型,其中包括“Small Action Model”(小动作模型)。
LAM不仅限于简单的语言生成,它让AI能够在现实场景中采取有意义的行动。
函数调用已经成为AI代理环境中的关键要素,尤其在提升模型功能时,显著扩展了LLM的应用场景,超越了传统的文本生成范畴。
LAM的一大优势是其对函数调用的处理能力。它允许AI代理根据用户输入执行各种操作,例如信息检索、任务安排或计算等。
通过函数调用,模型可以为任务生成必要的参数,从而触发数据库查询或API调用等外部操作。
模型编排与小型语言模型的应用
LAM构成了行动的核心,而模型编排则将多个更小、更专用的语言模型(SLM)整合在一起,协助完成特定任务。
相比依赖大型、资源密集型模型,代理可以通过串联这些小型模型来协同工作,无论是总结数据、解析用户命令,还是根据历史上下文提供洞见。
SLM非常适合开发和测试,并且可以在本地离线环境中运行。
LLM由于其在自然语言生成、常识推理、对话与上下文管理、理解非结构化数据等方面的出色表现,迅速崛起。然而,尽管LLM功能强大,它们也存在一些局限性。
其中一个显著缺点是LLM可能产生幻觉,即生成的回答看似合理,但实际上并不正确。
此外,LLM的知识范围受限于其训练数据,数据有固定的时间节点,这导致它们无法实时更新知识,无法提供特定行业、组织或公司所需的专业洞见。
更新LLM来解决这些不足并不容易,通常需要微调底层模型,而这涉及大量的数据准备、成本和测试,且引入了复杂且不透明的数据整合方式。
为解决这些问题,检索增强生成(Retrieval-Augmented Generation,RAG)的概念应运而生。
RAG弥补了小型语言模型(SLM)在深度知识上的不足,增强了其知识库,使其能够与大型模型相媲美。
通过RAG,SLM不仅保留了语言生成和理解的核心功能,还可以借助更大模型的知识优势。
用于数字探索的视觉语言模型
随着AI代理具备探索和与数字环境互动的能力,视觉功能与语言模型的结合变得至关重要。
苹果的Ferret-UI和WebVoyager等项目为此提供了很好的范例。
这些代理不仅能够在其数字环境中导航,还可以识别用户界面元素,解读文本并与之交互,从而提供视觉反馈。
例如,一个AI代理的任务可能是构建一个应用程序,它不仅要读取文本指令,还需要通过OCR技术识别UI元素,映射边界框并与之交互。
函数调用与结构化输出
AI代理处理输入和输出的方式正在发生根本性变革。
传统上,LLM使用非结构化输入并生成非结构化输出,例如文本段落或回复。而现在,通过函数调用,输出正朝着结构化、可操作的方向发展。
LLM非常适合处理非结构化内容,而LAM则通过将语言转化为结构化的、可执行的操作,填补了这一空白。
AI代理可以根据特定功能生成结构化输出,从而更高效地与其他系统互动。
例如,AI代理不再只是生成非结构化的对话回复,而是可以通过函数调用来预订会议、发送请求或触发API调用——所有这些操作都可以在有限的token使用范围内完成。
这不仅减少了处理非结构化响应的负担,也使系统间的交互更加顺畅。
需要注意的是,在使用OpenAI API进行函数调用时,模型并不会直接执行函数,而是触发相应的操作。
如今,AI代理已经可以真正融入到更大的数字生态系统中。
工具的作用:管道与“人在环”
最后,让我们探讨工具在AI代理架构中的重要性。
工具可以看作是AI代理与世界交互的机制——无论是获取数据、执行计算,还是完成任务。它们如同管道,将输入从一个阶段传递到下一个,并在此过程中进行转换。
更有意思的是,工具不仅仅局限于算法或脚本。有时,“人在环”也是一种重要的工具,人在关键时刻介入,帮助引导或验证代理的决策。
这在高风险环境中尤为关键,例如医疗或金融领域,在这些领域中,准确性至关重要。
工具不仅扩展了AI代理的能力,还作为系统之间的粘合剂,使AI代理变得更加模块化、具备上下文感知能力,并能够与人类和数字功能进行有效交互。
AI代理的未来
站在新时代的门槛上,AI代理的复杂性正超出我们最初的设想。
通过大型动作模型、模型编排、视觉语言模型、函数调用及工具的关键作用,AI代理将成为探索数字世界、解决问题和自主学习的积极参与者。
未来的AI代理不仅会变得更加智能,还将更加适应变化、更高效,并能以接近人类的方式思考和解决问题。
感谢阅读!你还可以订阅我们的YouTube频道,观看大量大数据行业相关公开课:https://www.youtube.com/channel/UCa8NLpvi70mHVsW4J_x9OeQ;在LinkedIn上关注我们,扩展你的人际网络!https://www.linkedin.com/company/dataapplab/。
原文作者:Cobus Greyling
翻译作者:过儿
美工编辑:过儿
校对审稿:Jason
原文链接:https://cobusgreyling.medium.com/an-ai-agent-architecture-framework-is-emerging-addae3804f23