
听一听图灵奖获得者为我们讲解什么是人工智能的正确发展方向
过去几年,像GPT-4这样的大型语言模型(LLM)引起了全球的关注。
它们可以撰写文章、生成代码、模拟对话,并且越来越多地应用于企业级应用。对许多人来说,这标志着通用人工智能(AGI)时代的到来。但并非所有人都认同这种观点。
图灵奖获得者、强化学习的创始人之一理查德·萨顿(Richard Sutton)发出了重要的警告:当今的主流范式(包括 LLM)可能并非通往真正智能的正确途径。
这就引出了一个根本性的问题:LLM是最终目标,还是仅仅是一个跳板?
萨顿最出名的是阐述了他所谓的“苦涩的教训” ——这是人工智能历史上最重要的思想之一。他的核心思想是,最有效的AI系统并非建立在人类设计的知识之上,而是通过大规模计算和经验学习的系统。
这一原则推动了以下突破性进展:
- AlphaGo
- 深度强化学习系统
- 自我练习和基于模拟的学习
LLM的训练高度依赖人类生成的文本(互联网规模数据集,监督学习和微调以及静态语料库。
从萨顿的角度来看,这种方法存在很大的局限性:
❌ 他们从人类知识中学习,而不是自己发现知识
❌ 他们缺乏与现实世界的实际互动
❌ 他们不会持续地从经验中学习。
尽管LLM拥有强大的功能,但其本质上运作方式是基于静态数据训练的下一个词元预测系统。
下面是一些关键约束:
没有实际经验
- 他们不在现实世界中行事。
- 无需反复试错学习
没有持久记忆或学习循环
- 训练已离线
- 无需持续适应(无需重新训练)
弱因果关系理解
- 模式识别≠真正的推理
幻觉问题
- 缺乏现实依据
- 未经核实的自信
如果LLM不是最终答案,那么什么才是?
萨顿认为真正的方向应该是基于经验的智能。萨顿的论点指向了一种不同的范式,“强化学习 + 交互”。未来的人工智能系统必须在各种环境中行动,获得反馈(奖励),通过反复试验不断改进。这就是其背后的范式,机器人学习 + 游戏AI + 自主代理。
在具身人工智能与现实世界的融合方面,真正的智慧需要感知(视觉、听觉、传感器)+ 行动(动作、决定)+ 反馈回路。还有一个持续学习系统,未来的人工智能必须在线学习,而不仅仅是线下学习,它适应新环境,无需从头开始重新训练,即可随着时间的推移而不断进步。最后就是基于 Agent 的架构,该行业已经开始超越纯粹的LLM(LLM)范畴。
现代系统越来越多地使用:
- LLM + 工具
- LLM + 记忆
- 多智能体系统
- 计划+执行循环
萨顿提出一种世界模型与仿真,学习的不仅仅是语言,而是世界模型。这包括物理学理解 + 因果推理 + 环境模拟。 这些系统可以预测结果,计划行动,跨领域推广。未来,LLM可能会发展成人工智能系统的“皮层”——但并非整个大脑,未来人工智能堆栈包括:
- LLM(语言与推理接口)
- 强化学习(决策)
- 世界模型(预测与规划)
- 记忆系统(长期知识)
- 工具和 API(操作执行)
结论
LLM模型是人工智能历史上最重要的突破之一,但它们并非最终目标。萨顿的信息是一种提醒,智能不仅仅是预测文本——它还应该包括从互动中学习、适应世界以及通过经验不断进步。
感谢阅读!你还可以订阅我们的YouTube频道,观看大量大数据行业相关公开课:https://www.youtube.com/channel/UCa8NLpvi70mHVsW4J_x9OeQ;在LinkedIn上关注我们,扩展你的人际网络!https://www.linkedin.com/company/dataapplab/。