听一听图灵奖获得者为我们讲解什么是人工智能的正确发展方向

过去几年，像GPT-4这样的大型语言模型（LLM）引起了全球的关注。

它们可以撰写文章、生成代码、模拟对话，并且越来越多地应用于企业级应用。对许多人来说，这标志着通用人工智能（AGI）时代的到来。但并非所有人都认同这种观点。

图灵奖获得者、强化学习的创始人之一理查德·萨顿（Richard Sutton）发出了重要的警告：当今的主流范式（包括 LLM）可能并非通往真正智能的正确途径。

这就引出了一个根本性的问题：LLM是最终目标，还是仅仅是一个跳板？

萨顿最出名的是阐述了他所谓的“苦涩的教训” ——这是人工智能历史上最重要的思想之一。他的核心思想是，最有效的AI系统并非建立在人类设计的知识之上，而是通过大规模计算和经验学习的系统。

这一原则推动了以下突破性进展：

AlphaGo
深度强化学习系统
自我练习和基于模拟的学习

LLM的训练高度依赖人类生成的文本（互联网规模数据集，监督学习和微调以及静态语料库。

从萨顿的角度来看，这种方法存在很大的局限性：

❌ 他们从人类知识中学习，而不是自己发现知识
❌ 他们缺乏与现实世界的实际互动
❌ 他们不会持续地从经验中学习。

尽管LLM拥有强大的功能，但其本质上运作方式是基于静态数据训练的下一个词元预测系统。

下面是一些关键约束:

没有实际经验

他们不在现实世界中行事。
无需反复试错学习

没有持久记忆或学习循环

训练已离线
无需持续适应（无需重新训练）

弱因果关系理解

模式识别≠真正的推理

幻觉问题

缺乏现实依据
未经核实的自信

如果LLM不是最终答案，那么什么才是？

萨顿认为真正的方向应该是基于经验的智能。萨顿的论点指向了一种不同的范式，“强化学习 + 交互”。未来的人工智能系统必须在各种环境中行动，获得反馈（奖励），通过反复试验不断改进。这就是其背后的范式，机器人学习 + 游戏AI + 自主代理。

在具身人工智能与现实世界的融合方面，真正的智慧需要感知（视觉、听觉、传感器）+ 行动（动作、决定）+ 反馈回路。还有一个持续学习系统，未来的人工智能必须在线学习，而不仅仅是线下学习，它适应新环境，无需从头开始重新训练，即可随着时间的推移而不断进步。最后就是基于 Agent 的架构，该行业已经开始超越纯粹的LLM（LLM）范畴。

现代系统越来越多地使用：

LLM + 工具
LLM + 记忆
多智能体系统
计划+执行循环

萨顿提出一种世界模型与仿真，学习的不仅仅是语言，而是世界模型。这包括物理学理解 + 因果推理 + 环境模拟。这些系统可以预测结果，计划行动，跨领域推广。未来，LLM可能会发展成人工智能系统的“皮层”——但并非整个大脑，未来人工智能堆栈包括：

LLM（语言与推理接口）
强化学习（决策）
世界模型（预测与规划）
记忆系统（长期知识）
工具和 API（操作执行）

结论

LLM模型是人工智能历史上最重要的突破之一，但它们并非最终目标。萨顿的信息是一种提醒，智能不仅仅是预测文本——它还应该包括从互动中学习、适应世界以及通过经验不断进步。

感谢阅读！你还可以订阅我们的YouTube频道，观看大量大数据行业相关公开课：https://www.youtube.com/channel/UCa8NLpvi70mHVsW4J_x9OeQ；在LinkedIn上关注我们，扩展你的人际网络！https://www.linkedin.com/company/dataapplab/。

April 1, 2026 | Blog | Tags: AI, 技术

听一听图灵奖获得者为我们讲解什么是人工智能的正确发展方向

听一听图灵奖获得者为我们讲解什么是人工智能的正确发展方向

未来是不是不需要程序员了？

大语言模型科技黑话大公开

Latest post

2026不要错过20万年薪的AI最新工作

变天了，计算机毕业生就业困难

大语言模型科技黑话大公开

Courses

Events

Lecture 12: 100 Days of LLM Mastery

Design Patterns for LLM Agents

Lecture 13: 100 Days of LLM Mastery

Consulting

ABOUT US

Contact Info: