替代大语言模型的世界模型是什么?

替代大语言模型的世界模型是什么?

最近,李飞飞和图灵奖得主杨立昆(Yann LeCun)都提出了一种新的AI模型,定义为”世界模型”(World Model)。那么他们所说的“世界模型”究竟是什么呢。

李飞飞提出的”世界模型”(World Model)是一个关于人工智能如何理解和模拟现实世界的重要概念。世界模型是AI尝试把视觉、空间感、动作等多个维度的信息结合起来,真正模拟出一个接近真实的世界。这个概念受人类认知方式的启发——就像我们人类能够理解三维空间、预测物体运动、与物理环境交互一样,AI也需要具备这种”空间智能”。

李飞飞为世界模型定义了三个核心能力:生成性(能够创造具有几何和物理一致性的世界)、多模态(可以处理图像、视频、文本、动作等多种输入)、交互性(能够基于动作预测下一个世界状态)。李飞飞强调,大语言模型虽然强大,但它们只能处理文字和抽象概念,缺乏对物理世界的真实理解。李飞飞将空间智能定义为”人类认知的脚手架”,从日常的泊车、接球、倒咖啡,到科学发现,空间智能渗透在人类活动的方方面面。

2024年,李飞飞创办了World Labs公司,并在最近推出了首款产品Marble。这个模型能够生成持久存在、可导航且能自定义操控的3D世界,用户只需一句话、一张图片就能生成完整的三维场景。

杨立昆对当前主流的大语言模型持批评态度,他认为四岁儿童通过视觉和触觉吸收的感官信息,远比任何现有模型通过文本遇到的信息要多,即使这些模型是在相当于数十万年人类阅读量的数据上训练的。

根据最新报道,杨立昆正准备在十多年后离开Meta,创办一家专注于”世界模型”的初创公司,这种方法旨在给AI系统提供物理结构、动态和因果关系的内部表征。这反映了他与Meta当前快速商业化LLM策略之间的理念分歧。

杨立昆被誉为“卷积神经网络(CNN)之父”,他的三大核心贡献包括:

  • 卷积神经网络(CNN):1980年代,LeCun发明了卷积神经网络,现已成为机器学习领域的基础技术之一。1993年,他开发了LeNet-5系统,成功应用于手写数字识别,并被金融机构用于读取支票上的数字。
  • 改进反向传播算法:他提出了早期的反向传播算法,并根据变分原理给出了简洁的推导,使算法运行更快。
  • 拓展神经网络应用范围:他将神经网络发展成可完成多种任务的计算模型,许多早期工作已成为人工智能的基础概念。

2019年,杨立昆与约书亚·本希奥(Yoshua Bengio)和杰弗里·辛顿(Geoffrey Hinton)共同获得计算机学界最高奖项图灵奖,被称为”深度学习三巨头”。

根据2025年11月的报道,杨立昆宣布计划年底从Meta离职,创办一家新的人工智能初创公司。杨立昆的工作对现代人工智能发展产生了深远影响,卷积神经网络现已广泛应用于计算机视觉、自动驾驶、医学图像识别、语音识别等众多领域。

杨立昆对世界模型有明确的技术定义。他认为世界模型需要:

  • 接收观察数据x(t)
  • 保持世界状态的估计s(t)
  • 考虑行动提议a(t)
  • 通过编码器和预测器计算下一个状态s(t+1)

值得注意的是,杨立昆和李飞飞虽然都在谈”世界模型”,但重点不同。杨立昆的”世界模型”概念来自控制论和认知科学,而非3D图形。他关注的是:

  • 内部预测机制:世界模型消化感官数据流,学习压缩的内部变量,预测当代理或环境行动时状态如何演变
  • 规划和推理能力:使用这套机制来规划和选择行动
  • 你永远看不到世界模型本身,它不需要输出漂亮的图片,它的工作是让代理能够提前思考几步

相比之下,李飞飞的World Labs更侧重于生成可视化的3D场景。

感谢阅读!你还可以订阅我们的YouTube频道,观看大量大数据行业相关公开课:https://www.youtube.com/channel/UCa8NLpvi70mHVsW4J_x9OeQ;在LinkedIn上关注我们,扩展你的人际网络!https://www.linkedin.com/company/dataapplab/