为什么OpenAI的Sora不仅仅是关于AI视频

上周，OpenAI发布了其新的人工智能视频生成器Sora的示例。我早就有所预料，但像所有人一样，我被Sora视频创作的质量震惊了。

OpenAI的示例展示了必不可少的猫和小狗视频，还有像加利福尼亚大苏尔海滩上的惊人航拍，或者雪地中的猛犸象等等。

据报道，电影制片人Tyler Perry在看到Sora的视频后取消了他工作室价值4亿美元的扩建计划。Perry表示，扩建他的工作室的物理空间没有意义，因为他很快就可以用人工智能来取代实体工作室。

毫无疑问，Sora对于人工智能视频生成是一个巨大的进步。但Sora背后真正的突破更加引人注目——也更具颠覆性。如果你想了解更多关于OpenAI的相关内容，可以阅读以下这些文章：
OpenAI新的嵌入模型和API更新
 OpenAI刚刚证明了人类并没有为即将到来的事情做好准备
 OpenAI近期发布了GPTs：创建自己的ChatGPT并从中赚钱（无需编码）
OpenAI是否秘密创造了类脑智能？

世界模型

生成人工智能视频比生成图像要困难得多。

要创建人工智能图像，生成式人工智能系统需要学习如何将像素组装成类似物体、地点、人物或鳄梨椅的东西。

这是一个艰巨的技术挑战。但系统并不一定需要理解它正在创造的东西，只需要逐渐去除图像中非猫或非人的特征，直到达到其内部系统认为可接受的程度。

创造令人信服的视频是不同的。在视频中，物体及其环境并不简单地存在为静态实体存在；它们以严格、受规则指导的方式相互作用。

例如，一个在桌子上滚动的球不太可能突然从桌子的实木顶部掉下来。一辆赛车在旧金山行驶时不会突然悬浮起来或变成一头大象。

同样，如果两个人在走路，第三个人通常不会突然出现并打其中一个人的脸。

对于我们成年人来说，现实世界中物体的局限性和受物理约束的相互作用似乎是显而易见的。但我们对它们的了解实际上是来之不易的。

研究表明，例如，婴儿花费了大量时间观察世界，以理解其物理规律。

当婴儿看到违反物理规律的场景时，他们的大脑突然活跃起来，因为他们试图将这个奇怪的新场景与他们对物理世界运作方式的现有预测相结合起来。

即使作为成年人，我们也不断预测我们周围的物体将如何相互作用。

我们都有过这样的经历:试图拿起一个物体，结果却比我们想象的要轻(比如，我们以为是满的空牛奶罐)。。

我们用比必要更大的力量抓住它，将它猛地（而且通常是滑稽地）扯到空中。

这是因为我们的大脑在我们拿起物体之前会下意识地预测每个物体的重量。基于我们以往对物理世界的经验，我们对我们周围的世界将如何运作做出假设。

在所有这些情况下，我们可能没有注意到我们正在做什么特别的事情。但实际上，作为人类，我们不断地根据我们生活在其中的丰富经验，对物理世界是如何建立起来的做出假设。

物理计算机

与人类不同，计算机没有对物理世界的固有知识。

研究人员试图系统地教导它们人类视为理所当然的基本物理知识。例如，动力学数据库包含了50万个视频剪辑，捕捉了600种不同类型的人类运动。它通常用于训练机器学习系统，以做出像预测医院病人何时有跌倒风险这样的事情。

然而，教导这些物理基础知识进展缓慢。训练计算机识别摔倒的人是一回事。但训练它理解尘土如何从在土路上行驶的汽车的车轮上飞起，或者日出时光线如何穿过半透明的花瓣，是一件更困难的任务。

最终，这就是Sora如此令人印象深刻的原因。正如OpenAI在关于该系统的公告中解释的那样，Sora不仅仅可以创建酷炫的视频；它是根据完全自行开发的对物理世界的模型来创建这些视频。

OpenAI的声明称：“Sora不仅能理解用户在提示中要求的内容，还理解这些东西在物理世界中的存在方式。” “我们正在教导AI理解和模拟运动中的物理世界，目标是训练模型来帮助人们解决需要真实世界交互的问题。”

换句话说，Sora可能已经查看了数百万或数十亿小时的真实世界视频。它可能还接受过用于支持现代视频游戏和特效（如虚幻引擎）的物理模拟器输出的训练。

通过所有这些观察，Sora已经开发了一个详细的物理世界工作模型。就像一个观察周围物体的婴儿一样，Sora已经学会了汽车在路上行驶，狗做可爱的鬼脸，艺术画廊充满了可爱的定向光线。

基于这些知识，它可以创建令人信服的长视频。当你要求它创建一个人在东京行走的场景时，它会借助其衍生的知识和对世界的模型来创建一个不存在的数字场所，该场景正在发生。这就是视频。

同样，这些视频本身就很令人印象深刻。但事实上，Sora自己开发了世界的内部模型，这才是更令人印象深刻的，也更具有影响力。

开发一个世界模型是迈向人工通用智能（AGI）的巨大一步，这是人工智能研究的圣杯。

正如OpenAI在其公告中所说的，“Sora作为理解和模拟现实世界的模型的基础，我们认为这将是实现AGI的重要里程碑。”

如果Sora真正理解世界是如何运作的，它可以利用这些知识做的事情远远不止创造有趣的视频。例如，它可以引导机器人穿越真实世界的环境，或者像一个真正经历过生活的人一样写作，充分体现生活的荣耀。

鉴于AI世界模型的潜在影响，其他公司试图对OpenAI的发现泼冷水也就不足为奇了。来自Meta等人工智能竞争对手公司的研究人员认为，Sora并没有真正理解世界，而只是简单地模仿了它在训练数据中看到的模式。

我不同意这种说法。

想象一下，我的狗兰斯突然开始背诵莎士比亚。一位诗人可能会争辩说，作为一只狗，它并不能完全理解莎士比亚的词语。

但谁在乎呢？他仍然是一只背诵莎士比亚的狗。

同样，如果人工智能开发了一个足以让它做有用事情的世界表征，那么它如何完成该任务的具体技术方面就不再重要了。

如果Sora仅仅通过观察就创建了一个世界的模型，从而使它能够做出良好的预测并准确推理，那就已经足够接近理解了。根据我所看到的视频，它似乎已经做到了。

Sora的未来

目前，Sora还没有对公众开放。考虑到一个人工智能系统在其硅大脑中隐藏着真实世界的详细模型的潜在破坏力，OpenAI在接触Sora时持谨慎态度，这是可以理解的。

目前，该公司正在对系统进行红队训练，引入训练有素的专家，试图让Sora做一些破坏性的事情，这样公司就可以在系统向公众发布之前修复这些弱点。

然而，如果一个人工智能系统能够通过观察简单地开发出详细和准确的世界模型（而Sora的早期结果表明它可以），OpenAI将不是唯一一个开发这样的系统的公司。

训练这些模型很可能非常昂贵——甚至比训练生成式人工智能图像创作者还要昂贵。然而，几年后，即使是开源模型也很可能赶上Sora的能力，我们将会被模拟世界的人工智能所淹没。

正如Perry预测的那样，这将会释放出强大的视频创作能力。但它也可能做得更多，彻底改变机器人技术，使所有人工智能系统在逻辑推理方面更加优秀，并让我们离AGI更近一步。

栩栩如生的人工智能猫视频很酷。但就像人工智能世界中的许多事情一样，它们只是更大事物即将到来的先兆。

感谢阅读！你还可以订阅我们的YouTube频道，观看大量大数据行业相关公开课：https://www.youtube.com/channel/UCa8NLpvi70mHVsW4J_x9OeQ；在LinkedIn上关注我们，扩展你的人际网络！https://www.linkedin.com/company/dataapplab/

原文作者：Thomas Smith
翻译作者：文杰
美工编辑：过儿
校对审稿：Jason
原文链接：https://medium.com/the-generator/why-openais-sora-is-about-way-more-than-ai-videos-20d81c2aba9f

April 1, 2024 | Blog | Tags: AI, ChatGPT

为什么OpenAI的Sora不仅仅是关于AI视频

为什么OpenAI的Sora不仅仅是关于AI视频

为什么大语言模型不适合编码？

使用ChatGPT每年阅读1000本书

Latest post

如何开办一个人的人工智能创业公司？

多智能体协作协议（MCP）：LLM 系统中合作智能的未来

LLAMA 4 来袭：Meta 全新大模型的技术突破与商业潜力

Courses

Events

Lecture 1: Interpretation of Employment Trends in the US 2025

Understand Meta LLaMA Throughly

Lecture 2: Job Seaking Strategy and Career Positioning

Consulting

ABOUT US

Contact Info: