人工智能的进展现在依赖于能够理解物理现实的“世界模型”

2025-11-10 23:24:00

深入了解 SCENE

机器人和多模态人工智能仍然无法理解物理世界，一位著名研究人员表示，这是该领域目前最大的障碍。

斯坦福大学计算机科学家李飞飞被广泛认为是现代计算机视觉的先驱，她表示，人工智能与物理现实之间的差距已成为科技界最紧迫的问题，并认为弥合这一差距需要建立围绕空间推理而非仅仅依赖语言的系统。

李在周一发布的报告中表示，人工智能正迅速接近基于文本学习的极限，进展最终将依赖于"世界模型"。

"解锁空间智能的核心在于世界模型的开发—这是一种新型的生成式人工智能，必须面对与大型语言模型(LM)完全不同的一系列挑战，"李在X上写道。“这些模型必须生成符合物理法则的空间一致的世界，处理从图像到动作的多模态输入，并预测这些世界如何随时间演变或与之互动。”

这些模型到底是什么？

“世界模型”的概念可以追溯到20世纪40年代初，当时苏格兰哲学家和心理学家肯尼斯·克雷克进行了认知科学研究。

这一观点在现代人工智能中重新出现，源于大卫·哈和尤尔根·施密特胡伯2018年的论文，该论文表明神经网络可以学习环境的紧凑内部模型，并将其用作规划和控制的模拟器。

李认为世界模型很重要，因为机器人和多模态系统仍然在基于实际情况的空间推理方面存在困难，导致它们无法判断距离和场景变化，或预测基本的物理结果。

李写道：“作为人类合作者的机器人，无论是在实验室帮助科学家还是协助独居老年人，都可以扩大急需更多劳动力和生产力的部分劳动力。”李认为，现实环境遵循当前机器无法捕捉的规则。

从重力塑造运动到材料影响光线，解决这个问题需要能够存储空间记忆并在超过两个维度建模场景的系统。

在九月份，李的公司World Labs发布了Marble的测试版，这是一种早期的世界模型，可以从文本或图像提示生成可探索的三维环境。

该公司声称，用户可以在这些世界中自由漫游，没有时间限制或场景漂移，环境保持一致，而不是变形或分裂。

"大理石只是我们创建一个真正空间智能世界模型的第一步，"李写道。“随着进展的加快，研究人员、工程师、用户和商业领袖们开始认识到它非凡的潜力。下一代世界模型将使机器在一个全新的层面上实现空间智能——这一成就将解锁目前在今天的人工智能系统中仍然大部分缺失的基本能力。”

李说，世界模型的使用案例包括支持多种应用，因为它们使人工智能对环境的行为有了内部理解。

创作者可以使用它们实时探索场景，机器人可以依赖它们更安全地导航和处理物体，而科学和医疗领域的研究人员可以运行空间模拟或改善成像和实验室自动化。

李将空间智能研究与早期生物学研究联系起来，指出人类在发展语言之前就已经学会了感知和行动。

“在书面语言出现之前，人类就已经在讲故事—将故事画在洞穴的墙壁上，通过世代传承，建立起整个文化在共享的叙事之上，” 她写道。“故事是我们理解世界的方式，是跨越距离和时间的连接，是探索什么是人类的意义，最重要的是，在我们自己内心找到生命和爱的意义。”

李说人工智能需要与物理世界相同的基础才能运作，并认为它的角色应该是支持人类，而不是取代他们。然而，进展将依赖于理解世界如何运作的模型，而不仅仅是描述它。

李说：“人工智能的下一个前沿是空间智能，这是一项将视觉转化为推理、感知转化为行动，以及想象转化为创造的技术。”

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

0/400

暂无评论