人工智能的進展現在依賴於能夠理解物理現實的“世界模型”

2025-11-10 23:24:00

深入了解 SCENE

機器人和多模態人工智能仍然無法理解物理世界，一位著名研究人員表示，這是該領域目前最大的障礙。

斯坦福大學計算機科學家李飛飛被廣泛認爲是現代計算機視覺的先驅，她表示，人工智能與物理現實之間的差距已成爲科技界最緊迫的問題，並認爲彌合這一差距需要建立圍繞空間推理而非僅僅依賴語言的系統。

李在周一發布的報告中表示，人工智能正迅速接近基於文本學習的極限，進展最終將依賴於"世界模型"。

"解鎖空間智能的核心在於世界模型的開發—這是一種新型的生成式人工智能，必須面對與大型語言模型(LM)完全不同的一系列挑戰，"李在X上寫道。“這些模型必須生成符合物理法則的空間一致的世界，處理從圖像到動作的多模態輸入，並預測這些世界如何隨時間演變或與之互動。”

這些模型到底是什麼？

“世界模型”的概念可以追溯到20世紀40年代初，當時蘇格蘭哲學家和心理學家肯尼斯·克雷克進行了認知科學研究。

這一觀點在現代人工智能中重新出現，源於大衛·哈和尤爾根·施密特胡伯2018年的論文，該論文表明神經網路可以學習環境的緊湊內部模型，並將其用作規劃和控制的模擬器。

李認爲世界模型很重要，因爲機器人和多模態系統仍然在基於實際情況的空間推理方面存在困難，導致它們無法判斷距離和場景變化，或預測基本的物理結果。

李寫道：“作爲人類合作者的機器人，無論是在實驗室幫助科學家還是協助獨居老年人，都可以擴大急需更多勞動力和生產力的部分勞動力。”李認爲，現實環境遵循當前機器無法捕捉的規則。

從重力塑造運動到材料影響光線，解決這個問題需要能夠存儲空間記憶並在超過兩個維度建模場景的系統。

在九月份，李的公司World Labs發布了Marble的測試版，這是一種早期的世界模型，可以從文本或圖像提示生成可探索的三維環境。

該公司聲稱，用戶可以在這些世界中自由漫遊，沒有時間限制或場景漂移，環境保持一致，而不是變形或分裂。

"大理石只是我們創建一個真正空間智能世界模型的第一步，"李寫道。“隨着進展的加快，研究人員、工程師、用戶和商業領袖們開始認識到它非凡的潛力。下一代世界模型將使機器在一個全新的層面上實現空間智能——這一成就將解鎖目前在今天的人工智能系統中仍然大部分缺失的基本能力。”

李說，世界模型的使用案例包括支持多種應用，因爲它們使人工智能對環境的行爲有了內部理解。

創作者可以使用它們實時探索場景，機器人可以依賴它們更安全地導航和處理物體，而科學和醫療領域的研究人員可以運行空間模擬或改善成像和實驗室自動化。

李將空間智能研究與早期生物學研究聯繫起來，指出人類在發展語言之前就已經學會了感知和行動。

“在書面語言出現之前，人類就已經在講故事—將故事畫在洞穴的牆壁上，通過世代傳承，建立起整個文化在共享的敘事之上，” 她寫道。“故事是我們理解世界的方式，是跨越距離和時間的連接，是探索什麼是人類的意義，最重要的是，在我們自己內心找到生命和愛的意義。”

李說人工智能需要與物理世界相同的基礎才能運作，並認爲它的角色應該是支持人類，而不是取代他們。然而，進展將依賴於理解世界如何運作的模型，而不僅僅是描述它。

李說：“人工智能的下一個前沿是空間智能，這是一項將視覺轉化爲推理、感知轉化爲行動，以及想象轉化爲創造的技術。”

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

留言

0/400

暫無留言