Прогрес штучного інтелекту тепер залежить від «світових моделей», що розуміють фізичну реальність

Decrypt

2025-11-10 23:24:00

Коротко

Професор комп'ютерних наук Стенфордського університету Фей-Фей Лі зазначила, що прогрес ШІ зараз обмежений системами, які не можуть розуміти фізичний простір.
Світові моделі призначені для моделювання середовищ і прогнозування того, як сцени змінюються з часом.
Ранні прототипи, такі як Marble, натякають на те, як ці моделі можуть змінити креативну роботу, робототехніку та науку.

Центр мистецтв, моди та розваг Decrypt.

Відкрийте SCENE

Роботи та мультимодальний штучний інтелект все ще не можуть зрозуміти фізичний світ, що, на думку одного видатного дослідника, є найбільшою перешкодою в цій сфері.

Фей-Фей Лі, комп'ютерний вчений Стенфордського університету, якого вважають піонером сучасного комп'ютерного зору, заявила, що розрив між ШІ та фізичною реальністю став найтерміновішою проблемою технологій і стверджує, що для його подолання потрібні системи, побудовані навколо просторових міркувань, а не лише навколо мови.

Штучний інтелект швидко наближається до меж текстового навчання, і прогрес врешті-решт залежатиме від “моделей світу”, - сказав Лі в звіті, опублікованому в понеділок.

“В основі розблокування просторового інтелекту лежить розробка світових моделей — нового типу генеративного ШІ, який повинен відповідати фундаментально іншому набору викликів, ніж LLM,” написав Лі в X. “Ці моделі повинні генерувати просторово узгоджені світи, які підпорядковуються фізичним законам, обробляти мультимодальні дані від зображень до дій і прогнозувати, як ці світи еволюціонують або взаємодіють з часом.”

Що це за моделі?

Концепція “світових моделей” виникла в початку 1940-х років, коли шотландський філософ і психолог Кеннет Крайк проводив дослідження в галузі когнітивних наук.

Ідея знову з'явилася в сучасному ШІ після того, як папір 2018 року Девіда Ха та Юргена Шмідгубера показав, що нейронна мережа може навчитися компактної внутрішньої моделі середовища і використовувати її як симулятор для планування та контролю.

Лі стверджував, що світові моделі мають значення, оскільки роботи та мультимодальні системи все ще мають труднощі з обґрунтованим просторовим мисленням, що робить їх нездатними оцінювати відстані та зміни в сценах або передбачати основні фізичні результати.

“Роботи як людські співробітники, чи то допомагаючи вченим у лабораторії, чи то підтримуючи літніх людей, які живуть самотньо, можуть розширити частину робочої сили, яка гостро потребує більше працівників і продуктивності,” - написав Лі. Реальні умови слідують правилам, які нинішні машини не можуть зафіксувати, стверджує Лі.

Від гравітації, що формує рух, до матеріалів, що впливають на світло, вирішення цього вимагає систем, здатних зберігати просторову пам'ять і моделювати сцени більш ніж у двох вимірах.

У вересні компанія Лі, World Labs, випустила бета-версію Marble, ранньої світової моделі, яка створювала досліджувані тривимірні середовища з текстових або зображенних запитів.

Користувачі могли б проходити через ці світи без обмежень по часу або зміщення сцени, і навколишнє середовище залишалося незмінним, а не змінювалося або не розпадалося, стверджує компанія.

“Марble - це лише наш перший крок у створенні справжньої просторово інтелектуальної моделі світу,” написав Лі. “Оскільки прогрес прискорюється, дослідники, інженери, користувачі та бізнес-лідери починають усвідомлювати його надзвичайний потенціал. Наступне покоління світових моделей дозволить машинам досягти просторового інтелекту на зовсім новому рівні — досягнення, яке відкриє основні можливості, які все ще в значній мірі відсутні в сьогоднішніх системах штучного інтелекту.”

Лі сказав, що світові моделі використання включають підтримку ряду додатків, оскільки вони надають ШІ внутрішнє розуміння того, як поводяться середовища.

Творці можуть використовувати їх для дослідження сцен в реальному часі, роботи можуть покладатися на них для навігації та більш безпечного поводження з об'єктами, а дослідники в науці та охороні здоров'я можуть проводити просторові симуляції або покращувати зображення та автоматизацію лабораторії.

Лі пов'язав дослідження просторового інтелекту з ранніми біологічними дослідженнями, зауваживши, що люди навчилися сприймати та діяти задовго до того, як розвинули мову.

“Задовго до появи письмової мови, люди розповідали історії — малювали їх на стінках печер, передавали через покоління, створювали цілі культури на основі спільних наративів,” написала вона. “Історії – це спосіб, яким ми осмислюємо світ, зв'язуємося через відстань і час, досліджуємо, що означає бути людиною, і, що найважливіше, знаходимо сенс у житті та любові всередині себе.”

Лі сказав, що ШІ потрібне таке ж підґрунтя, щоб функціонувати у фізичному світі, і стверджував, що його роль повинна полягати у підтримці людей, а не у їх заміні. Проте прогрес залежатиме від моделей, які розуміють, як працює світ, а не лише описують його.

“Наступний рубіж штучного інтелекту — просторовий інтелект, технологія, яка перетворить зорове сприйняття на міркування, сприйняття на дію та уяву на створення,” — сказав Лі.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.