Авторитет у прогнозуванні штучного інтелекту: я все ще недооцінював швидкість розвитку ШІ, до кінця цього року справді можливо досягти «автоматизації досліджень і розробок ШІ»

robot
Генерація анотацій у процесі

Швидкість прориву можливостей штучного інтелекту вже ставить у глухий кут навіть найобережніших прогнозистів.

Відомий дослідник прогнозів у галузі ШІ Аджея Котра нещодавно відкрито визнала, що її прогноз щодо розвитку ШІ до 2026 року, опублікований лише два місяці тому, був значно консервативним. Причиною цього самореформулювання стала поведінка нової моделі Anthropic Claude Opus 4.6 у авторитетному тесті METR, де показник “часового проміжку” для виконання завдань з інженерії програмного забезпечення вже досяг приблизно 12 годин, що значно перевищує її попередню оцінку кінця 2026 року — близько 24 годин. Це означає, що реальний прогрес у галузі програмної інженерії відбувся майже на десять місяців раніше, ніж вона передбачала.

Ще більш вражаюче — Котра підвищила ймовірність автоматизації всіх аспектів досліджень і розробок ШІ. Вона зберегла ймовірність того, що до кінця цього року ШІ повністю візьме на себе концепцію та реалізацію досліджень без участі людини, на рівні 10%, і чітко заявила: «Це вперше я не можу знайти жодної стійкої тенденції, яку можна було б екстраполювати, щоб стверджувати, що це не станеться дуже швидко». Ця заява викликала широкий резонанс у колах прогнозування ШІ.

Котра раніше очолювала фінансування досліджень безпеки ШІ у одній із найбільших глобальних організацій — Coefficient Giving, а зараз працює у METR — організації, що спеціалізується на оцінці можливостей ШІ.

Помилка у прогнозі: оцінки два місяці тому вже застаріли

14 січня цього року Котра, ґрунтуючись на історичних тенденціях, що з 2019 по 2025 рік часового проміжку подвоювався менше ніж двічі на рік, спрогнозувала, що для досягнення 50% успіху найпередовіша модель до кінця 2026 року матиме приблизно 24 години. Для 80-го перцентилю — близько 40 годин.

Однак, всього через два місяці після публікації прогнозу, модель Opus 4.6 вже оцінювалася з часом близько 12 годин. У тестовому наборі METR із 19 завдань з інженерії програмного забезпечення, які за оцінками займали у людей понад 8 годин, модель Opus 4.6 могла принаймні частково виконати 14 із них і стабільно подолати 4. з них. Котра зізналася, що навіть за умови ще десяти місяців прогресу, модель все ще має приблизно половину завдань із часом понад 24 години, що вже «більше не здається правдоподібним».

Важливо зазначити, що вона також підкреслила, що невизначеність у оцінках часового проміжку значно зросла: 95% довірчий інтервал для Opus 4.6 становить від 5,3 до 66 годин. Це частково зумовлено малою кількістю довгих завдань, оцінками часу їх виконання вручну та майже насиченим тестовим набором.

Межі можливостей: традиційні оцінювальні рамки втрачають чинність

З наближенням можливостей агентів ШІ до рівня виконання або перевищення десятків годинних завдань, Котра вважає, що сама концепція “часового проміжку” починає ставати непридатною.

Вона зазначила, що розкладність завдань зростає з масштабом: одночасна налагоджувальна робота тривалістю в один годинник майже не піддається паралельному розподілу, одноденна розробка — вже з труднощами, але можлива з розподілом праці, тоді як місячні або багатомісячні проєкти природно розбиваються на кілька паралельних підзавдань. Якби агент ШІ стабільно виконував завдання обсягом 80 годин, теоретично можна було б за допомогою “керівного ШІ” розподіляти завдання, а “виконавчий ШІ” — паралельно їх реалізовувати, постійно просуваючись у будь-якому масштабі.

Том, колега Котри, запропонував використовувати для оцінки “внутрішньої складності” не кількість людських годин, а календарний час, необхідний для виконання завдання великими командами. Вона вважає, що з входженням ШІ у цей новий масштаб “один людський час” може почати зростати надзвичайно швидко, у багато разів швидше за експоненційний рівень, що ускладнює оцінку верхньої межі можливостей у програмній інженерії до кінця року.

Водночас вона визнає, що таке масштабне розбиття завдань у реальності не буде ідеальним — інтуїтивне розуміння загальної картини учасниками проєкту важко замінити повністю системами Jira або Asana. Однак вона вважає, що для досить широкого кола програмних проєктів цей підхід “може виявитися несподівано ефективним”.

Ключові точки: автоматизація досліджень і розробок у ШІ може стати реальністю вже цього року

Найбільш обговорюваним у всіх прогнозах є її оцінка ймовірності “повної автоматизації досліджень і розробок ШІ”.

Вона визначила цю ймовірність як: ШІ системи цілком беруть на себе концепцію та реалізацію досліджень без участі людини. У січневому прогнозі вона оцінила цю ймовірність у 10%, і після публікації отримала від колег у галузі кілька відгуків, що ця цифра здається завищеною. Однак після появи результатів Opus 4.6 вона зазначила, що 10% “знову здається цілком обґрунтованим”.

Водночас вона залишає за собою обережність. Вона підкреслює, що для досягнення повної автоматизації досліджень і розробок потрібно не лише високий рівень програмної інженерії, а й прориви у таких сферах, як “наукове судження” та “творчість”, які наразі залишаються слабкими сторонами сучасних систем ШІ у порівнянні з людськими дослідниками. Вона вважає, що реалізація цієї мети у найближчі три-п’ять років набагато ймовірніша, ніж у цьому році.

Проте її формулювання кардинально змінилося: “Це вперше я не можу знайти жодної стійкої тенденції, яку можна було б екстраполювати, щоб стверджувати, що це не станеться дуже швидко.”

Попередження про ризики та відмову від відповідальності

Ринок має свої ризики, інвестуйте обережно. Цей матеріал не є інвестиційною рекомендацією і не враховує індивідуальні цілі, фінансовий стан або потреби користувача. Користувачі повинні самостійно оцінити, чи відповідають будь-які думки, погляди або висновки, наведені у цьому матеріалі, їхнім конкретним обставинам. За будь-які інвестиції відповідальність несе сам користувач.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити