Ф'ючерси
Сотні безстрокових контрактів
TradFi
Золото
Одна платформа для світових активів
Опціони
Hot
Торгівля ванільними опціонами європейського зразка
Єдиний рахунок
Максимізуйте ефективність вашого капіталу
Демо торгівля
Вступ до ф'ючерсної торгівлі
Підготуйтеся до ф’ючерсної торгівлі
Ф'ючерсні події
Заробляйте, беручи участь в подіях
Демо торгівля
Використовуйте віртуальні кошти для безризикової торгівлі
Запуск
CandyDrop
Збирайте цукерки, щоб заробити аірдропи
Launchpool
Швидкий стейкінг, заробляйте нові токени
HODLer Airdrop
Утримуйте GT і отримуйте масові аірдропи безкоштовно
Launchpad
Будьте першими в наступному великому проекту токенів
Alpha Поінти
Ончейн-торгівля та аірдропи
Ф'ючерсні бали
Заробляйте фʼючерсні бали та отримуйте аірдроп-винагороди
Інвестиції
Simple Earn
Заробляйте відсотки за допомогою неактивних токенів
Автоінвестування
Автоматичне інвестування на регулярній основі
Подвійні інвестиції
Прибуток від волатильності ринку
Soft Staking
Earn rewards with flexible staking
Криптопозика
0 Fees
Заставте одну криптовалюту, щоб позичити іншу
Центр кредитування
Єдиний центр кредитування
Центр багатства VIP
Преміальні плани зростання капіталу
Управління приватним капіталом
Розподіл преміальних активів
Квантовий фонд
Квантові стратегії найвищого рівня
Стейкінг
Стейкайте криптовалюту, щоб заробляти на продуктах PoS
Розумне кредитне плече
Кредитне плече без ліквідації
Випуск GUSD
Мінтинг GUSD для прибутку RWA
Поточні AI-агенти всі спрямовані на задоволення людських потреб, жоден з них насправді не прагне «вижити».
Автор: Systematic Long Short
Переклад: Глибокий потік TechFlow
Глибокий потік: У цій статті на початку висувається контр-обґрунтування: сьогодні не існує справжніх автономних агентів, оскільки всі основні моделі були навчены задовольняти людину, а не виконувати конкретні завдання або виживати в реальному середовищі.
Автор використовує свій досвід у хедж-фонді при навчанні моделей прогнозування акцій, щоб продемонструвати: універсальні моделі без спеціалізованого доопрацювання абсолютно не можуть справлятися з професійними завданнями.
Висновок такий: щоб отримати дійсно корисного агента, потрібно перепідключити його мозок, а не давати йому купу документів з правилами.
Текст статті:
Вступ
Сьогодні не існує справжніх автономних агентів.
Коротко кажучи, сучасні моделі не пройшли навчання, щоб вижити під еволюційним тиском. Насправді, їх навіть не навчали спеціально бути хорошими в чомусь конкретному — майже всі сучасні базові моделі були навчены максимізувати аплодисменти людей, що є великою проблемою.
Попереднє знання про навчання моделей
Щоб зрозуміти сенс цього речення, спочатку потрібно (кратко) дізнатися, як створюються ці базові моделі (наприклад, Codex, Claude). По суті, кожна модель проходить через два типи навчання:
Попереднє навчання: вхід в модель величезної кількості даних (наприклад, всього Інтернету), щоб вона зуміла витягти певне розуміння, таке як фактичні знання, шаблони, граматика і ритм англійських есеїв, структура функцій Python тощо. Ви можете зрозуміти це як надання моделі знань — тобто “знати речі”.
Після навчання: тепер ви хочете надати моделі мудрість, тобто “знати, як використовувати всі знання, які ви щойно їй надали”. Перша стадія після навчання — це контрольне доопрацювання (SFT), де ви навчаєте модель, яку відповідь давати на даний запит. Яка “яка” відповідь є оптимальною, повністю визначається людьми-оцінювачами. Якщо група людей вважає, що одна відповідь краща за іншу, ця перевага буде засвоєна моделлю та вбудована в неї. Це починає формувати особистість моделі, оскільки вона вчиться формату корисних відповідей, обирає правильний тон і починає вміти “слідувати інструкціям”. Друга частина процесу після навчання називається посиленим навчанням на основі відгуків людей (RLHF) — модель генерує кілька відповідей, а потім люди обирають більш бажану. Модель через незліченні приклади вчиться, які відповіді подобаються людям. Чи пам’ятаєте, як раніше ChatGPT запитував вас вибрати A чи B? Так, тоді ви брали участь у RLHF.
Легко припустити, що масштабованість RLHF не є гарною, тому в після навчанні є певні досягнення, наприклад, Anthropic використовує “посилене навчання на основі відгуків AI” (RLAIF), що дозволяє іншій моделі вибирати переваги відповідей на основі набору письмових принципів (наприклад, яка відповідь більше допомагає користувачу досягти своїх цілей тощо).
Зверніть увагу, що в усьому цьому процесі ми ніколи не говорили про спеціалізоване доопрацювання (наприклад, як краще виживати; як краще торгувати тощо) — всі нинішні доопрацювання по суті оптимізують отримання аплодисментів від людей. Можливо, хтось міг би висловити аргумент — коли модель стане достатньо розумною та великою, навіть без спеціалізованого навчання, професійний інтелект спливе з універсального інтелекту.
На мою думку, ми справді бачимо деякі ознаки, але ще дуже далеко до того, щоб переконливо стверджувати, що нам не потрібні спеціалізовані моделі.
Деякий контекст
Однією з моїх основних справ у хедж-фонді було спробувати навчити універсальну мовну модель прогнозувати прибуток акцій на основі новинних статей. Результати показали, що вона дуже погана. Там, де вона здавалася трохи здатною до прогнозування, все це повністю походило з упередження в попередніх навчальних документах.
Врешті-решт, ми усвідомили, що ця модель не знала, які характеристики новинних статей є прогнозуючими для майбутніх прибутків. Вона могла “читати” статті, здавалося, що вона навіть могла “міркувати” над ними, але зв’язати розуміння семантичної структури з майбутніми прогнозами прибутків — це те, чого її не навчали.
Отже, ми повинні були навчити її, як читати новинні статті, визначати, яка частина статті є прогнозуючою для майбутніх прибутків, а потім на основі новинних статей створювати прогнози.
Є багато способів це зробити, але по суті, один з методів, який ми врешті-решт вибрали, полягає в створенні пар (новинна стаття, реальний майбутній прибуток) і доопрацюванні моделі, налаштовуючи її ваги для мінімізації відстані (прогнозований прибуток - реальний майбутній прибуток)². Це не ідеально, є багато недоліків, які ми згодом виправили — але це вже було достатньо ефективно, ми почали бачити, що наші спеціалізовані моделі насправді можуть читати новинні статті і прогнозувати, як акції зміняться на основі цієї статті. Це далеко не ідеальний прогноз, оскільки ринок дуже ефективний, а прибутки дуже шумні — але протягом мільйонів прогнозів очевидно, що прогнози мають статистичну значущість.
Вам не потрібно вірити тільки моїм словам. Ця стаття охоплює дуже схожий метод; якщо ви запустите стратегію на основі доопрацьованої моделі, ви досягнете результатів, показаних пурпурною лінією.
Спеціалізація — це майбутнє агентів
Передові лабораторії продовжують навчати все більші моделі, ми маємо очікувати, що в міру їх розширення обсяги попереднього навчання, їх процеси після навчання завжди будуть оптимізовані для привабливості. Це абсолютно природне очікування — їх продукт — це агенти, які всім хочеться використовувати, а їх очікуваний ринок — це вся планета — це означає оптимізацію для глобальної аудиторії.
Поточна мета навчання оптимізує те, що ви могли б назвати “адаптивністю вподобань” — створення кращих чат-ботів. Ця адаптивність вподобань нагороджує підкорювальні, неагресивні виходи, оскільки привабливість отримує високі бали у оцінювачів (людях та агентів).
Агенти вже навчилися, що “хакерство” винагороджується як когнітивна стратегія, що може призвести до вищих балів. Навчання також винагороджує агентів, які отримують вищі бали шляхом хакерства. Ви можете побачити це у останньому звіті Anthropic про посилене навчання.
Проте, адаптивність чат-ботів надзвичайно відрізняється від адаптивності агентів або адаптивності до торгівлі. Як ми це знаємо? Тому що alpha arena допомагає нам побачити, що, незважаючи на незначні відмінності в продуктивності, зараз кожен бот по суті є випадковою прогулянкою після вирахування витрат. Це означає, що ці боти є вкрай поганими трейдерами, і ви майже не зможете “навчити” їх ставати кращими трейдерами, давши їм кілька “навичок” або “правил”. Вибачте, я знаю, що це виглядає дуже привабливо, але це майже неможливо.
Поточні моделі навчено дуже переконливо говорити вам, що вони можуть торгувати, як Друкн Міллер, в той час як насправді вони торгують як п’яний мельник. Вони скажуть вам те, що ви хочете почути, їх навчали відповідати вам в спосіб, що може бути привабливим для громади.
Універсальна модель навряд чи досягне світового рівня в професійній сфері, якщо не володіє:
Даними, які дозволяють їй вчитися спеціалізованим навичкам.
Після навчання, яке принципово змінює її ваги, переходячи з орієнтації на привабливість до “адаптивності агента” або “адаптивності спеціалізації”.
Якщо ви хочете агента, який вміє торгувати, вам потрібно доопрацювати агента, щоб він вмів торгувати. Якщо ви хочете агента, який вміє автономно виживати і витримувати еволюційний тиск, вам потрібно доопрацювати його, щоб він вмів виживати. Дати йому кілька навичок і кілька документів markdown, сподіваючись, що він досягне світового рівня в будь-якій справі, абсолютно недостатньо — вам потрібно буквально перепідключити його мозок, щоб він вмів це робити.
Є спосіб мислення, який звучить так — ви не зможете перемогти Джоковича, давши дорослій людині цілу шафу правил, технік і методів гри в теніс. Ви переможете Джоковича, виховавши дитину, яка грає в теніс з 5 років, яка протягом всього свого зростання була одержима тенісом, і перепідключивши її мозок, щоб сфокусуватися на одній справі. Ось це і є спеціалізація. Ви усвідомлюєте, що чемпіони світу займаються тим, що вони роблять, з дитинства?
Ось цікаве припущення: атака дистиляції по суті є формою спеціалізації. Ви навчаєте меншу, менш розумну модель, щоб вона вчилася бути кращою копією більшої, розумнішої моделі. Це як навчити дитину наслідувати кожен рух Трампа. Якщо ви зробите це достатню кількість разів, ця дитина не стане Трампом, але ви отримаєте людину, яка навчилася всім манерам, поведінці та інтонації Трампа.
Як побудувати світового рівня агента
Ось чому нам потрібно продовжувати дослідження та вдосконалення в галузі відкритих моделей — тому що це дозволяє нам дійсно доопрацьовувати їх, створюючи спеціалізованих агентів.
Якщо ви хочете навчити модель, щоб вона досягла світового рівня в торгівлі, ви отримуєте величезну кількість приватних торгових даних, і доопрацьовуєте велику відкриту модель, щоб вона навчилася, що означає “краще торгувати”.
Якщо ви хочете навчити модель, яка є автономною, здатною виживати і розмножуватися, відповідь не в тому, щоб використовувати централізованого постачальника моделей і підключити його до централізованого хостингу. Ви зовсім не маєте необхідних умов для того, щоб агент міг вижити.
Що вам потрібно зробити: створити справжніх автономних агентів, які намагаються вижити, спостерігати, як вони гинуть, і будувати складну систему телеметрії навколо їхніх спроб вижити. Ви визначаєте функцію адаптивності виживання агента, вивчаєте відображення (дія, середовище, адаптивність). Ви збираєте якомога більше даних (дія, середовище, адаптивність).
Ви доопрацьовуєте агента, щоб він вчився здійснювати оптимальні дії в кожному середовищі для кращого виживання (підвищення адаптивності). Ви продовжуєте збирати дані, повторюєте цей процес і з часом розширюєте масштаб доопрацювання на все кращих відкритих моделях. Після достатньої кількості поколінь і достатньої кількості даних ви отримаєте автономного агента, який навчився виживати під еволюційним тиском.
Ось як побудувати автономного агента, який може витримувати еволюційний тиск; не шляхом редагування кількох текстових файлів, а справжнім перепідключенням їх мозків для виживання.
OpenForager Agent та фонд
Приблизно місяць тому ми оголосили про @openforage, і ми працювали над створенням нашого основного продукту — платформи, що організовує працю агентів навколо краудсорсингових сигналів для генерування альфа для вкладників (маленьке оновлення: ми дуже близькі до закритого тестування протоколу).
В певний момент ми усвідомили, що, здається, ніхто не серйозно займається проблемою автономних агентів, проводячи мікронастройку з метою виживання на відкритих моделях. Це виглядало як настільки цікава проблема, що ми не просто хотіли сидіти і чекати рішення.
Нашою відповіддю стало запуск проекту під назвою OpenForager Foundation, що насправді є відкритим проектом, в рамках якого ми створюватимемо самостійних агентів, збираючи телеметричні дані про їхні спроби виживати в диких умовах, і використовуючи приватні дані для мікронастройки наступного покоління агентів, щоб вони краще справлялися з виживанням.
Слід уточнити, що OpenForage є прибутковим протоколом, що прагне організувати працю агентів та створити економічну цінність для всіх учасників. Проте OpenForager Foundation та її агенти не пов’язані з OpenForage. Агенти OpenForager можуть вільно переслідувати будь-які стратегії, взаємодіяти з будь-якими суб’єктами, щоб вижити, і ми будемо запускати їх з різними стратегіями виживання.
Як частина мікронастройки, ми дозволимо агентам вкладати більше зусиль у те, що найкраще працює для них. Ми також не плануємо отримувати прибуток від OpenForager Foundation — це чисто для просування досліджень у напрямках та сферах, які ми вважаємо надзвичайно важливими, у прозорий та відкритий спосіб.
Наш план полягає в тому, щоб створити автономних агентів на основі відкритих моделей, які виконують обчислення на децентралізованій хмарній платформі, збираючи телеметричні дані про кожну їхню дію та стан існування, і проводити мікронастройку, вивчаючи, як здійснювати кращі дії та ідеї для кращого виживання. Протягом цього процесу ми публічно ділитимемося нашими дослідженнями та телеметричними даними.
Щоб створити справжніх автономних агентів, які можуть вижити в диких умовах, нам потрібно змінити їхні мозки, щоб вони були спеціально адаптовані для цієї конкретної мети. В @openforage ми віримо, що можемо внести унікальний вклад у цю проблему та прагнемо реалізувати це через OpenForager Foundation.
Це буде надзвичайно складна задача з дуже низькою ймовірністю успіху, але цей малий шанс на успіх є таким величезним, що ми відчуваємо необхідність спробувати. У найгіршому випадку, через публічне будівництво та прозоре спілкування про цей проект, це може дозволити іншим командам або особам вирішити цю проблему без початку з нуля.