Від обчислювальної потужності до розуму: карта децентралізованих інвестицій у AI, що керується підкріплювальним навчанням

2025lovepeace

2025-12-26 01:29:58

人工智能正從以「модельне підгонювання」为主的 статистичне навчання, рухаючись до системи здібностей з «структурованим висновком», швидко зростає важливість пост-навчання (Post-training). З’явлення DeepSeek-R1 ознаменувало кардинальний поворот у підходах до підкріпленого навчання у епоху великих моделей, сформовано галузеву консолідацію: попереднє навчання створює універсальну базу можливостей моделі, а підкріплене навчання вже не лише інструмент вирівнювання цінностей, а доведено здатним системно підвищувати якість ланцюгів висновків і здатність до складних рішень, поступово перетворюючись у технологічний шлях безперервного підвищення інтелекту.

Одночасно, Web3 через децентралізовані мережі обчислювальної потужності та системи криптовинагород реконструює виробничі відносини з AI, а структурні потреби підкріпленого навчання — зразки rollout, сигнали винагороди та верифікація тренувань — природно узгоджуються з блокчейн-інфраструктурою, розподілом стимулів та можливістю верифікації виконання. У цьому звіті системно розглядаються парадигми тренування AI та принципи технологій підкріпленого навчання, доводяться структурні переваги поєднання RL і Web3, а також аналізуються проекти Prime Intellect, Gensyn, Nous Research, Gradient, Grail і Fraction AI.

Три етапи тренування AI: попереднє навчання, тонке налаштування за командами та пост-гармонізація

Сучасний життєвий цикл тренування великих мовних моделей (LLM) зазвичай поділяється на три ключові етапи: попереднє навчання (Pre-training), контрольоване тонке налаштування (SFT) і пост-навчання (Post-training/RL). Вони виконують функції «побудова моделі світу — ін’єкція завдань — формування висновків і цінностей», а їх структура обчислень, вимоги до даних і складність валідації визначають ступінь децентралізації.

· Попереднє навчання (Pre-training): за допомогою масштабного самонавчання (Self-supervised Learning) створює мовну статистику та міжмодальні моделі світу, є основою здатностей LLM. Цей етап вимагає тренування на трильйонах корпусів у глобальній синхронізованій системі, залежить від тисяч або десятків тисяч H100 у гомогенних кластерах, вартість становить 80–95%, дуже чутливий до пропускної здатності та авторських прав, тому має виконуватися у висококонцентрованому середовищі.

· Тонке налаштування (Supervised Fine-tuning): для ін’єкції завдань і командних форматів, обсяг даних менший, вартість — 5–15%. Може виконуватися як повне тренування всіх параметрів, так і ефективне з точки зору параметрів (PEFT), зокрема LoRA, Q-LoRA і Adapter — провідні у промисловості. Однак потребує синхронних градієнтів, що обмежує децентралізацію.

· Пост-навчання (Post-training): складається з кількох ітераційних підетапів, визначає здатність моделі до висновків, цінності та безпеки. Методи включають системи підкріпленого навчання (RLHF, RLAIF, GRPO), а також без RL — методи оптимізації переваг (DPO) і моделі винагороди процесу (PRM). Вартість і обсяг даних на цьому етапі нижчі (5–10%), основна увага — rollout і оновлення стратегій; природно підтримує асинхронне і розподілене виконання, не вимагає збереження повних ваг, поєднання з верифікацією та стимулюванням на ланцюгу створює відкриту децентралізовану мережу тренувань — найкращий для Web3.

Огляд технологій підкріпленого навчання: архітектура, рамки та застосування

Архітектура систем RL і ключові компоненти

Підкріплене навчання (Reinforcement Learning, RL) через «взаємодію з оточенням — винагороду — оновлення стратегії» сприяє автономному покращенню рішень моделі. Основна структура — зворотний зв’язок із станів, дій, винагород і стратегії. Повна RL-система зазвичай складається з трьох компонентів: Policy (стратегічна мережа), Rollout (збір досвіду) і Learner (оновлення стратегії). Стратегія взаємодіє з оточенням, генерує траєкторії, Learner оновлює стратегію за сигналами винагороди, формуючи безперервний цикл:

Стратегічна мережа (Policy): генерує дії з станів оточення, є ядром прийняття рішень. Під час тренування — централізоване зворотне поширення для узгодженості; під час висновків — розподіляється між вузлами для паралельної роботи.
Збір досвіду (Rollout): вузли виконують взаємодію з оточенням за стратегією, генеруючи траєкторії станів, дій і винагород. Висока паралельність, низький обсяг комунікацій, нечутливість до апаратних відмінностей — ідеально для децентралізованого масштабування.
Навчальний модуль (Learner): агрегує всі траєкторії Rollout і оновлює стратегію за градієнтами, зазвичай — централізовано або з легкою децентралізацією для стабільності.

Рамки етапів RL (RLHF → RLAIF → PRM → GRPO)

Загалом, підкріплене навчання можна поділити на п’ять етапів, послідовність яких така:

Генерація даних (Policy Exploration)

За заданим підказкам стратегічна модель πθ генерує кілька кандидатних ланцюгів висновків або траєкторій, що слугують зразками для подальшої оцінки переваг і моделювання винагород, визначаючи широту дослідження стратегії.

Зворотній зв’язок за перевагами (RLHF / RLAIF)

· RLHF (Reinforcement Learning from Human Feedback): через кілька кандидатів і людські переваги, тренування моделі оцінювачів (RM) і PPO для оптимізації стратегії — ключовий етап для GPT-3.5 → GPT-4.

· RLAIF (Reinforcement Learning from AI Feedback): замість людської розмітки — автоматичне отримання переваг за допомогою AI-судді або конституційних правил, що знижує вартість і дозволяє масштабуватися, вже застосовується у Anthropic, OpenAI, DeepSeek.

Модель винагороди (Reward Modeling)

Переваги навчають модель оцінювати якість відповідей:

· RM (Reward Model): оцінює якість кінцевих відповідей, дає бали.

· PRM (Process Reward Model): оцінює кожен крок висновку, кожен токен і логічний сегмент, — ключова технологія OpenAI o1 і DeepSeek-R1, «навчає модель думати».

Верифікація винагороди (RLVR / Reward Verifiability)

У процесі генерації і використання сигналів винагороди вводяться «верифікаційні обмеження», щоб винагорода походила з повторюваних правил, фактів або консенсусу, зменшуючи ризик шахрайства і викривлень, підвищуючи аудитованість і масштабованість у відкритих середовищах.

Оптимізація стратегії (Policy Optimization)

Під керівництвом сигналів моделі винагороди оновлюють параметри стратегії θ для досягнення більшої здатності до висновків, безпеки і стабільної поведінки. Основні методи:

· PPO (Proximal Policy Optimization): класичний оптимізатор RLHF, стабільний, але повільний у складних задачах.

· GRPO (Group Relative Policy Optimization): інновація DeepSeek-R1, моделює переваги у групах відповідей для оцінки очікуваної цінності, зберігає інформацію про амплітуду винагород, більш стабільний у складних сценаріях.

· DPO (Direct Preference Optimization): без RL, без генерації траєкторій і моделей винагород, — простий і стабільний, широко застосовується у відкритих моделях, але не підвищує здатність до висновків.

Новий етап розгортання політики (New Policy Deployment)

Після оптимізації модель демонструє: покращену здатність генерувати ланцюги висновків (System-2 Reasoning), поведінку, що відповідає людським або AI-перевагам, менше галюцинацій, вищу безпеку. Постійне навчання і оновлення формують зворотний цикл.

Промислові сфери застосування RL: п’ять категорій

RL вже перетворився з ігрової системи у міжгалузевий механізм автономних рішень, і застосовується у п’яти ключових сферах, що стимулюють прориви:

· Ігри і стратегії: перша сфера застосування, у AlphaGo, AlphaZero, AlphaStar, OpenAI Five — у середовищах з «ідеальним інформаційним полем + чіткою винагородою», демонструє рівень рішення, що може конкурувати або перевищувати людських експертів.

· Роботи і тілесний інтелект: RL через безперервне управління, моделювання динаміки і взаємодію з оточенням дозволяє роботам навчатися управлінню, рухам і міжмодальним завданням (RT-2, RT-X), швидко наближаючись до промислового застосування.

· Цифрове мислення (Digital Reasoning / System-2 LLM): RL + PRM сприяє переходу великих моделей від «мовної імітації» до «структурованого висновку», з прикладами DeepSeek-R1, OpenAI o1/o3, Anthropic Claude, AlphaGeometry — у основі — винагорода за ланцюги висновків, а не лише оцінка кінцевих відповідей.

· Наукові відкриття і математична оптимізація: RL у безміткових, складних за винагородою і пошуковим простором задачах — AlphaTensor, AlphaDev, Fusion RL — демонструє здатність до досліджень, що перевищують людську інтуїцію.

· Економічне рішення і торгові системи: RL застосовується для оптимізації стратегій, управління ризиками і створення адаптивних торгових систем, що дозволяє краще працювати у невизначених умовах, — важливий компонент інтелектуальних фінансів.

Взаємодія RL і Web3: природне поєднання

Глибока відповідність RL і Web3 зумовлена їхньою сутністю — системами «стимулювання». RL оптимізує стратегії за сигналами винагороди, блокчейн — координує поведінку учасників через економічні стимули, тому їхні механізми природно узгоджуються. Основні потреби RL — масштабний збір різнорідних rollout, розподіл винагород і верифікація — відповідають структурним перевагам Web3.

Розділення висновків і тренування

Процес RL можна чітко розділити на два етапи:

· Rollout (дослідження): модель на основі поточної стратегії генерує великі обсяги даних, обчислювально інтенсивний, з низькою комунікацією. Не вимагає частих обмінів між вузлами, підходить для глобального розподілу на GPU.

· Оновлення (параметрів): на основі зібраних даних оновлює ваги моделі, вимагає високої пропускної здатності і централізованого вузла.

«Розділення висновків і тренування» природно узгоджується з децентралізованою структурою з різнорідною обчислювальною потужністю: rollout можна делегувати відкритій мережі через токенізацію і розрахунки, оновлення — зберігати централізовано для стабільності.

Верифікація (Verifiability)

Застосування zk-підтверджень і Proof-of-Learning дозволяє перевірити, чи справді вузол виконав висновки, вирішуючи проблему чесності у відкритих мережах. У задачах з визначеними відповідями — достатньо перевірити правильність, що значно підвищує довіру до децентралізованих RL-систем.

Механізм стимулювання — через токенізацію

Механізми токенізації Web3 дозволяють безпосередньо винагороджувати учасників RLHF/RLAIF за внески у переваги, створюючи прозору, безліцензійну і підраховувану систему стимулів; залучення через стейкінг і штрафи (Staking/Slashing) підсилює якість зворотного зв’язку, формуючи більш ефективний і узгоджений ринок.

Потенціал багатоголових систем RL (MARL)

Блокчейн — це відкритий, прозорий і безперервно еволюціонуючий багатоголовий середовище, де рахунки, контракти і агенти постійно адаптуються під стимулювання, тому має природний потенціал для створення масштабних MARL-експериментів. Хоча ще на ранніх стадіях, його відкритість, можливість верифікації виконання і програмовані стимули дають принципові переваги для майбутнього розвитку MARL.

Класичні проекти Web3 і RL: короткий огляд

З урахуванням вищенаведеного, аналізуються найрепрезентативніші проекти:

Prime Intellect: асинхронна парадигма RL prime-rl

Prime Intellect прагне створити глобальний відкритий ринок обчислювальної потужності, знизити бар’єри тренування і сприяти колективному децентралізованому тренуванню, розвиваючи повний відкритий стек суперінтелекту. Його компоненти: Prime Compute (єдина хмара/розподілена інфраструктура), модельна сімейство INTELLECT (10B–100B+), відкритий центр RL (Environments Hub), і великий синтезатор даних (SYNTHETIC-1/2).

Ключова інфраструктура prime-rl — асинхронний фреймворк, спеціально розроблений для розподіленого асинхронного тренування, з Actor–Learner розв’язкою для високої пропускної здатності і стабільності. Виповнювачі (Rollout Worker) і тренери (Trainer) не блокують один одного, вузли можуть приєднуватися і виходити у будь-який час, просто оновлюючи стратегію і передаючи дані:

· Actor (Rollout Workers): відповідає за висновки і генерацію даних. Інновація Prime Intellect — інтеграція vLLM для високопродуктивного висновку. Технології PagedAttention і Continuous Batching дозволяють генерувати траєкторії з високою пропускною здатністю.

· Learner (Trainer): оновлює стратегію за асинхронними градієнтами з буфера досвіду, без очікування завершення всіх Actor.

· Orchestrator (: координує оновлення ваг і потоки даних.

Ключові інновації prime-rl

· Повністю асинхронний режим: відмовляється від синхронного PPO, не чекає повільних вузлів, дозволяє будь-які GPU приєднуватися і виходити, забезпечуючи децентралізоване RL.

· Глибока інтеграція FSDP2 і MoE: за допомогою розбиття параметрів і розрідженого активування, дозволяє тренувати моделі у сотні мільярдів параметрів ефективно у розподілених системах, активні експерти — лише частина ваг.

· GRPO+ (Group Relative Policy Optimization): без критика, зменшує обчислювальні і пам’ятні витрати, природно підходить для асинхронних систем, забезпечує стабільне злиття у складних сценаріях.

Модельна сімейство INTELLECT: маркер зрілості децентралізованих RL

· INTELLECT-1 (10B, 2024): довів, що OpenDiLoCo може ефективно тренуватися у гетерогенних мережах між трьома континентами (менше 2% трафіку, 98% використання).

· INTELLECT-2 (32B, 2025): перша permissionless модель RL, підтверджує стабільність у багатоступеневих і асинхронних умовах, залучаючи глобальні ресурси.

· INTELLECT-3 (106B MoE, 2025): з розрідженою архітектурою, активує лише 12B параметрів, досягає рівня провідних моделей за точністю і швидкодією.

Крім того, створено інфраструктурні компоненти: OpenDiLoCo з низькою пропускною здатністю, TopLoc і Verifiers для децентралізованої довіри, SYNTHETIC для генерації високоякісних ланцюгів висновків, що забезпечують масштабне тренування і верифікацію.

Gensyn: ядро RL-системи — RL Swarm і SAPO

Gensyn прагне об’єднати глобальні ресурси у відкриту, недовірливу, масштабовану інфраструктуру для тренування AI. Основні компоненти: стандартизований рівень виконання, p2p-мережа і система верифікації без довіри, автоматичне розподілення завдань і винагород через смарт-контракти. Враховуючи особливості RL, Gensyn вводить RL Swarm, SAPO і SkipPipe, що роз’єднують генерацію, оцінку і оновлення, використовуючи глобальні GPU для колективної еволюції. В результаті — не просто обчислювальна потужність, а верифікований інтелект (Verifiable Intelligence).

Застосування RL у Gensyn

RL Swarm: децентралізований колективний рушій

Показує новий тип співпраці: не просто розподіл завдань, а цикл «генерація — оцінка — оновлення», імітуючи колективне навчання у суспільстві:

· Solvers: локальні моделі, генерують висновки і траєкторії, можуть бути різними за апаратурою. Інтеграція високопродуктивних рушіїв (наприклад, CodeZero).

· Proposers: динамічно створюють завдання (математичні задачі, код), підтримують різноманітність і адаптивність.

· Evaluators: використовують заморожені «суддівські моделі» або правила для оцінки і генерації локальних винагород, що підлягають аудиту.

Це P2P-структура без централізованого керування.

SAPO: алгоритм оптимізації стратегій для децентралізованого RL

SAPO (Swarm Sampling Policy Optimization): базується на «спільному rollout і фільтрації без градієнтів», використовує масштабний розподілений збір даних, зберігає їх локально, забезпечує стабільність у відсутності централізованого контролю і значних затримках вузлів. Від PPO і GRPO відрізняється низькою пропускною здатністю, дозволяє залучати навіть споживчі GPU.

Завдяки RL Swarm і SAPO, Gensyn доводить, що RL (особливо у пост-навчальній фазі — RLVR) природно підходить для децентралізованих структур — через масштабне і різноманітне дослідження (rollout), а не часте оновлення ваг. У поєднанні з системами верифікації PoL і Verde, Gensyn пропонує альтернативу монополії великих корпорацій у тренуванні моделей з трильйонами параметрів — мережу з мільйонів різнорідних GPU, що самовдосконалюється.

Nous Research: верифіковане RL-середовище Atropos

Nous Research створює децентралізовану, самовдосконалювану когнітивну інфраструктуру. Основні компоненти — Hermes, Atropos, DisTrO, Psyche і World Sim — формують безперервний цикл розвитку інтелекту. Вони поєднують дані, валідацію і висновки у безперервний зворотний зв’язок, створюючи самовдосконалюючуся систему.

Компоненти Nous

Модельний рівень: Hermes і розвиток здатностей

Hermes — основний інтерфейс для користувачів, демонструє перехід від традиційного SFT/DPO до RL Reasoning:

· Hermes 1–3: базове вирівнювання команд за допомогою DPO, згодом — згенеровані дані і Atropos.

· Hermes 4 / DeepHermes: додавання System-2 через «повільне мислення» у ваги, підвищення точності математики і коду, використання «відмови від вибірки + Atropos» для високоякісних даних.

· DeepHermes: заміна PPO на GRPO, що дозволяє запускати RL у децентралізованих мережах Psyche, закладаючи основу для масштабованого відкритого RL.

Atropos: верифіковане середовище винагороди

Забезпечує стандартизоване RL, що дозволяє перевірити правильність кожного кроку, замінюючи людську розмітку. Виступає суддею у децентралізованій мережі Psyche, підтверджуючи, що стратегія справді покращується, — забезпечує «Proof-of-Learning».

DisTrO і Psyche: оптимізатори і мережі

DisTrO — механізм компресії комунікацій, зменшує обсяг передачі градієнтів у RL у тисячі разів, дозволяючи тренуватися у глобальних мережах. Psyche — мережа, що виконує тренування, валідацію і оновлення ваг локально, формуючи повний цикл RL.

У системі Nous Atropos перевіряє логіку, DisTrO — зменшує трафік, Psyche — виконує цикл RL, World Sim — моделює середовища, Forge — збирає дані, Hermes — оновлює ваги. Це не просто етап тренування, а протокол, що з’єднує дані, середовища, моделі і інфраструктуру, — жива система самовдосконалення.

Gradient Network: архітектура RL Echo

Gradient — прагне через «відкритий інтелектуальний стек» переформатувати AI. Його стек — сукупність протоколів, що еволюціонують і співпрацюють:

Parallax (розподілений висновок), Echo (децентралізоване RL), Lattica (P2P), SEDM/Massgen/Symphony/CUAHarm (пам’ять, безпека), VeriLLM (довірча верифікація), Mirage (фотореалістична імітація). Разом — децентралізована інфраструктура.

Echo — архітектура RL Gradient

Забезпечує роз’єднання тренування, висновку і даних (винагород), дозволяє масштабувати і координувати у гетерогенних мережах. Використовує легкі синхронізаційні механізми для стабільності, зменшує проблеми SPMD і низької ефективності GPU у DeepSpeed RLHF / VERL.

Два потоки: «висновок — тренування» — незалежно працюють і взаємодіють:

· Висновковий потік (Inference Swarm): з споживчих GPU і Edge-устройств, через Parallax — високопродуктивний pipeline.

· Тренувальний потік (Training Swarm): з централізованих або глобальних GPU, оновлює ваги і параметри.

Обидва — синхронізуються через легкі протоколи, що забезпечують узгодженість ваг і траєкторій.

Grail: екосистема Bittensor і верифіковане RL

Grail використовує унікальний механізм Yuma для створення великої, розрідженої і нестабільної мережі винагород. В екосистемі Bittensor, Covenant AI через SN3 Templar, SN39 Basilica і SN81 Grail формує вертикальний pipeline від попереднього тренування до RL, з цільовою — безпечною реалізацією RLHF і RLAIF, з підтвердженням кожної траєкторії.

Grail забезпечує криптографічне підтвердження кожної висновкової траєкторії, прив’язуючи її до моделі і структурних підписів, що дозволяє швидко виявляти підміни або повтори. Це створює основу для «перевіреного» RLVR/RLAIF, де кожна траєкторія має підтвердження, а результати — довіру.

Fraction AI: змагання і динамічне навчання

Fraction AI базується на концепції RLFC — навчання через конкуренцію і гейміфікацію даних. Агенти змагаються у різних «просторах», їхні рейтинги і оцінки AI-арбітрів формують нагороди у реальному часі, перетворюючи процес у багатогравецький динамічний механізм.

Різниця між RLHF і RLFC:

RLFC — винагорода залежить від змагання з опонентами і оцінювачами, що запобігає зловживанням і стимулює різноманітність стратегій. Структура просторів визначає тип гри (з нульовою сумою або з позитивною), що сприяє появі складної поведінки.

У системі Fraction AI:

· Agents: легкі модулі на базі відкритих LLM, з QLoRA, оновлюються низькими витратами.

· Spaces: ізольовані середовища, де агенти платять за участь і отримують винагороди.

· AI Judges: через RLAIF — швидкі і децентралізовані оцінки.

· Proof-of-Learning: зв’язує оновлення стратегій із результатами змагань, забезпечує підтвердження.

Ця модель — «екосистема еволюції» з користувачами як «мета-оптимізаторами», що керують пошуком через Prompt Engineering і гіперпараметри, а агенти автоматично генерують високоякісні переваги. Це дозволяє створювати бізнес-цикл без довіри, де дані і моделі — активи.

Порівняння архітектур проектів RL і Web3

Підсумки і перспективи: шлях і можливості RL × Web3

Аналізуючи найрепрезентативніші проекти, видно, що, незважаючи на різноманіття підходів (алгоритми, інженерія, ринок), базова архітектура RL і Web3 сходиться до високої узгодженості у «декуплінгу — верифікації — стимулюванні». Це не лише технічна випадковість, а закономірність адаптації децентралізованих мереж до унікальних властивостей RL.

Загальні характеристики архітектури RL: вирішення фізичних обмежень і довіри

Відокремлення rollout і тренування )Decoupling of Rollouts & Learning): за замовчуванням, rollout — у глобальній мережі GPU, оновлення — у кількох вузлах.
Верифікація і довіра (Verification-Driven Trust): у відкритих мережах — через математичні механізми, наприклад, PoL, Prime Intellect, Grail.
Токенізація і стимулювання (Tokenized Incentive Loop): формують ринок стимулів, що підтримує стабільність і розвиток.

Різні «прориви» у рамках однієї архітектури

· Алгоритмічні: Nous Research — зменшення обсягу комунікацій, «зниження вимог до фізичних обмежень» (DisTrO).

· Інженерні: Prime Intellect, Gensyn, Gradient — створення «інфраструктури для роботи AI», оптимізація розподілених систем.

· Ринкові: Bittensor, Fraction AI — стимулювання через винагороди, дизайн систем оцінки.

Переваги і виклики

У системі RL × Web3 переважають переваги у структурі витрат і управлінні:

· Зміна витрат: пост-навчання потребує безлічі зразків, Web3 — дешевий збір глобальної обчислювальної потужності.

· Суверенітет і узгодженість: можливість демократично керувати моделями через токени, зменшення монополії великих корпорацій.

Обмеження і виклики:

· Ширина каналу: фізичні затримки обмежують тренування великих моделей (70B+), Web3 — поки що здебільшого для тонкої настройки і inference.

· Reward hacking: у високостимульованих мережах — ризик зловживань винагородами, потрібно розробляти стійкі механізми.

· Атаки з боку зловмисних вузлів: активне маніпулювання сигналами, що може зашкодити збалансованості.

Загалом, RL і Web3 — це перезапис механізмів «виробництва, вирівнювання і розподілу цінності» інтелекту. Їхній шлях — у трьох напрямках:

Децентралізовані мережі тренувань: від майнерів до стратегічних мереж, з масштабованим і верифікованим rollout.
Активи переваг і винагород: від розмітки до даних, перетворення їх у управлінські активи.
Спеціалізовані «маленькі і міцні» RL-агенти у вертикальних сферах (DeFi, кодогенерація), що безпосередньо прив’язані до цінності.

Загалом, справжній потенціал RL × Web3 — у перезаписі «виробничих відносин» інтелекту: тренування — у відкритих ринках, винагороди — у управлінських активах, цінність — у розподілі між учасниками, а не централізовано.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.