Штучний інтелект у криптосистемі

Середній9/19/2024, 2:23:31 AM
Запуск ChatGPT в листопаді 2022 року відкрив очі різних гравців галузі на велику мовну модель штучного інтелекту. Ця божевільна динаміка проникла в криптозаповідник, і ця стаття має на меті представити розвиток штучного інтелекту, його поточний стан та галузь, яка виникла в результаті поєднання штучного інтелекту та криптозаповідника.

Запуск ChatGPT у листопаді 2022 року відкрив очі різних гравців галузі на велику мовну модель штучного інтелекту. Ця божевільна динаміка проникла в простір Крипто, і ця стаття має на меті відзначити розвиток штучного інтелекту, його поточний статус та галузь, що виникла в результаті поєднання ШІ+Крипто.

Розвиток штучного інтелекту та його поточний статус

Типи та архітектури

Машинне навчання (ML) - це технологія з емпіричними навчальними можливостями, яка вчиться розрізняти тварин, мовний переклад та інші конкретні завдання, вивчаючи великі набори даних. Машинне навчання належить до найпрактичніших способів реалізації штучного інтелекту на сьогоднішній день, згідно з тим, чи дані учаться позначені, і їх можна розділити на наглядне навчання та ненаглядне навчання.

Існує багато типів моделей, які можуть здійснювати навчання з учителем, включаючи моделі на основі дерев, графічні моделі та нещодавно з'явилися нейронні мережі. Зі швидким розвитком потужності обчислень та даних глибоке навчання було подальше розвинуто на основі архітектури нейронних мереж. Поточні архітектури глибокого навчання включають, але не обмежуються, CNN, RNN та механізми уваги.

Класифікація машинного навчання, джерело: HashKey Capital

Різні мережі глибокого навчання мають основну архітектуру входового шару, прихованого шару та вихідного шару, вхідний шар зазвичай є текстом, відео, аудіо та іншими даними після обробки «токенізації/вбудовування». Прихований шар має різне проектування (форма моделі) в залежності від набору даних та мети завдання, як показано в таблиці.

Типи нейронних мереж, Джерело: Організовано HashKey Capital

Тридцять років розвитку нейронних мереж

30 років розвитку нейронних мереж, джерело: організовано HashKey Capital

Навчання нейронних мереж вперше виникло в середині 1980-х років, коли Джордан навчав нейронну мережу вивчати послідовні закономірності в своїй статті 1986 рокуСерійне замовлення: Паралельний розподілений обробка підходу. Мережа мала лише кілька нейронів.

У 1990-х роках Джеффрі Ерман розширив нейронну мережу до 50-нейронної мережі з відкриттям того, що мережа просторово кластеризує слова за значенням. Наприклад, вона розділила неодушевлені та одушевлені іменники, а в межах цих двох категорій одушевлені об'єкти були розділені на людські та не людські категорії, а неодушевлені були категоризовані як руйнівні та їстівні. Це свідчить про те, що мережа має здатність вивчати ієрархічні пояснення.

Він подальше зауважив, що слова можуть бути представлені як точки в високовимірному просторі, а потім послідовність слів або речень може бути розглянута як шлях. Цей великий прорив дозволяє даним у текстовому форматі бути цифровими, векторизованими та обробленими комп'ютерами.

Джерело: http://3b1b.co/neural-networks

У 2011 році дослідники Confluence навчали більші мережі, включаючи тисячі нейронів і мільйони зв'язків, і в ході дослідження було виявлено затор в здатності мережі зберігати послідовний контекст протягом довгих послідовностей.

У 2017 році OpenAI побудував на роботі Кеті, тренувавшись на 82 мільйонах відгуків Amazon, в яких були виявлені емоційні нейрони. Такі нейрони ідеально класифікували емоції тексту.

Джерело: Вивчення генерації відгуків та виявлення настроїв

Щодо обмежень розміру контексту, ця стаття 2017 року "Увага - все, що вам потрібно" пропонує рішення. У статті створюється динамічна мережа шарів, яка адаптує ваги з'єднання на основі контексту мережі. Вона працює, дозволяючи словам у введенні переглядати, порівнювати інші слова та знаходити найбільш відповідні. Чим ближче ці слова за концепцією, тим ближче вони в просторі і можуть мати вищі ваги з'єднання. Однак у статті було зосереджено тільки на проблемі перекладу.

Таким чином дослідники OpenAI спробували більш потужну архітектуру трансформатора й запустили GPT-3 у 2020 році, що привернуло широку увагу промисловості по всьому світу, на цей раз мережа мала 175 млрд параметрів, 96 шарів і вікно контексту з 1 000 слів.

Що таке нейронна мережа?

Візьміть наступне цифрове зображення розміром 28x28 пікселів як приклад, нейрони відповідають кожному пікселю вхідного зображення 28x28, загалом 784 нейрони, числа в нейронах - це значення активації, які коливаються від 0 до 1.

28x28 піксельне цифрове зображення, Джерело: http://3b1b.co/neural-networks

Ці 784 нейрони формують вхідний шар мережі. Останній шар - це вихідний шар, який містить десять нейронів, що представляють числа від 0 до 9, знову зі значеннями активації від 0 до 1. Середній шар - це прихований шар, де значення активації попереднього шару визначає значення активації наступного шару при роботі нейронної мережі.

Глибина глибокого навчання полягає в тому, що модель вивчає багато "шарів" трансформацій, кожен з власним представленням. Як показано на малюнку нижче, наприклад, у 9 різних шарах можуть розпізнавати різні особливості. Чим ближче вхідний шар до нижчого рівня деталей даних, тим ближче вихідний шар до більш конкретних понять, які можна використовувати для відрізнення.

Джерело: http://3b1b.co/neural-networks

Під час збільшення моделі, в середині прихованих шарів залучаються сотні мільярдів ваг кожен, і саме ці ваги та зміщення дійсно визначають, що насправді робить мережа. Процес машинного навчання полягає у знаходженні правильних параметрів, які представляють собою ваги та зміщення.

Архітектура трансформера, яку використовують у GPT, великій мовній моделі, має проміжний прихований шар, що складається з 96 шарів декодерних модулів, з яких GPT1, GPT2 та GPT3 мають відповідно 12, 48 та 96 шарів. Декодер, з свого боку, містить увагу та компоненти нейромережі зворотнього зв'язку.

Підхід до навчання

Обчислювальний або навчальний процес включає визначення функції витрат (або функції втрат), яка сумує квадрати різниць між обчисленими прогнозами виходу мережі та фактичними значеннями, і коли сума невелика, модель працює в межах прийнятних обмежень.

Навчання починається з випадкового параметризування мережі та завершенням параметрів моделі мережі за допомогою знаходження параметрів, які мінімізують функцію витрат. Шлях до збіжності функції витрат полягає в градієнтному спуску, за допомогою якого вивчається ступінь впливу кожної зміни параметра на витрати/втрати, а потім параметри коригуються відповідно до цього ступеня впливу.

Процес обчислення градієнта параметра вводить зворотнє поширення або backpropagation, яке проходить мережу від вихідного шару до вхідного шару у зворотньому порядку згідно з ланцюговим правилом. Алгоритм також потребує зберігання будь-яких проміжних змінних (часткових похідних), необхідних для обчислення градієнта.

Фактори розвитку

Існують три основні фактори, які впливають на ефективність великих мовних моделей штучного інтелекту під час їхньої навчання, а саме кількість параметрів моделі, розмір набору даних та обсяг обчислень.

Джерело: звіт OpenAI, Закони масштабування для нейронних мовних моделей

Це відповідає розвитку наборів даних та комп'ютерів (обчислювальної потужності) в реальності, але можна побачити також у таблиці нижче, що обчислювальна потужність зростає швидше, ніж доступні дані, тоді як пам'ять розвивається найповільніше.

Розвиток набору даних, пам'яті та обчислювальної потужності, Джерело: https://github.com/d2l-ai

Дані

Вимоги до даних

Зіткнувшись з великою моделлю, перенавчання, як правило, відбувається, коли навчальних даних занадто мало, і, в цілому, точність більш складної моделі покращується зі збільшенням обсягу даних. Щодо вимог даних, потрібних для великої моделі, можна вирішити на основі правила 10, яке вказує, що обсяг даних повинен бути в 10 разів більшим за параметр, але деякі алгоритми глибинного навчання застосовують 1:1.

Позначені дані

Наглядне навчання передбачає використання маркованих + вибіркових наборів даних для отримання достовірних результатів.

Джерело: Набір даних з категоризації одягу Fashion-MNIST

Синтетичні дані

Незважаючи на швидкий зріст даних протягом останніх десятиліть та наявні відкриті набори даних, включаючи Kaggle, Azure, AWS, базу даних Google тощо, обмежені, рідкісні та дорогі обсяги даних поступово стають питанням для розвитку штучного інтелекту через проблеми конфіденційності, зростання параметрів моделей та репродуктивності даних. Різні рішення щодо даних запропоновані з метою полегшення цієї проблеми.

Техніки аугментації даних можуть бути ефективним рішенням, надаючи недостатні дані моделі без отримання нових вибірок, таких як масштабування, обертання, відображення, обрізання, перекладання, додавання гаусівського шуму, змішування тощо.

Синтетичні дані - ще один варіант. Синтетичні дані - це дані, які можуть бути штучно створені за допомогою комп'ютерної симуляції або алгоритмів з або без попереднього посилання на набір даних. Щодо розробки інструментів для генерації синтетичних даних, Іан Дж. Гудфеллоу винахідник Генеративно-ворожісна мережа (GAN), яка є архітектурою глибокого навчання.

Воно навчає дві нейромережі конкурувати між собою, що може генерувати нові, більш реалістичні дані з вказаного навчального набору даних. Архітектура підтримує генерацію зображень, заповнення відсутньої інформації, генерацію навчальних даних для інших моделей, генерацію 3D-моделей на основі 2D-даних та інше.

В цій галузі все ще рано, більшість існуючих компаній, що працюють з синтетичними даними, були засновані у 2021 або 2022 році, а декілька - у 2023 році.

Стан фінансування компаній з синтетичних даних. Джерело: https://frontline.vc/blog/synthetic-data/

Векторна база даних

Процес навчання штучного інтелекту включає велику кількість операцій з матрицями, від вбудовування слів, трансформаторної матриці QKV, до операцій softmax та інших операцій через матричні операції, також всі параметри моделі зберігаються в матриці.

приклад векторної бази даних, Джерело : https://x.com/ProfTomYeh/status/1795076707386360227

Ресурси комп'ютерного обладнання

Великі моделі призводять до великого попиту на комп'ютерне обладнання, яке головним чином класифікується на навчання та інференцію.

Попередня підготовка, налаштування та інференція

Підготовка до навчання та доведення до досконалості можна поділити на підготовку. Як зазначалося раніше, для побудови мережевої моделі спочатку потрібно випадково ініціалізувати параметри, а потім навчати мережу та постійно коригувати параметри до тих пір, поки втрати мережі не досягнуть прийнятного діапазону. Відмінність між підготовкою та доведенням до досконалості полягає в тому, що

передпочаткова підготовка починається з кожним шаром параметрів від випадкової ініціалізації, тоді як деякі шари feine-tuning можуть безпосередньо використовувати параметри попередньо навченої моделі як початкові параметри для цієї задачі (заморожування параметрів попередніх шарів) і діяти на конкретному наборі даних.

Джерело: https://d2l.ai/chapter_computer-vision/fine-tuning.html

Попередня підготовка та налаштування обидва передбачають зміни параметрів моделі, які в кінцевому підсумку призводять до оптимізації моделі або параметрів, тоді як виведення - це розрахунок виведення завантаженням моделі після введення користувача та в кінцевому підсумку отримання зворотного зв'язку та результатів виведення.

Підготовка, налаштування та інференція ранжуються від найбільшого до найменшого за вимогами до комп'ютера. У наступній таблиці порівнюються вимоги до обладнання комп'ютера для навчання та інференції. Вимоги до обладнання комп'ютера для обох значно відрізняються за потужністю обчислень, пам'яттю та комунікація/пропускною здатністю через різницю у процесі обчислення та вимоги до точності, і в той же час існує неможлива трилема в потужності обчислень, пам'яті та комунікації/пропускної здатності.

Статистичні виміри в цій таблиці базуються на одному моделюванні обробки одного токена, одного параметра. \ FLOPs: операції з плаваючою комою на секунду, кількість матричних обчислень. \
*DP, TP, PP: паралельні дані, паралельні тензори, паралельна конвеєрна

Порівняння апаратного забезпечення комп'ютера між тренуванням та інференцією, Джерело: Організовано HashKey Capital

Процес навчання нейронної мережі передбачає чергування прямого та зворотнього поширення, використовуючи градієнт, отриманий зворотнім поширенням, для оновлення параметрів моделі. З іншого боку, для виведення потрібне тільки пряме поширення. Ця різниця стає впливовим фактором, який в першу чергу відрізняє вимоги щодо апаратних ресурсів для навчання та виведення.

З погляду обчислювальної потужності, як показано в таблиці, існує просте множинне відношення між кількістю параметрів моделі та споживанням обчислювальної потужності, причому для навчання потрібно 6-8 операцій з плаваючою комою, а для інференції - 2. Це зумовлено зворотнім розповсюдженням, яке вимагає удвічі більше обчислювальної потужності, ніж пряме поширення, тому споживання обчислювальної потужності навчання набагато вище, ніж для інференції.

З точки зору пам'яті, зворотне поширення, що використовується для навчання, повторно використовує проміжні значення, що зберігаються в прямому поширенні, щоб уникнути повторних обчислень. Тому в процесі навчання потрібно зберігати проміжні значення до тих пір, поки не буде завершено зворотне поширення. Результуюче споживання пам'яті під час навчання в основному містить параметри моделі, проміжні значення активації, що генеруються під час прямих обчислень, градієнти, згенеровані обчисленнями зворотного поширення, та стани оптимізатора. Етап логічного висновку не потребує зворотного поширення, не потребує стану оптимізатора, градієнта тощо, а споживання його пам'яті значно менше, ніж при навчанні.

У сфері комунікації / пропускної здатності, для покращення продуктивності навчання ШШ широко використовуються три паралельні стратегії: паралельне використання даних, тензорна паралельність та паралельний конвеєр.

  • Data parallel відноситься до реплікації кількох копій моделей, які працюють на різних пристроях, кожна копія моделі діє на різних наборах даних, і синхронізує градієнтні дані під час циклу тренування.
  • Паралельна обробка, з іншого боку, розбиває проміжні приховані шари, і кожен обчислювальний вузол відповідає за кілька таких трансформаторних шарів. Цей підхід також відомий як міжшарова паралельність.
  • Tensor паралелизм, з іншого боку, розбиває кожний з цих модулів трансформатора і також відомий як внутрішній паралелизм шару.

Джерело: OpenAI, https://openai.com/index/techniques-for-training-large-neural-networks/

Для цих трьох стратегій передбачається, що частота комунікації TP найбільша, обсяг комунікації найвищий, і пов'язана з кількістю токенів, шириною моделі та кількістю шарів. Обсяг комунікації та частота PP менше, ніж у TP, і пов'язані з кількістю токенів та шириною моделі. Обсяг комунікації та частота DP найменші і незалежні від вхідних токенів.

Неможлива трилема

Головною перешкодою у ресурсах обладнання комп'ютера великих моделей головним чином є обмеження обчислювальної потужності, пропускної здатності / зв'язку та пам'яті, і існує рівновага між ними, що призводить до проблеми Неможливого трилеми. Наприклад, через комунікаційні перешкоди продуктивність кластера не може бути покращена просто шляхом оптимізації потужності одного комп'ютера.

Отже, хоча паралельні архітектури використовуються для прискорення продуктивності кластера, більшість паралельних архітектур фактично жертвують комунікацією або зберіганням для обчислювальної потужності.

Пожертвування комунікацією та зберіганням на користь обчислювальної потужності:

У PP, якщо кожному шару трансформаторів призначено GPU, незважаючи на збільшення обчислювальної потужності в одиницях часу, вимоги до комунікації між шарами також збільшуються, що призводить до збільшення обсягу даних та затримок. Крім того, вимоги до зберігання проміжного стану для прямого поширення зростають надзвичайно швидко.

Жертвуючи комунікацією на користь обчислювальної потужності:

У TP кожен трансформатор розбирається для паралельного обчислення. Оскільки трансформатор складається з двох компонентів (Увага голови та нейромережа зворотнього поширення), завдання може бути розділене в межах шару або для Уваги голови, або для нейромережі зворотнього поширення. Цей підхід TP може полегшити проблему занадто великої ієрархії PP через те, що графічні пристрої не можуть вмістити модель. Однак цей підхід все ще має серйозний накладний комунікації.

Крипто+ШІ

У цій статті ми вважаємо, що наразі існують такі основні категорії штучного інтелекту в області крипто:

Джерело: Організовано HashKey Capital

Як зазначено раніше, три найважливіші компоненти в ШІ є дані, моделі та обчислювальна потужність, які служать інфраструктурою для підтримки криптовалютного ШІ.

Їх поєднання фактично утворює обчислювальну мережу, в якій під час обчислювального процесу з'являється велика кількість посередників, щоб бути ефективними, а також більш відповідати криптодусі. Нижче знаходяться Агенти на основі цих підтверджуваних результатів, які можуть подальше виконувати різні ролі для різних аудиторій.

Ще одну блок-схему можна використовувати для вираження основної екології крипто ШІ.

Екологічна схема, джерело: організовано HashKey Capital

Звичайно, в крипто просторі потрібні токеномічні механізми для стимулювання координації участі різних учасників.

Дані

Для наборів даних можна вибрати між загальнодоступними джерелами даних або власними конкретними приватними джерелами даних.

Джерело даних:

  • Grass - це проект, який обходить джерела даних на основі Solana, фоном є те, що багато компаній блокують IP-кравлі з дата-центрів, але не блокують житлових користувачів, Grass виступає як децентралізований постачальник послуг, який стимулює житлових користувачів сприяти своїй ширині смуги за допомогою токенів.
  • Vana, як DATA DAO, також надає власне рішення, де творець створює різні data dao для різних джерел даних на ланцюгу та налаштовує різні інцентивні програми для користувачів щодо завантаження своїх даних. До цього часу було створено data dao для reddit (rDAO), де більше 154 000 користувачів надають свої особисті дані rDAO для навчання штучного інтелекту.
  • Відповідні дані збираються у формі DePINs, які дозволяють користувачам підключати свої автомобілі до платформи DIMO за допомогою апаратного пристрою, наприклад. Основна інформація про той автомобіль та більш розширені дані про шляхування будуть безпечно передані до мережі DIMO, збережені на ланцюжку та пов'язані з відповідним ідентифікатором автомобіля (NFT). Іншим прикладом є Hivemapper, який збирає дані карт, коли користувач керує автомобілем.

Платформа синтетичних даних:

  • Dria - це платформа для генерації синтетичних даних (OPStack L2), яка стимулює користувачів генерувати / торгувати синтетичними даними у децентралізований спосіб. Її зберігання даних зберігається в Arweave через HollowDB. Коли користувачі ініціюють запит на генерацію синтетичних даних, Dria прийме запит і розподілить завдання на обчислювальні вузли в мережі синтетичних даних для виконання, і після підтвердження мережі кінцеві синтетичні дані можуть бути торговані на ринку знань.

Інші:

Платформа послуг з маркування даних, розподіляючи завдання з маркування різним робітникам, ці робітники можуть отримати відповідний токеновий стимул після завершення завдання, такого як Крипто, Public AI та інше. Однак поточна проблема полягає в тому, що робітників, які роблять маркування даних, більше, ніж даних, тоді як у компаній зі штучним інтелектом є стабільні постачальники маркування даних для їхніх потреб у маркованих даних, через липку існування, що зроблює їхню бажаність перейти на децентралізовані платформи слабкою. Ці платформи можуть отримати виділення лише залишкової частини замовлення від постачальників маркування даних.

Обчислювальні мережі

Узагальнені обчислювальні мережі

Загальні обчислювальні мережі, які вказують на мережі, які агрегують ресурси, такі як GPU та ЦП, щоб забезпечити загальні обчислювальні послуги, які означають відсутність розрізнення між навчанням та інференцією.

  • Akash, проект 2020 року, служить ринком для відповідності обчислювальної ​​попиту та пропозиції, дозволяючи постачальникам обчислень заявляти замовлення, при цьому фінальні відповідності завантажуються в ланцюжок блоків як транзакції. Окремий перевіряючий відповідає за упаковку блоків та виконання перевірки. Цей процес не включає в себе спосіб призначення завдань штучного інтелекту, а також не перевіряє обчислювальний процес та результати, не розрізняючи між тренуванням та інференцією.
  • io.net, яка до червня 2022 року розробляла інституційні квантові торговельні системи в основному для американського фондового ринку та ринків криптовалют, виявила Ray.io, бібліотеку з відкритим вихідним кодом на Python для побудови високопродуктивних розподілених систем. io.net використовує Ray та спеціалізовані бібліотеки для потокової передачі даних, навчання, налаштування та поєднує з Mesh VPN (які спрощують процес розробки та впровадження широкомасштабних моделей штучного інтелекту по всій мережі GPU) для надання обчислювальних послуг.
  • Bittensor, as an open platform, allows users to create subnets on its platform, each with its own unique incentives to motivate other users to participate as subnet miners, subnet validators, subnet miners to run specific tasks, and validators to verify these miners’ tasks.
  • Aethir - інфраструктура хмарних обчислень, що надає високоякісні послуги для штучного інтелекту та хмарного геймінгу. Aethir фокусується на агрегації високоякісних ресурсів графічних процесорів, таких як чіп NVIDIA H100, з центрів обробки даних, технологічних компаній, телекомунікаційних операторів, провідних студій в галузі геймінгу та компаній з криптовалютною видобутку. Мережа складається з трьох основних акторів: Контейнер, Перевірник та Індексатор. Контейнери, включаючи Aethir Edge, - це місця, де власне використовуються обчислювальні ресурси. Перевірник забезпечує цілісність та продуктивність контейнера. За необхідності Індексатор відповідає кінцевих користувачів відповідними контейнерами на основі вимог кінцевого користувача.

Мережі, специфічні для обчислень

Попереднє навчання

У криптопросторі Gensyn, в який інвестувала a16z, пропонує децентралізовану мережу обчислень для навчання.

Процес полягає в тому, що після того, як користувач подає завдання на навчання, платформа аналізує його, оцінює необхідну обчислювальну потужність, а також розбиває його на мінімальну кількість робіт з МО, на якому валідатор періодично захоплює аналізоване завдання, щоб генерувати пороги для порівняння доказів навчання вниз по ланцюжку.

Як тільки завдання увійшло до фази навчання, його виконує Розв'язувач, який періодично зберігає ваги моделі та індекси відповідей з навчального набору даних, а також генерує докази навчання, а верифікатор також виконує обчислювальну роботу, перевиконуючи деякі з доказів для проведення обчислень відстаней, щоб перевірити, чи вони відповідають доказам. Розкривачі вирішують спори на основі програми точного викривлення на основі графіка, щоб перевірити, чи була проведена коректна перевірка.

Доналаштування

Дотримання налаштувань є простіше і менш витратним у впровадженні, ніж безпосереднє попереднє навчання великої моделі, просто шляхом налаштування попередньо навченої моделі з конкретним набором даних та адаптацією моделі до конкретного завдання зі збереженням початкової моделі.

Hugging Face може бути доступний як постачальник готових мовних моделей для розподіленої платформи. Користувач обирає модель для налаштування згідно з вимогами завдання, а потім використовує GPU та інші ресурси, надані обчислювальною мережею, для налаштування завдання. Це потребує врахування складності завдання для визначення розміру набору даних, складності моделі та подальшого визначення необхідності використання більш високого рівня ресурсів, таких як A100.

Крім Gensyn, платформи, які можуть підтримувати попереднє навчання, більшість обчислювальних платформ також можуть підтримувати тонке налаштування.

Виведення

Порівняно з тренуванням (попереднім навчанням і налаштуванням), яке вимагає налаштування параметрів моделі, обчислювальний процес виведення включає лише пряме поширення та потребує менше обчислювальної потужності. Більшість децентралізованих обчислювальних мереж наразі фокусуються на послугах виведення.

  • Мережа Nosana - це платформа для запуску робочих навантажень штучного інтелекту, яка надає обчислювальні послуги, спрямовані на процес виведення для моделей LLama 2 та Stable Diffusion.
  • Ritual.AI, перша фаза платформи - Infernet, яка є легким каркасом. З його допомогою розробники смарт-контрактів можуть запитувати послуги виведення з ланцюжка та передавати їх смарт-контрактам на ланцюжку. Друга фаза - це шар виконання, Ritual Chain, який підтримує операції, спрямовані на штучний інтелект.

Додаткові шари / проміжне програмне забезпечення

Коли проводиться виведення, це вже етап використання моделі, тоді можна вводити проміжний рівень вчасно:

  • Відповідність моделі: Під час виконання інференції зазвичай необхідно визначити відповідну модель згідно з вимогами завдання.
  • API: Абстрагування всіх моделей з відкритим вихідним кодом Уніфікований інтерфейс API, наприклад Redpill

Смарт-контракт на ланцюжку для отримання результатів обчислень штучного інтелекту поза ланцюжком:

  • Протокол ORA надає перевірені результати інференції для смарт-контрактів, наприклад, вузол opML збирає запити opML, відправлені з ланцюжка, виконає AI інференцію, а потім завантажить результати на ланцюжок і зачекає на період виклику.

Ще один рівень конфіденційності може бути доданий до обчислювальної мережі, який включає головним чином конфіденційність даних та конфіденційність моделі, де конфіденційність даних значно важливіша, ніж конфіденційність моделі.

  • На даний момент протокол Oasis використовує Intel TDX та NVIDIA TEEs для забезпечення конфіденційності та перевірки для навчання моделей штучного інтелекту.

Верифікація

Більшість обчислювальних мереж створюють різні системи валідації, щоб забезпечити точну роботу системи, тоді як ланка - це частина, яка ще не була введена в традиційному полі штучного інтелекту.

ZKML

Основну роль доказу ZK складається з наступних 2 точок:

  • Використовується для підтвердження точності моделі без розкриття будь-яких параметрів
  • Доведіть, що обчислення було виконано правильно і що модель + вхідні дані відповідають виходам: Modulus лаб, Гіза

Компанія Modulus Labs показала, що можливо створювати докази для моделей з 18 мільйонами параметрів за 60-70 секунд за допомогою системи доказів Plonky від Polygon. Для невеликих моделей можна використовувати ZKML на цьому етапі, але вартість все ще значна:

  • Час доказу ZKML зростає зі збільшенням параметрів.
  • Це дуже дорого в термінах споживання пам'яті довіреного. Наприклад, Worldcoin використовує модель з 1,8 млн параметрів та 50 шарів, щоб відрізняти 10 мільярдів радужок, для яких докази виведення можуть бути згенеровані всього за кілька хвилин, але споживання пам'яті в довіреному вузлі занадто високе для будь-якого мобільного обладнання.

Джерело: @ModulusLabs/chapter-5-the-cost-of-intelligence-da26dbf93307"">https://medium.com/@ModulusLabs/chapter-5-the-cost-of-intelligence-da26dbf93307

OPML

З урахуванням вищезазначених обмежень ZKML OPML є альтернативою. Хоча він слабший за ZKML з точки зору безпеки, його споживання пам'яті та час обчислення доказів значно кращі, ніж у ZKML. Згідно з звітом ORA, показано, що для такої ж моделі 7B-LLaMA (з розміром моделі близько 26 ГБ) opML може бути оброблений за 32 ГБ пам'яті, тоді як споживання пам'яті ланцюгів у zkML може бути порядку терабайтів або навіть петабайтів.

TEEML

Довірне середовище виконання забезпечує захист на рівні обладнання і може бути альтернативою для ZKML та OPML. TEE-proof генерується в результаті внутрішніх обчислень всередині TEE, і його обчислювальна вартість набагато нижча, ніж у zk-proof. Крім того, розмір доказу TEE зазвичай є постійною константою (довжина підпису), тому має перевагу меншого сліду та нижчої вартості перевірки на ланцюжку.

Крім перевірки, TEE має перевагу у тому, що він ізолює конфіденційні дані, забезпечуючи, що зовнішні процеси або обчислення не можуть отримати доступ до цих даних або їх змінити.

Проекти, які використовують TEE, включають:

  • Мережа Aizel (забезпечення висновків)
  • Мережа Phala (зосереджена на створенні штучних інтелектуальних агентів)
  • Протокол Oasia (навчання моделі штучного інтелекту)
  • Протокол Marlin (Oyster може розгортати та перевіряти моделі машинного навчання)

Джерело: https://arxiv.org/pdf/2401.17555,Протокол Marlin

Крім того, протокол ORA розробив opp/ai (Optimistic Privacy-Preserving AI on Blockchain) на додаток до власної перевірки ZKML та OPML, і не включений в вищезазначену таблицю порівняння.

Агентний Шар

Агент має можливість аналізувати вхідну інформацію, оцінювати поточні погодні умови та приймати рішення. Склад агента показаний на наступній фігурі, в якій LLM є основним компонентом, крім того, необхідно подавати відповідний запит до LLM, і через Пам'ять зберігати дані короткостроково та дані довгострокової історії (зовнішні дані).

Оскільки складні завдання не можуть бути виконані одразу, їх потрібно розбивати на менші завдання за допомогою Плану, крім цього Агент також може викликати зовнішні API для отримання додаткової інформації, включаючи поточну інформацію, можливості виконання коду, доступ до власних джерел інформації тощо.

Джерело: Огляд автономних агентів на основі великих мовних моделей

Можливість прийняття рішень Агентів не мала певного прориву до появи Великого Мовного Моделю LLM в останні роки. Звіт склав кількість опублікованих статей про Агентів з 2021 по 2023 рік, як показано на малюнку нижче, насправді лише близько десятка дослідницьких статей у 2021 році, але вже сотні статей, опублікованих на них у 2023 році. У роботі їх класифікували Агентів на 7 категорій.

Джерело: Огляд на автономних агентів на основі великої мовної моделі

У web3 сценарії, в яких існують Агенти, все ще обмежені порівняно з web2, і наразі включають автоматизоване здійснення розрахунків, побудову кодових компонентів (написання смарт-контрактів, написання zk схем), контроль ризиків в реальному часі та виконання стратегій, таких як арбітраж та фермерство доходів.

Створення агента та торгові платформи

  • Theoriq (ChainML) ввела концепцію базового рівня агента, яка дозволяє розробникам анотувати агентів у формі NFT та створювати своїх агентів, а також будувати агентський колектив, комбінуючи агентів для виконання складних вимог. Цей процес оцінює продуктивність та зв'язок різних агентів за допомогою доказу приналежності та доказу співпраці.
  • У Spectral Labs є два основні продукти, Spectral Syntax, платформа, яка дозволяє користувачам створювати агентів на ланцюжку, та Spectral Nova, сервіс інференції, що підтримує запити на інференційні послуги. Створення агента в Spectral Syntax використовує сервіс інференції Spectral Nova, а ця інференція забезпечується ZK-доказом, щоб переконатися, що вона працює. У той же час вони запустять Inferchain для забезпечення комунікації агента до агента.
  • Autonolas підтримує створення послуг, що складаються з кількох Агентів, що дозволяє власнику послуги створювати послугу та реєструвати відповідну послугу в реєстрі послуг, щоб розпочати робочий процес, запитати розробника про надання компонентів Агента та інше. Розробники можуть розробляти Агента, компоненти та інший код, збережений офлайн, марнувати відповідний NFT onchain та посилатися на хеш метаданих IPFS, а потім посилатися на базовий код, подальшим посиланням на хеш IPFS. Послуги зазвичай обслуговуються набором Операторів, кожен з яких працює принаймні з одним екземпляром Агента. Крім того, Autonolas досягає згоди в межах послуги для її агентів за допомогою Гаджету Узгодження, що укладає угоду між агентами в межах послуги.

Платформа моніторингу агента

  • AgentOpsAI є партнером sentient, який надає послуги моніторингу агента (журнал подій, дзвінки, помилки агента тощо), наразі це централізована платформа, без використання токенів.

Робочий процес

На основі різних Агентів можна поєднувати / абстрагувати / створювати конкретне застосування, в той же час для користувачів доступні деякі координаційні платформи, щоб вибрати, які Агенти використовувати для створення певного типу застосування. Але більшість з них обмежені розвитком Агентів.

Додаток

Розробники проекту

Деякі розробники використовують деякий ШІ, щоб допомогти своїм платформам бути розумнішими, наприклад, у проєктах безпеки машинне навчання використовується для розрізнення вразливостей атак; Протоколи DeFi використовують штучний інтелект для створення інструментів моніторингу в реальному часі; і платформи аналізу даних також використовують штучний інтелект для допомоги в очищенні та аналізі даних.

Користувач

Вікно Q&A/аналізу

  • Kaito.ai, користувачі можуть використовувати Q&A, щоб отримати інформацію про громадський настрій проекту, ціну та рухи основної команди.
  • 0xScope, підтримка використання графіків знань для інтеграції даних на ланцюжку, а саме характеристики поведінки користувачів, щоб надавати користувачам послуги з аналізу даних, запустив вікно Scopechat Q&A вчасно для цієї хвилі штучного інтелекту.

AI APP Store

  • Myshell пропонує шар споживачів та створює AI APP Store, який надає різні компоненти штучного інтелекту та три режими створення для полегшення користувачам створення різних додатків з штучним інтелектом. Віджети поділяються на базові та композитні компоненти. Базові компоненти дозволяють користувачам створювати Підказку, Голос, Аватар та інші активи у додатках з штучним інтелектом, тоді як композитні компоненти дозволяють будувати власні компоненти за допомогою поєднання кількох базових моделей/компонентів. Режими створення включають класичний, dev та no-code три режими для розробників та користувачів з різними здібностями та потребами.

Короткий опис

У цій статті ми б хотіли висвітлити наступні 3 пункти:

  • GPUAI

У криптовалюті з'являється низка обчислювальних мереж, які неминуче змушують користувачів відчувати, що GPU — це штучний інтелект, але, як було проаналізовано в попередньому розділі, існує неможлива трилема обчислювальних мереж, тобто обчислювальної потужності, пропускної здатності/зв'язку та пам'яті, а також трьох видів паралельних стратегій, які використовуються в навчанні моделей, таких як паралельні дані, тензорні паралелі, і паралельно трубопроводу, все вказує на систему стримувань і противаг, які накладаються на створення структури обчислювальної мережі.

  • Той же модель & ті ж даніТой самий результат

Причина того, що одна й та ж модель і дані не обов'язково дають той самий результат, полягає в використанні плаваючої точкової обчислення. Ця різниця в обчисленні також впливає на побудову обчислювальної мережі.

  • Додаткові AI агенти

AI-агенти тільки почали проявляти більшу корисність в останні роки, і ми очікуємо, що на ринку з'явиться більше агентів. Проте те, як агенти працюють у криптовалюті або як знайти відповідні стимули для токенів, залишається викликом.

Заява:

  1. Цей текст був взятий з [середній],оригінальний заголовок «AI into Crypto», авторське право належить оригінальному автору[HashKey Capital ],якщо у вас є скарги на перепост, будь ласка, зв'яжітьсяGate Learn КомандаКоманда буде найшвидше обробляти відповідно до відповідних процедур.

  2. Відмова від відповідальності: погляди та думки, виражені в цій статті, відображають лише особисті погляди автора і не є жодним інвестиційним порадою.

  3. Статті інших мов перекладає команда Gate Learn, якщо не зазначеноGate.ioу жодному разі не можна копіювати, передавати або копіювати перекладені статті.

Штучний інтелект у криптосистемі

Середній9/19/2024, 2:23:31 AM
Запуск ChatGPT в листопаді 2022 року відкрив очі різних гравців галузі на велику мовну модель штучного інтелекту. Ця божевільна динаміка проникла в криптозаповідник, і ця стаття має на меті представити розвиток штучного інтелекту, його поточний стан та галузь, яка виникла в результаті поєднання штучного інтелекту та криптозаповідника.

Запуск ChatGPT у листопаді 2022 року відкрив очі різних гравців галузі на велику мовну модель штучного інтелекту. Ця божевільна динаміка проникла в простір Крипто, і ця стаття має на меті відзначити розвиток штучного інтелекту, його поточний статус та галузь, що виникла в результаті поєднання ШІ+Крипто.

Розвиток штучного інтелекту та його поточний статус

Типи та архітектури

Машинне навчання (ML) - це технологія з емпіричними навчальними можливостями, яка вчиться розрізняти тварин, мовний переклад та інші конкретні завдання, вивчаючи великі набори даних. Машинне навчання належить до найпрактичніших способів реалізації штучного інтелекту на сьогоднішній день, згідно з тим, чи дані учаться позначені, і їх можна розділити на наглядне навчання та ненаглядне навчання.

Існує багато типів моделей, які можуть здійснювати навчання з учителем, включаючи моделі на основі дерев, графічні моделі та нещодавно з'явилися нейронні мережі. Зі швидким розвитком потужності обчислень та даних глибоке навчання було подальше розвинуто на основі архітектури нейронних мереж. Поточні архітектури глибокого навчання включають, але не обмежуються, CNN, RNN та механізми уваги.

Класифікація машинного навчання, джерело: HashKey Capital

Різні мережі глибокого навчання мають основну архітектуру входового шару, прихованого шару та вихідного шару, вхідний шар зазвичай є текстом, відео, аудіо та іншими даними після обробки «токенізації/вбудовування». Прихований шар має різне проектування (форма моделі) в залежності від набору даних та мети завдання, як показано в таблиці.

Типи нейронних мереж, Джерело: Організовано HashKey Capital

Тридцять років розвитку нейронних мереж

30 років розвитку нейронних мереж, джерело: організовано HashKey Capital

Навчання нейронних мереж вперше виникло в середині 1980-х років, коли Джордан навчав нейронну мережу вивчати послідовні закономірності в своїй статті 1986 рокуСерійне замовлення: Паралельний розподілений обробка підходу. Мережа мала лише кілька нейронів.

У 1990-х роках Джеффрі Ерман розширив нейронну мережу до 50-нейронної мережі з відкриттям того, що мережа просторово кластеризує слова за значенням. Наприклад, вона розділила неодушевлені та одушевлені іменники, а в межах цих двох категорій одушевлені об'єкти були розділені на людські та не людські категорії, а неодушевлені були категоризовані як руйнівні та їстівні. Це свідчить про те, що мережа має здатність вивчати ієрархічні пояснення.

Він подальше зауважив, що слова можуть бути представлені як точки в високовимірному просторі, а потім послідовність слів або речень може бути розглянута як шлях. Цей великий прорив дозволяє даним у текстовому форматі бути цифровими, векторизованими та обробленими комп'ютерами.

Джерело: http://3b1b.co/neural-networks

У 2011 році дослідники Confluence навчали більші мережі, включаючи тисячі нейронів і мільйони зв'язків, і в ході дослідження було виявлено затор в здатності мережі зберігати послідовний контекст протягом довгих послідовностей.

У 2017 році OpenAI побудував на роботі Кеті, тренувавшись на 82 мільйонах відгуків Amazon, в яких були виявлені емоційні нейрони. Такі нейрони ідеально класифікували емоції тексту.

Джерело: Вивчення генерації відгуків та виявлення настроїв

Щодо обмежень розміру контексту, ця стаття 2017 року "Увага - все, що вам потрібно" пропонує рішення. У статті створюється динамічна мережа шарів, яка адаптує ваги з'єднання на основі контексту мережі. Вона працює, дозволяючи словам у введенні переглядати, порівнювати інші слова та знаходити найбільш відповідні. Чим ближче ці слова за концепцією, тим ближче вони в просторі і можуть мати вищі ваги з'єднання. Однак у статті було зосереджено тільки на проблемі перекладу.

Таким чином дослідники OpenAI спробували більш потужну архітектуру трансформатора й запустили GPT-3 у 2020 році, що привернуло широку увагу промисловості по всьому світу, на цей раз мережа мала 175 млрд параметрів, 96 шарів і вікно контексту з 1 000 слів.

Що таке нейронна мережа?

Візьміть наступне цифрове зображення розміром 28x28 пікселів як приклад, нейрони відповідають кожному пікселю вхідного зображення 28x28, загалом 784 нейрони, числа в нейронах - це значення активації, які коливаються від 0 до 1.

28x28 піксельне цифрове зображення, Джерело: http://3b1b.co/neural-networks

Ці 784 нейрони формують вхідний шар мережі. Останній шар - це вихідний шар, який містить десять нейронів, що представляють числа від 0 до 9, знову зі значеннями активації від 0 до 1. Середній шар - це прихований шар, де значення активації попереднього шару визначає значення активації наступного шару при роботі нейронної мережі.

Глибина глибокого навчання полягає в тому, що модель вивчає багато "шарів" трансформацій, кожен з власним представленням. Як показано на малюнку нижче, наприклад, у 9 різних шарах можуть розпізнавати різні особливості. Чим ближче вхідний шар до нижчого рівня деталей даних, тим ближче вихідний шар до більш конкретних понять, які можна використовувати для відрізнення.

Джерело: http://3b1b.co/neural-networks

Під час збільшення моделі, в середині прихованих шарів залучаються сотні мільярдів ваг кожен, і саме ці ваги та зміщення дійсно визначають, що насправді робить мережа. Процес машинного навчання полягає у знаходженні правильних параметрів, які представляють собою ваги та зміщення.

Архітектура трансформера, яку використовують у GPT, великій мовній моделі, має проміжний прихований шар, що складається з 96 шарів декодерних модулів, з яких GPT1, GPT2 та GPT3 мають відповідно 12, 48 та 96 шарів. Декодер, з свого боку, містить увагу та компоненти нейромережі зворотнього зв'язку.

Підхід до навчання

Обчислювальний або навчальний процес включає визначення функції витрат (або функції втрат), яка сумує квадрати різниць між обчисленими прогнозами виходу мережі та фактичними значеннями, і коли сума невелика, модель працює в межах прийнятних обмежень.

Навчання починається з випадкового параметризування мережі та завершенням параметрів моделі мережі за допомогою знаходження параметрів, які мінімізують функцію витрат. Шлях до збіжності функції витрат полягає в градієнтному спуску, за допомогою якого вивчається ступінь впливу кожної зміни параметра на витрати/втрати, а потім параметри коригуються відповідно до цього ступеня впливу.

Процес обчислення градієнта параметра вводить зворотнє поширення або backpropagation, яке проходить мережу від вихідного шару до вхідного шару у зворотньому порядку згідно з ланцюговим правилом. Алгоритм також потребує зберігання будь-яких проміжних змінних (часткових похідних), необхідних для обчислення градієнта.

Фактори розвитку

Існують три основні фактори, які впливають на ефективність великих мовних моделей штучного інтелекту під час їхньої навчання, а саме кількість параметрів моделі, розмір набору даних та обсяг обчислень.

Джерело: звіт OpenAI, Закони масштабування для нейронних мовних моделей

Це відповідає розвитку наборів даних та комп'ютерів (обчислювальної потужності) в реальності, але можна побачити також у таблиці нижче, що обчислювальна потужність зростає швидше, ніж доступні дані, тоді як пам'ять розвивається найповільніше.

Розвиток набору даних, пам'яті та обчислювальної потужності, Джерело: https://github.com/d2l-ai

Дані

Вимоги до даних

Зіткнувшись з великою моделлю, перенавчання, як правило, відбувається, коли навчальних даних занадто мало, і, в цілому, точність більш складної моделі покращується зі збільшенням обсягу даних. Щодо вимог даних, потрібних для великої моделі, можна вирішити на основі правила 10, яке вказує, що обсяг даних повинен бути в 10 разів більшим за параметр, але деякі алгоритми глибинного навчання застосовують 1:1.

Позначені дані

Наглядне навчання передбачає використання маркованих + вибіркових наборів даних для отримання достовірних результатів.

Джерело: Набір даних з категоризації одягу Fashion-MNIST

Синтетичні дані

Незважаючи на швидкий зріст даних протягом останніх десятиліть та наявні відкриті набори даних, включаючи Kaggle, Azure, AWS, базу даних Google тощо, обмежені, рідкісні та дорогі обсяги даних поступово стають питанням для розвитку штучного інтелекту через проблеми конфіденційності, зростання параметрів моделей та репродуктивності даних. Різні рішення щодо даних запропоновані з метою полегшення цієї проблеми.

Техніки аугментації даних можуть бути ефективним рішенням, надаючи недостатні дані моделі без отримання нових вибірок, таких як масштабування, обертання, відображення, обрізання, перекладання, додавання гаусівського шуму, змішування тощо.

Синтетичні дані - ще один варіант. Синтетичні дані - це дані, які можуть бути штучно створені за допомогою комп'ютерної симуляції або алгоритмів з або без попереднього посилання на набір даних. Щодо розробки інструментів для генерації синтетичних даних, Іан Дж. Гудфеллоу винахідник Генеративно-ворожісна мережа (GAN), яка є архітектурою глибокого навчання.

Воно навчає дві нейромережі конкурувати між собою, що може генерувати нові, більш реалістичні дані з вказаного навчального набору даних. Архітектура підтримує генерацію зображень, заповнення відсутньої інформації, генерацію навчальних даних для інших моделей, генерацію 3D-моделей на основі 2D-даних та інше.

В цій галузі все ще рано, більшість існуючих компаній, що працюють з синтетичними даними, були засновані у 2021 або 2022 році, а декілька - у 2023 році.

Стан фінансування компаній з синтетичних даних. Джерело: https://frontline.vc/blog/synthetic-data/

Векторна база даних

Процес навчання штучного інтелекту включає велику кількість операцій з матрицями, від вбудовування слів, трансформаторної матриці QKV, до операцій softmax та інших операцій через матричні операції, також всі параметри моделі зберігаються в матриці.

приклад векторної бази даних, Джерело : https://x.com/ProfTomYeh/status/1795076707386360227

Ресурси комп'ютерного обладнання

Великі моделі призводять до великого попиту на комп'ютерне обладнання, яке головним чином класифікується на навчання та інференцію.

Попередня підготовка, налаштування та інференція

Підготовка до навчання та доведення до досконалості можна поділити на підготовку. Як зазначалося раніше, для побудови мережевої моделі спочатку потрібно випадково ініціалізувати параметри, а потім навчати мережу та постійно коригувати параметри до тих пір, поки втрати мережі не досягнуть прийнятного діапазону. Відмінність між підготовкою та доведенням до досконалості полягає в тому, що

передпочаткова підготовка починається з кожним шаром параметрів від випадкової ініціалізації, тоді як деякі шари feine-tuning можуть безпосередньо використовувати параметри попередньо навченої моделі як початкові параметри для цієї задачі (заморожування параметрів попередніх шарів) і діяти на конкретному наборі даних.

Джерело: https://d2l.ai/chapter_computer-vision/fine-tuning.html

Попередня підготовка та налаштування обидва передбачають зміни параметрів моделі, які в кінцевому підсумку призводять до оптимізації моделі або параметрів, тоді як виведення - це розрахунок виведення завантаженням моделі після введення користувача та в кінцевому підсумку отримання зворотного зв'язку та результатів виведення.

Підготовка, налаштування та інференція ранжуються від найбільшого до найменшого за вимогами до комп'ютера. У наступній таблиці порівнюються вимоги до обладнання комп'ютера для навчання та інференції. Вимоги до обладнання комп'ютера для обох значно відрізняються за потужністю обчислень, пам'яттю та комунікація/пропускною здатністю через різницю у процесі обчислення та вимоги до точності, і в той же час існує неможлива трилема в потужності обчислень, пам'яті та комунікації/пропускної здатності.

Статистичні виміри в цій таблиці базуються на одному моделюванні обробки одного токена, одного параметра. \ FLOPs: операції з плаваючою комою на секунду, кількість матричних обчислень. \
*DP, TP, PP: паралельні дані, паралельні тензори, паралельна конвеєрна

Порівняння апаратного забезпечення комп'ютера між тренуванням та інференцією, Джерело: Організовано HashKey Capital

Процес навчання нейронної мережі передбачає чергування прямого та зворотнього поширення, використовуючи градієнт, отриманий зворотнім поширенням, для оновлення параметрів моделі. З іншого боку, для виведення потрібне тільки пряме поширення. Ця різниця стає впливовим фактором, який в першу чергу відрізняє вимоги щодо апаратних ресурсів для навчання та виведення.

З погляду обчислювальної потужності, як показано в таблиці, існує просте множинне відношення між кількістю параметрів моделі та споживанням обчислювальної потужності, причому для навчання потрібно 6-8 операцій з плаваючою комою, а для інференції - 2. Це зумовлено зворотнім розповсюдженням, яке вимагає удвічі більше обчислювальної потужності, ніж пряме поширення, тому споживання обчислювальної потужності навчання набагато вище, ніж для інференції.

З точки зору пам'яті, зворотне поширення, що використовується для навчання, повторно використовує проміжні значення, що зберігаються в прямому поширенні, щоб уникнути повторних обчислень. Тому в процесі навчання потрібно зберігати проміжні значення до тих пір, поки не буде завершено зворотне поширення. Результуюче споживання пам'яті під час навчання в основному містить параметри моделі, проміжні значення активації, що генеруються під час прямих обчислень, градієнти, згенеровані обчисленнями зворотного поширення, та стани оптимізатора. Етап логічного висновку не потребує зворотного поширення, не потребує стану оптимізатора, градієнта тощо, а споживання його пам'яті значно менше, ніж при навчанні.

У сфері комунікації / пропускної здатності, для покращення продуктивності навчання ШШ широко використовуються три паралельні стратегії: паралельне використання даних, тензорна паралельність та паралельний конвеєр.

  • Data parallel відноситься до реплікації кількох копій моделей, які працюють на різних пристроях, кожна копія моделі діє на різних наборах даних, і синхронізує градієнтні дані під час циклу тренування.
  • Паралельна обробка, з іншого боку, розбиває проміжні приховані шари, і кожен обчислювальний вузол відповідає за кілька таких трансформаторних шарів. Цей підхід також відомий як міжшарова паралельність.
  • Tensor паралелизм, з іншого боку, розбиває кожний з цих модулів трансформатора і також відомий як внутрішній паралелизм шару.

Джерело: OpenAI, https://openai.com/index/techniques-for-training-large-neural-networks/

Для цих трьох стратегій передбачається, що частота комунікації TP найбільша, обсяг комунікації найвищий, і пов'язана з кількістю токенів, шириною моделі та кількістю шарів. Обсяг комунікації та частота PP менше, ніж у TP, і пов'язані з кількістю токенів та шириною моделі. Обсяг комунікації та частота DP найменші і незалежні від вхідних токенів.

Неможлива трилема

Головною перешкодою у ресурсах обладнання комп'ютера великих моделей головним чином є обмеження обчислювальної потужності, пропускної здатності / зв'язку та пам'яті, і існує рівновага між ними, що призводить до проблеми Неможливого трилеми. Наприклад, через комунікаційні перешкоди продуктивність кластера не може бути покращена просто шляхом оптимізації потужності одного комп'ютера.

Отже, хоча паралельні архітектури використовуються для прискорення продуктивності кластера, більшість паралельних архітектур фактично жертвують комунікацією або зберіганням для обчислювальної потужності.

Пожертвування комунікацією та зберіганням на користь обчислювальної потужності:

У PP, якщо кожному шару трансформаторів призначено GPU, незважаючи на збільшення обчислювальної потужності в одиницях часу, вимоги до комунікації між шарами також збільшуються, що призводить до збільшення обсягу даних та затримок. Крім того, вимоги до зберігання проміжного стану для прямого поширення зростають надзвичайно швидко.

Жертвуючи комунікацією на користь обчислювальної потужності:

У TP кожен трансформатор розбирається для паралельного обчислення. Оскільки трансформатор складається з двох компонентів (Увага голови та нейромережа зворотнього поширення), завдання може бути розділене в межах шару або для Уваги голови, або для нейромережі зворотнього поширення. Цей підхід TP може полегшити проблему занадто великої ієрархії PP через те, що графічні пристрої не можуть вмістити модель. Однак цей підхід все ще має серйозний накладний комунікації.

Крипто+ШІ

У цій статті ми вважаємо, що наразі існують такі основні категорії штучного інтелекту в області крипто:

Джерело: Організовано HashKey Capital

Як зазначено раніше, три найважливіші компоненти в ШІ є дані, моделі та обчислювальна потужність, які служать інфраструктурою для підтримки криптовалютного ШІ.

Їх поєднання фактично утворює обчислювальну мережу, в якій під час обчислювального процесу з'являється велика кількість посередників, щоб бути ефективними, а також більш відповідати криптодусі. Нижче знаходяться Агенти на основі цих підтверджуваних результатів, які можуть подальше виконувати різні ролі для різних аудиторій.

Ще одну блок-схему можна використовувати для вираження основної екології крипто ШІ.

Екологічна схема, джерело: організовано HashKey Capital

Звичайно, в крипто просторі потрібні токеномічні механізми для стимулювання координації участі різних учасників.

Дані

Для наборів даних можна вибрати між загальнодоступними джерелами даних або власними конкретними приватними джерелами даних.

Джерело даних:

  • Grass - це проект, який обходить джерела даних на основі Solana, фоном є те, що багато компаній блокують IP-кравлі з дата-центрів, але не блокують житлових користувачів, Grass виступає як децентралізований постачальник послуг, який стимулює житлових користувачів сприяти своїй ширині смуги за допомогою токенів.
  • Vana, як DATA DAO, також надає власне рішення, де творець створює різні data dao для різних джерел даних на ланцюгу та налаштовує різні інцентивні програми для користувачів щодо завантаження своїх даних. До цього часу було створено data dao для reddit (rDAO), де більше 154 000 користувачів надають свої особисті дані rDAO для навчання штучного інтелекту.
  • Відповідні дані збираються у формі DePINs, які дозволяють користувачам підключати свої автомобілі до платформи DIMO за допомогою апаратного пристрою, наприклад. Основна інформація про той автомобіль та більш розширені дані про шляхування будуть безпечно передані до мережі DIMO, збережені на ланцюжку та пов'язані з відповідним ідентифікатором автомобіля (NFT). Іншим прикладом є Hivemapper, який збирає дані карт, коли користувач керує автомобілем.

Платформа синтетичних даних:

  • Dria - це платформа для генерації синтетичних даних (OPStack L2), яка стимулює користувачів генерувати / торгувати синтетичними даними у децентралізований спосіб. Її зберігання даних зберігається в Arweave через HollowDB. Коли користувачі ініціюють запит на генерацію синтетичних даних, Dria прийме запит і розподілить завдання на обчислювальні вузли в мережі синтетичних даних для виконання, і після підтвердження мережі кінцеві синтетичні дані можуть бути торговані на ринку знань.

Інші:

Платформа послуг з маркування даних, розподіляючи завдання з маркування різним робітникам, ці робітники можуть отримати відповідний токеновий стимул після завершення завдання, такого як Крипто, Public AI та інше. Однак поточна проблема полягає в тому, що робітників, які роблять маркування даних, більше, ніж даних, тоді як у компаній зі штучним інтелектом є стабільні постачальники маркування даних для їхніх потреб у маркованих даних, через липку існування, що зроблює їхню бажаність перейти на децентралізовані платформи слабкою. Ці платформи можуть отримати виділення лише залишкової частини замовлення від постачальників маркування даних.

Обчислювальні мережі

Узагальнені обчислювальні мережі

Загальні обчислювальні мережі, які вказують на мережі, які агрегують ресурси, такі як GPU та ЦП, щоб забезпечити загальні обчислювальні послуги, які означають відсутність розрізнення між навчанням та інференцією.

  • Akash, проект 2020 року, служить ринком для відповідності обчислювальної ​​попиту та пропозиції, дозволяючи постачальникам обчислень заявляти замовлення, при цьому фінальні відповідності завантажуються в ланцюжок блоків як транзакції. Окремий перевіряючий відповідає за упаковку блоків та виконання перевірки. Цей процес не включає в себе спосіб призначення завдань штучного інтелекту, а також не перевіряє обчислювальний процес та результати, не розрізняючи між тренуванням та інференцією.
  • io.net, яка до червня 2022 року розробляла інституційні квантові торговельні системи в основному для американського фондового ринку та ринків криптовалют, виявила Ray.io, бібліотеку з відкритим вихідним кодом на Python для побудови високопродуктивних розподілених систем. io.net використовує Ray та спеціалізовані бібліотеки для потокової передачі даних, навчання, налаштування та поєднує з Mesh VPN (які спрощують процес розробки та впровадження широкомасштабних моделей штучного інтелекту по всій мережі GPU) для надання обчислювальних послуг.
  • Bittensor, as an open platform, allows users to create subnets on its platform, each with its own unique incentives to motivate other users to participate as subnet miners, subnet validators, subnet miners to run specific tasks, and validators to verify these miners’ tasks.
  • Aethir - інфраструктура хмарних обчислень, що надає високоякісні послуги для штучного інтелекту та хмарного геймінгу. Aethir фокусується на агрегації високоякісних ресурсів графічних процесорів, таких як чіп NVIDIA H100, з центрів обробки даних, технологічних компаній, телекомунікаційних операторів, провідних студій в галузі геймінгу та компаній з криптовалютною видобутку. Мережа складається з трьох основних акторів: Контейнер, Перевірник та Індексатор. Контейнери, включаючи Aethir Edge, - це місця, де власне використовуються обчислювальні ресурси. Перевірник забезпечує цілісність та продуктивність контейнера. За необхідності Індексатор відповідає кінцевих користувачів відповідними контейнерами на основі вимог кінцевого користувача.

Мережі, специфічні для обчислень

Попереднє навчання

У криптопросторі Gensyn, в який інвестувала a16z, пропонує децентралізовану мережу обчислень для навчання.

Процес полягає в тому, що після того, як користувач подає завдання на навчання, платформа аналізує його, оцінює необхідну обчислювальну потужність, а також розбиває його на мінімальну кількість робіт з МО, на якому валідатор періодично захоплює аналізоване завдання, щоб генерувати пороги для порівняння доказів навчання вниз по ланцюжку.

Як тільки завдання увійшло до фази навчання, його виконує Розв'язувач, який періодично зберігає ваги моделі та індекси відповідей з навчального набору даних, а також генерує докази навчання, а верифікатор також виконує обчислювальну роботу, перевиконуючи деякі з доказів для проведення обчислень відстаней, щоб перевірити, чи вони відповідають доказам. Розкривачі вирішують спори на основі програми точного викривлення на основі графіка, щоб перевірити, чи була проведена коректна перевірка.

Доналаштування

Дотримання налаштувань є простіше і менш витратним у впровадженні, ніж безпосереднє попереднє навчання великої моделі, просто шляхом налаштування попередньо навченої моделі з конкретним набором даних та адаптацією моделі до конкретного завдання зі збереженням початкової моделі.

Hugging Face може бути доступний як постачальник готових мовних моделей для розподіленої платформи. Користувач обирає модель для налаштування згідно з вимогами завдання, а потім використовує GPU та інші ресурси, надані обчислювальною мережею, для налаштування завдання. Це потребує врахування складності завдання для визначення розміру набору даних, складності моделі та подальшого визначення необхідності використання більш високого рівня ресурсів, таких як A100.

Крім Gensyn, платформи, які можуть підтримувати попереднє навчання, більшість обчислювальних платформ також можуть підтримувати тонке налаштування.

Виведення

Порівняно з тренуванням (попереднім навчанням і налаштуванням), яке вимагає налаштування параметрів моделі, обчислювальний процес виведення включає лише пряме поширення та потребує менше обчислювальної потужності. Більшість децентралізованих обчислювальних мереж наразі фокусуються на послугах виведення.

  • Мережа Nosana - це платформа для запуску робочих навантажень штучного інтелекту, яка надає обчислювальні послуги, спрямовані на процес виведення для моделей LLama 2 та Stable Diffusion.
  • Ritual.AI, перша фаза платформи - Infernet, яка є легким каркасом. З його допомогою розробники смарт-контрактів можуть запитувати послуги виведення з ланцюжка та передавати їх смарт-контрактам на ланцюжку. Друга фаза - це шар виконання, Ritual Chain, який підтримує операції, спрямовані на штучний інтелект.

Додаткові шари / проміжне програмне забезпечення

Коли проводиться виведення, це вже етап використання моделі, тоді можна вводити проміжний рівень вчасно:

  • Відповідність моделі: Під час виконання інференції зазвичай необхідно визначити відповідну модель згідно з вимогами завдання.
  • API: Абстрагування всіх моделей з відкритим вихідним кодом Уніфікований інтерфейс API, наприклад Redpill

Смарт-контракт на ланцюжку для отримання результатів обчислень штучного інтелекту поза ланцюжком:

  • Протокол ORA надає перевірені результати інференції для смарт-контрактів, наприклад, вузол opML збирає запити opML, відправлені з ланцюжка, виконає AI інференцію, а потім завантажить результати на ланцюжок і зачекає на період виклику.

Ще один рівень конфіденційності може бути доданий до обчислювальної мережі, який включає головним чином конфіденційність даних та конфіденційність моделі, де конфіденційність даних значно важливіша, ніж конфіденційність моделі.

  • На даний момент протокол Oasis використовує Intel TDX та NVIDIA TEEs для забезпечення конфіденційності та перевірки для навчання моделей штучного інтелекту.

Верифікація

Більшість обчислювальних мереж створюють різні системи валідації, щоб забезпечити точну роботу системи, тоді як ланка - це частина, яка ще не була введена в традиційному полі штучного інтелекту.

ZKML

Основну роль доказу ZK складається з наступних 2 точок:

  • Використовується для підтвердження точності моделі без розкриття будь-яких параметрів
  • Доведіть, що обчислення було виконано правильно і що модель + вхідні дані відповідають виходам: Modulus лаб, Гіза

Компанія Modulus Labs показала, що можливо створювати докази для моделей з 18 мільйонами параметрів за 60-70 секунд за допомогою системи доказів Plonky від Polygon. Для невеликих моделей можна використовувати ZKML на цьому етапі, але вартість все ще значна:

  • Час доказу ZKML зростає зі збільшенням параметрів.
  • Це дуже дорого в термінах споживання пам'яті довіреного. Наприклад, Worldcoin використовує модель з 1,8 млн параметрів та 50 шарів, щоб відрізняти 10 мільярдів радужок, для яких докази виведення можуть бути згенеровані всього за кілька хвилин, але споживання пам'яті в довіреному вузлі занадто високе для будь-якого мобільного обладнання.

Джерело: @ModulusLabs/chapter-5-the-cost-of-intelligence-da26dbf93307"">https://medium.com/@ModulusLabs/chapter-5-the-cost-of-intelligence-da26dbf93307

OPML

З урахуванням вищезазначених обмежень ZKML OPML є альтернативою. Хоча він слабший за ZKML з точки зору безпеки, його споживання пам'яті та час обчислення доказів значно кращі, ніж у ZKML. Згідно з звітом ORA, показано, що для такої ж моделі 7B-LLaMA (з розміром моделі близько 26 ГБ) opML може бути оброблений за 32 ГБ пам'яті, тоді як споживання пам'яті ланцюгів у zkML може бути порядку терабайтів або навіть петабайтів.

TEEML

Довірне середовище виконання забезпечує захист на рівні обладнання і може бути альтернативою для ZKML та OPML. TEE-proof генерується в результаті внутрішніх обчислень всередині TEE, і його обчислювальна вартість набагато нижча, ніж у zk-proof. Крім того, розмір доказу TEE зазвичай є постійною константою (довжина підпису), тому має перевагу меншого сліду та нижчої вартості перевірки на ланцюжку.

Крім перевірки, TEE має перевагу у тому, що він ізолює конфіденційні дані, забезпечуючи, що зовнішні процеси або обчислення не можуть отримати доступ до цих даних або їх змінити.

Проекти, які використовують TEE, включають:

  • Мережа Aizel (забезпечення висновків)
  • Мережа Phala (зосереджена на створенні штучних інтелектуальних агентів)
  • Протокол Oasia (навчання моделі штучного інтелекту)
  • Протокол Marlin (Oyster може розгортати та перевіряти моделі машинного навчання)

Джерело: https://arxiv.org/pdf/2401.17555,Протокол Marlin

Крім того, протокол ORA розробив opp/ai (Optimistic Privacy-Preserving AI on Blockchain) на додаток до власної перевірки ZKML та OPML, і не включений в вищезазначену таблицю порівняння.

Агентний Шар

Агент має можливість аналізувати вхідну інформацію, оцінювати поточні погодні умови та приймати рішення. Склад агента показаний на наступній фігурі, в якій LLM є основним компонентом, крім того, необхідно подавати відповідний запит до LLM, і через Пам'ять зберігати дані короткостроково та дані довгострокової історії (зовнішні дані).

Оскільки складні завдання не можуть бути виконані одразу, їх потрібно розбивати на менші завдання за допомогою Плану, крім цього Агент також може викликати зовнішні API для отримання додаткової інформації, включаючи поточну інформацію, можливості виконання коду, доступ до власних джерел інформації тощо.

Джерело: Огляд автономних агентів на основі великих мовних моделей

Можливість прийняття рішень Агентів не мала певного прориву до появи Великого Мовного Моделю LLM в останні роки. Звіт склав кількість опублікованих статей про Агентів з 2021 по 2023 рік, як показано на малюнку нижче, насправді лише близько десятка дослідницьких статей у 2021 році, але вже сотні статей, опублікованих на них у 2023 році. У роботі їх класифікували Агентів на 7 категорій.

Джерело: Огляд на автономних агентів на основі великої мовної моделі

У web3 сценарії, в яких існують Агенти, все ще обмежені порівняно з web2, і наразі включають автоматизоване здійснення розрахунків, побудову кодових компонентів (написання смарт-контрактів, написання zk схем), контроль ризиків в реальному часі та виконання стратегій, таких як арбітраж та фермерство доходів.

Створення агента та торгові платформи

  • Theoriq (ChainML) ввела концепцію базового рівня агента, яка дозволяє розробникам анотувати агентів у формі NFT та створювати своїх агентів, а також будувати агентський колектив, комбінуючи агентів для виконання складних вимог. Цей процес оцінює продуктивність та зв'язок різних агентів за допомогою доказу приналежності та доказу співпраці.
  • У Spectral Labs є два основні продукти, Spectral Syntax, платформа, яка дозволяє користувачам створювати агентів на ланцюжку, та Spectral Nova, сервіс інференції, що підтримує запити на інференційні послуги. Створення агента в Spectral Syntax використовує сервіс інференції Spectral Nova, а ця інференція забезпечується ZK-доказом, щоб переконатися, що вона працює. У той же час вони запустять Inferchain для забезпечення комунікації агента до агента.
  • Autonolas підтримує створення послуг, що складаються з кількох Агентів, що дозволяє власнику послуги створювати послугу та реєструвати відповідну послугу в реєстрі послуг, щоб розпочати робочий процес, запитати розробника про надання компонентів Агента та інше. Розробники можуть розробляти Агента, компоненти та інший код, збережений офлайн, марнувати відповідний NFT onchain та посилатися на хеш метаданих IPFS, а потім посилатися на базовий код, подальшим посиланням на хеш IPFS. Послуги зазвичай обслуговуються набором Операторів, кожен з яких працює принаймні з одним екземпляром Агента. Крім того, Autonolas досягає згоди в межах послуги для її агентів за допомогою Гаджету Узгодження, що укладає угоду між агентами в межах послуги.

Платформа моніторингу агента

  • AgentOpsAI є партнером sentient, який надає послуги моніторингу агента (журнал подій, дзвінки, помилки агента тощо), наразі це централізована платформа, без використання токенів.

Робочий процес

На основі різних Агентів можна поєднувати / абстрагувати / створювати конкретне застосування, в той же час для користувачів доступні деякі координаційні платформи, щоб вибрати, які Агенти використовувати для створення певного типу застосування. Але більшість з них обмежені розвитком Агентів.

Додаток

Розробники проекту

Деякі розробники використовують деякий ШІ, щоб допомогти своїм платформам бути розумнішими, наприклад, у проєктах безпеки машинне навчання використовується для розрізнення вразливостей атак; Протоколи DeFi використовують штучний інтелект для створення інструментів моніторингу в реальному часі; і платформи аналізу даних також використовують штучний інтелект для допомоги в очищенні та аналізі даних.

Користувач

Вікно Q&A/аналізу

  • Kaito.ai, користувачі можуть використовувати Q&A, щоб отримати інформацію про громадський настрій проекту, ціну та рухи основної команди.
  • 0xScope, підтримка використання графіків знань для інтеграції даних на ланцюжку, а саме характеристики поведінки користувачів, щоб надавати користувачам послуги з аналізу даних, запустив вікно Scopechat Q&A вчасно для цієї хвилі штучного інтелекту.

AI APP Store

  • Myshell пропонує шар споживачів та створює AI APP Store, який надає різні компоненти штучного інтелекту та три режими створення для полегшення користувачам створення різних додатків з штучним інтелектом. Віджети поділяються на базові та композитні компоненти. Базові компоненти дозволяють користувачам створювати Підказку, Голос, Аватар та інші активи у додатках з штучним інтелектом, тоді як композитні компоненти дозволяють будувати власні компоненти за допомогою поєднання кількох базових моделей/компонентів. Режими створення включають класичний, dev та no-code три режими для розробників та користувачів з різними здібностями та потребами.

Короткий опис

У цій статті ми б хотіли висвітлити наступні 3 пункти:

  • GPUAI

У криптовалюті з'являється низка обчислювальних мереж, які неминуче змушують користувачів відчувати, що GPU — це штучний інтелект, але, як було проаналізовано в попередньому розділі, існує неможлива трилема обчислювальних мереж, тобто обчислювальної потужності, пропускної здатності/зв'язку та пам'яті, а також трьох видів паралельних стратегій, які використовуються в навчанні моделей, таких як паралельні дані, тензорні паралелі, і паралельно трубопроводу, все вказує на систему стримувань і противаг, які накладаються на створення структури обчислювальної мережі.

  • Той же модель & ті ж даніТой самий результат

Причина того, що одна й та ж модель і дані не обов'язково дають той самий результат, полягає в використанні плаваючої точкової обчислення. Ця різниця в обчисленні також впливає на побудову обчислювальної мережі.

  • Додаткові AI агенти

AI-агенти тільки почали проявляти більшу корисність в останні роки, і ми очікуємо, що на ринку з'явиться більше агентів. Проте те, як агенти працюють у криптовалюті або як знайти відповідні стимули для токенів, залишається викликом.

Заява:

  1. Цей текст був взятий з [середній],оригінальний заголовок «AI into Crypto», авторське право належить оригінальному автору[HashKey Capital ],якщо у вас є скарги на перепост, будь ласка, зв'яжітьсяGate Learn КомандаКоманда буде найшвидше обробляти відповідно до відповідних процедур.

  2. Відмова від відповідальності: погляди та думки, виражені в цій статті, відображають лише особисті погляди автора і не є жодним інвестиційним порадою.

  3. Статті інших мов перекладає команда Gate Learn, якщо не зазначеноGate.ioу жодному разі не можна копіювати, передавати або копіювати перекладені статті.

Bắt đầu giao dịch
Đăng ký và giao dịch để nhận phần thưởng USDTEST trị giá
$100
$5500