Запуск ChatGPT у листопаді 2022 року відкрив очі різних гравців галузі на велику мовну модель штучного інтелекту. Ця божевільна динаміка проникла в простір Крипто, і ця стаття має на меті відзначити розвиток штучного інтелекту, його поточний статус та галузь, що виникла в результаті поєднання ШІ+Крипто.
Машинне навчання (ML) - це технологія з емпіричними навчальними можливостями, яка вчиться розрізняти тварин, мовний переклад та інші конкретні завдання, вивчаючи великі набори даних. Машинне навчання належить до найпрактичніших способів реалізації штучного інтелекту на сьогоднішній день, згідно з тим, чи дані учаться позначені, і їх можна розділити на наглядне навчання та ненаглядне навчання.
Існує багато типів моделей, які можуть здійснювати навчання з учителем, включаючи моделі на основі дерев, графічні моделі та нещодавно з'явилися нейронні мережі. Зі швидким розвитком потужності обчислень та даних глибоке навчання було подальше розвинуто на основі архітектури нейронних мереж. Поточні архітектури глибокого навчання включають, але не обмежуються, CNN, RNN та механізми уваги.
Класифікація машинного навчання, джерело: HashKey Capital
Різні мережі глибокого навчання мають основну архітектуру входового шару, прихованого шару та вихідного шару, вхідний шар зазвичай є текстом, відео, аудіо та іншими даними після обробки «токенізації/вбудовування». Прихований шар має різне проектування (форма моделі) в залежності від набору даних та мети завдання, як показано в таблиці.
Типи нейронних мереж, Джерело: Організовано HashKey Capital
30 років розвитку нейронних мереж, джерело: організовано HashKey Capital
Навчання нейронних мереж вперше виникло в середині 1980-х років, коли Джордан навчав нейронну мережу вивчати послідовні закономірності в своїй статті 1986 рокуСерійне замовлення: Паралельний розподілений обробка підходу. Мережа мала лише кілька нейронів.
У 1990-х роках Джеффрі Ерман розширив нейронну мережу до 50-нейронної мережі з відкриттям того, що мережа просторово кластеризує слова за значенням. Наприклад, вона розділила неодушевлені та одушевлені іменники, а в межах цих двох категорій одушевлені об'єкти були розділені на людські та не людські категорії, а неодушевлені були категоризовані як руйнівні та їстівні. Це свідчить про те, що мережа має здатність вивчати ієрархічні пояснення.
Він подальше зауважив, що слова можуть бути представлені як точки в високовимірному просторі, а потім послідовність слів або речень може бути розглянута як шлях. Цей великий прорив дозволяє даним у текстовому форматі бути цифровими, векторизованими та обробленими комп'ютерами.
Джерело: http://3b1b.co/neural-networks
У 2011 році дослідники Confluence навчали більші мережі, включаючи тисячі нейронів і мільйони зв'язків, і в ході дослідження було виявлено затор в здатності мережі зберігати послідовний контекст протягом довгих послідовностей.
У 2017 році OpenAI побудував на роботі Кеті, тренувавшись на 82 мільйонах відгуків Amazon, в яких були виявлені емоційні нейрони. Такі нейрони ідеально класифікували емоції тексту.
Джерело: Вивчення генерації відгуків та виявлення настроїв
Щодо обмежень розміру контексту, ця стаття 2017 року "Увага - все, що вам потрібно" пропонує рішення. У статті створюється динамічна мережа шарів, яка адаптує ваги з'єднання на основі контексту мережі. Вона працює, дозволяючи словам у введенні переглядати, порівнювати інші слова та знаходити найбільш відповідні. Чим ближче ці слова за концепцією, тим ближче вони в просторі і можуть мати вищі ваги з'єднання. Однак у статті було зосереджено тільки на проблемі перекладу.
Таким чином дослідники OpenAI спробували більш потужну архітектуру трансформатора й запустили GPT-3 у 2020 році, що привернуло широку увагу промисловості по всьому світу, на цей раз мережа мала 175 млрд параметрів, 96 шарів і вікно контексту з 1 000 слів.
Візьміть наступне цифрове зображення розміром 28x28 пікселів як приклад, нейрони відповідають кожному пікселю вхідного зображення 28x28, загалом 784 нейрони, числа в нейронах - це значення активації, які коливаються від 0 до 1.
28x28 піксельне цифрове зображення, Джерело: http://3b1b.co/neural-networks
Ці 784 нейрони формують вхідний шар мережі. Останній шар - це вихідний шар, який містить десять нейронів, що представляють числа від 0 до 9, знову зі значеннями активації від 0 до 1. Середній шар - це прихований шар, де значення активації попереднього шару визначає значення активації наступного шару при роботі нейронної мережі.
Глибина глибокого навчання полягає в тому, що модель вивчає багато "шарів" трансформацій, кожен з власним представленням. Як показано на малюнку нижче, наприклад, у 9 різних шарах можуть розпізнавати різні особливості. Чим ближче вхідний шар до нижчого рівня деталей даних, тим ближче вихідний шар до більш конкретних понять, які можна використовувати для відрізнення.
Джерело: http://3b1b.co/neural-networks
Під час збільшення моделі, в середині прихованих шарів залучаються сотні мільярдів ваг кожен, і саме ці ваги та зміщення дійсно визначають, що насправді робить мережа. Процес машинного навчання полягає у знаходженні правильних параметрів, які представляють собою ваги та зміщення.
Архітектура трансформера, яку використовують у GPT, великій мовній моделі, має проміжний прихований шар, що складається з 96 шарів декодерних модулів, з яких GPT1, GPT2 та GPT3 мають відповідно 12, 48 та 96 шарів. Декодер, з свого боку, містить увагу та компоненти нейромережі зворотнього зв'язку.
Обчислювальний або навчальний процес включає визначення функції витрат (або функції втрат), яка сумує квадрати різниць між обчисленими прогнозами виходу мережі та фактичними значеннями, і коли сума невелика, модель працює в межах прийнятних обмежень.
Навчання починається з випадкового параметризування мережі та завершенням параметрів моделі мережі за допомогою знаходження параметрів, які мінімізують функцію витрат. Шлях до збіжності функції витрат полягає в градієнтному спуску, за допомогою якого вивчається ступінь впливу кожної зміни параметра на витрати/втрати, а потім параметри коригуються відповідно до цього ступеня впливу.
Процес обчислення градієнта параметра вводить зворотнє поширення або backpropagation, яке проходить мережу від вихідного шару до вхідного шару у зворотньому порядку згідно з ланцюговим правилом. Алгоритм також потребує зберігання будь-яких проміжних змінних (часткових похідних), необхідних для обчислення градієнта.
Існують три основні фактори, які впливають на ефективність великих мовних моделей штучного інтелекту під час їхньої навчання, а саме кількість параметрів моделі, розмір набору даних та обсяг обчислень.
Джерело: звіт OpenAI, Закони масштабування для нейронних мовних моделей
Це відповідає розвитку наборів даних та комп'ютерів (обчислювальної потужності) в реальності, але можна побачити також у таблиці нижче, що обчислювальна потужність зростає швидше, ніж доступні дані, тоді як пам'ять розвивається найповільніше.
Розвиток набору даних, пам'яті та обчислювальної потужності, Джерело: https://github.com/d2l-ai
Зіткнувшись з великою моделлю, перенавчання, як правило, відбувається, коли навчальних даних занадто мало, і, в цілому, точність більш складної моделі покращується зі збільшенням обсягу даних. Щодо вимог даних, потрібних для великої моделі, можна вирішити на основі правила 10, яке вказує, що обсяг даних повинен бути в 10 разів більшим за параметр, але деякі алгоритми глибинного навчання застосовують 1:1.
Наглядне навчання передбачає використання маркованих + вибіркових наборів даних для отримання достовірних результатів.
Джерело: Набір даних з категоризації одягу Fashion-MNIST
Незважаючи на швидкий зріст даних протягом останніх десятиліть та наявні відкриті набори даних, включаючи Kaggle, Azure, AWS, базу даних Google тощо, обмежені, рідкісні та дорогі обсяги даних поступово стають питанням для розвитку штучного інтелекту через проблеми конфіденційності, зростання параметрів моделей та репродуктивності даних. Різні рішення щодо даних запропоновані з метою полегшення цієї проблеми.
Техніки аугментації даних можуть бути ефективним рішенням, надаючи недостатні дані моделі без отримання нових вибірок, таких як масштабування, обертання, відображення, обрізання, перекладання, додавання гаусівського шуму, змішування тощо.
Синтетичні дані - ще один варіант. Синтетичні дані - це дані, які можуть бути штучно створені за допомогою комп'ютерної симуляції або алгоритмів з або без попереднього посилання на набір даних. Щодо розробки інструментів для генерації синтетичних даних, Іан Дж. Гудфеллоу винахідник Генеративно-ворожісна мережа (GAN), яка є архітектурою глибокого навчання.
Воно навчає дві нейромережі конкурувати між собою, що може генерувати нові, більш реалістичні дані з вказаного навчального набору даних. Архітектура підтримує генерацію зображень, заповнення відсутньої інформації, генерацію навчальних даних для інших моделей, генерацію 3D-моделей на основі 2D-даних та інше.
В цій галузі все ще рано, більшість існуючих компаній, що працюють з синтетичними даними, були засновані у 2021 або 2022 році, а декілька - у 2023 році.
Стан фінансування компаній з синтетичних даних. Джерело: https://frontline.vc/blog/synthetic-data/
Процес навчання штучного інтелекту включає велику кількість операцій з матрицями, від вбудовування слів, трансформаторної матриці QKV, до операцій softmax та інших операцій через матричні операції, також всі параметри моделі зберігаються в матриці.
приклад векторної бази даних, Джерело : https://x.com/ProfTomYeh/status/1795076707386360227
Великі моделі призводять до великого попиту на комп'ютерне обладнання, яке головним чином класифікується на навчання та інференцію.
Підготовка до навчання та доведення до досконалості можна поділити на підготовку. Як зазначалося раніше, для побудови мережевої моделі спочатку потрібно випадково ініціалізувати параметри, а потім навчати мережу та постійно коригувати параметри до тих пір, поки втрати мережі не досягнуть прийнятного діапазону. Відмінність між підготовкою та доведенням до досконалості полягає в тому, що
передпочаткова підготовка починається з кожним шаром параметрів від випадкової ініціалізації, тоді як деякі шари feine-tuning можуть безпосередньо використовувати параметри попередньо навченої моделі як початкові параметри для цієї задачі (заморожування параметрів попередніх шарів) і діяти на конкретному наборі даних.
Джерело: https://d2l.ai/chapter_computer-vision/fine-tuning.html
Попередня підготовка та налаштування обидва передбачають зміни параметрів моделі, які в кінцевому підсумку призводять до оптимізації моделі або параметрів, тоді як виведення - це розрахунок виведення завантаженням моделі після введення користувача та в кінцевому підсумку отримання зворотного зв'язку та результатів виведення.
Підготовка, налаштування та інференція ранжуються від найбільшого до найменшого за вимогами до комп'ютера. У наступній таблиці порівнюються вимоги до обладнання комп'ютера для навчання та інференції. Вимоги до обладнання комп'ютера для обох значно відрізняються за потужністю обчислень, пам'яттю та комунікація/пропускною здатністю через різницю у процесі обчислення та вимоги до точності, і в той же час існує неможлива трилема в потужності обчислень, пам'яті та комунікації/пропускної здатності.
Статистичні виміри в цій таблиці базуються на одному моделюванні обробки одного токена, одного параметра. \ FLOPs: операції з плаваючою комою на секунду, кількість матричних обчислень. \
*DP, TP, PP: паралельні дані, паралельні тензори, паралельна конвеєрна
Порівняння апаратного забезпечення комп'ютера між тренуванням та інференцією, Джерело: Організовано HashKey Capital
Процес навчання нейронної мережі передбачає чергування прямого та зворотнього поширення, використовуючи градієнт, отриманий зворотнім поширенням, для оновлення параметрів моделі. З іншого боку, для виведення потрібне тільки пряме поширення. Ця різниця стає впливовим фактором, який в першу чергу відрізняє вимоги щодо апаратних ресурсів для навчання та виведення.
З погляду обчислювальної потужності, як показано в таблиці, існує просте множинне відношення між кількістю параметрів моделі та споживанням обчислювальної потужності, причому для навчання потрібно 6-8 операцій з плаваючою комою, а для інференції - 2. Це зумовлено зворотнім розповсюдженням, яке вимагає удвічі більше обчислювальної потужності, ніж пряме поширення, тому споживання обчислювальної потужності навчання набагато вище, ніж для інференції.
З точки зору пам'яті, зворотне поширення, що використовується для навчання, повторно використовує проміжні значення, що зберігаються в прямому поширенні, щоб уникнути повторних обчислень. Тому в процесі навчання потрібно зберігати проміжні значення до тих пір, поки не буде завершено зворотне поширення. Результуюче споживання пам'яті під час навчання в основному містить параметри моделі, проміжні значення активації, що генеруються під час прямих обчислень, градієнти, згенеровані обчисленнями зворотного поширення, та стани оптимізатора. Етап логічного висновку не потребує зворотного поширення, не потребує стану оптимізатора, градієнта тощо, а споживання його пам'яті значно менше, ніж при навчанні.
У сфері комунікації / пропускної здатності, для покращення продуктивності навчання ШШ широко використовуються три паралельні стратегії: паралельне використання даних, тензорна паралельність та паралельний конвеєр.
Джерело: OpenAI, https://openai.com/index/techniques-for-training-large-neural-networks/
Для цих трьох стратегій передбачається, що частота комунікації TP найбільша, обсяг комунікації найвищий, і пов'язана з кількістю токенів, шириною моделі та кількістю шарів. Обсяг комунікації та частота PP менше, ніж у TP, і пов'язані з кількістю токенів та шириною моделі. Обсяг комунікації та частота DP найменші і незалежні від вхідних токенів.
Головною перешкодою у ресурсах обладнання комп'ютера великих моделей головним чином є обмеження обчислювальної потужності, пропускної здатності / зв'язку та пам'яті, і існує рівновага між ними, що призводить до проблеми Неможливого трилеми. Наприклад, через комунікаційні перешкоди продуктивність кластера не може бути покращена просто шляхом оптимізації потужності одного комп'ютера.
Отже, хоча паралельні архітектури використовуються для прискорення продуктивності кластера, більшість паралельних архітектур фактично жертвують комунікацією або зберіганням для обчислювальної потужності.
Пожертвування комунікацією та зберіганням на користь обчислювальної потужності:
У PP, якщо кожному шару трансформаторів призначено GPU, незважаючи на збільшення обчислювальної потужності в одиницях часу, вимоги до комунікації між шарами також збільшуються, що призводить до збільшення обсягу даних та затримок. Крім того, вимоги до зберігання проміжного стану для прямого поширення зростають надзвичайно швидко.
Жертвуючи комунікацією на користь обчислювальної потужності:
У TP кожен трансформатор розбирається для паралельного обчислення. Оскільки трансформатор складається з двох компонентів (Увага голови та нейромережа зворотнього поширення), завдання може бути розділене в межах шару або для Уваги голови, або для нейромережі зворотнього поширення. Цей підхід TP може полегшити проблему занадто великої ієрархії PP через те, що графічні пристрої не можуть вмістити модель. Однак цей підхід все ще має серйозний накладний комунікації.
У цій статті ми вважаємо, що наразі існують такі основні категорії штучного інтелекту в області крипто:
Джерело: Організовано HashKey Capital
Як зазначено раніше, три найважливіші компоненти в ШІ є дані, моделі та обчислювальна потужність, які служать інфраструктурою для підтримки криптовалютного ШІ.
Їх поєднання фактично утворює обчислювальну мережу, в якій під час обчислювального процесу з'являється велика кількість посередників, щоб бути ефективними, а також більш відповідати криптодусі. Нижче знаходяться Агенти на основі цих підтверджуваних результатів, які можуть подальше виконувати різні ролі для різних аудиторій.
Ще одну блок-схему можна використовувати для вираження основної екології крипто ШІ.
Екологічна схема, джерело: організовано HashKey Capital
Звичайно, в крипто просторі потрібні токеномічні механізми для стимулювання координації участі різних учасників.
Для наборів даних можна вибрати між загальнодоступними джерелами даних або власними конкретними приватними джерелами даних.
Джерело даних:
Платформа синтетичних даних:
Інші:
Платформа послуг з маркування даних, розподіляючи завдання з маркування різним робітникам, ці робітники можуть отримати відповідний токеновий стимул після завершення завдання, такого як Крипто, Public AI та інше. Однак поточна проблема полягає в тому, що робітників, які роблять маркування даних, більше, ніж даних, тоді як у компаній зі штучним інтелектом є стабільні постачальники маркування даних для їхніх потреб у маркованих даних, через липку існування, що зроблює їхню бажаність перейти на децентралізовані платформи слабкою. Ці платформи можуть отримати виділення лише залишкової частини замовлення від постачальників маркування даних.
Загальні обчислювальні мережі, які вказують на мережі, які агрегують ресурси, такі як GPU та ЦП, щоб забезпечити загальні обчислювальні послуги, які означають відсутність розрізнення між навчанням та інференцією.
У криптопросторі Gensyn, в який інвестувала a16z, пропонує децентралізовану мережу обчислень для навчання.
Процес полягає в тому, що після того, як користувач подає завдання на навчання, платформа аналізує його, оцінює необхідну обчислювальну потужність, а також розбиває його на мінімальну кількість робіт з МО, на якому валідатор періодично захоплює аналізоване завдання, щоб генерувати пороги для порівняння доказів навчання вниз по ланцюжку.
Як тільки завдання увійшло до фази навчання, його виконує Розв'язувач, який періодично зберігає ваги моделі та індекси відповідей з навчального набору даних, а також генерує докази навчання, а верифікатор також виконує обчислювальну роботу, перевиконуючи деякі з доказів для проведення обчислень відстаней, щоб перевірити, чи вони відповідають доказам. Розкривачі вирішують спори на основі програми точного викривлення на основі графіка, щоб перевірити, чи була проведена коректна перевірка.
Дотримання налаштувань є простіше і менш витратним у впровадженні, ніж безпосереднє попереднє навчання великої моделі, просто шляхом налаштування попередньо навченої моделі з конкретним набором даних та адаптацією моделі до конкретного завдання зі збереженням початкової моделі.
Hugging Face може бути доступний як постачальник готових мовних моделей для розподіленої платформи. Користувач обирає модель для налаштування згідно з вимогами завдання, а потім використовує GPU та інші ресурси, надані обчислювальною мережею, для налаштування завдання. Це потребує врахування складності завдання для визначення розміру набору даних, складності моделі та подальшого визначення необхідності використання більш високого рівня ресурсів, таких як A100.
Крім Gensyn, платформи, які можуть підтримувати попереднє навчання, більшість обчислювальних платформ також можуть підтримувати тонке налаштування.
Порівняно з тренуванням (попереднім навчанням і налаштуванням), яке вимагає налаштування параметрів моделі, обчислювальний процес виведення включає лише пряме поширення та потребує менше обчислювальної потужності. Більшість децентралізованих обчислювальних мереж наразі фокусуються на послугах виведення.
Коли проводиться виведення, це вже етап використання моделі, тоді можна вводити проміжний рівень вчасно:
Смарт-контракт на ланцюжку для отримання результатів обчислень штучного інтелекту поза ланцюжком:
Ще один рівень конфіденційності може бути доданий до обчислювальної мережі, який включає головним чином конфіденційність даних та конфіденційність моделі, де конфіденційність даних значно важливіша, ніж конфіденційність моделі.
Більшість обчислювальних мереж створюють різні системи валідації, щоб забезпечити точну роботу системи, тоді як ланка - це частина, яка ще не була введена в традиційному полі штучного інтелекту.
Основну роль доказу ZK складається з наступних 2 точок:
Компанія Modulus Labs показала, що можливо створювати докази для моделей з 18 мільйонами параметрів за 60-70 секунд за допомогою системи доказів Plonky від Polygon. Для невеликих моделей можна використовувати ZKML на цьому етапі, але вартість все ще значна:
Джерело: @ModulusLabs/chapter-5-the-cost-of-intelligence-da26dbf93307"">https://medium.com/@ModulusLabs/chapter-5-the-cost-of-intelligence-da26dbf93307
З урахуванням вищезазначених обмежень ZKML OPML є альтернативою. Хоча він слабший за ZKML з точки зору безпеки, його споживання пам'яті та час обчислення доказів значно кращі, ніж у ZKML. Згідно з звітом ORA, показано, що для такої ж моделі 7B-LLaMA (з розміром моделі близько 26 ГБ) opML може бути оброблений за 32 ГБ пам'яті, тоді як споживання пам'яті ланцюгів у zkML може бути порядку терабайтів або навіть петабайтів.
Довірне середовище виконання забезпечує захист на рівні обладнання і може бути альтернативою для ZKML та OPML. TEE-proof генерується в результаті внутрішніх обчислень всередині TEE, і його обчислювальна вартість набагато нижча, ніж у zk-proof. Крім того, розмір доказу TEE зазвичай є постійною константою (довжина підпису), тому має перевагу меншого сліду та нижчої вартості перевірки на ланцюжку.
Крім перевірки, TEE має перевагу у тому, що він ізолює конфіденційні дані, забезпечуючи, що зовнішні процеси або обчислення не можуть отримати доступ до цих даних або їх змінити.
Проекти, які використовують TEE, включають:
Джерело: https://arxiv.org/pdf/2401.17555,Протокол Marlin
Крім того, протокол ORA розробив opp/ai (Optimistic Privacy-Preserving AI on Blockchain) на додаток до власної перевірки ZKML та OPML, і не включений в вищезазначену таблицю порівняння.
Агент має можливість аналізувати вхідну інформацію, оцінювати поточні погодні умови та приймати рішення. Склад агента показаний на наступній фігурі, в якій LLM є основним компонентом, крім того, необхідно подавати відповідний запит до LLM, і через Пам'ять зберігати дані короткостроково та дані довгострокової історії (зовнішні дані).
Оскільки складні завдання не можуть бути виконані одразу, їх потрібно розбивати на менші завдання за допомогою Плану, крім цього Агент також може викликати зовнішні API для отримання додаткової інформації, включаючи поточну інформацію, можливості виконання коду, доступ до власних джерел інформації тощо.
Джерело: Огляд автономних агентів на основі великих мовних моделей
Можливість прийняття рішень Агентів не мала певного прориву до появи Великого Мовного Моделю LLM в останні роки. Звіт склав кількість опублікованих статей про Агентів з 2021 по 2023 рік, як показано на малюнку нижче, насправді лише близько десятка дослідницьких статей у 2021 році, але вже сотні статей, опублікованих на них у 2023 році. У роботі їх класифікували Агентів на 7 категорій.
Джерело: Огляд на автономних агентів на основі великої мовної моделі
У web3 сценарії, в яких існують Агенти, все ще обмежені порівняно з web2, і наразі включають автоматизоване здійснення розрахунків, побудову кодових компонентів (написання смарт-контрактів, написання zk схем), контроль ризиків в реальному часі та виконання стратегій, таких як арбітраж та фермерство доходів.
На основі різних Агентів можна поєднувати / абстрагувати / створювати конкретне застосування, в той же час для користувачів доступні деякі координаційні платформи, щоб вибрати, які Агенти використовувати для створення певного типу застосування. Але більшість з них обмежені розвитком Агентів.
Деякі розробники використовують деякий ШІ, щоб допомогти своїм платформам бути розумнішими, наприклад, у проєктах безпеки машинне навчання використовується для розрізнення вразливостей атак; Протоколи DeFi використовують штучний інтелект для створення інструментів моніторингу в реальному часі; і платформи аналізу даних також використовують штучний інтелект для допомоги в очищенні та аналізі даних.
У цій статті ми б хотіли висвітлити наступні 3 пункти:
У криптовалюті з'являється низка обчислювальних мереж, які неминуче змушують користувачів відчувати, що GPU — це штучний інтелект, але, як було проаналізовано в попередньому розділі, існує неможлива трилема обчислювальних мереж, тобто обчислювальної потужності, пропускної здатності/зв'язку та пам'яті, а також трьох видів паралельних стратегій, які використовуються в навчанні моделей, таких як паралельні дані, тензорні паралелі, і паралельно трубопроводу, все вказує на систему стримувань і противаг, які накладаються на створення структури обчислювальної мережі.
Причина того, що одна й та ж модель і дані не обов'язково дають той самий результат, полягає в використанні плаваючої точкової обчислення. Ця різниця в обчисленні також впливає на побудову обчислювальної мережі.
AI-агенти тільки почали проявляти більшу корисність в останні роки, і ми очікуємо, що на ринку з'явиться більше агентів. Проте те, як агенти працюють у криптовалюті або як знайти відповідні стимули для токенів, залишається викликом.
Цей текст був взятий з [середній],оригінальний заголовок «AI into Crypto», авторське право належить оригінальному автору[HashKey Capital ],якщо у вас є скарги на перепост, будь ласка, зв'яжітьсяGate Learn КомандаКоманда буде найшвидше обробляти відповідно до відповідних процедур.
Відмова від відповідальності: погляди та думки, виражені в цій статті, відображають лише особисті погляди автора і не є жодним інвестиційним порадою.
Статті інших мов перекладає команда Gate Learn, якщо не зазначеноGate.ioу жодному разі не можна копіювати, передавати або копіювати перекладені статті.
Запуск ChatGPT у листопаді 2022 року відкрив очі різних гравців галузі на велику мовну модель штучного інтелекту. Ця божевільна динаміка проникла в простір Крипто, і ця стаття має на меті відзначити розвиток штучного інтелекту, його поточний статус та галузь, що виникла в результаті поєднання ШІ+Крипто.
Машинне навчання (ML) - це технологія з емпіричними навчальними можливостями, яка вчиться розрізняти тварин, мовний переклад та інші конкретні завдання, вивчаючи великі набори даних. Машинне навчання належить до найпрактичніших способів реалізації штучного інтелекту на сьогоднішній день, згідно з тим, чи дані учаться позначені, і їх можна розділити на наглядне навчання та ненаглядне навчання.
Існує багато типів моделей, які можуть здійснювати навчання з учителем, включаючи моделі на основі дерев, графічні моделі та нещодавно з'явилися нейронні мережі. Зі швидким розвитком потужності обчислень та даних глибоке навчання було подальше розвинуто на основі архітектури нейронних мереж. Поточні архітектури глибокого навчання включають, але не обмежуються, CNN, RNN та механізми уваги.
Класифікація машинного навчання, джерело: HashKey Capital
Різні мережі глибокого навчання мають основну архітектуру входового шару, прихованого шару та вихідного шару, вхідний шар зазвичай є текстом, відео, аудіо та іншими даними після обробки «токенізації/вбудовування». Прихований шар має різне проектування (форма моделі) в залежності від набору даних та мети завдання, як показано в таблиці.
Типи нейронних мереж, Джерело: Організовано HashKey Capital
30 років розвитку нейронних мереж, джерело: організовано HashKey Capital
Навчання нейронних мереж вперше виникло в середині 1980-х років, коли Джордан навчав нейронну мережу вивчати послідовні закономірності в своїй статті 1986 рокуСерійне замовлення: Паралельний розподілений обробка підходу. Мережа мала лише кілька нейронів.
У 1990-х роках Джеффрі Ерман розширив нейронну мережу до 50-нейронної мережі з відкриттям того, що мережа просторово кластеризує слова за значенням. Наприклад, вона розділила неодушевлені та одушевлені іменники, а в межах цих двох категорій одушевлені об'єкти були розділені на людські та не людські категорії, а неодушевлені були категоризовані як руйнівні та їстівні. Це свідчить про те, що мережа має здатність вивчати ієрархічні пояснення.
Він подальше зауважив, що слова можуть бути представлені як точки в високовимірному просторі, а потім послідовність слів або речень може бути розглянута як шлях. Цей великий прорив дозволяє даним у текстовому форматі бути цифровими, векторизованими та обробленими комп'ютерами.
Джерело: http://3b1b.co/neural-networks
У 2011 році дослідники Confluence навчали більші мережі, включаючи тисячі нейронів і мільйони зв'язків, і в ході дослідження було виявлено затор в здатності мережі зберігати послідовний контекст протягом довгих послідовностей.
У 2017 році OpenAI побудував на роботі Кеті, тренувавшись на 82 мільйонах відгуків Amazon, в яких були виявлені емоційні нейрони. Такі нейрони ідеально класифікували емоції тексту.
Джерело: Вивчення генерації відгуків та виявлення настроїв
Щодо обмежень розміру контексту, ця стаття 2017 року "Увага - все, що вам потрібно" пропонує рішення. У статті створюється динамічна мережа шарів, яка адаптує ваги з'єднання на основі контексту мережі. Вона працює, дозволяючи словам у введенні переглядати, порівнювати інші слова та знаходити найбільш відповідні. Чим ближче ці слова за концепцією, тим ближче вони в просторі і можуть мати вищі ваги з'єднання. Однак у статті було зосереджено тільки на проблемі перекладу.
Таким чином дослідники OpenAI спробували більш потужну архітектуру трансформатора й запустили GPT-3 у 2020 році, що привернуло широку увагу промисловості по всьому світу, на цей раз мережа мала 175 млрд параметрів, 96 шарів і вікно контексту з 1 000 слів.
Візьміть наступне цифрове зображення розміром 28x28 пікселів як приклад, нейрони відповідають кожному пікселю вхідного зображення 28x28, загалом 784 нейрони, числа в нейронах - це значення активації, які коливаються від 0 до 1.
28x28 піксельне цифрове зображення, Джерело: http://3b1b.co/neural-networks
Ці 784 нейрони формують вхідний шар мережі. Останній шар - це вихідний шар, який містить десять нейронів, що представляють числа від 0 до 9, знову зі значеннями активації від 0 до 1. Середній шар - це прихований шар, де значення активації попереднього шару визначає значення активації наступного шару при роботі нейронної мережі.
Глибина глибокого навчання полягає в тому, що модель вивчає багато "шарів" трансформацій, кожен з власним представленням. Як показано на малюнку нижче, наприклад, у 9 різних шарах можуть розпізнавати різні особливості. Чим ближче вхідний шар до нижчого рівня деталей даних, тим ближче вихідний шар до більш конкретних понять, які можна використовувати для відрізнення.
Джерело: http://3b1b.co/neural-networks
Під час збільшення моделі, в середині прихованих шарів залучаються сотні мільярдів ваг кожен, і саме ці ваги та зміщення дійсно визначають, що насправді робить мережа. Процес машинного навчання полягає у знаходженні правильних параметрів, які представляють собою ваги та зміщення.
Архітектура трансформера, яку використовують у GPT, великій мовній моделі, має проміжний прихований шар, що складається з 96 шарів декодерних модулів, з яких GPT1, GPT2 та GPT3 мають відповідно 12, 48 та 96 шарів. Декодер, з свого боку, містить увагу та компоненти нейромережі зворотнього зв'язку.
Обчислювальний або навчальний процес включає визначення функції витрат (або функції втрат), яка сумує квадрати різниць між обчисленими прогнозами виходу мережі та фактичними значеннями, і коли сума невелика, модель працює в межах прийнятних обмежень.
Навчання починається з випадкового параметризування мережі та завершенням параметрів моделі мережі за допомогою знаходження параметрів, які мінімізують функцію витрат. Шлях до збіжності функції витрат полягає в градієнтному спуску, за допомогою якого вивчається ступінь впливу кожної зміни параметра на витрати/втрати, а потім параметри коригуються відповідно до цього ступеня впливу.
Процес обчислення градієнта параметра вводить зворотнє поширення або backpropagation, яке проходить мережу від вихідного шару до вхідного шару у зворотньому порядку згідно з ланцюговим правилом. Алгоритм також потребує зберігання будь-яких проміжних змінних (часткових похідних), необхідних для обчислення градієнта.
Існують три основні фактори, які впливають на ефективність великих мовних моделей штучного інтелекту під час їхньої навчання, а саме кількість параметрів моделі, розмір набору даних та обсяг обчислень.
Джерело: звіт OpenAI, Закони масштабування для нейронних мовних моделей
Це відповідає розвитку наборів даних та комп'ютерів (обчислювальної потужності) в реальності, але можна побачити також у таблиці нижче, що обчислювальна потужність зростає швидше, ніж доступні дані, тоді як пам'ять розвивається найповільніше.
Розвиток набору даних, пам'яті та обчислювальної потужності, Джерело: https://github.com/d2l-ai
Зіткнувшись з великою моделлю, перенавчання, як правило, відбувається, коли навчальних даних занадто мало, і, в цілому, точність більш складної моделі покращується зі збільшенням обсягу даних. Щодо вимог даних, потрібних для великої моделі, можна вирішити на основі правила 10, яке вказує, що обсяг даних повинен бути в 10 разів більшим за параметр, але деякі алгоритми глибинного навчання застосовують 1:1.
Наглядне навчання передбачає використання маркованих + вибіркових наборів даних для отримання достовірних результатів.
Джерело: Набір даних з категоризації одягу Fashion-MNIST
Незважаючи на швидкий зріст даних протягом останніх десятиліть та наявні відкриті набори даних, включаючи Kaggle, Azure, AWS, базу даних Google тощо, обмежені, рідкісні та дорогі обсяги даних поступово стають питанням для розвитку штучного інтелекту через проблеми конфіденційності, зростання параметрів моделей та репродуктивності даних. Різні рішення щодо даних запропоновані з метою полегшення цієї проблеми.
Техніки аугментації даних можуть бути ефективним рішенням, надаючи недостатні дані моделі без отримання нових вибірок, таких як масштабування, обертання, відображення, обрізання, перекладання, додавання гаусівського шуму, змішування тощо.
Синтетичні дані - ще один варіант. Синтетичні дані - це дані, які можуть бути штучно створені за допомогою комп'ютерної симуляції або алгоритмів з або без попереднього посилання на набір даних. Щодо розробки інструментів для генерації синтетичних даних, Іан Дж. Гудфеллоу винахідник Генеративно-ворожісна мережа (GAN), яка є архітектурою глибокого навчання.
Воно навчає дві нейромережі конкурувати між собою, що може генерувати нові, більш реалістичні дані з вказаного навчального набору даних. Архітектура підтримує генерацію зображень, заповнення відсутньої інформації, генерацію навчальних даних для інших моделей, генерацію 3D-моделей на основі 2D-даних та інше.
В цій галузі все ще рано, більшість існуючих компаній, що працюють з синтетичними даними, були засновані у 2021 або 2022 році, а декілька - у 2023 році.
Стан фінансування компаній з синтетичних даних. Джерело: https://frontline.vc/blog/synthetic-data/
Процес навчання штучного інтелекту включає велику кількість операцій з матрицями, від вбудовування слів, трансформаторної матриці QKV, до операцій softmax та інших операцій через матричні операції, також всі параметри моделі зберігаються в матриці.
приклад векторної бази даних, Джерело : https://x.com/ProfTomYeh/status/1795076707386360227
Великі моделі призводять до великого попиту на комп'ютерне обладнання, яке головним чином класифікується на навчання та інференцію.
Підготовка до навчання та доведення до досконалості можна поділити на підготовку. Як зазначалося раніше, для побудови мережевої моделі спочатку потрібно випадково ініціалізувати параметри, а потім навчати мережу та постійно коригувати параметри до тих пір, поки втрати мережі не досягнуть прийнятного діапазону. Відмінність між підготовкою та доведенням до досконалості полягає в тому, що
передпочаткова підготовка починається з кожним шаром параметрів від випадкової ініціалізації, тоді як деякі шари feine-tuning можуть безпосередньо використовувати параметри попередньо навченої моделі як початкові параметри для цієї задачі (заморожування параметрів попередніх шарів) і діяти на конкретному наборі даних.
Джерело: https://d2l.ai/chapter_computer-vision/fine-tuning.html
Попередня підготовка та налаштування обидва передбачають зміни параметрів моделі, які в кінцевому підсумку призводять до оптимізації моделі або параметрів, тоді як виведення - це розрахунок виведення завантаженням моделі після введення користувача та в кінцевому підсумку отримання зворотного зв'язку та результатів виведення.
Підготовка, налаштування та інференція ранжуються від найбільшого до найменшого за вимогами до комп'ютера. У наступній таблиці порівнюються вимоги до обладнання комп'ютера для навчання та інференції. Вимоги до обладнання комп'ютера для обох значно відрізняються за потужністю обчислень, пам'яттю та комунікація/пропускною здатністю через різницю у процесі обчислення та вимоги до точності, і в той же час існує неможлива трилема в потужності обчислень, пам'яті та комунікації/пропускної здатності.
Статистичні виміри в цій таблиці базуються на одному моделюванні обробки одного токена, одного параметра. \ FLOPs: операції з плаваючою комою на секунду, кількість матричних обчислень. \
*DP, TP, PP: паралельні дані, паралельні тензори, паралельна конвеєрна
Порівняння апаратного забезпечення комп'ютера між тренуванням та інференцією, Джерело: Організовано HashKey Capital
Процес навчання нейронної мережі передбачає чергування прямого та зворотнього поширення, використовуючи градієнт, отриманий зворотнім поширенням, для оновлення параметрів моделі. З іншого боку, для виведення потрібне тільки пряме поширення. Ця різниця стає впливовим фактором, який в першу чергу відрізняє вимоги щодо апаратних ресурсів для навчання та виведення.
З погляду обчислювальної потужності, як показано в таблиці, існує просте множинне відношення між кількістю параметрів моделі та споживанням обчислювальної потужності, причому для навчання потрібно 6-8 операцій з плаваючою комою, а для інференції - 2. Це зумовлено зворотнім розповсюдженням, яке вимагає удвічі більше обчислювальної потужності, ніж пряме поширення, тому споживання обчислювальної потужності навчання набагато вище, ніж для інференції.
З точки зору пам'яті, зворотне поширення, що використовується для навчання, повторно використовує проміжні значення, що зберігаються в прямому поширенні, щоб уникнути повторних обчислень. Тому в процесі навчання потрібно зберігати проміжні значення до тих пір, поки не буде завершено зворотне поширення. Результуюче споживання пам'яті під час навчання в основному містить параметри моделі, проміжні значення активації, що генеруються під час прямих обчислень, градієнти, згенеровані обчисленнями зворотного поширення, та стани оптимізатора. Етап логічного висновку не потребує зворотного поширення, не потребує стану оптимізатора, градієнта тощо, а споживання його пам'яті значно менше, ніж при навчанні.
У сфері комунікації / пропускної здатності, для покращення продуктивності навчання ШШ широко використовуються три паралельні стратегії: паралельне використання даних, тензорна паралельність та паралельний конвеєр.
Джерело: OpenAI, https://openai.com/index/techniques-for-training-large-neural-networks/
Для цих трьох стратегій передбачається, що частота комунікації TP найбільша, обсяг комунікації найвищий, і пов'язана з кількістю токенів, шириною моделі та кількістю шарів. Обсяг комунікації та частота PP менше, ніж у TP, і пов'язані з кількістю токенів та шириною моделі. Обсяг комунікації та частота DP найменші і незалежні від вхідних токенів.
Головною перешкодою у ресурсах обладнання комп'ютера великих моделей головним чином є обмеження обчислювальної потужності, пропускної здатності / зв'язку та пам'яті, і існує рівновага між ними, що призводить до проблеми Неможливого трилеми. Наприклад, через комунікаційні перешкоди продуктивність кластера не може бути покращена просто шляхом оптимізації потужності одного комп'ютера.
Отже, хоча паралельні архітектури використовуються для прискорення продуктивності кластера, більшість паралельних архітектур фактично жертвують комунікацією або зберіганням для обчислювальної потужності.
Пожертвування комунікацією та зберіганням на користь обчислювальної потужності:
У PP, якщо кожному шару трансформаторів призначено GPU, незважаючи на збільшення обчислювальної потужності в одиницях часу, вимоги до комунікації між шарами також збільшуються, що призводить до збільшення обсягу даних та затримок. Крім того, вимоги до зберігання проміжного стану для прямого поширення зростають надзвичайно швидко.
Жертвуючи комунікацією на користь обчислювальної потужності:
У TP кожен трансформатор розбирається для паралельного обчислення. Оскільки трансформатор складається з двох компонентів (Увага голови та нейромережа зворотнього поширення), завдання може бути розділене в межах шару або для Уваги голови, або для нейромережі зворотнього поширення. Цей підхід TP може полегшити проблему занадто великої ієрархії PP через те, що графічні пристрої не можуть вмістити модель. Однак цей підхід все ще має серйозний накладний комунікації.
У цій статті ми вважаємо, що наразі існують такі основні категорії штучного інтелекту в області крипто:
Джерело: Організовано HashKey Capital
Як зазначено раніше, три найважливіші компоненти в ШІ є дані, моделі та обчислювальна потужність, які служать інфраструктурою для підтримки криптовалютного ШІ.
Їх поєднання фактично утворює обчислювальну мережу, в якій під час обчислювального процесу з'являється велика кількість посередників, щоб бути ефективними, а також більш відповідати криптодусі. Нижче знаходяться Агенти на основі цих підтверджуваних результатів, які можуть подальше виконувати різні ролі для різних аудиторій.
Ще одну блок-схему можна використовувати для вираження основної екології крипто ШІ.
Екологічна схема, джерело: організовано HashKey Capital
Звичайно, в крипто просторі потрібні токеномічні механізми для стимулювання координації участі різних учасників.
Для наборів даних можна вибрати між загальнодоступними джерелами даних або власними конкретними приватними джерелами даних.
Джерело даних:
Платформа синтетичних даних:
Інші:
Платформа послуг з маркування даних, розподіляючи завдання з маркування різним робітникам, ці робітники можуть отримати відповідний токеновий стимул після завершення завдання, такого як Крипто, Public AI та інше. Однак поточна проблема полягає в тому, що робітників, які роблять маркування даних, більше, ніж даних, тоді як у компаній зі штучним інтелектом є стабільні постачальники маркування даних для їхніх потреб у маркованих даних, через липку існування, що зроблює їхню бажаність перейти на децентралізовані платформи слабкою. Ці платформи можуть отримати виділення лише залишкової частини замовлення від постачальників маркування даних.
Загальні обчислювальні мережі, які вказують на мережі, які агрегують ресурси, такі як GPU та ЦП, щоб забезпечити загальні обчислювальні послуги, які означають відсутність розрізнення між навчанням та інференцією.
У криптопросторі Gensyn, в який інвестувала a16z, пропонує децентралізовану мережу обчислень для навчання.
Процес полягає в тому, що після того, як користувач подає завдання на навчання, платформа аналізує його, оцінює необхідну обчислювальну потужність, а також розбиває його на мінімальну кількість робіт з МО, на якому валідатор періодично захоплює аналізоване завдання, щоб генерувати пороги для порівняння доказів навчання вниз по ланцюжку.
Як тільки завдання увійшло до фази навчання, його виконує Розв'язувач, який періодично зберігає ваги моделі та індекси відповідей з навчального набору даних, а також генерує докази навчання, а верифікатор також виконує обчислювальну роботу, перевиконуючи деякі з доказів для проведення обчислень відстаней, щоб перевірити, чи вони відповідають доказам. Розкривачі вирішують спори на основі програми точного викривлення на основі графіка, щоб перевірити, чи була проведена коректна перевірка.
Дотримання налаштувань є простіше і менш витратним у впровадженні, ніж безпосереднє попереднє навчання великої моделі, просто шляхом налаштування попередньо навченої моделі з конкретним набором даних та адаптацією моделі до конкретного завдання зі збереженням початкової моделі.
Hugging Face може бути доступний як постачальник готових мовних моделей для розподіленої платформи. Користувач обирає модель для налаштування згідно з вимогами завдання, а потім використовує GPU та інші ресурси, надані обчислювальною мережею, для налаштування завдання. Це потребує врахування складності завдання для визначення розміру набору даних, складності моделі та подальшого визначення необхідності використання більш високого рівня ресурсів, таких як A100.
Крім Gensyn, платформи, які можуть підтримувати попереднє навчання, більшість обчислювальних платформ також можуть підтримувати тонке налаштування.
Порівняно з тренуванням (попереднім навчанням і налаштуванням), яке вимагає налаштування параметрів моделі, обчислювальний процес виведення включає лише пряме поширення та потребує менше обчислювальної потужності. Більшість децентралізованих обчислювальних мереж наразі фокусуються на послугах виведення.
Коли проводиться виведення, це вже етап використання моделі, тоді можна вводити проміжний рівень вчасно:
Смарт-контракт на ланцюжку для отримання результатів обчислень штучного інтелекту поза ланцюжком:
Ще один рівень конфіденційності може бути доданий до обчислювальної мережі, який включає головним чином конфіденційність даних та конфіденційність моделі, де конфіденційність даних значно важливіша, ніж конфіденційність моделі.
Більшість обчислювальних мереж створюють різні системи валідації, щоб забезпечити точну роботу системи, тоді як ланка - це частина, яка ще не була введена в традиційному полі штучного інтелекту.
Основну роль доказу ZK складається з наступних 2 точок:
Компанія Modulus Labs показала, що можливо створювати докази для моделей з 18 мільйонами параметрів за 60-70 секунд за допомогою системи доказів Plonky від Polygon. Для невеликих моделей можна використовувати ZKML на цьому етапі, але вартість все ще значна:
Джерело: @ModulusLabs/chapter-5-the-cost-of-intelligence-da26dbf93307"">https://medium.com/@ModulusLabs/chapter-5-the-cost-of-intelligence-da26dbf93307
З урахуванням вищезазначених обмежень ZKML OPML є альтернативою. Хоча він слабший за ZKML з точки зору безпеки, його споживання пам'яті та час обчислення доказів значно кращі, ніж у ZKML. Згідно з звітом ORA, показано, що для такої ж моделі 7B-LLaMA (з розміром моделі близько 26 ГБ) opML може бути оброблений за 32 ГБ пам'яті, тоді як споживання пам'яті ланцюгів у zkML може бути порядку терабайтів або навіть петабайтів.
Довірне середовище виконання забезпечує захист на рівні обладнання і може бути альтернативою для ZKML та OPML. TEE-proof генерується в результаті внутрішніх обчислень всередині TEE, і його обчислювальна вартість набагато нижча, ніж у zk-proof. Крім того, розмір доказу TEE зазвичай є постійною константою (довжина підпису), тому має перевагу меншого сліду та нижчої вартості перевірки на ланцюжку.
Крім перевірки, TEE має перевагу у тому, що він ізолює конфіденційні дані, забезпечуючи, що зовнішні процеси або обчислення не можуть отримати доступ до цих даних або їх змінити.
Проекти, які використовують TEE, включають:
Джерело: https://arxiv.org/pdf/2401.17555,Протокол Marlin
Крім того, протокол ORA розробив opp/ai (Optimistic Privacy-Preserving AI on Blockchain) на додаток до власної перевірки ZKML та OPML, і не включений в вищезазначену таблицю порівняння.
Агент має можливість аналізувати вхідну інформацію, оцінювати поточні погодні умови та приймати рішення. Склад агента показаний на наступній фігурі, в якій LLM є основним компонентом, крім того, необхідно подавати відповідний запит до LLM, і через Пам'ять зберігати дані короткостроково та дані довгострокової історії (зовнішні дані).
Оскільки складні завдання не можуть бути виконані одразу, їх потрібно розбивати на менші завдання за допомогою Плану, крім цього Агент також може викликати зовнішні API для отримання додаткової інформації, включаючи поточну інформацію, можливості виконання коду, доступ до власних джерел інформації тощо.
Джерело: Огляд автономних агентів на основі великих мовних моделей
Можливість прийняття рішень Агентів не мала певного прориву до появи Великого Мовного Моделю LLM в останні роки. Звіт склав кількість опублікованих статей про Агентів з 2021 по 2023 рік, як показано на малюнку нижче, насправді лише близько десятка дослідницьких статей у 2021 році, але вже сотні статей, опублікованих на них у 2023 році. У роботі їх класифікували Агентів на 7 категорій.
Джерело: Огляд на автономних агентів на основі великої мовної моделі
У web3 сценарії, в яких існують Агенти, все ще обмежені порівняно з web2, і наразі включають автоматизоване здійснення розрахунків, побудову кодових компонентів (написання смарт-контрактів, написання zk схем), контроль ризиків в реальному часі та виконання стратегій, таких як арбітраж та фермерство доходів.
На основі різних Агентів можна поєднувати / абстрагувати / створювати конкретне застосування, в той же час для користувачів доступні деякі координаційні платформи, щоб вибрати, які Агенти використовувати для створення певного типу застосування. Але більшість з них обмежені розвитком Агентів.
Деякі розробники використовують деякий ШІ, щоб допомогти своїм платформам бути розумнішими, наприклад, у проєктах безпеки машинне навчання використовується для розрізнення вразливостей атак; Протоколи DeFi використовують штучний інтелект для створення інструментів моніторингу в реальному часі; і платформи аналізу даних також використовують штучний інтелект для допомоги в очищенні та аналізі даних.
У цій статті ми б хотіли висвітлити наступні 3 пункти:
У криптовалюті з'являється низка обчислювальних мереж, які неминуче змушують користувачів відчувати, що GPU — це штучний інтелект, але, як було проаналізовано в попередньому розділі, існує неможлива трилема обчислювальних мереж, тобто обчислювальної потужності, пропускної здатності/зв'язку та пам'яті, а також трьох видів паралельних стратегій, які використовуються в навчанні моделей, таких як паралельні дані, тензорні паралелі, і паралельно трубопроводу, все вказує на систему стримувань і противаг, які накладаються на створення структури обчислювальної мережі.
Причина того, що одна й та ж модель і дані не обов'язково дають той самий результат, полягає в використанні плаваючої точкової обчислення. Ця різниця в обчисленні також впливає на побудову обчислювальної мережі.
AI-агенти тільки почали проявляти більшу корисність в останні роки, і ми очікуємо, що на ринку з'явиться більше агентів. Проте те, як агенти працюють у криптовалюті або як знайти відповідні стимули для токенів, залишається викликом.
Цей текст був взятий з [середній],оригінальний заголовок «AI into Crypto», авторське право належить оригінальному автору[HashKey Capital ],якщо у вас є скарги на перепост, будь ласка, зв'яжітьсяGate Learn КомандаКоманда буде найшвидше обробляти відповідно до відповідних процедур.
Відмова від відповідальності: погляди та думки, виражені в цій статті, відображають лише особисті погляди автора і не є жодним інвестиційним порадою.
Статті інших мов перекладає команда Gate Learn, якщо не зазначеноGate.ioу жодному разі не можна копіювати, передавати або копіювати перекладені статті.