IOSG: від кремнію до інтелекту, стек технологій навчання та мислення штучного інтелекту

2024-08-06 10:11:20

IOSG：从硅到智能，人工智能训练与推理技术栈

Швидкий розвиток штучного інтелекту ґрунтується на складній інфраструктурі. Технологічний стек штучного інтелекту - це багатошарова архітектура, що складається з апаратного та програмного забезпечення, вона є основою поточної революції в галузі штучного інтелекту. Тут ми докладно проаналізуємо основні рівні технологічного стеку та розкриємо внесок кожного рівня в розробку та впровадження штучного інтелекту. На завершення ми розглянемо важливість володіння цими основними знаннями, особливо при оцінці можливостей в області перетину криптовалюти та штучного інтелекту, наприклад, проектів з децентралізації фізичної інфраструктури, таких як мережа GPU.

IOSG：从硅到智能，人工智能训练与推理技术栈

1. Апаратний рівень: кремнієва база

У найнижчому рівні є апаратне забезпечення, яке надає фізичні обчислювальні можливості штучному інтелекту.

CPU（Центральний процесор）：це основний обчислювальний процесор. Вони володіють великою ефективністю у виконанні послідовних завдань, і важливі для загальних обчислень, включаючи попередню обробку даних, завдання штучного інтелекту малого масштабу та координацію інших компонентів.

GPU (графічний процесор): спочатку розроблений для візуалізації графіки, проте через здатність виконувати велику кількість простих обчислень він став важливою складовою штучного інтелекту. Ця паралельна обчислювальна здатність робить GPU дуже підходящим для навчання моделей глибинного навчання, і без розвитку GPU сучасні моделі GPT не могли б бути зреалізовані.

AI прискорювач: чіп, спеціально призначений для завантаження роботи штучного інтелекту, який оптимізований для типових операцій штучного інтелекту, забезпечує високу продуктивність та високу енергоефективність для навчання та розуміння завдань.

FPGA (програмована матриця логіки): завдяки своїй можливості повторного програмування надає гнучкість. Вони можуть бути оптимізовані для конкретних завдань штучного інтелекту, особливо у сценаріях миттєвого виведення затримки.

IOSG：从硅到智能，人工智能训练与推理技术栈

2. Підставове програмне забезпечення: проміжний шар

Цей рівень в технологічному стеку ШІ надзвичайно важливий, оскільки він створює міст між високорівневими ШІ-фреймворками та нижньорівневим апаратним забезпеченням. Технології, такі як CUDA, ROCm, OneAPI та SNPE, посилюють зв’язок між високорівневими фреймворками та конкретною апаратною архітектурою, що дозволяє досягти оптимізації продуктивності.

Як пропрієтарний програмний рівень NVIDIA, CUDA є основою зростання компанії на ринку апаратного забезпечення штучного інтелекту. Лідерство NVIDIA визначається не лише його апаратними перевагами, але й сильними мережевими ефектами інтеграції програмного забезпечення та екосистеми.

CUDA має такий великий вплив через те, що воно вбудовується в AI технологічний стек та надає цілий набір оптимізаційних бібліотек, які стали фактичним стандартом у цій галузі. Цей програмний екосистема створює потужний мережевий ефект: дослідники та розробники AI, які володіють CUDA, поширюють його використання в академічному та промисловому середовищі під час тренування.

В результаті цього позитивного циклу посилився лідерський статус NVIDIA на ринку, оскільки екосистема інструментів та бібліотек, заснованих на CUDA, стає все більш невід’ємною для фахівців з штучного інтелекту.

Цей симбіоз апаратного та програмного забезпечення не тільки зміцнює позицію NVIDIA на передній лінії обчислень штучного інтелекту, але й надає компанії значні можливості ціноутворення, що є рідкісним на звичайному товарному апаратному ринку.

Панування CUDA та відносна тиша його конкурентів можна пояснити рядом факторів, що створюють значний бар’єр для вступу. Перевага NVIDIA у сфері обчислень з використанням GPU дозволила CUDA створити потужну екосистему, перш ніж конкуренти змогли встати на ноги. Незважаючи на те, що конкуренти, такі як AMD та Intel, мають чудову апаратну базу, їх програмне забезпечення не має необхідних бібліотек та інструментів, і не може безшовно інтегруватися з існуючим стеком технологій, що є причиною великої відстані між NVIDIA/CUDA та іншими конкурентами.

IOSG：从硅到智能，人工智能训练与推理技术栈

3. Компілятор: перекладач

TVM(тензорна віртуальна машина), MLIR(багаторівневе проміжне представлення) та PlaidML надають різні рішення для викликів оптимізації навантаження штучного інтелекту на різних апаратних архітектурах.

TVM виникла з досліджень Університету Вашингтона, оскільки вона швидко отримала популярність в оптимізації моделей навчання Глибина для різних пристроїв (від високопродуктивних GPU до ресурсом обмежених краєвих пристроїв), що є особливо ефективним в сценаріях виведення. Вона повністю абстрагує від різниці між постачальниками та апаратним забезпеченням, що дозволяє безшовно виконувати робочі навантаження виведення на різних пристроях, незалежно від того, чи це пристрої NVIDIA, чи AMD, Intel тощо.

Проте поза раціональним викладом справи стає ще складніше. Проблема заміни обчислювальної техніки для навчання штучного інтелекту залишається невирішеною. Однак є кілька варто згадати ініціатив у цьому напрямі.

MLIR, проект від Google, використовує більш базовий підхід. Шляхом надання єдиної проміжної репрезентації для кількох абстрактних рівнів він спрямований на спрощення всієї інфраструктури компілятора для випадків використання інференції та навчання.

PlaidML, який зараз очолює Intel, став чорним конем в цій грі. Він фокусується на портативності через різні апаратні архітектури (включаючи архітектуру, відмінну від традиційних прискорювачів штучного інтелекту) та показує майбутнє, де AI-навантаження безперервно працюють на різних обчислювальних платформах.

Якщо будь-який з цих компіляторів можна добре інтегрувати в технічний стек без впливу на продуктивність моделі і без потреби будь-яких додаткових змін розробників, це може серйозно загрожувати бульвару CUDA. Однак наразі MLIR та PlaidML ще не настільки досвідчені та не добре інтегруються в стек штучного інтелекту, тому вони не становлять очевидної загрози лідерству CUDA.

IOSG：从硅到智能，人工智能训练与推理技术栈

4. Розподілений обчислювальний процес: координатор

Ray і Horovod представляють два різних підходи до розподіленого обчислення в галузі штучного інтелекту, кожен з яких вирішує ключові вимоги масштабованої обробки великомасштабних додатків штучного інтелекту.

Ray, розроблений RISELab у UC Berkeley, є універсальною розподіленою обчислювальною платформою. Він відрізняється високою гнучкістю, дозволяючи розподіляти різні типи завдань, крім машинного навчання. Модель на основі акторів у Ray значно спрощує процес паралелізації коду Python, що особливо підходить для підсиленого навчання та інших завдань із складними та різноманітними робочими процесами штучного інтелекту.

Horovod, спочатку розроблений Uber, є розподіленою реалізацією Глибина навчання. Він надає просте та ефективне рішення для розширення процесу навчання Глибина на кількох GPU та серверних Нодах. Особливості Horovod полягають у його користувацькій дружелюбності та оптимізації навчання нейромереж за допомогою паралельної обробки даних, що дозволяє йому ідеально поєднуватися з такими популярними фреймворками Глибина навчання, як TensorFlow, PyTorch та інші. Це дозволяє розробникам легко розширювати свій існуючий код навчання без необхідності значних змін.

IOSG：从硅到智能，人工智能训练与推理技术栈

5. Заключення: З точки зору Криптовалюта

Інтеграція зі стеком існуючого і штучного інтелекту є надзвичайно важливою для проекту DePin, який спрямований на побудову розподіленої обчислювальної системи. Ця інтеграція забезпечує сумісність з поточними робочими процесами і інструментами штучного інтелекту, знижуючи поріг використання.

У галузі Криптовалюта, поточна мережа GPU в суті є платформою оренди GPU з Децентралізація, що свідчить про перший крок до більш складної розподіленої інфраструктури AI. Ці платформи більше нагадують ринок в стилі Airbnb, а не працюють як розподілена хмара. Хоча вони корисні для деяких додатків, але ці платформи ще не готові підтримати справжнє розподілене навчання, що є ключовим вимогами для сприяння розвитку великомасштабної розробки AI.

Такі поточні стандарти розподіленого обчислення, як Ray та Horovod, не призначені для глобальних розподілених мереж, і для справжньої децентралізованої мережі Децентралізація нам потрібно розробляти ще один фреймворк на цьому рівні. Деякі сумнівники навіть вважають, що через те, що модель Transformer потребує інтенсивного спілкування та глобальної функції оптимізації під час навчання, вони несумісні з розподіленими методами навчання. З іншого боку, оптимісти намагаються запропонувати нові фреймворки розподіленого обчислення, які можуть гармонійно поєднуватися з глобально розподіленим обладнанням. Yotta - одна з стартапів, яка намагається вирішити цю проблему.

NeuroMesh йде ще далі. Він переробляє процес машинного навчання в особливо інноваційний спосіб. За допомогою використання мережі передбачення кодування (PCN) для пошуку локальної мінімізації похибки збіжності, а не безпосередньо для пошуку оптимального рішення глобальної функції втрат, NeuroMesh вирішує фундаментальну перешкоду розподіленого навчання штучного інтелекту.

Цей метод не тільки забезпечує безпрецедентну паралельність, але також дозволяє навчання моделей на консумерських GPU-пристроях (наприклад, RTX 4090), що раніше було неможливо, тим самим демократизуючи навчання штучного інтелекту. Зокрема, обчислювальна потужність GPU 4090 схожа з H100, але через недостатню пропускну здатність вони не використовуються повністю під час навчання моделей. Зниження важливості пропускної здатності PCN дозволяє використовувати ці більш доступні GPU, що може призвести до значних економічних вигод і покращення ефективності.

GenSyn, ще одна амбіційна стартап-компанія зшифрування штучного інтелекту, має за мету створитипастку компілятор. Компілятор Gensyn дозволяє безшовно використовувати будь-який тип обчислювального обладнання для робочих навантажень зі штучного інтелекту. Наприклад, як TVM для інференції, GenSyn намагається створити подібний інструмент для навчання моделей.

Якщо вдасться, це може значно розширити можливості децентралізованої мережі обчислювання штучного інтелекту, ефективно використовуючи різноманітне обладнання для обробки більш складних і різноманітних завдань із штучного інтелекту. Ця амбітна мрія, хоч і викликає виклики через складність оптимізації різноманітних архітектур обладнання та високий технологічний ризик, може, якщо вони зможуть втілити цю мрію, подолати перешкоди, такі як підтримка продуктивності гетерогенних систем, та послабити привілеї CUDA та NVIDIA.

Щодо мислення: Метод Hyperbolic, який поєднує перевірене мислення з децентралізованою мережею гетерогенних обчислювальних ресурсів, відображає відносно практичну стратегію. Завдяки використанню стандартів компіляторів, таких як TVM, Hyperbolic може використовувати широкий спектр апаратного забезпечення, забезпечуючи при цьому продуктивність та надійність. Він може агрегувати чіпи від кількох постачальників (від NVIDIA до AMD, Intel тощо), включаючи споживчу та високопродуктивну апаратуру.

Розвиток в області шифрування AI свідчить про те, що у майбутньому обчислення AI можуть стати більш розподіленими, ефективними та доступними. Успіх цих проектів залежить не тільки від їх технічної переваги, але також від їх здатності безшовно інтегруватись з існуючими робочими процесами AI та вирішувати реальні проблеми практиків AI та підприємств.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.