IOSG Ventures: від кремнію до інтелекту, детальний опис технічного стеку навчання та мислення штучного інтелекту

星球日报

Автор оригіналу: IOSG Ventures

IOSG Ventures:从硅到智能,详解人工智能训练与推理技术栈

Швидкий розвиток штучного інтелекту базується на складній інфраструктурі. Технічний стек AI - це багаторівнева архітектура, що складається з апаратного та програмного забезпечення, і він є опорою сучасної революції AI. Тут ми детально розглянемо головні рівні стеку та пояснимо внесок кожного рівня у розробку та впровадження штучного інтелекту. Нарешті, ми розглянемо важливість володіння цими основними знаннями, особливо при оцінці можливостей перетину Криптовалюта і AI, наприклад, проект DePIN (Децентралізація фізичної інфраструктури), такий як мережа GPU.

1. апаратний рівень: кремнієва база

На найнижчому рівні знаходиться апаратне забезпечення, яке забезпечує фізичні обчислювальні можливості для штучного інтелекту.

  • CPU(Центральний процесор):є основним обчислювальним процесором. Вони відмінно справляються з послідовними завданнями, що є дуже важливим для загального обчислення, включаючи попередню обробку даних, завдання штучного інтелекту малого масштабу та координацію інших компонентів.
  • GPU (графічний процесор): спочатку розроблений для візуалізації графіки, але через його здатність виконувати багато простих обчислень одночасно став важливою складовою штучного інтелекту. Ця паралельна обробка даних робить GPU дуже придатним для навчання моделей глибинного навчання. Без розвитку GPU, сучасні моделі GPT не могли б бути реалізовані.
  • AI прискорювач: чіп, спеціально призначений для робочих навантажень штучного інтелекту, які оптимізовані для типових операцій штучного інтелекту, забезпечують високу продуктивність та ефективність навчання та мислення.
  • FPGA (поле програмованії логіки) - забезпечує гнучкість завдяки своїй можливості повторного програмування. Вони можуть бути оптимізовані для конкретних завдань зі штучного інтелекту, особливо там, де потрібна низька затримка в інференції.

IOSG Ventures:从硅到智能,详解人工智能训练与推理技术栈

2. ПЗ: середовище

Цей рівень у стеку технологій штучного інтелекту є вкрай важливим, оскільки він є мостом між високорівневими AI-фреймворками та нижньорівневим обладнанням. Технології, такі як CUDA, ROCm, OneAPI та SNPE, посилюють зв’язок між високорівневими фреймворками та конкретною апаратною архітектурою, досягаючи оптимізації продуктивності.

Як пропрієтарний програмний рівень NVIDIA, CUDA є основою піднесення компанії на ринку штучного інтелекту. Лідерство NVIDIA ґрунтується не лише на апаратних перевагах, але й на потужному мережевому ефекті інтеграції програмного забезпечення та екосистеми.

CUDA здатний настільки сильно впливати через те, що він Глибина вбудовується в стек технологій штучного інтелекту та надає повний набір оптимізованих бібліотек, які фактично стали стандартом у цій галузі. Ця екосистема програмного забезпечення створює потужний мережевий ефект: фахівці зі штучного інтелекту та розробники, які володіють CUDA, використовують його під час навчання й передають його в академічному та промисловому середовищах.

Вироблений позитивний замкнений цикл підсилює лідерство NVIDIA на ринку, оскільки екосистема інструментів та бібліотек на основі CUDA стає все більше невід’ємною для фахівців зі штучного інтелекту.

Ця симбіоз програмного та апаратного забезпечення не лише зміцнює позиції NVIDIA на передовому фронті обчислень штучного інтелекту, але й надає компанії значні можливості в ціновій політиці, що є рідкісним на загальному ринку апаратного забезпечення.

Лідерство CUDA і його відносна тихість конкурентів можна пояснити рядом факторів, які створюють значні бар’єри для входу. Перевага NVIDIA в області прискореного обчислення на GPU дала змогу CUDA встановити потужну екосистему, перш ніж конкуренти змогли закріпитися на ринку. Незважаючи на відмінне апаратне забезпечення у AMD та Intel, їхні програмні рішення мають дефіцит необхідних бібліотек і інструментів, і не можуть безшовно інтегруватися з існуючим стеком технологій, що і є причиною великої відмінності між NVIDIA/CUDA та іншими конкурентами.

3. Компілятор: перекладач

TVM( 张量Віртуальна машина )、MLIR( 多层中间表示 ) і PlaidML надають різні рішення для викликів оптимізації навантаження штучного інтелекту на різних апаратних платформах.

TVM походить з досліджень Університету Вашингтона, оскільки вона швидко отримала популярність за можливість оптимізувати моделі навчання з глибинним навчанням для різних пристроїв (від високопродуктивних GPU до ресурсомістких межових пристроїв). Її перевага полягає в оптимізації всього процесу від початку до кінця, що особливо ефективно в сценарії виведення. Вона повністю абстрагує відмінності між постачальниками та апаратним забезпеченням, що дозволяє вивідкові завантаження працювати безперешкодно на різних пристроях, незалежно від того, чи це пристрої NVIDIA, чи AMD, Intel тощо.

Проте, поза межами мислення ситуація стає ще складнішою. Проблема заміни обчислень апаратним забезпеченням для навчання штучного інтелекту досі не вирішена. Однак є кілька важливих ініціатив в цьому напрямку, на які варто звернути увагу.

MLIR, проект Google, використовує більш базовий підхід. Забезпечуючи єдине проміжне представлення для кількох абстрактних рівнів, він спрощує всю інфраструктуру компілятора для випадків використання виведення та навчання.

PlaidML, який зараз очолює Intel, позиціонує себе як темна кінь у цьому змаганні. Він спрямований на переносимість через кілька архітектур обладнання (включаючи архітектуру, яка виходить за межі традиційних прискорювачів AI), візію безшовного запуску AI робочих навантажень на різних обчислювальних платформах.

Якщо будь-який з цих компіляторів може добре інтегруватися в технічний стек, не впливаючи на продуктивність моделі, і не потребує додаткових змін від розробників, це може серйозно загрожувати буферній зоні CUDA. Однак наразі MLIR та PlaidML ще не настільки зрілі, і не добре інтегруються в стек штучного інтелекту, тому вони наразі не становлять виразної загрози лідерству CUDA.

IOSG Ventures:从硅到智能,详解人工智能训练与推理技术栈

4. Розподілений обчислювальний процес: координатор

Ray і Horovod представляють два різних підходи до розподіленого обчислення в галузі штучного інтелекту, кожен з яких вирішує ключові вимоги щодо масштабованої обробки великих застосувань штучного інтелекту.

Ray - це загальний розподілений фреймворк для обчислень, розроблений RISELab у UC Berkeley. Він відзначається високою гнучкістю і дозволяє розподіляти різні типи робочих навантажень, не обмежуючись машинним навчанням. Модель, заснована на акторах в Ray, значно спрощує процес паралелізації Python-коду, зокрема, для задач зі зміцненням навчання та інших складних та різноманітних процесів штучного інтелекту.

Horovod, спочатку розроблений Uber, є розподіленою реалізацією Глибинного навчання. Він надає просте та ефективне рішення для масштабування процесу навчання Глибинного навчання на кількох GPU та серверних Нодах. Особливістю Horovod є його дружелюбність до користувача та оптимізація для паралельного навчання мережі. Це дозволяє ідеально поєднувати його з такими основними фреймворками Глибинного навчання, як TensorFlow, PyTorch та інші, що дозволяє розробникам легко масштабувати свій існуючий код навчання без необхідності великої кількості змін.

5. Заключення: з точки зору Криптовалюта

Інтеграція з наявним стеком штучного інтелекту є важливим етапом для проекту DePin, який має на меті побудову розподіленої обчислювальної системи. Ця інтеграція забезпечує сумісність з поточними робочими процесами та інструментами ШІ, знижуючи поріг входження. Падіння

У сфері Криптовалюта, поточна мережа GPU фактично є платформою оренди GPU з Децентралізація, що вказує на початок переходу до складнішої розподіленої інфраструктури ШІ. Ці платформи більше схожі на ринок типу Airbnb, а не на розподілене хмарне середовище. Незважаючи на те, що вони корисні для деяких застосувань, ці платформи ще не вистачають для підтримки справжнього розподіленого навчання, що є ключовим вимогам для розвитку штучного інтелекту в масштабах.

Стандарти розподіленого обчислення, такі як Ray та Horovod, не були розроблені для глобальних розподілених мереж, і для роботи на мережах Децентралізація, нам потрібно розробити інший фреймворк на цьому рівні. Деякі скептики навіть стверджують, що моделі Transformer несумісні з методами розподіленого навчання, оскільки під час навчання вони потребують інтенсивних комунікацій та глобальної оптимізації функцій. З іншого боку, оптимісти намагаються запропонувати нові фреймворки розподіленого обчислення, які можуть добре співпрацювати з глобальним апаратним забезпеченням. Одна з стартап-компаній, яка намагається вирішити цю проблему, - Yotta.

NeuroMesh йде далі. Він переробляє процес машинного навчання у особливо інноваційний спосіб. За допомогою мережі передбачення кодування (PCN), яка шукає локальну мінімізацію помилок замість безпосереднього пошуку оптимального рішення глобальної функції втрат, NeuroMesh вирішує фундаментальну проблему розподіленого навчання штучного інтелекту.

Цей метод не тільки забезпечує невідому раніше паралелізацію, але також робить можливим тренування моделі на споживчих GPU-пристроях (таких як RTX 4090), що демократизує тренування ШІ. Зокрема, обчислювальна потужність GPU 4090 схожа на H 100, проте через нестачу пропускної здатності вони не використовуються повністю під час навчання моделі. Значення ПЦН падіння пропускної здатності робить можливим використання цих бюджетних GPU, що може привести до значних економічних вигод та підвищення ефективності.

GenSyn, ще одна амбітна компанія зі шифрування шифрування AI, що має на меті побудувати компілятор пастки. Компілятор Gensyn дозволяє безшовно використовувати будь-який тип обчислювального обладнання для робочих навантажень AI. Наприклад, так само, як TVM для виводу, GenSyn намагається побудувати подібний інструмент для навчання моделей.

Якщо це вдасться, це значно розширить можливості Децентралізації мережі обчислень ШІ шляхом ефективного використання різноманітного апаратного забезпечення для обробки більш складних і різноманітних завдань ШІ. Ця амбітна мрія, хоча й має виклики через складність оптимізації різноманітних апаратних архітектур і високі технічні ризики, але якщо вони зможуть реалізувати цю мрію, подолати перешкоди, такі як збереження продуктивності гетерогенних систем, ця технологія може підірвати позиції CUDA і NVIDIA.

Щодо розумових операцій: методи гіперболічної верифікації, які поєднують перевірку з Децентралізація мережами різних обчислювальних ресурсів, демонструють відносно прагматичну стратегію. З використанням стандартів компіляторів, таких як TVM, Hyperbolic може використовувати широкий спектр апаратних конфігурацій, забезпечуючи при цьому високу продуктивність та надійність. Він може об’єднувати чіпи від різних виробників (від NVIDIA до AMD, Intel тощо), включаючи споживчу електроніку та високопродуктивну техніку.

Цей розвиток в галузі шифрування AI пересічення свідчить про майбутнє, коли обчислення штучного інтелекту може стати більш розподіленим, ефективним та доступним. Успіх цих проєктів залежить не лише від їх технічних переваг, але й від їх здатності безшовно інтегруватися з існуючими робочими процесами штучного інтелекту та вирішувати реальні проблеми практиків AI та підприємств.

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.
Прокоментувати
0/400
Немає коментарів