IOSG：от кремния к интеллекту, стек технологий для обучения и рассуждения искусственного интеллекта

2024-08-06 10:11:20

IOSG：从硅到智能，人工智能训练与推理技术栈

Бурное развитие искусственного интеллекта основано на сложной инфраструктуре. Технологический стек искусственного интеллекта представляет собой иерархическую структуру, состоящую из аппаратного и программного обеспечения, и является опорой текущей революции в области искусственного интеллекта. Здесь мы подробно проанализируем основные уровни технологического стека и объясним вклад каждого уровня в разработку и внедрение искусственного интеллекта. Наконец, мы подчеркнем важность овладения этими базовыми знаниями, особенно при оценке возможностей в пересечении Криптовалюты и искусственного интеллекта, например, проекта Децентрализации физической инфраструктуры (DePIN), такого как сеть GPU.

IOSG：从硅到智能，人工智能训练与推理技术栈

1. Аппаратный уровень: кремниевая основа

На самом низком уровне находится аппаратное обеспечение, которое обеспечивает физические вычислительные возможности искусственного интеллекта.

CPU (Центральный процессор): это основной процессор вычислений. Они отлично справляются с последовательными задачами, что крайне важно для общих вычислений, включая предварительную обработку данных, небольшие задачи искусственного интеллекта и координацию других компонентов.

GPU（графический процессор）: изначально разработанный для графической обработки, он стал важной частью искусственного интеллекта благодаря способности одновременно выполнять большое количество простых вычислений. Эта параллельная вычислительная мощность делает GPU идеальным для обучения моделей глубокого обучения. Без развития GPU современные модели GPT были бы невозможны.

AI ускоритель: чип, специально разработанный для рабочих нагрузок искусственного интеллекта, который оптимизирован для типичных операций искусственного интеллекта, обеспечивает высокую производительность и эффективность для задач обучения и вывода.

FPGA(可编程阵列逻辑)：с их программируемой природой они обеспечивают гибкость. Они могут быть оптимизированы для конкретных задач искусственного интеллекта, особенно в сценариях вывода с низкой задержкой.

IOSG：从硅到智能，人工智能训练与推理技术栈

2. Нижний уровень программного обеспечения: промежуточное программное обеспечение

Этот уровень в стеке технологий искусственного интеллекта является критически важным, поскольку он служит мостом между высокоуровневым фреймворком и нижележащим аппаратным обеспечением. Такие технологии, как CUDA, ROCm, OneAPI и SNPE, укрепляют связь между высокоуровневым фреймворком и конкретными аппаратными архитектурами, обеспечивая оптимизацию производительности.

Как эксклюзивный слой программного обеспечения NVIDIA, CUDA является угловым камнем восхода компании на рынок аппаратного обеспечения ИИ. Лидерство NVIDIA основано не только на преимуществах его аппаратного обеспечения, но и на мощных сетевых эффектах интеграции его программного обеспечения и экосистемы.

Причина, по которой CUDA имеет такое большое влияние, заключается в том, что она Глубина интегрирует технологию искусственного интеллекта и предоставляет полный набор оптимизированных библиотек, которые фактически стали стандартом в этой области. Экосистема этого программного обеспечения создает мощный сетевой эффект: исследователи и разработчики искусственного интеллекта, владеющие CUDA, распространяют его использование в академической и промышленной сфере в процессе обучения.

Такой благоприятный цикл укрепляет лидирующую позицию NVIDIA на рынке, поскольку экосистема инструментов и библиотек на основе CUDA становится все более необходимой для специалистов в области искусственного интеллекта.

Такое симбиотическое сочетание программного и аппаратного обеспечения не только укрепляет позиции NVIDIA на переднем крае вычислений в области искусственного интеллекта, но и дает компании значительные возможности установки цен, что редко встречается на товарных рынках обычных устройств.

Лидерство CUDA и относительная тишина его конкурентов могут быть объяснены рядом факторов, которые создали значительные барьеры для входа. Первоначальное преимущество NVIDIA в области ускорения вычислений на GPU позволило CUDA установить мощную экосистему до того, как конкуренты укрепили свои позиции. Несмотря на то, что у конкурентов, таких как AMD и Intel, есть отличное оборудование, у них не хватает необходимых библиотек и инструментов на уровне программного обеспечения, и они не могут без проблем интегрироваться с существующими технологическими стеками, что и является причиной огромного разрыва между NVIDIA/CUDA и другими конкурентами.

IOSG：从硅到智能，人工智能训练与推理技术栈

3. Компилятор: переводчик

TVM(тензорная виртуальная машина), MLIR(многоуровневое промежуточное представление) и PlaidML предоставляют различные решения для оптимизации нагрузки AI на различных аппаратных архитектурах.

Появившись в результате исследований в Вашингтонском университете, TVM быстро набирает обороты благодаря своей способности оптимизировать модели глубокого обучения для широкого спектра устройств, от высокопроизводительных графических процессоров до периферийных устройств с ограниченными ресурсами. Преимущество заключается в сквозном процессе оптимизации, который особенно эффективен в сценариях логического вывода. Он полностью абстрагирует различия между базовыми поставщиками и оборудованием, позволяя рабочим нагрузкам логических выводов беспрепятственно выполняться на различном оборудовании, от устройств NVIDIA до AMD, Intel и других.

Однако вне логики ситуация становится еще более сложной. Проблема замены аппаратных средств для обучения искусственного интеллекта все еще не решена. Тем не менее, есть несколько инициатив, которые стоит упомянуть в этом контексте.

MLIR - проект Google, который использует более фундаментальный подход. Через предоставление единого промежуточного представления для нескольких абстрактных уровней он стремится упростить всю инфраструктуру компилятора для решения задач вывода и обучения.

PlaidML, сейчас под руководством Intel, позиционирует себя как темный конь в этой гонке. Он фокусируется на переносимости между различными аппаратными архитектурами, включая не только традиционные ускорители искусственного интеллекта, и предвещает будущее, в котором AI рабочие нагрузки будут бесшовно работать на различных вычислительных платформах.

Если любой из этих компиляторов может быть хорошо интегрирован в технологический стек, не влияя на производительность модели и не требуя никаких дополнительных изменений от разработчиков, это может представлять угрозу для CUDA. Однако, на данный момент MLIR и PlaidML не достаточно зрелы и хорошо интегрированы в стек искусственного интеллекта, поэтому они не представляют явной угрозы для лидерства CUDA.

IOSG：从硅到智能，人工智能训练与推理技术栈

4. Распределенные вычисления: координатор

Ray и Horovod представляют два различных подхода к распределенным вычислениям в области искусственного интеллекта, каждый из которых решает ключевые требования масштабируемой обработки в больших AI-приложениях.

Ray - это универсальная распределенная вычислительная платформа, разработанная RISELab в Университете Калифорнии в Беркли. Она проявляет выдающуюся гибкость, позволяя обрабатывать различные типы рабочих нагрузок, включая те, которые не связаны с машинным обучением. Модель на основе акторов в Ray значительно упрощает параллельную обработку кода на Python, что делает ее особенно подходящей для задач обучения с подкреплением и других видов искусственного интеллекта, требующих сложных и разнообразных рабочих процессов.

Horovod, изначально разработанный в Uber, сфокусирован на распределенной реализации Глубина обучения. Он предоставляет лаконичное и эффективное решение для расширения процесса обучения Глубина на нескольких GPU и серверах Узел. Одной из особенностей Horovod является его удобство для пользователя и оптимизация параллельного обучения нейронных сетей, что позволяет ему идеально интегрироваться с такими ведущими фреймворками Глубина обучения, как TensorFlow, PyTorch и т. д., и позволяет разработчикам легко расширять свой существующий обучающий код без необходимости вносить большое количество изменений.

IOSG：从硅到智能，人工智能训练与推理技术栈

5. Заключение: с точки зрения Криптовалюты

Интеграция с существующим стеком искусственного интеллекта является ключевым фактором для проекта DePin, который стремится создать распределенную вычислительную систему. Эта интеграция обеспечивает совместимость с текущими рабочими процессами и инструментами и снижает порог внедрения.

В области Криптовалюта, текущая сеть GPU в сущности является платформой аренды GPU с Децентрализация, что является первым шагом к более сложной распределенной инфраструктуре искусственного интеллекта. Эти платформы больше похожи на рынок в стиле Airbnb, чем на работу в качестве распределенного облака. Хотя они полезны для некоторых приложений, эти платформы все еще не готовы поддерживать настоящее распределенное обучение, что является ключевой потребностью для продвижения масштабной разработки искусственного интеллекта.

Текущие стандарты распределенных вычислений, такие как Ray и Horovod, не предназначены для глобальных распределенных сетей, и для работы на действительно децентрализованной сети, нам нужно разработать еще один фреймворк на этом уровне. Некоторые скептики даже считают, что модели-трансформеры несовместимы с методами распределенного обучения из-за необходимости интенсивной коммуникации и оптимизации глобальных функций в процессе обучения. С другой стороны, оптимисты пытаются предложить новые фреймворки для распределенных вычислений, которые могут хорошо сочетаться с глобально распределенным оборудованием. Yotta - одна из стартап-компаний, которая пытается решить эту проблему.

NeuroMesh идет еще дальше. Он переработал процесс машинного обучения в особенно инновационном способе. Решая фундаментальное препятствие распределенного AI-обучения, NeuroMesh использует предиктивные кодирующие сети (PCN) для поиска сходимости минимальной локальной ошибки, вместо прямого поиска оптимального решения глобальной функции потерь.

Этот метод не только реализует беспрецедентную параллельность, но и делает возможным обучение моделей на потребительских графических процессорах (например, RTX 4090), что демократизирует обучение искусственного интеллекта. Конкретно, вычислительные возможности GPU 4090 схожи с H100, но из-за недостатка пропускной способности они недостаточно используются в процессе обучения моделей. Понижение значимости пропускной способности ПК позволяет использовать эти низкоклассные GPU, что может привести к значительной экономии затрат и повышению эффективности.

GenSyn, еще одна амбициозная стартап-компания в области шифрования ИИ, с целью создания компилятора-ловушки. Компилятор Gensyn позволяет использовать любое вычислительное оборудование для нагрузки ИИ без проблем. К примеру, подобно тому, как TVM влияет на вывод, GenSyn пытается создать аналогичный инструмент для тренировки моделей.

Если успешно, он может значительно расширить способности децентрализованной вычислительной сети искусственного интеллекта путем эффективного использования различного оборудования для обработки более сложных и разнообразных задач искусственного интеллекта. Эта амбициозная цель, хотя и имеет сложность и высокие технические риски, связанные с оптимизацией разнообразной аппаратной архитектуры, и если они смогут осуществить эту цель, преодолевая преграды, такие как поддержание производительности гетерогенных систем, эта технология может ослабить защитный барьер CUDA и NVIDIA.

О рассуждениях: Метод Hyperbolic сочетает проверяемое рассуждение с децентрализованной сетью гетерогенных вычислительных ресурсов, что отражает относительно практическую стратегию. С помощью стандартных компиляторов, таких как TVM, Hyperbolic может использовать различные конфигурации оборудования, сохраняя при этом производительность и надежность. Он может объединять чипы от разных поставщиков (от NVIDIA до AMD, Intel и т. д.), включая потребительское оборудование и высокопроизводительное оборудование.

Эти успехи в области шифрования и искусственного интеллекта предвещают будущее, где вычисления ИИ могут стать более распределенными, эффективными и доступными. Успех этих проектов зависит не только от их технических преимуществ, но и от их способности интегрироваться с существующими рабочими процессами по ИИ и решать реальные проблемы, с которыми сталкиваются специалисты по ИИ и предприятия.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .