IOSG Ventures: From Silicon to Intelligence, Explaining Artificial Intelligence Training and Inference Technology Stack

星球日报

Autor original: IOSG Ventures

IOSG Ventures:从硅到智能,详解人工智能训练与推理技术栈

O rápido desenvolvimento da inteligência artificial baseia-se em uma infraestrutura complexa. A pilha de tecnologia de IA é uma arquitetura em camadas composta por hardware e software, que é o pilar da revolução atual da IA. Aqui, vamos analisar em profundidade os principais níveis da pilha de tecnologia e explicar a contribuição de cada nível para o desenvolvimento e implementação da IA. Por último, vamos refletir sobre a importância de dominar esses conhecimentos básicos, especialmente ao avaliar as oportunidades no cruzamento entre Criptomoeda e IA, como o projeto DePIN (Descentralização da infraestrutura física), como a rede GPU.

1. Camada de hardware: Base de silício

Na parte inferior está o hardware, que fornece capacidade de cálculo físico para a inteligência artificial.

  • CPU (Unidade central de processamento): é o processador básico de computação. Eles são bons em lidar com tarefas sequenciais e são muito importantes para computação geral, incluindo pré-processamento de dados, tarefas de inteligência artificial em pequena escala e coordenação de outros componentes.
  • GPU(Unidade de Processamento Gráfico): originalmente projetada para renderização de gráficos, mas tornou-se uma parte importante da inteligência artificial devido à sua capacidade de realizar grandes volumes de cálculos simples simultaneamente. Essa capacidade de processamento paralelo torna a GPU ideal para treinar modelos de aprendizagem Profundidade, sem o desenvolvimento de GPUs, os modelos GPT modernos não seriam possíveis.
  • Acelerador de IA: Chips projetados especificamente para cargas de trabalho de inteligência artificial, otimizados para operações comuns de IA, fornecendo alto desempenho e eficiência energética para tarefas de treinamento e inferência.
  • FPGA( Programabilidade阵列逻辑 ):以其可重编程的特性提供灵活性。它们可以针对特定的人工智能任务进行优化,特别是在需要低latência的推理场景中。

IOSG Ventures:从硅到智能,详解人工智能训练与推理技术栈

2. Software de base: middleware

Esta camada é crucial na pilha de tecnologia de IA, pois estabelece uma ligação entre a estrutura de IA avançada e o hardware subjacente. Tecnologias como CUDA, ROCm, OneAPI e SNPE fortalecem a ligação entre estruturas avançadas e arquiteturas de hardware específicas, resultando em otimização de desempenho.

Como camada de software exclusiva da NVIDIA, o CUDA é a base de sua ascensão no mercado de hardware de IA. A liderança da NVIDIA não se deve apenas à sua vantagem de hardware, mas também reflete a forte rede de efeitos de software e ecossistemas integrados.

A razão pela qual o CUDA tem um impacto tão grande é porque ele incorpora a pilha de tecnologia de IA e fornece um conjunto completo de bibliotecas de otimização que se tornaram o padrão de fato nessa área. Esse ecossistema de software construiu um poderoso efeito de rede: pesquisadores e desenvolvedores de IA proficientes em CUDA o utilizam durante o processo de treinamento e o disseminam na academia e na indústria.

O ciclo virtuoso resultante reforçou a posição de liderança de mercado da NVIDIA, uma vez que o ecossistema de ferramentas e bibliotecas baseadas em CUDA se tornou cada vez mais indispensável para os profissionais de IA.

A simbiose de software e hardware não só consolida a posição da NVIDIA na vanguarda do cálculo de AI, mas também confere à empresa uma significativa capacidade de precificação, o que é raro no mercado de hardware geralmente comercializado.

A posição dominante da CUDA e o silêncio relativo de seus concorrentes podem ser atribuídos a uma série de fatores que criaram significativas barreiras à entrada. A vantagem inicial da NVIDIA no campo da computação acelerada por GPU permitiu que a CUDA estabelecesse um ecossistema robusto antes que seus concorrentes pudessem se firmar. Embora concorrentes como AMD e Intel tenham hardware excelente, sua camada de software carece das bibliotecas e ferramentas necessárias, e não consegue integrar-se perfeitamente com as pilhas de tecnologia existentes, o que explica a enorme disparidade entre NVIDIA/CUDA e seus concorrentes.

3. Compilador: Tradutor

TVM (Máquina virtual tensor), MLIR (Representação intermediária em várias camadas) e PlaidML oferecem soluções diferentes para otimizar cargas de trabalho de IA em várias arquiteturas de hardware.

TVM é originário de pesquisas da Universidade de Washington e ganhou rapidamente Profundidade por sua capacidade de otimizar modelos de aprendizado para diversos dispositivos (de GPUs de alto desempenho a dispositivos de borda com recursos limitados). Sua vantagem reside no fluxo de otimização de ponta a ponta, especialmente eficaz em cenários de inferência. Ele abstrai completamente as diferenças de fornecedores e hardware de baixo nível, permitindo que as cargas de trabalho de inferência sejam executadas sem problemas em diferentes hardwares, seja em dispositivos NVIDIA, AMD, Intel, etc.

No entanto, além do raciocínio, a situação torna-se ainda mais complexa. O objetivo final de substituir o cálculo por hardware treinado em IA ainda não está resolvido. No entanto, existem algumas iniciativas que valem a pena mencionar.

MLIR, o projeto do Google, adota uma abordagem mais fundamental. Ao fornecer uma representação intermediária unificada para vários níveis de abstração, tem como objetivo simplificar toda a infraestrutura do compilador para casos de uso de inferência e treinamento.

PlaidML, agora liderado pela Intel, se posiciona como o dark horse nesta competição. Ele se concentra na portabilidade em várias arquiteturas de hardware (além dos aceleradores de IA tradicionais), vislumbrando um futuro em que as cargas de trabalho de IA funcionem perfeitamente em diversas plataformas de computação.

Se qualquer um desses compiladores puder ser facilmente integrado à pilha de tecnologia, sem afetar o desempenho do modelo e sem a necessidade de modificações adicionais pelos desenvolvedores, isso pode ameaçar seriamente a posição de liderança da CUDA. No entanto, atualmente, o MLIR e o PlaidML ainda não estão suficientemente maduros e não foram bem integrados à pilha de tecnologia de IA, portanto, eles não representam uma ameaça clara à liderança da CUDA.

IOSG Ventures:从硅到智能,详解人工智能训练与推理技术栈

4. Computação Distribuída: Coordenador

Ray e Horovod representam dois métodos diferentes de computação distribuída no campo da IA, cada um dos quais resolve uma necessidade chave de processamento escalável em aplicações de IA em larga escala.

Desenvolvido pelo RISELab da UC Berkeley, o Ray é um framework de computação distribuída geral. Ele se destaca em termos de flexibilidade, permitindo a alocação de vários tipos de cargas de trabalho, além de aprendizado de máquina. O modelo baseado em atores do Ray simplifica significativamente o processo de paralelização do código Python, tornando-o especialmente adequado para tarefas de inteligência artificial, como aprendizado por reforço e outras que exigem fluxos de trabalho complexos e diversos.

Horovod, originalmente projetado pela Uber, foca na implementação distribuída de aprendizado Profundidade. Ele fornece uma solução concisa e eficiente para escalar o processo de treinamento de aprendizado Profundidade em vários GPUs e servidores Nó. O destaque do Horovod está em sua facilidade de uso e otimização para treinamento de dados em paralelo de redes neurais, o que permite perfeita integração com estruturas de aprendizado Profundidade mainstream como TensorFlow, PyTorch, etc., permitindo que os desenvolvedores ampliem facilmente seu código de treinamento existente sem a necessidade de muitas modificações.

5. Conclusão: A partir da perspectiva de Criptomoeda

A integração com o stack de AI existente é crucial para o projeto DePin, que visa construir um sistema de computação distribuído. Essa integração garante a compatibilidade com os fluxos de trabalho e ferramentas de AI atuais, reduzindo a barreira de entrada adotada pelo Gota.

No campo de Cripto, a rede GPU atual é essencialmente uma plataforma de locação de GPU descentralizada, que marca um primeiro passo em direção a infraestruturas de AI distribuídas mais complexas. Essas plataformas são mais como um mercado estilo Airbnb do que como uma nuvem distribuída. Embora sejam úteis para algumas aplicações, essas plataformas ainda não são suficientes para suportar o treinamento distribuído real, que é uma necessidade chave para impulsionar o desenvolvimento em larga escala de AI.

Como os atuais padrões de computação distribuída, como Ray e Horovod, não foram projetados para redes distribuídas globais, para redes verdadeiramente descentralizadas, precisamos desenvolver outro framework nesta camada. Alguns céticos até argumentam que, devido à necessidade de comunicação intensiva e otimização de funções globais durante o processo de aprendizado do modelo Transformer, eles são incompatíveis com métodos de treinamento distribuído. Por outro lado, os otimistas estão tentando propor novos frameworks de computação distribuída que podem se integrar bem com hardware distribuído globalmente. A Yotta é uma das startups que está tentando resolver esse problema.

NeuroMesh vai um passo adiante. Ele redesenha o processo de aprendizado de máquina de uma maneira especialmente inovadora. Ao usar a Rede de Codificação de Previsão (PCN) para buscar a convergência da minimização do erro local, em vez de buscar diretamente a solução ótima da função de perda global, o NeuroMesh resolve um gargalo fundamental no treinamento de IA distribuída.

Este método não só permite uma paralelização sem precedentes, mas também torna possível treinar modelos em hardware de GPU de consumo (como o RTX 4090), democratizando assim o treinamento de IA. Mais especificamente, a capacidade de cálculo da GPU 4090 é semelhante à do H100, mas devido à falta de largura de banda, elas não são totalmente utilizadas no processo de treinamento do modelo. Devido à importância da largura de banda, o PCN possibilita o uso dessas GPUs de baixo custo, o que pode resultar em economia significativa de custos e aumento de eficiência.

GenSyn, outra ambiciosa empresa inicial de IA de encriptação, com o objetivo de construir um compilador armadilha. O compilador da Gensyn permite que qualquer tipo de hardware de computação seja usado sem problemas para cargas de trabalho de IA. Para dar um exemplo, é como o papel do TVM na inferência, GenSyn está tentando construir ferramentas semelhantes para treinamento de modelos.

Se for bem-sucedido, pode expandir significativamente a capacidade de Descentralização da rede de computação de IA, aproveitando eficientemente vários hardwares para lidar com tarefas de IA mais complexas e diversas. Esta visão ambiciosa, embora desafiadora devido à complexidade da otimização de arquiteturas de hardware diversificadas e ao alto risco tecnológico, pode enfraquecer as defesas da CUDA e da NVIDIA se conseguirem executar esta visão, superando obstáculos como manter o desempenho de sistemas heterogêneos.

Sobre a inferência: O método Hyperbolic, que combina raciocínio verificável com recursos de computação heterogêneos em uma rede de Descentralização, reflete uma estratégia relativamente pragmática. Ao utilizar padrões de compiladores como TVM, o Hyperbolic pode aproveitar uma ampla gama de configurações de hardware, mantendo ao mesmo tempo desempenho e confiabilidade. Ele pode agregar chips de vários fornecedores (de NVIDIA a AMD, Intel, etc.), incluindo hardware de consumo e hardware de alto desempenho.

O desenvolvimento desses projetos em criptografia AI cruzada indica um futuro em que o cálculo de AI pode se tornar mais distribuído, eficiente e acessível. O sucesso desses projetos depende não apenas de suas vantagens tecnológicas, mas também de sua capacidade de integração perfeita com os fluxos de trabalho de AI existentes e de sua capacidade de resolver preocupações reais de profissionais e empresas de AI.

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.
Comentar
0/400
Nenhum comentário