Autor original: IOSG Ventures
O rápido desenvolvimento da inteligência artificial baseia-se em uma infraestrutura complexa. A pilha de tecnologia de IA é uma arquitetura em camadas composta por hardware e software, que é o pilar da revolução atual da IA. Aqui, vamos analisar em profundidade os principais níveis da pilha de tecnologia e explicar a contribuição de cada nível para o desenvolvimento e implementação da IA. Por último, vamos refletir sobre a importância de dominar esses conhecimentos básicos, especialmente ao avaliar as oportunidades no cruzamento entre Criptomoeda e IA, como o projeto DePIN (Descentralização da infraestrutura física), como a rede GPU.
Na parte inferior está o hardware, que fornece capacidade de cálculo físico para a inteligência artificial.
Esta camada é crucial na pilha de tecnologia de IA, pois estabelece uma ligação entre a estrutura de IA avançada e o hardware subjacente. Tecnologias como CUDA, ROCm, OneAPI e SNPE fortalecem a ligação entre estruturas avançadas e arquiteturas de hardware específicas, resultando em otimização de desempenho.
Como camada de software exclusiva da NVIDIA, o CUDA é a base de sua ascensão no mercado de hardware de IA. A liderança da NVIDIA não se deve apenas à sua vantagem de hardware, mas também reflete a forte rede de efeitos de software e ecossistemas integrados.
A razão pela qual o CUDA tem um impacto tão grande é porque ele incorpora a pilha de tecnologia de IA e fornece um conjunto completo de bibliotecas de otimização que se tornaram o padrão de fato nessa área. Esse ecossistema de software construiu um poderoso efeito de rede: pesquisadores e desenvolvedores de IA proficientes em CUDA o utilizam durante o processo de treinamento e o disseminam na academia e na indústria.
O ciclo virtuoso resultante reforçou a posição de liderança de mercado da NVIDIA, uma vez que o ecossistema de ferramentas e bibliotecas baseadas em CUDA se tornou cada vez mais indispensável para os profissionais de IA.
A simbiose de software e hardware não só consolida a posição da NVIDIA na vanguarda do cálculo de AI, mas também confere à empresa uma significativa capacidade de precificação, o que é raro no mercado de hardware geralmente comercializado.
A posição dominante da CUDA e o silêncio relativo de seus concorrentes podem ser atribuídos a uma série de fatores que criaram significativas barreiras à entrada. A vantagem inicial da NVIDIA no campo da computação acelerada por GPU permitiu que a CUDA estabelecesse um ecossistema robusto antes que seus concorrentes pudessem se firmar. Embora concorrentes como AMD e Intel tenham hardware excelente, sua camada de software carece das bibliotecas e ferramentas necessárias, e não consegue integrar-se perfeitamente com as pilhas de tecnologia existentes, o que explica a enorme disparidade entre NVIDIA/CUDA e seus concorrentes.
TVM (Máquina virtual tensor), MLIR (Representação intermediária em várias camadas) e PlaidML oferecem soluções diferentes para otimizar cargas de trabalho de IA em várias arquiteturas de hardware.
TVM é originário de pesquisas da Universidade de Washington e ganhou rapidamente Profundidade por sua capacidade de otimizar modelos de aprendizado para diversos dispositivos (de GPUs de alto desempenho a dispositivos de borda com recursos limitados). Sua vantagem reside no fluxo de otimização de ponta a ponta, especialmente eficaz em cenários de inferência. Ele abstrai completamente as diferenças de fornecedores e hardware de baixo nível, permitindo que as cargas de trabalho de inferência sejam executadas sem problemas em diferentes hardwares, seja em dispositivos NVIDIA, AMD, Intel, etc.
No entanto, além do raciocínio, a situação torna-se ainda mais complexa. O objetivo final de substituir o cálculo por hardware treinado em IA ainda não está resolvido. No entanto, existem algumas iniciativas que valem a pena mencionar.
MLIR, o projeto do Google, adota uma abordagem mais fundamental. Ao fornecer uma representação intermediária unificada para vários níveis de abstração, tem como objetivo simplificar toda a infraestrutura do compilador para casos de uso de inferência e treinamento.
PlaidML, agora liderado pela Intel, se posiciona como o dark horse nesta competição. Ele se concentra na portabilidade em várias arquiteturas de hardware (além dos aceleradores de IA tradicionais), vislumbrando um futuro em que as cargas de trabalho de IA funcionem perfeitamente em diversas plataformas de computação.
Se qualquer um desses compiladores puder ser facilmente integrado à pilha de tecnologia, sem afetar o desempenho do modelo e sem a necessidade de modificações adicionais pelos desenvolvedores, isso pode ameaçar seriamente a posição de liderança da CUDA. No entanto, atualmente, o MLIR e o PlaidML ainda não estão suficientemente maduros e não foram bem integrados à pilha de tecnologia de IA, portanto, eles não representam uma ameaça clara à liderança da CUDA.
Ray e Horovod representam dois métodos diferentes de computação distribuída no campo da IA, cada um dos quais resolve uma necessidade chave de processamento escalável em aplicações de IA em larga escala.
Desenvolvido pelo RISELab da UC Berkeley, o Ray é um framework de computação distribuída geral. Ele se destaca em termos de flexibilidade, permitindo a alocação de vários tipos de cargas de trabalho, além de aprendizado de máquina. O modelo baseado em atores do Ray simplifica significativamente o processo de paralelização do código Python, tornando-o especialmente adequado para tarefas de inteligência artificial, como aprendizado por reforço e outras que exigem fluxos de trabalho complexos e diversos.
Horovod, originalmente projetado pela Uber, foca na implementação distribuída de aprendizado Profundidade. Ele fornece uma solução concisa e eficiente para escalar o processo de treinamento de aprendizado Profundidade em vários GPUs e servidores Nó. O destaque do Horovod está em sua facilidade de uso e otimização para treinamento de dados em paralelo de redes neurais, o que permite perfeita integração com estruturas de aprendizado Profundidade mainstream como TensorFlow, PyTorch, etc., permitindo que os desenvolvedores ampliem facilmente seu código de treinamento existente sem a necessidade de muitas modificações.
A integração com o stack de AI existente é crucial para o projeto DePin, que visa construir um sistema de computação distribuído. Essa integração garante a compatibilidade com os fluxos de trabalho e ferramentas de AI atuais, reduzindo a barreira de entrada adotada pelo Gota.
No campo de Cripto, a rede GPU atual é essencialmente uma plataforma de locação de GPU descentralizada, que marca um primeiro passo em direção a infraestruturas de AI distribuídas mais complexas. Essas plataformas são mais como um mercado estilo Airbnb do que como uma nuvem distribuída. Embora sejam úteis para algumas aplicações, essas plataformas ainda não são suficientes para suportar o treinamento distribuído real, que é uma necessidade chave para impulsionar o desenvolvimento em larga escala de AI.
Como os atuais padrões de computação distribuída, como Ray e Horovod, não foram projetados para redes distribuídas globais, para redes verdadeiramente descentralizadas, precisamos desenvolver outro framework nesta camada. Alguns céticos até argumentam que, devido à necessidade de comunicação intensiva e otimização de funções globais durante o processo de aprendizado do modelo Transformer, eles são incompatíveis com métodos de treinamento distribuído. Por outro lado, os otimistas estão tentando propor novos frameworks de computação distribuída que podem se integrar bem com hardware distribuído globalmente. A Yotta é uma das startups que está tentando resolver esse problema.
NeuroMesh vai um passo adiante. Ele redesenha o processo de aprendizado de máquina de uma maneira especialmente inovadora. Ao usar a Rede de Codificação de Previsão (PCN) para buscar a convergência da minimização do erro local, em vez de buscar diretamente a solução ótima da função de perda global, o NeuroMesh resolve um gargalo fundamental no treinamento de IA distribuída.
Este método não só permite uma paralelização sem precedentes, mas também torna possível treinar modelos em hardware de GPU de consumo (como o RTX 4090), democratizando assim o treinamento de IA. Mais especificamente, a capacidade de cálculo da GPU 4090 é semelhante à do H100, mas devido à falta de largura de banda, elas não são totalmente utilizadas no processo de treinamento do modelo. Devido à importância da largura de banda, o PCN possibilita o uso dessas GPUs de baixo custo, o que pode resultar em economia significativa de custos e aumento de eficiência.
GenSyn, outra ambiciosa empresa inicial de IA de encriptação, com o objetivo de construir um compilador armadilha. O compilador da Gensyn permite que qualquer tipo de hardware de computação seja usado sem problemas para cargas de trabalho de IA. Para dar um exemplo, é como o papel do TVM na inferência, GenSyn está tentando construir ferramentas semelhantes para treinamento de modelos.
Se for bem-sucedido, pode expandir significativamente a capacidade de Descentralização da rede de computação de IA, aproveitando eficientemente vários hardwares para lidar com tarefas de IA mais complexas e diversas. Esta visão ambiciosa, embora desafiadora devido à complexidade da otimização de arquiteturas de hardware diversificadas e ao alto risco tecnológico, pode enfraquecer as defesas da CUDA e da NVIDIA se conseguirem executar esta visão, superando obstáculos como manter o desempenho de sistemas heterogêneos.
Sobre a inferência: O método Hyperbolic, que combina raciocínio verificável com recursos de computação heterogêneos em uma rede de Descentralização, reflete uma estratégia relativamente pragmática. Ao utilizar padrões de compiladores como TVM, o Hyperbolic pode aproveitar uma ampla gama de configurações de hardware, mantendo ao mesmo tempo desempenho e confiabilidade. Ele pode agregar chips de vários fornecedores (de NVIDIA a AMD, Intel, etc.), incluindo hardware de consumo e hardware de alto desempenho.
O desenvolvimento desses projetos em criptografia AI cruzada indica um futuro em que o cálculo de AI pode se tornar mais distribuído, eficiente e acessível. O sucesso desses projetos depende não apenas de suas vantagens tecnológicas, mas também de sua capacidade de integração perfeita com os fluxos de trabalho de AI existentes e de sua capacidade de resolver preocupações reais de profissionais e empresas de AI.