IOSG: Da Silício à Inteligência, Pilha de Tecnologia de Treinamento e Inferência de Inteligência Artificial

IOSG:从硅到智能,人工智能训练与推理技术栈

O rápido desenvolvimento da inteligência artificial é baseado em uma infraestrutura complexa. O conjunto de tecnologias de IA é uma arquitetura em camadas composta por hardware e software, sendo o pilar da revolução atual da IA. Aqui, faremos uma análise aprofundada dos principais níveis do conjunto de tecnologias e explicaremos a contribuição de cada nível no desenvolvimento e implementação da IA. Por último, refletiremos sobre a importância de dominar esses conhecimentos básicos, especialmente ao avaliar as oportunidades na interseção entre Criptomoeda e IA, como o projeto DePIN (Descentralização de Infraestrutura Física), por exemplo, redes de GPU.

IOSG:从硅到智能,人工智能训练与推理技术栈

1. Camada de hardware: base de silício

Na camada mais baixa está o hardware, que fornece capacidade de computação física para a inteligência artificial.

CPU (Unidade central de processamento): é o processador básico de computação. Eles são especializados em lidar com tarefas sequenciais e são muito importantes para computação geral, incluindo pré-processamento de dados, tarefas de inteligência artificial em pequena escala e coordenação de outros componentes.

GPU (Unidade de Processamento Gráfico): originalmente projetada para renderização gráfica, mas se tornou uma parte importante da inteligência artificial devido à sua capacidade de executar simultaneamente um grande número de cálculos simples. Essa capacidade de processamento paralelo torna a GPU altamente adequada para treinar modelos de aprendizado em profundidade. Sem o desenvolvimento de GPUs, os modelos modernos de GPT não seriam possíveis.

Accelerador de IA: um chip projetado especificamente para cargas de trabalho de inteligência artificial, otimizado para operações comuns de inteligência artificial, fornecendo alto desempenho e eficiência energética para tarefas de treinamento e inferência.

FPGA (Field-Programmable Gate Array): Com a sua característica de reprogramação, oferece flexibilidade. Eles podem ser otimizados para tarefas específicas de inteligência artificial, especialmente em cenários de inferência de baixa latência.

IOSG:从硅到智能,人工智能训练与推理技术栈

IOSG:从硅到智能,人工智能训练与推理技术栈

2. Software de base: middleware

Esta camada na pilha de tecnologia AI é crucial, pois constrói a ponte entre os quadros AI avançados e o hardware subjacente. Tecnologias como CUDA, ROCm, OneAPI e SNPE fortalecem a conexão entre os quadros avançados e as arquiteturas de hardware específicas, alcançando otimização de desempenho.

Como camada de software proprietária da NVIDIA, o CUDA é a pedra angular do crescimento da empresa no mercado de hardware de IA. A liderança da NVIDIA não se deve apenas à sua vantagem em hardware, mas também à poderosa rede de efeitos de software e ecossistema integrado.

A razão pela qual o CUDA tem um impacto tão grande é porque ele incorpora a tecnologia de IA e fornece um conjunto completo de bibliotecas de otimização que se tornaram o padrão de fato nesse campo. Este ecossistema de software construiu um forte efeito de rede: pesquisadores e desenvolvedores de IA proficientes em CUDA o utilizaram durante o processo de treinamento e o difundiram na academia e na indústria.

Esse ciclo virtuoso fortalece ainda mais a posição de liderança de mercado da NVIDIA, pois o ecossistema de ferramentas e bibliotecas baseadas no CUDA se torna cada vez mais indispensável para os profissionais de IA.

Esta simbiose de hardware e software não só consolida a posição da NVIDIA na vanguarda do cálculo de IA, mas também confere à empresa uma capacidade significativa de fixação de preços, o que é raro no mercado de hardware geralmente comercializado.

A posição dominante da CUDA e o relativo desconhecimento de seus concorrentes podem ser atribuídos a uma série de fatores que criaram barreiras significativas à entrada. A vantagem inicial da NVIDIA no campo da computação acelerada por GPU permitiu que a CUDA estabelecesse um ecossistema robusto antes que seus concorrentes pudessem se firmar. Embora concorrentes como AMD e Intel possuam hardware excelente, a camada de software deles carece de bibliotecas e ferramentas necessárias, e não consegue integrar-se perfeitamente com as pilhas tecnológicas existentes, o que explica a grande disparidade entre a NVIDIA/CUDA e seus concorrentes.

IOSG:从硅到智能,人工智能训练与推理技术栈

3. Compilador: Tradutor

TVM (Tensor Virtual Machine), MLIR (Multi-Level Intermediate Representation) e PlaidML fornecem soluções diferentes para otimizar cargas de trabalho de IA em várias arquiteturas de hardware.

TVM tem suas raízes na pesquisa da Universidade de Washington e rapidamente ganhou Profundidade por sua capacidade de otimizar modelos de aprendizado de máquina para vários dispositivos, desde GPUs de alto desempenho até dispositivos de borda com recursos limitados. Sua vantagem está no fluxo de otimização de ponta a ponta, que é especialmente eficaz em cenários de inferência. Ele abstrai completamente as diferenças entre fornecedores e hardware subjacentes, permitindo que as cargas de trabalho de inferência sejam executadas perfeitamente em diferentes hardwares, seja na NVIDIA, AMD, Intel, etc.

No entanto, para além do raciocínio, a situação torna-se ainda mais complexa. O hardware de treino de IA que pode substituir o cálculo, este objetivo final ainda não foi alcançado. No entanto, existem algumas iniciativas dignas de nota neste sentido.

MLIR, o projeto do Google, adota uma abordagem mais fundamental. Ao fornecer uma representação intermediária unificada para vários níveis de abstração, tem como objetivo simplificar toda a infraestrutura do compilador, visando casos de uso de inferência e treinamento.

A PlaidML, agora liderada pela Intel, posiciona-se como um azarão nesta corrida. Seu foco é na portabilidade através de várias arquiteturas de hardware (além de aceleradores de IA tradicionais), antecipando um futuro em que as cargas de trabalho de IA funcionam perfeitamente em várias plataformas de computação.

Se algum destes compiladores puder ser integrado bem na pilha tecnológica, sem afetar o desempenho do modelo e sem necessidade de modificações extras pelos desenvolvedores, isso pode representar uma ameaça significativa à liderança da CUDA. No entanto, MLIR e PlaidML ainda não estão suficientemente maduros e não se integraram bem na pilha de tecnologia de IA, portanto, não representam uma ameaça clara à liderança da CUDA.

IOSG:从硅到智能,人工智能训练与推理技术栈

IOSG:从硅到智能,人工智能训练与推理技术栈

4. Computação Distribuída: Coordenador

Ray e Horovod representam dois métodos diferentes de computação distribuída no campo de IA, cada um dos quais resolveu a necessidade chave de processamento escalável em aplicativos de IA em grande escala.

Ray, desenvolvido pelo RISELab da UC Berkeley, é um framework de computação distribuída geral. Ele destaca-se pela sua flexibilidade, permitindo a distribuição de vários tipos de cargas de trabalho para além da aprendizagem automática. O modelo baseado em atores do Ray simplifica significativamente o processo de paralelização do código Python, tornando-o especialmente adequado para tarefas de inteligência artificial, como aprendizagem reforçada, que exigem fluxos de trabalho complexos e diversificados.

Horovod, originalmente projetado pela Uber, é uma implementação distribuída focada em Profundidade aprendizado. Ele fornece uma solução concisa e eficiente para estender o processo de treinamento de aprendizado Profundidade em várias GPUs e Nós de servidor. Os destaques do Horovod são sua facilidade de uso e otimização para treinamento paralelo de dados de rede neural, o que permite perfeita integração com estruturas populares de aprendizado Profundidade como TensorFlow, PyTorch, permitindo que os desenvolvedores ampliem facilmente seu código de treinamento existente sem a necessidade de modificações extensas de código.

IOSG:从硅到智能,人工智能训练与推理技术栈

5. Conclusão: Do ponto de vista da Criptomoeda

A integração com a pilha de IA existente é crucial para o projeto DePin, que visa construir um sistema de computação distribuída. Essa integração garante compatibilidade com os fluxos de trabalho e ferramentas de IA atuais, reduzindo as barreiras adotadas.

No campo das Criptomoedas, a rede atual de GPU é essencialmente uma plataforma de aluguer de GPU Descentralizada, o que representa um passo inicial em direção a uma infraestrutura de IA distribuída mais complexa. Estas plataformas são mais semelhantes a um mercado do estilo Airbnb do que a operar como uma nuvem distribuída. Embora sejam úteis para algumas aplicações, essas plataformas ainda não são suficientes para suportar treino distribuído real, que é uma necessidade chave para impulsionar o desenvolvimento de IA em grande escala.

Como padrões atuais de computação distribuída, como Ray e Horovod, não foram projetados para redes distribuídas globais, precisamos desenvolver outro framework nesta camada para redes de Descentralização verdadeiramente funcionais. Alguns céticos até argumentam que, devido à necessidade de comunicação intensiva e otimização de funções globais durante o processo de aprendizado do modelo Transformer, eles são incompatíveis com métodos de treinamento distribuído. Por outro lado, os otimistas estão tentando propor novos frameworks de computação distribuída que podem se integrar bem com hardware distribuído globalmente. A Yotta é uma das startups que está tentando resolver esse problema.

NeuroMesh vai mais longe. Ele redesenha o processo de aprendizado de máquina de uma forma especialmente inovadora. Ao usar a Rede de Codificação de Previsão (PCN) para procurar a convergência com a menor taxa de erro local, em vez de procurar diretamente a solução ótima da função de perda global, NeuroMesh resolve um gargalo fundamental no treinamento de IA distribuída.

Este método não só alcançou uma paralelização sem precedentes, mas também tornou possível treinar modelos em hardware de GPU para consumo (como RTX 4090), democratizando assim a formação de IA. Em particular, a capacidade de cálculo da GPU 4090 é semelhante à do H100, mas devido à falta de largura de banda, elas não são totalmente utilizadas no processo de treinamento do modelo. Devido à importância da largura de banda, o PCNGota tornou possível usar essas GPUs de baixo desempenho, o que pode resultar em economias significativas de custos e aumento de eficiência.

GenSyn, outra startup ambiciosa de encriptação AI, com o objetivo de construir um compilador armadilha. O compilador da Gensyn permite que qualquer tipo de hardware de computação seja usado perfeitamente para cargas de trabalho de AI. Para dar um exemplo, assim como o papel do TVM na inferência, a GenSyn está tentando construir uma ferramenta semelhante para o treinamento do modelo.

Se for bem-sucedido, pode expandir significativamente a capacidade da rede de computação AI descentralizada para lidar com tarefas de inteligência artificial mais complexas e diversas, usando eficientemente vários tipos de hardware. Embora esta visão ambiciosa seja desafiadora devido à complexidade da otimização da arquitetura de hardware diversificada e ao alto risco tecnológico, se eles puderem executar esta visão e superar obstáculos como manter o desempenho do sistema heterogêneo, esta tecnologia pode enfraquecer a hegemonia da CUDA e da NVIDIA.

Sobre o raciocínio: O método Hyperbolic, que combina raciocínio verificável com recursos de computação heterogêneos em uma rede de Descentralização, reflete uma estratégia relativamente pragmática. Ao aproveitar os padrões de compilador como TVM, o Hyperbolic pode usar uma ampla variedade de configurações de hardware, mantendo ao mesmo tempo desempenho e confiabilidade. Ele pode agregar chips de vários fornecedores (de NVIDIA a AMD, Intel, etc.), incluindo hardware para consumo e de alto desempenho.

O desenvolvimento desses projetos no campo cruzado de encriptação AI indica um futuro em que o cálculo de AI pode se tornar mais distribuído, eficiente e acessível. O sucesso desses projetos depende não apenas de sua vantagem tecnológica, mas também de sua capacidade de integração perfeita com os fluxos de trabalho de AI existentes e de resolver as preocupações práticas dos profissionais e empresas de AI.

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
0/400
Sem comentários
  • Marcar

Negocie criptomoedas a qualquer hora e em qualquer lugar
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)