Explicação detalhada da infraestrutura AI+Web3

Intermediário

3/29/2024, 7:41:47 PM

Os principais projetos na camada de infraestrutura da indústria AI+Web3 basicamente consideram a rede de computação descentralizada como a narrativa principal, baixo custo como a principal vantagem, incentivos de tokens como o principal meio de expansão da rede e servindo os clientes de AI+Web3 como o objetivo principal.

Título original encaminhado: Caminho de Desenvolvimento Futuro de AI+Web3 (2): Capítulo de Infraestrutura

A infraestrutura é a direção determinística de crescimento do desenvolvimento de IA

1. Aumento da Procura por Computação de IA

Nos últimos anos, a demanda por potência de computação tem experimentado um crescimento rápido, particularmente após o surgimento do grande modelo LLM. Este aumento na demanda por potência de computação para IA impactou significativamente o mercado de computação de alto desempenho. Dados da OpenAI revelam uma tendência notável desde 2012, com a potência de computação utilizada para treinar os maiores modelos de IA crescendo exponencialmente, duplicando a cada 3-4 meses em média, superando a taxa de crescimento prevista pela Lei de Moore. A crescente demanda por aplicações de IA resultou em uma rápida ascensão na necessidade de hardware de computação. Projeções indicam que até 2025, a demanda por hardware de computação impulsionada por aplicações de IA deverá aumentar aproximadamente 10% a 15%.

Impulsionada pela procura de potência de computação de IA, a fabricante de hardware de GPU NVIDIA testemunhou um crescimento contínuo na receita do centro de dados. No segundo trimestre de 2023, a receita do centro de dados atingiu 10,32 mil milhões de dólares, marcando um aumento de 141% em relação ao primeiro trimestre de 2023 e um notável aumento de 171% em relação ao mesmo período do ano anterior. No quarto trimestre do ano fiscal de 2024, o segmento do centro de dados representava mais de 83% da receita total, experimentando um crescimento simultâneo de 409%, com 40% atribuído a cenários de inferência de modelos grandes, indicando uma forte procura por potência de computação de alto desempenho.

Simultaneamente, a necessidade de vastas quantidades de dados impõe requisitos significativos de armazenamento e memória de hardware. Especialmente durante a fase de treinamento do modelo, entradas de parâmetros extensivos e armazenamento de dados são essenciais. Os chips de memória utilizados em servidores de IA incluem predominantemente memória de alta largura de banda (HBM), DRAM e SSD. Os ambientes de trabalho para servidores de IA devem oferecer capacidade aumentada, desempenho aprimorado, latência reduzida e tempos de resposta mais rápidos. De acordo com os cálculos da Micron, a quantidade de DRAM em servidores de IA excede a dos servidores tradicionais em oito vezes, enquanto a quantidade de NAND ultrapassa os padrões de servidores tradicionais em três vezes.

2. O desequilíbrio entre oferta e procura impulsiona os custos de energia computacional

Tipicamente, a potência de computação é principalmente utilizada nas fases de treino, ajuste fino e inferência de modelos de IA, especialmente durante as fases de treino e ajuste fino. Devido ao aumento dos parâmetros de entrada de dados, requisitos computacionais e a maior demanda por interconectividade em computação paralela, há uma necessidade de hardware de GPU mais poderoso e interconectado, frequentemente na forma de clusters de GPU de alto desempenho. Conforme os modelos aumentam de tamanho, a complexidade computacional aumenta linearmente, necessitando de hardware mais avançado para atender às demandas do treino de modelos.

Tomando o GPT-3 como exemplo, com um cenário envolvendo cerca de 13 milhões de visitas de usuários independentes, a demanda de chips correspondente excederia 30.000 GPUs A100. Este custo de investimento inicial atingiria um impressionante $800 milhões, com custos estimados diários de inferência do modelo totalizando cerca de $700.000.

Simultaneamente, relatórios do setor indicam que no quarto trimestre de 2023, o fornecimento de GPUs da NVIDIA foi severamente restrito globalmente, levando a um desequilíbrio significativo entre oferta e demanda nos mercados em todo o mundo. A capacidade de produção da NVIDIA foi limitada por fatores como TSMC, embalagens HBM, CoWos, e a 'grave questão de escassez' da GPU H100 deverá persistir pelo menos até o final de 2024.

Portanto, o aumento da procura por GPUs de alta qualidade e as restrições de oferta têm impulsionado os preços elevados dos componentes de hardware atuais, como as GPUs. Especialmente para empresas como a NVIDIA, que ocupam uma posição central na cadeia da indústria, os preços elevados são ainda mais aumentados pela sua dominação monopolista, permitindo-lhes colher dividendos de valor adicionais. Por exemplo, o custo material do cartão acelerador de IA H100 da NVIDIA é aproximadamente $3,000, mas o seu preço de venda atingiu cerca de $35,000 em meados de 2023 e até ultrapassou os $40,000 no eBay.

3. Infraestrutura de IA impulsiona o crescimento da cadeia de indústria

Um relatório da Grand View Research indica que o tamanho do mercado global de IA em nuvem foi estimado em $62,63 biliões em 2023, prevendo-se que atinja $647,6 biliões até 2030, com uma taxa de crescimento anual composta de 39,6%. Estes números realçam o significativo potencial de crescimento dos serviços de IA em nuvem e a sua substancial contribuição para a cadeia global da indústria de IA.

De acordo com estimativas da a16z, uma parte substancial dos fundos no mercado AIGC (IA e Computação Global) flui, em última instância, para empresas de infraestrutura. Em média, as empresas de aplicativos alocam aproximadamente 20-40% de sua receita para inferência e ajuste fino para cada cliente. Essa despesa é tipicamente direcionada ao provedor de nuvem da instância de computação ou a um provedor de modelo de terceiros, que por sua vez dedica cerca da metade da receita à infraestrutura de nuvem. Como resultado, é razoável presumir que 10-20% da receita total gerada pelo AIGC é canalizada para os provedores de nuvem.

Além disso, uma parte significativa da demanda por poder de computação está centrada no treinamento de grandes modelos de IA, incluindo vários modelos extensos de LLM. Especialmente para startups de modelos, 80-90% dos custos são atribuídos ao poder de computação de IA. Coletivamente, a infraestrutura de computação de IA, abrangendo computação em nuvem e hardware, é antecipada para representar mais de 50% do valor inicial do mercado.

Computação descentralizada de IA

Como discutido anteriormente, o custo atual da computação centralizada de IA permanece elevado, principalmente devido à demanda crescente por infraestrutura de alto desempenho para treinamento de IA. No entanto, uma quantidade significativa de poder computacional ocioso existe no mercado, levando a um descompasso entre oferta e demanda. Os principais fatores que contribuem para esse desequilíbrio incluem:

Limitado pela memória, a complexidade do modelo não tem uma relação de crescimento linear com o número de GPUs necessárias. As GPUs atuais têm vantagens de potência de computação, mas o treino do modelo requer um grande número de parâmetros a serem armazenados na memória. Para o GPT-3, por exemplo, a fim de treinar um modelo com 175 biliões de parâmetros, mais de 1 terabyte de dados precisa de ser mantido na memória - mais do que qualquer GPU disponível hoje, o que requer mais GPUs para computação e armazenamento paralelos, o que por sua vez levará a uma potência de computação de GPU ociosa. Por exemplo, do GPT3 para o GPT4, o tamanho dos parâmetros do modelo aumentou cerca de 10 vezes, mas o número de GPUs necessárias aumentou 24 vezes (sem levar em conta o aumento do tempo de treino do modelo). De acordo com a análise relevante, a OpenAI utilizou aproximadamente 2.15e25 FLOPS no treino do GPT-4, e realizou o treino em aproximadamente 25,000 GPUs A100 durante 90 a 100 dias, com uma utilização de potência de computação de aproximadamente 32% a 36%.

Em resposta aos desafios delineados acima, a busca pelo design de chips de alto desempenho ou chips ASIC especializados adaptados para tarefas de IA é uma via proeminente que está a ser explorada por inúmeros desenvolvedores e grandes empresas. Outra abordagem envolve a utilização abrangente dos recursos de computação existentes para estabelecer uma rede de computação distribuída, com o objetivo de reduzir os custos de energia computacional através de aluguer, partilha e programação eficiente de recursos. Além disso, o mercado atualmente possui um excedente de GPUs e CPUs de consumo inativo. Embora as unidades individuais possam carecer de potência de computação robusta, elas podem atender eficazmente aos requisitos computacionais existentes em cenários específicos ou quando integradas com chips de alto desempenho. Crucialmente, garantir um suprimento amplo é essencial, pois os custos podem ser ainda mais reduzidos através da programação de rede distribuída.

Consequentemente, a mudança para o poder de computação distribuída emergiu como uma direção chave no avanço da infraestrutura de IA. Simultaneamente, dada a alinhamento conceitual entre Web3 e sistemas distribuídos, as redes de poder computacional descentralizado tornaram-se um foco primário na paisagem da infraestrutura Web3+IA. Atualmente, as plataformas de poder computacional descentralizado no mercado Web3 geralmente oferecem preços que são 80%-90% mais baixos do que os serviços de computação em nuvem centralizados.

Embora o armazenamento desempenhe um papel vital na infraestrutura de IA, o armazenamento centralizado apresenta vantagens distintas em termos de escala, usabilidade e baixa latência. No entanto, devido às notáveis eficiências de custo que oferecem, as redes de computação distribuída têm um potencial de mercado significativo e estão preparadas para colher benefícios substanciais com a expansão do mercado de IA em crescimento.

A inferência de modelo e o treino de modelos pequenos representam os cenários fundamentais para a potência de computação distribuída atual. A dispersão de recursos de computação em sistemas distribuídos introduz inevitavelmente desafios de comunicação entre GPUs, potencialmente levando a uma redução no desempenho de computação. Consequentemente, a potência de computação distribuída é mais adequada para cenários que exigem comunicação mínima e podem suportar eficazmente tarefas paralelas. Estes cenários incluem a fase de inferência de modelos de IA extensos e modelos pequenos com relativamente menos parâmetros, minimizando os impactos no desempenho. Olhando para o futuro, à medida que as aplicações de IA evoluem, o raciocínio surge como um requisito crítico na camada de aplicação. Dado que a maioria das empresas não tem capacidade para treinar grandes modelos independentemente, a potência de computação distribuída mantém um potencial de mercado significativo a longo prazo.
Existe um aumento em estruturas de treino distribuído de alto desempenho adaptadas para computação paralela em grande escala. Estruturas inovadoras de computação distribuída de código aberto como PyTorch, Ray e DeepSpeed estão a fornecer aos programadores um suporte fundamental robusto para aproveitar o poder de computação distribuída no treino de modelos. Este avanço melhora a aplicabilidade do poder de computação distribuída no mercado futuro de IA, facilitando a sua integração em várias aplicações de IA.

A lógica narrativa dos projetos de infraestrutura de IA+Web3

O setor de infraestrutura de IA distribuída apresenta uma demanda robusta e perspectivas significativas de crescimento a longo prazo, tornando-o uma área atraente para o capital de investimento. Atualmente, os principais projetos dentro da camada de infraestrutura da indústria AI+Web3 centram-se predominantemente em redes de computação descentralizadas. Esses projetos enfatizam custos baixos como uma vantagem chave, utilizam incentivos de token para expandir suas redes e priorizam o atendimento aos clientes de IA+Web3 como seu principal objetivo. Este setor compreende principalmente dois níveis-chave:

Uma plataforma de partilha e aluguer de recursos de computação em nuvem descentralizada relativamente pura: Projetos de IA iniciais como Render Network, Akash Network, entre outros, enquadram-se nesta categoria.

A principal vantagem competitiva neste setor reside nos recursos de potência de computação, possibilitando o acesso a uma variedade diversificada de fornecedores, rápida criação de rede e ofertas de produtos fáceis de usar. Os participantes iniciais do mercado, como empresas de computação em nuvem e mineradores, estão bem posicionados para aproveitar esta oportunidade.
Com limites baixos de produtos e capacidades de lançamento rápido, plataformas estabelecidas como Render Network e Akash Network demonstraram um crescimento notável e mantêm uma vantagem competitiva.
No entanto, os novos entrantes no mercado enfrentam desafios com a homogeneidade do produto. A tendência atual e as barreiras de entrada baixas levaram a uma inundação de projetos focados no poder de computação compartilhado e no arrendamento. Embora essas ofertas careçam de diferenciação, há uma necessidade crescente de vantagens competitivas distintas.
Os fornecedores geralmente visam clientes com requisitos básicos de computação. Por exemplo, a Render Network especializa-se em serviços de renderização, enquanto a Akash Network oferece recursos de CPU aprimorados. Embora o leasing de recursos de computação simples seja suficiente para tarefas básicas de IA, ele não atende às necessidades abrangentes de processos complexos de IA, como treinamento, ajuste fino e inferência.

Oferecendo serviços de fluxo de trabalho de computação descentralizada e aprendizado de máquina, inúmeros projetos emergentes recentemente garantiram financiamento substancial, incluindo Gensyn, io.net, Ritual e outros.

A computação descentralizada eleva o fundamento da valoração na indústria. Como a potência de computação se destaca como o narrativa decisiva no desenvolvimento de IA, projetos enraizados na potência de computação tendem a ostentar modelos de negócios mais robustos e de alto potencial, levando a valorações mais altas em comparação com projetos puramente intermediários.
Os serviços de camada intermediária estabelecem vantagens distintas. Os serviços oferecidos pela camada intermediária servem como vantagens competitivas para estas infraestruturas de computação, abrangendo funções como oráculos e verificadores que facilitam a sincronização de cálculos on e off-chain na cadeia de IA, ferramentas de implementação e gestão que suportam o fluxo de trabalho geral de IA, e muito mais. O fluxo de trabalho de IA é caracterizado por colaboração, feedback contínuo e alta complexidade, necessitando de potência de computação em várias fases. Portanto, uma camada de middleware que seja amigável ao usuário, altamente colaborativa e capaz de atender às necessidades intrincadas dos desenvolvedores de IA surge como um ativo competitivo, particularmente no domínio Web3, atendendo às necessidades dos desenvolvedores de Web3 para IA. Estes serviços são mais adequados para mercados potenciais de aplicações de IA, indo além do suporte de computação básica.
As equipas de projetos com experiência profissional em operação e manutenção de campo ML são geralmente essenciais. As equipas que oferecem serviços de nível médio devem possuir uma compreensão abrangente de todo o fluxo de trabalho de ML para abordar eficazmente os requisitos do ciclo de vida completo dos programadores. Embora tais serviços frequentemente aproveitem frameworks e ferramentas open-source existentes sem exigir inovação técnica significativa, exigem uma equipa com experiência extensiva e capacidades de engenharia robustas, servindo como uma vantagem competitiva para o projeto.

Oferecendo serviços a preços mais competitivos do que os serviços centralizados de computação em nuvem, mantendo instalações de suporte e experiências de usuário comparáveis, este projeto tem obtido reconhecimento de investidores proeminentes. No entanto, a complexidade técnica aumentada representa um desafio significativo. Atualmente, o projeto está na fase narrativa e de desenvolvimento, sem qualquer produto totalmente lançado até o momento.

Projeto representativo

1. Rede Render

Render Network é uma plataforma global de renderização baseada em blockchain que aproveita GPUs distribuídas para oferecer serviços de renderização 3D eficientes e econômicos aos criadores. Após a confirmação dos resultados da renderização pelo criador, a rede blockchain envia recompensas de tokens para os nós. A plataforma apresenta uma rede distribuída de escalonamento e alocação de GPU, atribuindo tarefas com base no uso do nó, reputação e outros fatores para otimizar a eficiência computacional, minimizar recursos ociosos e reduzir despesas.

O token nativo da plataforma, RNDR, serve como moeda de pagamento dentro do ecossistema. Os utilizadores podem utilizar o RNDR para liquidar as taxas de serviço de renderização, enquanto os prestadores de serviços ganham recompensas RNDR ao contribuir com poder computacional para completar tarefas de renderização. O preço dos serviços de renderização é ajustado dinamicamente em resposta à utilização atual da rede e a outras métricas relevantes.

A renderização prova ser um caso de uso bem adequado e estabelecido para a arquitetura de potência de computação distribuída. A natureza das tarefas de renderização permite a sua segmentação em múltiplas subtarefas executadas em paralelo, minimizando a comunicação e interação entre tarefas. Esta abordagem mitiga as desvantagens da arquitetura de computação distribuída, ao mesmo tempo que aproveita a extensa rede de nós de GPU para impulsionar a eficiência de custos.

A procura pela Render Network é substancial, tendo os utilizadores processado mais de 16 milhões de frames e quase 500.000 cenas na plataforma desde a sua criação em 2017. O volume de trabalhos de renderização e nós ativos continua a aumentar. Além disso, no primeiro trimestre de 2023, a Render Network introduziu um conjunto de ferramentas de IA de Estabilidade integradas nativamente, permitindo aos utilizadores incorporar operações de Difusão Estável. Esta expansão para além das operações de renderização significa uma jogada estratégica no domínio das aplicações de IA.

2.Gensyn.ai

Gensyn opera como uma rede global de clusters de supercomputação especializada em computação de aprendizado profundo, utilizando o protocolo L1 da Polkadot. Em 2023, a plataforma garantiu $43 milhões em financiamento da Série A, liderado pela a16z. A estrutura arquitetural do Gensyn vai além do cluster de potência computacional distribuída da infraestrutura para abranger um sistema de verificação de camada superior. Este sistema garante que cálculos extensivos off-chain estejam alinhados com os requisitos on-chain através da verificação blockchain, estabelecendo uma rede de aprendizado de máquina sem confiança.

No que diz respeito à potência de computação distribuída, o Gensyn acomoda uma variedade de dispositivos, desde centros de dados com capacidade excedente até laptops pessoais com potenciais GPUs. Ele une esses dispositivos em um cluster virtual unificado acessível aos desenvolvedores para uso ponto a ponto sob demanda. O Gensyn tem como objetivo estabelecer um mercado onde os preços são ditados pelas forças de mercado, promovendo a inclusividade e permitindo que os custos de computação de ML atinjam níveis equitativos.

O sistema de verificação assume-se como um conceito fundamental para Gensyn, visando validar a precisão das tarefas de aprendizagem de máquinas conforme especificado. Introduz uma abordagem inovadora de verificação que engloba prova de aprendizagem probabilística, protocolo de posicionamento preciso baseado em gráficos e Truebit. Essas características técnicas essenciais do jogo de incentivo oferecem eficiência aprimorada em comparação com os métodos tradicionais de validação blockchain. Os participantes da rede incluem submissões, solucionadores, verificadores e denunciantes, facilitando coletivamente o processo de verificação.

Com base nos extensos dados de teste detalhados no white paper do protocolo Gensyn, as vantagens notáveis da plataforma incluem:

Redução de custos na formação de modelos de IA: O protocolo Gensyn oferece uma computação equivalente à NVIDIA V100 a um custo estimado de cerca de $0.40 por hora, apresentando uma economia de custos de 80% em comparação com a computação sob demanda da AWS.
Eficiência aprimorada na Rede de Verificação sem Confiança: Os resultados dos testes descritos no white paper indicam uma melhoria significativa no tempo de treinamento do modelo utilizando o protocolo Gensyn. O overhead de tempo teve um aprimoramento notável de 1.350% em comparação com a replicação do Truebit e uma melhoria extraordinária de 2.522.477% em comparação com o Ethereum.

No entanto, em simultâneo, o poder computacional distribuído introduz um aumento inevitável no tempo de treino em comparação com o treino local, atribuído aos desafios de comunicação e rede. Com base nos dados de teste, o protocolo Gensyn incorre aproximadamente em 46% de sobrecarga de tempo no treino do modelo.

3. rede Akash

A rede Akash funciona como uma plataforma de computação em nuvem distribuída que integra vários elementos técnicos para permitir aos utilizadores implementar e gerir eficientemente aplicações num ambiente de nuvem descentralizada. Em essência, oferece aos utilizadores a capacidade de arrendar recursos de computação distribuída.

No centro da Akash encontra-se uma rede de fornecedores de serviços de infraestrutura dispersos globalmente, oferecendo recursos de CPU, GPU, memória e armazenamento. Estes fornecedores disponibilizam recursos para arrendamento de utilizadores através do cluster superior do Kubernetes. Os utilizadores podem implementar aplicações como contentores Docker para aproveitar os serviços de infraestrutura económicos. Além disso, a Akash implementa uma abordagem de "leilão invertido" para reduzir ainda mais os preços dos recursos. Segundo estimativas no site oficial da Akash, os custos de serviço da plataforma são aproximadamente 80% inferiores aos dos servidores centralizados.

4.io.net

io.net permanece como uma rede de computação descentralizada que interliga GPUs distribuídos globalmente para fornecer suporte computacional para treinamento e raciocínio de modelos de IA. Recentemente concluindo uma rodada de financiamento da Série A de $30 milhões, a plataforma agora ostenta uma avaliação de $1 bilhão.

Distinguido de plataformas como Render e Akash, io.net surge como uma rede de computação descentralizada robusta e escalável, intimamente ligada a múltiplos níveis de ferramentas de desenvolvedor. Suas principais características incluem:

Agregação de Recursos de Computação Diversificados: Acesso a GPUs de centros de dados independentes, mineradores de criptomoedas e projetos como Filecoin e Render.
Suporte principal para requisitos de IA: As capacidades de serviço essenciais abrangem inferência em lote e servir modelos, treino paralelo, ajuste de hiperparâmetros e aprendizagem por reforço.
Pilha de Tecnologia Avançada para Fluxos de Trabalho do Ambiente Cloud Aprimorado: Abrangendo uma variedade de ferramentas de orquestração, estruturas de ML para alocação de recursos de computação, execução de algoritmos, treinamento de modelos, operações de inferência, soluções de armazenamento de dados, monitoramento de GPU e ferramentas de gestão.
Capacidades de Computação Paralela: Integração do Ray, um framework de computação distribuída de código aberto, aproveitando o paralelismo inerente do Ray para paralelizar facilmente funções Python para execução dinâmica de tarefas. O seu armazenamento em memória facilita a partilha rápida de dados entre tarefas, eliminando atrasos de serialização. Além disso, o io.net estende-se para além do Python ao integrar outros frameworks de ML proeminentes como PyTorch e TensorFlow, melhorando a escalabilidade.

Em relação aos preços, o site oficial io.net estima que suas taxas serão aproximadamente 90% mais baixas do que as dos serviços de computação em nuvem centralizados.

Além disso, o token nativo da io.net, IO coin, servirá principalmente como mecanismo de pagamento e recompensas dentro do ecossistema. Alternativamente, os demandantes podem adotar um modelo semelhante ao da Helium convertendo o IO coin na moeda estável “pontos IOSD” para transações.

Aviso legal:

Este artigo é reimpresso de [Blockchain Wanxiang], o título original é "AI+Web3 Futuro Desenvolvimento Estrada (2) ): Infraestrutura", os direitos autorais pertencem ao autor original [Wanxiang Blockchain]. Se houver objeções a esta reimpressão, por favor entre em contato com o Gate Equipa Learne eles vão lidar com isso prontamente.
Aviso de responsabilidade: As opiniões expressas neste artigo são exclusivamente as do autor e não constituem qualquer conselho de investimento.
As traduções do artigo para outros idiomas são feitas pela equipa Gate Learn. Sem mencionar Gate.io, o artigo traduzido não pode ser reproduzido, distribuído ou plagiado.

Partilhar

Conteúdos