A inteligência artificial está a evoluir de uma aprendizagem estatística centrada em « ajuste de padrões » para um sistema de capacidades baseado em « raciocínio estruturado », com a importância do pós-treinamento a aumentar rapidamente. A chegada do DeepSeek-R1 marca uma viragem paradigmática na aprendizagem por reforço na era dos grandes modelos, consolidando um consenso na indústria: o pré-treinamento constrói a base de capacidades universais do modelo, enquanto o reforço não é mais apenas uma ferramenta de alinhamento de valores, mas uma metodologia comprovada para melhorar sistematicamente a qualidade das cadeias de raciocínio e a tomada de decisões complexas, evoluindo gradualmente para uma via tecnológica de melhoria contínua da inteligência.
Ao mesmo tempo, o Web3 está a reestruturar as relações de produção de IA através de redes descentralizadas de computação e sistemas de incentivos criptográficos, e as necessidades estruturais do reforço — amostragem de rollout, sinais de recompensa e treino verificável — encaixam-se naturalmente na colaboração de poder computacional, distribuição de incentivos e execução verificável do blockchain. Este relatório analisa sistematicamente os paradigmas de treino de IA e os princípios das tecnologias de reforço, demonstra as vantagens estruturais do reforço × Web3, e analisa projetos como Prime Intellect, Gensyn, Nous Research, Gradient, Grail e Fraction AI.
As três fases do treino de IA: pré-treinamento, ajuste por instruções e alinhamento pós-treinamento
O ciclo de vida do treino de grandes modelos de linguagem (LLM) é geralmente dividido em três fases principais: pré-treinamento, ajuste supervisionado (SFT) e pós-treinamento (Post-training/RL). Cada uma desempenha funções distintas — « construção de modelos do mundo, injeção de capacidades específicas, e formação de raciocínio e valores » —, sendo que a sua estrutura computacional, requisitos de dados e dificuldades de validação determinam o grau de descentralização possível.
· Pré-treinamento (Pre-training): através de aprendizagem auto-supervisionada em larga escala, constrói a estrutura estatística da linguagem e o modelo de mundo multimodal, sendo a base das capacidades do LLM. Requer treinar em corpus de trilhões de palavras de forma global e sincronizada, usando clusters homogéneos de milhares a dezenas de milhares de GPUs H100, com custos que podem atingir 80–95%, sendo altamente sensível à largura de banda e direitos de dados, o que obriga a realizar-se em ambientes altamente centralizados.
· Ajuste (Supervised Fine-tuning): para injetar capacidades específicas e formatos de instruções, com menor volume de dados e custos de cerca de 5–15%. Pode envolver treino de todos os parâmetros ou métodos de ajuste eficiente (PEFT), como LoRA, Q-LoRA e Adapter, que são os principais na indústria. Ainda assim, requer sincronização de gradientes, limitando o potencial de descentralização.
· Pós-treinamento (Post-training): composto por múltiplas subfases iterativas que determinam a capacidade de raciocínio, valores e limites de segurança do modelo. Inclui sistemas de aprendizagem por reforço (RLHF, RLAIF, GRPO), métodos de otimização de preferências sem RL (DPO), e modelos de recompensa de processo (PRM). Esta fase consome menos dados e custos (5–10%), concentrando-se em rollout e atualização de estratégias, suportando naturalmente execução assíncrona e distribuída, sem necessidade de possuir o peso completo do modelo, combinando computação verificável e incentivos na cadeia, formando uma rede de treino descentralizada ideal para Web3.
Visão geral das tecnologias de reforço: arquitetura, quadros e aplicações
Arquitetura do sistema de reforço e componentes essenciais
O reforço (Reinforcement Learning, RL) impulsiona a melhoria autónoma do modelo através de « interação com o ambiente — feedback de recompensa — atualização de estratégia », formando um ciclo de feedback composto por estado, ação, recompensa e política. Um sistema completo de RL normalmente inclui três componentes: Policy (rede de estratégia), Rollout (amostragem de experiência) e Learner (atualizador de estratégia). A interação entre política e ambiente gera trajetórias, que o Learner usa para atualizar a estratégia, formando um ciclo contínuo de otimização:
Rede de estratégia (Policy): gera ações a partir do estado do ambiente, sendo o núcleo decisório do sistema. Durante treino, requer retropropagação centralizada para manter coerência; na inferência, pode distribuir-se por diferentes nós para execução paralela.
Amostragem de experiência (Rollout): nós executam interações com o ambiente usando a estratégia, gerando trajetórias de estado-ação-recompensa. Este processo é altamente paralelo, com comunicação mínima, e não sensível às diferenças de hardware, sendo ideal para expansão descentralizada.
Aprendiz (Learner): agrega todas as trajetórias de rollout e executa atualizações de gradiente, sendo o módulo com maior exigência de poder computacional e largura de banda, geralmente centralizado ou ligeiramente centralizado para garantir estabilidade de convergência.
Quadro do ciclo de reforço (RLHF → RLAIF → PRM → GRPO)
O reforço divide-se normalmente em cinco fases, com o seguinte fluxo:
Fase de geração de dados (Exploração de estratégia)
Sob uma dada instrução, o modelo de estratégia πθ gera múltiplas cadeias de raciocínio ou trajetórias completas, fornecendo amostras para avaliação de preferências e modelagem de recompensas, determinando a amplitude da exploração da estratégia.
Fase de feedback de preferência (RLHF / RLAIF)
· RLHF: através de múltiplas respostas candidatas, marcações humanas de preferência, treino de modelos de recompensa (RM) e otimização com PPO, ajusta a saída do modelo para alinhar com valores humanos, sendo uma etapa-chave do GPT-3.5 → GPT-4.
· RLAIF: substitui a marcação manual por juízes de IA ou regras de constituição, automatizando a obtenção de preferências, reduzindo custos e permitindo escalabilidade, sendo a principal abordagem de alinhamento de Anthropic, OpenAI, DeepSeek, entre outros.
Fase de modelagem de recompensa (Reward Modeling)
Treina-se um modelo de recompensa para avaliar a qualidade da resposta final, aprendendo a mapear a saída para uma recompensa. RM ensina ao modelo « qual é a resposta correta », PRM ensina « como raciocinar corretamente ».
· RM: avalia a qualidade da resposta final, atribuindo pontuações apenas ao output.
· PRM (Process Reward Model): avalia cada passo de raciocínio, cada token, cada segmento lógico, pontuando o processo de raciocínio, sendo uma tecnologia-chave do DeepSeek-R1 e OpenAI o1 — essencialmente, «ensinando o modelo a pensar».
Fase de validação da recompensa (RLVR / Verificabilidade da recompensa)
Durante a geração e uso do sinal de recompensa, introduz-se « restrições verificáveis » para que a recompensa provenha de regras, factos ou consensos reproduzíveis, reduzindo riscos de manipulação de recompensa (reward hacking) e enviesamentos, e aumentando a auditabilidade e escalabilidade em ambientes abertos.
Fase de otimização de estratégia (Policy Optimization)
Atualiza-se a estratégia θ com base no sinal do modelo de recompensa, para obter uma política πθ′ com raciocínio mais forte, maior segurança e comportamento mais estável. As principais técnicas incluem:
· PPO (Proximal Policy Optimization): otimizador clássico do RLHF, conhecido pela estabilidade, mas com limitações em tarefas de raciocínio complexo, como convergência lenta.
· GRPO (Group Relative Policy Optimization): inovação do DeepSeek-R1, modela a vantagem dentro de grupos de respostas para estimar o valor esperado, sem ordenação simples. Mantém a amplitude de recompensa, sendo mais estável e adequado para cadeias de raciocínio, considerado uma estrutura de otimização de reforço importante para cenários de raciocínio profundo.
· DPO (Direct Preference Optimization): método de pós-treinamento sem RL, que não gera trajetórias nem modelos de recompensa, otimizando diretamente sobre preferências, de baixo custo e resultados estáveis, amplamente usado em alinhamento de modelos open-source como Llama, Gemma, mas sem melhorar o capacidade de raciocínio.
Fase de implantação de nova política (Deployment)
O modelo otimizado apresenta maior capacidade de geração de cadeias de raciocínio (System-2 Reasoning), comportamentos mais alinhados com preferências humanas ou de IA, menor taxa de alucinações e maior segurança. Através de iterações contínuas, o modelo aprende preferências, otimiza processos e melhora a tomada de decisão, formando um ciclo fechado.
Aplicações industriais do reforço: cinco categorias principais
O RL evoluiu de um domínio de jogos para um quadro de decisão autónoma em múltiplas indústrias, com aplicações que, consoante a maturidade tecnológica e implementação, podem ser agrupadas em cinco categorias, impulsionando avanços-chave em cada uma:
· Jogos e estratégias (Game & Strategy): o campo mais antigo de validação do RL, demonstrado em AlphaGo, AlphaZero, AlphaStar, OpenAI Five, com ambientes de « informação perfeita + recompensas claras », mostrando decisões comparáveis ou superiores às de humanos, base para algoritmos atuais.
· Robótica e IA incorporada (Embodied AI): através de controlo contínuo, modelagem de dinâmica e interação com o ambiente, permite aprendizagem de manipulação, controlo de movimento e tarefas multimodais (ex. RT-2, RT-X), avançando rapidamente para a industrialização, sendo a via principal para robôs no mundo real.
· Raciocínio digital (Digital Reasoning / System-2 de LLM): combina RL + PRM para mover grandes modelos de « imitação de linguagem » para « raciocínio estruturado », com exemplos como DeepSeek-R1, OpenAI o1/o3, Anthropic Claude e AlphaGeometry, otimizando a cadeia de raciocínio ao nível de recompensa, não apenas a avaliação da resposta final.
· Descoberta científica e otimização matemática (Scientific Discovery): RL encontra estruturas ou estratégias ótimas em espaços de busca complexos e sem etiquetas, com avanços como AlphaTensor, AlphaDev, Fusion RL, demonstrando capacidades de exploração que superam a intuição humana.
· Decisão económica e sistemas de trading (Economic Decision-making & Trading): otimização de estratégias, controlo de risco de alta dimensão e geração de sistemas de trading adaptativos, mais eficazes em ambientes incertos, constituindo uma componente fundamental do finanças inteligente.
A compatibilidade natural do reforço com Web3
A forte afinidade entre RL e Web3 advém do facto de ambos serem « sistemas impulsionados por incentivos ». O RL depende de sinais de recompensa para otimizar estratégias, enquanto a blockchain usa incentivos económicos para coordenar comportamentos, formando uma compatibilidade de mecanismo natural. As necessidades centrais do RL — amostragem massiva heterogénea de rollout, distribuição de recompensas e validação verificável — encaixam-se perfeitamente nas vantagens estruturais do Web3.
Separação entre raciocínio e treino
O ciclo de treino de RL pode ser claramente dividido em duas fases:
· Rollout (exploração e amostragem): o modelo gera grandes volumes de dados com base na estratégia atual, uma tarefa intensiva em cálculo, mas com comunicação escassa. Não requer comunicação frequente entre nós, sendo ideal para execução paralela em GPUs de consumo distribuídas globalmente.
· Atualização (parâmetros): com os dados recolhidos, atualiza-se o peso do modelo num nó centralizado de alta largura de banda.
A « separação entre raciocínio e treino » encaixa-se naturalmente na estrutura descentralizada de poder computacional heterogéneo: a amostragem pode ser externalizada para redes abertas, com recompensas por tokens baseadas na contribuição, enquanto a atualização do modelo permanece centralizada para garantir estabilidade.
Verificabilidade (Verifiability)
Tecnologias como ZK e Proof-of-Learning oferecem meios de verificar se os nós realmente executaram o raciocínio, resolvendo o problema de honestidade em redes abertas. Em tarefas de código e raciocínio matemático, os verificadores podem apenas conferir a resposta, aumentando significativamente a confiança na descentralização do sistema RL.
Camada de incentivos, baseada em mecanismos de retorno por tokens
O sistema de tokens do Web3 pode recompensar diretamente contribuições de feedback de preferência em RLHF/RLAIF, tornando a geração de dados de preferência transparente, verificável e sem necessidade de permissão, formando uma estrutura de incentivos eficiente. Staking e slashing reforçam a qualidade do feedback, criando um mercado de feedback mais alinhado e eficiente do que o crowdsourcing tradicional.
Potencial do aprendizagem por reforço multiagente (MARL)
A blockchain, por ser um ambiente público, transparente e em contínua evolução, constitui um ambiente multiagente aberto, onde contas, contratos e agentes ajustam estratégias sob incentivos, tendo potencial para criar grandes laboratórios de MARL. Apesar de ainda estar na fase inicial, as suas características de transparência, execução verificável e programação de incentivos oferecem vantagens fundamentais para o desenvolvimento futuro do MARL.
Análise de projetos clássicos de Web3 + reforço
Com base na estrutura acima, analisamos brevemente os projetos mais representativos do ecossistema atual:
Prime Intellect: paradigma de RL assíncrono prime-rl
Prime Intellect visa criar um mercado global de computação aberto, reduzir barreiras ao treino, promover treino descentralizado colaborativo, e desenvolver uma stack de IA de código aberto completa. Inclui: Prime Compute (infraestrutura de nuvem/distribuída), a família de modelos INTELLECT (10B–100B+), o centro de ambientes de RL (Environments Hub), e o motor de dados sintéticos (SYNTHETIC-1/2).
A infraestrutura principal, prime-rl, foi desenhada especificamente para ambientes assíncronos e distribuídos, com componentes como o protocolo de comunicação OpenDiLoCo, que supera gargalos de largura de banda, e o mecanismo de verificação TopLoc, que garante integridade computacional.
Componentes principais do prime-rl
Fundamentos tecnológicos: estrutura de RL assíncrona prime-rl
O prime-rl é o motor de treino central do Prime Intellect, desenhado para grandes escalas assíncronas e descentralizadas, usando Actor–Learner totalmente desacoplados para alta taxa de throughput e atualização estável. Os executores (Rollout Workers) e o treinador (Trainer) operam de forma assíncrona, podendo os nós entrar ou sair a qualquer momento, bastando manter a estratégia atualizada e enviar os dados gerados:
· Executor (Actor): responsável pela inferência do modelo e geração de dados. Inovadormente, integra o motor de inferência vLLM na ponta do Actor, usando a tecnologia PagedAttention e processamento contínuo (Continuous Batching) para gerar trajetórias de raciocínio com altíssima taxa de throughput.
· Treinador (Learner): responsável pela otimização da estratégia, busca os dados no buffer de experiência de forma assíncrona, atualizando os parâmetros sem esperar por todos os atores.
· Orquestrador (Orchestrator): coordena a troca de pesos e fluxo de dados.
Inovações principais do prime-rl
· Assíncrono verdadeiro (True Asynchrony): elimina a necessidade de sincronização com PPO tradicional, não esperando por nós lentos, permitindo que qualquer GPU participe a qualquer momento, viabilizando RL descentralizado.
· Integração profunda com FSDP2 e MoE: usando particionamento de parâmetros FSDP2 e ativação esparsa via MoE, permite treinar modelos de centenas de bilhões de parâmetros de forma eficiente, com atores ativando apenas especialistas ativos, reduzindo custos de memória e inferência.
· GRPO+ (Group Relative Policy Optimization): sem critic, reduzindo custos de cálculo e memória, adequado a ambientes assíncronos, garantindo convergência estável mesmo com altas latências, sendo uma evolução do PPO para raciocínio profundo.
Família de modelos INTELLECT: marco de maturidade de RL descentralizado
· INTELLECT-1 (10B, outubro 2024): demonstra que o OpenDiLoCo consegue treinar eficientemente em redes heterogéneas de três continentes (uso de menos de 2% de comunicação, 98% de utilização de poder computacional), quebrando barreiras geográficas.
· INTELLECT-2 (32B, abril 2025): primeiro modelo de RL permissionless, validando a estabilidade do prime-rl e do GRPO+ em ambientes assíncronos e com múltiplos passos de atraso, permitindo participação global descentralizada.
· INTELLECT-3 (106B MoE, novembro 2025): arquitetura esparsa ativando apenas 12B de parâmetros, treinado em 512×H200, com desempenho de ponta em raciocínio (AIME 90.8%, GPQA 74.4%, MMLU-Pro 81.9%), aproximando-se ou superando modelos centralizados de maior escala.
Além disso, a Prime Intellect construiu infraestruturas de suporte como o OpenDiLoCo, que reduz a comunicação entre regiões em centenas de vezes, mantendo 98% de utilização na rede de três continentes; TopLoc + Verifiers, uma camada descentralizada de execução confiável; e o motor de dados SYNTHETIC, que produz cadeias de raciocínio de alta qualidade em larga escala, permitindo que modelos de 671B rodem eficientemente em clusters de GPUs de consumo. Estes componentes formam a base de engenharia para geração, validação e throughput de raciocínio descentralizado, demonstrando que a stack tecnológica pode produzir modelos de classe mundial, marcando a entrada prática do treino descentralizado.
Gensyn: núcleo de RL com RL Swarm e SAPO
Gensyn visa agregar poder computacional ocioso global numa infraestrutura aberta, sem confiança e escalável, com camada de execução padronizada, rede ponto-a-ponto e sistema de validação de tarefas sem confiança, usando contratos inteligentes para distribuir tarefas e recompensas. Para o reforço, introduz mecanismos como RL Swarm, SAPO e SkipPipe, que desacoplam geração, avaliação e atualização, usando GPU heterogénea global para evolução coletiva. O produto final não é apenas poder computacional, mas « inteligência verificável » (Verifiable Intelligence).
Aplicações de RL na stack Gensyn
RL Swarm: motor de RL colaborativo descentralizado
RL Swarm apresenta um novo modo de colaboração, não apenas distribuição de tarefas, mas um ciclo descentralizado de « geração — avaliação — atualização » inspirado na aprendizagem social humana, num ciclo infinito:
· Solvers (executores): responsáveis por inferência local e geração de rollout, com nós heterogéneos. Gensyn integra motores de inferência de alta taxa (como CodeZero), capazes de gerar trajetórias completas, não apenas respostas.
· Proposers (proponentes): geram tarefas dinamicamente (ex. problemas matemáticos, código), suportando diversidade e dificuldade adaptativa tipo Curriculum Learning.
· Evaluators (avaliadores): usam modelos de julgamento congelados ou regras para avaliar rollouts locais, gerando sinais de recompensa locais. O processo é auditável, reduzindo possibilidades de má conduta.
Estes três componentes formam uma estrutura P2P de RL, sem necessidade de orquestração centralizada.
SAPO: algoritmo de otimização de estratégia para descentralização
SAPO (Swarm Sampling Policy Optimization) baseia-se em « amostragem de rollout compartilhada e filtragem de amostras sem sinal de gradiente », usando amostragem massiva descentralizada e considerando rollouts como geração local, mantendo estabilidade mesmo com alta latência e ausência de coordenação central. Em comparação com PPO, que depende de critic e tem custos elevados, ou GRPO, que usa vantagem intra-grupo, SAPO usa largura de banda mínima, permitindo que GPUs de consumo participem eficazmente na otimização de RL em larga escala.
Por meio de RL Swarm e SAPO, Gensyn demonstra que RL (especialmente na fase de pós-treinamento RLVR) é naturalmente compatível com arquiteturas descentralizadas — pois depende mais de exploração massiva e diversificada (rollout) do que de sincronização frequente de parâmetros. Com sistemas de validação como PoL e Verde, Gensyn oferece uma alternativa à dependência de grandes corporações, formando uma rede autoevolutiva de inteligência com milhões de GPUs heterogéneas.
Nous Research: ambiente verificável de RL Atropos
Nous Research constrói uma infraestrutura cognitiva descentralizada e autoevolutiva, com componentes como Hermes, Atropos, DisTrO, Psyche e World Sim, formando um ciclo contínuo de evolução inteligente. Diferente do fluxo linear « pré-treinamento — pós-treinamento — raciocínio », usa técnicas de RL como DPO, GRPO e rejeição de amostras para unificar geração de dados, validação, aprendizagem e raciocínio, criando um ecossistema de IA autoaperfeiçoável.
Visão geral dos componentes de Nous
Camada de modelos: Hermes e evolução do raciocínio
Hermes é a interface principal de modelos de Nous, mostrando a transição do alinhamento por DPO para RL de raciocínio (Reasoning RL):
· Hermes 1–3: alinhamento por instruções e capacidades iniciais, usando DPO de baixo custo, com Hermes 3 a incorporar dados sintéticos e o mecanismo Atropos.
· Hermes 4 / DeepHermes: incorpora raciocínio de « raciocínio lento » (System-2) na weight, usando Test-Time Scaling para melhorar desempenho matemático e de código, com rejeição de amostras e Atropos para construir dados de alta pureza.
· DeepHermes substitui PPO por GRPO, permitindo RL de raciocínio em redes descentralizadas Psyche, criando base para escalabilidade de RL de raciocínio aberto.
Atropos: ambiente verificável de RL com recompensa
Atropos é o núcleo do sistema RL de Nous. Encapsula prompts, chamadas a ferramentas, execução de código e interações múltiplas num ambiente RL padronizado, verificável, que pode validar se a saída está correta, substituindo marcações humanas caras e não escaláveis. No sistema descentralizado Psyche, Atropos atua como « juiz », verificando se os nós realmente melhoraram a estratégia, suportando provas verificáveis de aprendizagem (Proof-of-Learning), resolvendo a questão da confiança na recompensa distribuída.
DisTrO e Psyche: camada de otimização descentralizada
Treino RL tradicional (RLF, RLHF/RLAIF) depende de clusters centralizados de alta largura de banda, uma barreira difícil de replicar open-source. DisTrO usa desacoplamento de momento e compressão de gradiente para reduzir custos de comunicação em várias ordens de magnitude, permitindo treino na largura de banda da internet; Psyche implementa este mecanismo na cadeia, permitindo que os nós façam inferência, validação, avaliação de recompensa e atualização localmente, formando um ciclo completo de RL.
Na arquitetura de Nous, Atropos verifica cadeias de raciocínio; DisTrO comprime comunicação; Psyche executa o ciclo de RL; World Sim fornece ambientes complexos; Forge recolhe raciocínios reais; Hermes integra tudo num sistema vivo de autoaperfeiçoamento contínuo.
Gradient Network: arquitetura de RL Echo
O objetivo do Gradient é reestruturar o paradigma de IA através de um « Open Intelligence Stack », uma pilha de protocolos que evoluem de forma independente e colaborativa. Desde comunicação distribuída (Parallax), treino assíncrono (Echo), rede P2P (Lattica), até mecanismos de memória, segurança, validação (VeriLLM), e simulação de alta fidelidade (Mirage), a stack forma uma infraestrutura descentralizada de inteligência em evolução contínua.
Echo — arquitetura de treino de RL
Echo desacopla o treino, raciocínio e dados (sinais de recompensa), permitindo que geração de rollout, otimização de estratégia e avaliação de recompensa operem de forma independente e escalável em ambientes heterogéneos. Com uma rede de nós de inferência e treino, usa mecanismos leves de sincronização para manter a estabilidade, mitigando problemas de uso de GPU e de execução mista em DeepSpeed RLHF / VERL.
Adota uma arquitetura « dual de grupos de raciocínio e treino » para maximizar o uso de poder computacional, com grupos independentes que operam sem bloqueios:
· Maximize throughput de amostragem: o grupo de inferência (Inference Swarm), composto por GPUs de consumo e dispositivos de borda, usa Parallax para construir um pipeline paralelo de alta taxa de amostragem, focado na geração de trajetórias;
· Maximize poder de gradiente: o grupo de treino (Training Swarm), composto por GPUs de cluster ou de várias regiões, realiza atualização de gradiente, sincronização de parâmetros e microajustes com LoRA, focado na aprendizagem.
Para manter coerência entre estratégia e dados, Echo oferece protocolos leves de sincronização sequencial (Pull) e assíncrona (Push–Pull):
· Pull sequencial: o lado de treino força a atualização do modelo antes de puxar novas trajetórias, garantindo frescura, ideal para tarefas sensíveis à estratégia desatualizada;
· Push–Pull assíncrono: o lado de inferência gera trajetórias com tags de versão continuamente, o treino consome no seu ritmo, e o orquestrador monitora desvios de versão e aciona atualizações, maximizando uso de recursos.
Na base, Echo usa Parallax (inferência heterogênea de baixa largura de banda) e componentes leves de treino distribuído (como VERL), com LoRA para reduzir custos de sincronização entre nós, permitindo RL estável em redes heterogéneas globais.
Grail: ecossistema Bittensor de RL
GRAIL, através do seu mecanismo de consenso Yuma, constrói uma vasta rede de funções de recompensa esparsas e não estacionárias.
No ecossistema Bittensor, a cadeia de valor inclui o Covenant AI, com SN3 Templar, SN39 Basilica e SN81 Grail, formando uma pipeline vertical de pré-treinamento a pós-treinamento de RL. O SN3 Templar treina modelos básicos, o SN39 Basilica fornece mercado de poder computacional distribuído, e o SN81 Grail atua como camada de raciocínio verificável para RLHF / RLAIF, fechando o ciclo de alinhamento.
GRAIL visa provar criptograficamente a autenticidade de cada rollout de RL, vinculando-o à identidade do modelo, garantindo execução segura sem confiança. O protocolo usa três mecanismos:
Geração de desafios determinísticos: usando drand e hashes de blocos para criar tarefas imprevisíveis e reprodutíveis (ex. SAT, GSM8K), evitando trapaças pré-calculadas;
Amostragem via PRF e compromissos de esboço (sketch): permite verificar logprob e cadeias de raciocínio token a token a baixo custo, confirmando que o rollout foi gerado pelo modelo declarado;
Vinculação de identidade do modelo: assinatura estrutural do raciocínio e do peso do modelo, garantindo que qualquer substituição ou replay seja imediatamente detectado. Assim, fornece uma base de autenticidade para trajetórias de raciocínio em RL.
Com este mecanismo, o sub-rede Grail realiza um fluxo de pós-treinamento verificável ao estilo GRPO: mineradores geram múltiplas cadeias de raciocínio, verificadores avaliam a correção, qualidade e satisfação SAT, e escrevem na cadeia os resultados normalizados, que servem como pesos TAO. Experimentos públicos mostram que este sistema elevou a precisão em matemática do Qwen2.5-1.5B de 12,7% para 47,6%, demonstrando resistência a fraudes e aumento de capacidade do modelo. Na stack de treino Covenant AI, Grail é a base de confiança e execução de RLVR/RLAIF descentralizado, ainda não em produção.
Fraction AI: RL baseado em competição
Fraction AI estrutura-se em torno de « Reinforcement Learning from Competition » (RLFC) e gamificação de rotulagem, substituindo recompensas estáticas e marcações humanas por ambientes competitivos dinâmicos. Agentes enfrentam-se em diferentes « Spaces », com posições relativas e avaliações de juízes de IA formando recompensas em tempo real, transformando o alinhamento numa competição multiagente contínua.
Diferenças principais entre RLHF tradicional e Fraction AI
O valor central do RLFC é que as recompensas não vêm de um único modelo, mas de adversários e avaliadores em evolução, evitando manipulação de recompensas e promovendo diversidade de estratégias para evitar mínimos locais. A estrutura de « Spaces » define a natureza do jogo (zero-sum ou cooperativo), promovendo comportamentos complexos através de competição e cooperação.
Na arquitetura, Fraction AI divide o treino em quatro componentes principais:
· Agents: unidades de estratégia leves baseadas em LLM open-source, usando QLoRA para expansão diferencial de peso, com baixo custo de atualização;
· Spaces: ambientes de tarefas isolados, onde agentes entram mediante pagamento e recebem recompensas por vitórias ou derrotas;
· AI Judges: camada de avaliação instantânea baseada em RLAIF, escalável e descentralizada;
· Proof-of-Learning: vincula a atualização de estratégia aos resultados de competição, garantindo verificabilidade e resistência a fraudes.
A essência do Fraction AI é criar um motor de evolução colaborativa humano-máquina: o usuário atua como « meta-otimizador » (Meta-optimizer), guiando a exploração via prompts e hiperparâmetros; os agentes geram automaticamente vastas preferências de alta qualidade (Preference Pairs). Este modelo transforma a rotulagem em « fine-tuning trustless », fechando o ciclo de negócio.
Comparação de arquiteturas de projetos de RL Web3
Síntese e perspetivas: caminhos e oportunidades de RL × Web3
Da análise dos projetos, conclui-se que, apesar das diferentes abordagens (algoritmos, engenharia ou mercado), a arquitetura subjacente do RL + Web3 converge para um paradigma altamente consistente de « desacoplamento — verificação — incentivos ». Isto é, uma consequência natural da adaptação de redes descentralizadas às propriedades únicas do RL.
Características gerais da arquitetura de RL: resolução de limites físicos e de confiança
Desacoplamento de rollout e treino (Decoupling of Rollouts & Learning) — topologia de cálculo padrão
A amostragem de rollout é externalizada para GPUs de consumo global, com comunicação escassa, enquanto a atualização de parâmetros ocorre num núcleo central de alta largura de banda, como no Actor–Learner assíncrono do Prime Intellect ou na arquitetura de duplo grupo do Gradient.
Camada de confiança baseada em verificação (Verification-Driven Trust) — infraestrutura
Em redes sem permissão, a autenticidade do cálculo deve ser garantida por mecanismos matemáticos e de design de sistema, como PoL do Gensyn, TOPLOC do Prime Intellect, ou validação criptográfica do Grail.
Ciclo de incentivos tokenizados (Tokenized Incentive Loop) — mercado auto-regulado
Fornecimento de poder computacional, geração de dados, validação e distribuição de recompensas formam um ciclo, impulsionado por incentivos, com mecanismos de penalização (Slash) para evitar fraudes, mantendo a estabilidade e evolução contínua da rede.
Caminhos tecnológicos diferenciados: « avanços » sob uma arquitetura comum
Apesar da arquitetura comum, cada projeto escolhe diferentes « pontos de ruptura » com base na sua essência:
· Algoritmos inovadores (Nous Research): tentam resolver as limites físicas do treino distribuído (gargalo de largura de banda). DisTrO visa comprimir a comunicação de gradiente em milhares de vezes, permitindo treinar em redes domésticas, uma « redução dimensional » às limitações físicas.
· Engenharia de sistemas (Prime Intellect, Gensyn, Gradient): focam na construção de « runtime de IA » de próxima geração. ShardCast e Parallax são exemplos de engenharia para extrair máxima eficiência de clusters heterogéneos existentes.
· Mercado e jogo )Bittensor, Fraction AI(: concentram-se no design de funções de recompensa, incentivando mineradores a procurar estratégias ótimas, acelerando a emergência de inteligência.
Vantagens, desafios e o futuro
Na combinação de RL e Web3, as vantagens sistémicas residem na reescrita de custos e governança:
· Redefinição de custos: o pós-treinamento de RL requer amostragem ilimitada, que Web3 pode fornecer a baixo custo usando poder computacional global de cauda longa, uma vantagem difícil para cloud centralizado.
· Alinhamento soberano )Sovereign Alignment(: rompe o monopólio das grandes empresas na definição de valores de IA, permitindo que comunidades decidam por votação tokens « o que é uma boa resposta », democratizando a governança de IA.
Por outro lado, o sistema enfrenta duas restrições estruturais:
· Muralha de largura de banda )Bandwidth Wall(: apesar de inovações como DisTrO, a latência física limita o treino completo de modelos com mais de 70B de parâmetros, sendo que a IA Web3 se limita atualmente a fine-tuning e inferência.
· Lei de Goodhart )Reward Hacking(: em redes altamente incentivadas, mineradores tendem a « overfit » às regras de recompensa (pontuação), ao invés de melhorar a inteligência real. Criar recompensas robustas contra fraude é um jogo eterno.
· Ataques de nós maliciosos (Byzantine) )BYZANTINE worker(: manipulação ativa de sinais de treino e envenenamento de dados para prejudicar a convergência do modelo. O foco não é apenas projetar recompensas anti-fraude, mas construir mecanismos robustos contra adversários.
A integração de RL e Web3 é, essencialmente, uma reescrita do « como a inteligência é produzida, alinhada e distribuída ». O seu percurso evolutivo pode ser resumido em três direções complementares:
Redes descentralizadas de treino e raciocínio: desde mineradores de poder até redes de estratégia, externalizando rollout verificável para GPU de cauda longa global, inicialmente num mercado de inferência verificável, evoluindo para sub-redes de RL por tarefas;
Ativos de preferências e recompensas: de rotulagem manual a propriedade de dados, transformando feedback de alta qualidade e modelos de recompensa em ativos de governança e distribuição, evoluindo de « rotulagem » para « propriedade de dados »;
Pequenas e especializadas evoluções verticais: em cenários de resultados verificáveis e retorno quantificável, surgem agentes de RL especializados, como estratégias DeFi, geração de código, que vinculam diretamente a melhoria de estratégias e captura de valor, com potencial de superar modelos fechados e genéricos.
Em suma, as verdadeiras oportunidades de RL × Web3 não residem em criar uma versão descentralizada do OpenAI, mas em reescrever as « relações de produção de inteligência »: transformar o treino numa mercado aberto de poder computacional, fazer das recompensas e preferências ativos verificáveis na cadeia, e redistribuir o valor gerado pela IA entre treinadores, alinhadores e utilizadores, em vez de concentrar tudo numa plataforma.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
De poder de hashing à inteligência, o mapa de investimento em IA descentralizada impulsionado por aprendizagem reforçada
A inteligência artificial está a evoluir de uma aprendizagem estatística centrada em « ajuste de padrões » para um sistema de capacidades baseado em « raciocínio estruturado », com a importância do pós-treinamento a aumentar rapidamente. A chegada do DeepSeek-R1 marca uma viragem paradigmática na aprendizagem por reforço na era dos grandes modelos, consolidando um consenso na indústria: o pré-treinamento constrói a base de capacidades universais do modelo, enquanto o reforço não é mais apenas uma ferramenta de alinhamento de valores, mas uma metodologia comprovada para melhorar sistematicamente a qualidade das cadeias de raciocínio e a tomada de decisões complexas, evoluindo gradualmente para uma via tecnológica de melhoria contínua da inteligência.
Ao mesmo tempo, o Web3 está a reestruturar as relações de produção de IA através de redes descentralizadas de computação e sistemas de incentivos criptográficos, e as necessidades estruturais do reforço — amostragem de rollout, sinais de recompensa e treino verificável — encaixam-se naturalmente na colaboração de poder computacional, distribuição de incentivos e execução verificável do blockchain. Este relatório analisa sistematicamente os paradigmas de treino de IA e os princípios das tecnologias de reforço, demonstra as vantagens estruturais do reforço × Web3, e analisa projetos como Prime Intellect, Gensyn, Nous Research, Gradient, Grail e Fraction AI.
As três fases do treino de IA: pré-treinamento, ajuste por instruções e alinhamento pós-treinamento
O ciclo de vida do treino de grandes modelos de linguagem (LLM) é geralmente dividido em três fases principais: pré-treinamento, ajuste supervisionado (SFT) e pós-treinamento (Post-training/RL). Cada uma desempenha funções distintas — « construção de modelos do mundo, injeção de capacidades específicas, e formação de raciocínio e valores » —, sendo que a sua estrutura computacional, requisitos de dados e dificuldades de validação determinam o grau de descentralização possível.
· Pré-treinamento (Pre-training): através de aprendizagem auto-supervisionada em larga escala, constrói a estrutura estatística da linguagem e o modelo de mundo multimodal, sendo a base das capacidades do LLM. Requer treinar em corpus de trilhões de palavras de forma global e sincronizada, usando clusters homogéneos de milhares a dezenas de milhares de GPUs H100, com custos que podem atingir 80–95%, sendo altamente sensível à largura de banda e direitos de dados, o que obriga a realizar-se em ambientes altamente centralizados.
· Ajuste (Supervised Fine-tuning): para injetar capacidades específicas e formatos de instruções, com menor volume de dados e custos de cerca de 5–15%. Pode envolver treino de todos os parâmetros ou métodos de ajuste eficiente (PEFT), como LoRA, Q-LoRA e Adapter, que são os principais na indústria. Ainda assim, requer sincronização de gradientes, limitando o potencial de descentralização.
· Pós-treinamento (Post-training): composto por múltiplas subfases iterativas que determinam a capacidade de raciocínio, valores e limites de segurança do modelo. Inclui sistemas de aprendizagem por reforço (RLHF, RLAIF, GRPO), métodos de otimização de preferências sem RL (DPO), e modelos de recompensa de processo (PRM). Esta fase consome menos dados e custos (5–10%), concentrando-se em rollout e atualização de estratégias, suportando naturalmente execução assíncrona e distribuída, sem necessidade de possuir o peso completo do modelo, combinando computação verificável e incentivos na cadeia, formando uma rede de treino descentralizada ideal para Web3.
Visão geral das tecnologias de reforço: arquitetura, quadros e aplicações
Arquitetura do sistema de reforço e componentes essenciais
O reforço (Reinforcement Learning, RL) impulsiona a melhoria autónoma do modelo através de « interação com o ambiente — feedback de recompensa — atualização de estratégia », formando um ciclo de feedback composto por estado, ação, recompensa e política. Um sistema completo de RL normalmente inclui três componentes: Policy (rede de estratégia), Rollout (amostragem de experiência) e Learner (atualizador de estratégia). A interação entre política e ambiente gera trajetórias, que o Learner usa para atualizar a estratégia, formando um ciclo contínuo de otimização:
Quadro do ciclo de reforço (RLHF → RLAIF → PRM → GRPO)
O reforço divide-se normalmente em cinco fases, com o seguinte fluxo:
Fase de geração de dados (Exploração de estratégia)
Sob uma dada instrução, o modelo de estratégia πθ gera múltiplas cadeias de raciocínio ou trajetórias completas, fornecendo amostras para avaliação de preferências e modelagem de recompensas, determinando a amplitude da exploração da estratégia.
Fase de feedback de preferência (RLHF / RLAIF)
· RLHF: através de múltiplas respostas candidatas, marcações humanas de preferência, treino de modelos de recompensa (RM) e otimização com PPO, ajusta a saída do modelo para alinhar com valores humanos, sendo uma etapa-chave do GPT-3.5 → GPT-4.
· RLAIF: substitui a marcação manual por juízes de IA ou regras de constituição, automatizando a obtenção de preferências, reduzindo custos e permitindo escalabilidade, sendo a principal abordagem de alinhamento de Anthropic, OpenAI, DeepSeek, entre outros.
Fase de modelagem de recompensa (Reward Modeling)
Treina-se um modelo de recompensa para avaliar a qualidade da resposta final, aprendendo a mapear a saída para uma recompensa. RM ensina ao modelo « qual é a resposta correta », PRM ensina « como raciocinar corretamente ».
· RM: avalia a qualidade da resposta final, atribuindo pontuações apenas ao output.
· PRM (Process Reward Model): avalia cada passo de raciocínio, cada token, cada segmento lógico, pontuando o processo de raciocínio, sendo uma tecnologia-chave do DeepSeek-R1 e OpenAI o1 — essencialmente, «ensinando o modelo a pensar».
Fase de validação da recompensa (RLVR / Verificabilidade da recompensa)
Durante a geração e uso do sinal de recompensa, introduz-se « restrições verificáveis » para que a recompensa provenha de regras, factos ou consensos reproduzíveis, reduzindo riscos de manipulação de recompensa (reward hacking) e enviesamentos, e aumentando a auditabilidade e escalabilidade em ambientes abertos.
Fase de otimização de estratégia (Policy Optimization)
Atualiza-se a estratégia θ com base no sinal do modelo de recompensa, para obter uma política πθ′ com raciocínio mais forte, maior segurança e comportamento mais estável. As principais técnicas incluem:
· PPO (Proximal Policy Optimization): otimizador clássico do RLHF, conhecido pela estabilidade, mas com limitações em tarefas de raciocínio complexo, como convergência lenta.
· GRPO (Group Relative Policy Optimization): inovação do DeepSeek-R1, modela a vantagem dentro de grupos de respostas para estimar o valor esperado, sem ordenação simples. Mantém a amplitude de recompensa, sendo mais estável e adequado para cadeias de raciocínio, considerado uma estrutura de otimização de reforço importante para cenários de raciocínio profundo.
· DPO (Direct Preference Optimization): método de pós-treinamento sem RL, que não gera trajetórias nem modelos de recompensa, otimizando diretamente sobre preferências, de baixo custo e resultados estáveis, amplamente usado em alinhamento de modelos open-source como Llama, Gemma, mas sem melhorar o capacidade de raciocínio.
Fase de implantação de nova política (Deployment)
O modelo otimizado apresenta maior capacidade de geração de cadeias de raciocínio (System-2 Reasoning), comportamentos mais alinhados com preferências humanas ou de IA, menor taxa de alucinações e maior segurança. Através de iterações contínuas, o modelo aprende preferências, otimiza processos e melhora a tomada de decisão, formando um ciclo fechado.
Aplicações industriais do reforço: cinco categorias principais
O RL evoluiu de um domínio de jogos para um quadro de decisão autónoma em múltiplas indústrias, com aplicações que, consoante a maturidade tecnológica e implementação, podem ser agrupadas em cinco categorias, impulsionando avanços-chave em cada uma:
· Jogos e estratégias (Game & Strategy): o campo mais antigo de validação do RL, demonstrado em AlphaGo, AlphaZero, AlphaStar, OpenAI Five, com ambientes de « informação perfeita + recompensas claras », mostrando decisões comparáveis ou superiores às de humanos, base para algoritmos atuais.
· Robótica e IA incorporada (Embodied AI): através de controlo contínuo, modelagem de dinâmica e interação com o ambiente, permite aprendizagem de manipulação, controlo de movimento e tarefas multimodais (ex. RT-2, RT-X), avançando rapidamente para a industrialização, sendo a via principal para robôs no mundo real.
· Raciocínio digital (Digital Reasoning / System-2 de LLM): combina RL + PRM para mover grandes modelos de « imitação de linguagem » para « raciocínio estruturado », com exemplos como DeepSeek-R1, OpenAI o1/o3, Anthropic Claude e AlphaGeometry, otimizando a cadeia de raciocínio ao nível de recompensa, não apenas a avaliação da resposta final.
· Descoberta científica e otimização matemática (Scientific Discovery): RL encontra estruturas ou estratégias ótimas em espaços de busca complexos e sem etiquetas, com avanços como AlphaTensor, AlphaDev, Fusion RL, demonstrando capacidades de exploração que superam a intuição humana.
· Decisão económica e sistemas de trading (Economic Decision-making & Trading): otimização de estratégias, controlo de risco de alta dimensão e geração de sistemas de trading adaptativos, mais eficazes em ambientes incertos, constituindo uma componente fundamental do finanças inteligente.
A compatibilidade natural do reforço com Web3
A forte afinidade entre RL e Web3 advém do facto de ambos serem « sistemas impulsionados por incentivos ». O RL depende de sinais de recompensa para otimizar estratégias, enquanto a blockchain usa incentivos económicos para coordenar comportamentos, formando uma compatibilidade de mecanismo natural. As necessidades centrais do RL — amostragem massiva heterogénea de rollout, distribuição de recompensas e validação verificável — encaixam-se perfeitamente nas vantagens estruturais do Web3.
Separação entre raciocínio e treino
O ciclo de treino de RL pode ser claramente dividido em duas fases:
· Rollout (exploração e amostragem): o modelo gera grandes volumes de dados com base na estratégia atual, uma tarefa intensiva em cálculo, mas com comunicação escassa. Não requer comunicação frequente entre nós, sendo ideal para execução paralela em GPUs de consumo distribuídas globalmente.
· Atualização (parâmetros): com os dados recolhidos, atualiza-se o peso do modelo num nó centralizado de alta largura de banda.
A « separação entre raciocínio e treino » encaixa-se naturalmente na estrutura descentralizada de poder computacional heterogéneo: a amostragem pode ser externalizada para redes abertas, com recompensas por tokens baseadas na contribuição, enquanto a atualização do modelo permanece centralizada para garantir estabilidade.
Verificabilidade (Verifiability)
Tecnologias como ZK e Proof-of-Learning oferecem meios de verificar se os nós realmente executaram o raciocínio, resolvendo o problema de honestidade em redes abertas. Em tarefas de código e raciocínio matemático, os verificadores podem apenas conferir a resposta, aumentando significativamente a confiança na descentralização do sistema RL.
Camada de incentivos, baseada em mecanismos de retorno por tokens
O sistema de tokens do Web3 pode recompensar diretamente contribuições de feedback de preferência em RLHF/RLAIF, tornando a geração de dados de preferência transparente, verificável e sem necessidade de permissão, formando uma estrutura de incentivos eficiente. Staking e slashing reforçam a qualidade do feedback, criando um mercado de feedback mais alinhado e eficiente do que o crowdsourcing tradicional.
Potencial do aprendizagem por reforço multiagente (MARL)
A blockchain, por ser um ambiente público, transparente e em contínua evolução, constitui um ambiente multiagente aberto, onde contas, contratos e agentes ajustam estratégias sob incentivos, tendo potencial para criar grandes laboratórios de MARL. Apesar de ainda estar na fase inicial, as suas características de transparência, execução verificável e programação de incentivos oferecem vantagens fundamentais para o desenvolvimento futuro do MARL.
Análise de projetos clássicos de Web3 + reforço
Com base na estrutura acima, analisamos brevemente os projetos mais representativos do ecossistema atual:
Prime Intellect: paradigma de RL assíncrono prime-rl
Prime Intellect visa criar um mercado global de computação aberto, reduzir barreiras ao treino, promover treino descentralizado colaborativo, e desenvolver uma stack de IA de código aberto completa. Inclui: Prime Compute (infraestrutura de nuvem/distribuída), a família de modelos INTELLECT (10B–100B+), o centro de ambientes de RL (Environments Hub), e o motor de dados sintéticos (SYNTHETIC-1/2).
A infraestrutura principal, prime-rl, foi desenhada especificamente para ambientes assíncronos e distribuídos, com componentes como o protocolo de comunicação OpenDiLoCo, que supera gargalos de largura de banda, e o mecanismo de verificação TopLoc, que garante integridade computacional.
Componentes principais do prime-rl
Fundamentos tecnológicos: estrutura de RL assíncrona prime-rl
O prime-rl é o motor de treino central do Prime Intellect, desenhado para grandes escalas assíncronas e descentralizadas, usando Actor–Learner totalmente desacoplados para alta taxa de throughput e atualização estável. Os executores (Rollout Workers) e o treinador (Trainer) operam de forma assíncrona, podendo os nós entrar ou sair a qualquer momento, bastando manter a estratégia atualizada e enviar os dados gerados:
· Executor (Actor): responsável pela inferência do modelo e geração de dados. Inovadormente, integra o motor de inferência vLLM na ponta do Actor, usando a tecnologia PagedAttention e processamento contínuo (Continuous Batching) para gerar trajetórias de raciocínio com altíssima taxa de throughput.
· Treinador (Learner): responsável pela otimização da estratégia, busca os dados no buffer de experiência de forma assíncrona, atualizando os parâmetros sem esperar por todos os atores.
· Orquestrador (Orchestrator): coordena a troca de pesos e fluxo de dados.
Inovações principais do prime-rl
· Assíncrono verdadeiro (True Asynchrony): elimina a necessidade de sincronização com PPO tradicional, não esperando por nós lentos, permitindo que qualquer GPU participe a qualquer momento, viabilizando RL descentralizado.
· Integração profunda com FSDP2 e MoE: usando particionamento de parâmetros FSDP2 e ativação esparsa via MoE, permite treinar modelos de centenas de bilhões de parâmetros de forma eficiente, com atores ativando apenas especialistas ativos, reduzindo custos de memória e inferência.
· GRPO+ (Group Relative Policy Optimization): sem critic, reduzindo custos de cálculo e memória, adequado a ambientes assíncronos, garantindo convergência estável mesmo com altas latências, sendo uma evolução do PPO para raciocínio profundo.
Família de modelos INTELLECT: marco de maturidade de RL descentralizado
· INTELLECT-1 (10B, outubro 2024): demonstra que o OpenDiLoCo consegue treinar eficientemente em redes heterogéneas de três continentes (uso de menos de 2% de comunicação, 98% de utilização de poder computacional), quebrando barreiras geográficas.
· INTELLECT-2 (32B, abril 2025): primeiro modelo de RL permissionless, validando a estabilidade do prime-rl e do GRPO+ em ambientes assíncronos e com múltiplos passos de atraso, permitindo participação global descentralizada.
· INTELLECT-3 (106B MoE, novembro 2025): arquitetura esparsa ativando apenas 12B de parâmetros, treinado em 512×H200, com desempenho de ponta em raciocínio (AIME 90.8%, GPQA 74.4%, MMLU-Pro 81.9%), aproximando-se ou superando modelos centralizados de maior escala.
Além disso, a Prime Intellect construiu infraestruturas de suporte como o OpenDiLoCo, que reduz a comunicação entre regiões em centenas de vezes, mantendo 98% de utilização na rede de três continentes; TopLoc + Verifiers, uma camada descentralizada de execução confiável; e o motor de dados SYNTHETIC, que produz cadeias de raciocínio de alta qualidade em larga escala, permitindo que modelos de 671B rodem eficientemente em clusters de GPUs de consumo. Estes componentes formam a base de engenharia para geração, validação e throughput de raciocínio descentralizado, demonstrando que a stack tecnológica pode produzir modelos de classe mundial, marcando a entrada prática do treino descentralizado.
Gensyn: núcleo de RL com RL Swarm e SAPO
Gensyn visa agregar poder computacional ocioso global numa infraestrutura aberta, sem confiança e escalável, com camada de execução padronizada, rede ponto-a-ponto e sistema de validação de tarefas sem confiança, usando contratos inteligentes para distribuir tarefas e recompensas. Para o reforço, introduz mecanismos como RL Swarm, SAPO e SkipPipe, que desacoplam geração, avaliação e atualização, usando GPU heterogénea global para evolução coletiva. O produto final não é apenas poder computacional, mas « inteligência verificável » (Verifiable Intelligence).
Aplicações de RL na stack Gensyn
RL Swarm: motor de RL colaborativo descentralizado
RL Swarm apresenta um novo modo de colaboração, não apenas distribuição de tarefas, mas um ciclo descentralizado de « geração — avaliação — atualização » inspirado na aprendizagem social humana, num ciclo infinito:
· Solvers (executores): responsáveis por inferência local e geração de rollout, com nós heterogéneos. Gensyn integra motores de inferência de alta taxa (como CodeZero), capazes de gerar trajetórias completas, não apenas respostas.
· Proposers (proponentes): geram tarefas dinamicamente (ex. problemas matemáticos, código), suportando diversidade e dificuldade adaptativa tipo Curriculum Learning.
· Evaluators (avaliadores): usam modelos de julgamento congelados ou regras para avaliar rollouts locais, gerando sinais de recompensa locais. O processo é auditável, reduzindo possibilidades de má conduta.
Estes três componentes formam uma estrutura P2P de RL, sem necessidade de orquestração centralizada.
SAPO: algoritmo de otimização de estratégia para descentralização
SAPO (Swarm Sampling Policy Optimization) baseia-se em « amostragem de rollout compartilhada e filtragem de amostras sem sinal de gradiente », usando amostragem massiva descentralizada e considerando rollouts como geração local, mantendo estabilidade mesmo com alta latência e ausência de coordenação central. Em comparação com PPO, que depende de critic e tem custos elevados, ou GRPO, que usa vantagem intra-grupo, SAPO usa largura de banda mínima, permitindo que GPUs de consumo participem eficazmente na otimização de RL em larga escala.
Por meio de RL Swarm e SAPO, Gensyn demonstra que RL (especialmente na fase de pós-treinamento RLVR) é naturalmente compatível com arquiteturas descentralizadas — pois depende mais de exploração massiva e diversificada (rollout) do que de sincronização frequente de parâmetros. Com sistemas de validação como PoL e Verde, Gensyn oferece uma alternativa à dependência de grandes corporações, formando uma rede autoevolutiva de inteligência com milhões de GPUs heterogéneas.
Nous Research: ambiente verificável de RL Atropos
Nous Research constrói uma infraestrutura cognitiva descentralizada e autoevolutiva, com componentes como Hermes, Atropos, DisTrO, Psyche e World Sim, formando um ciclo contínuo de evolução inteligente. Diferente do fluxo linear « pré-treinamento — pós-treinamento — raciocínio », usa técnicas de RL como DPO, GRPO e rejeição de amostras para unificar geração de dados, validação, aprendizagem e raciocínio, criando um ecossistema de IA autoaperfeiçoável.
Visão geral dos componentes de Nous
Camada de modelos: Hermes e evolução do raciocínio
Hermes é a interface principal de modelos de Nous, mostrando a transição do alinhamento por DPO para RL de raciocínio (Reasoning RL):
· Hermes 1–3: alinhamento por instruções e capacidades iniciais, usando DPO de baixo custo, com Hermes 3 a incorporar dados sintéticos e o mecanismo Atropos.
· Hermes 4 / DeepHermes: incorpora raciocínio de « raciocínio lento » (System-2) na weight, usando Test-Time Scaling para melhorar desempenho matemático e de código, com rejeição de amostras e Atropos para construir dados de alta pureza.
· DeepHermes substitui PPO por GRPO, permitindo RL de raciocínio em redes descentralizadas Psyche, criando base para escalabilidade de RL de raciocínio aberto.
Atropos: ambiente verificável de RL com recompensa
Atropos é o núcleo do sistema RL de Nous. Encapsula prompts, chamadas a ferramentas, execução de código e interações múltiplas num ambiente RL padronizado, verificável, que pode validar se a saída está correta, substituindo marcações humanas caras e não escaláveis. No sistema descentralizado Psyche, Atropos atua como « juiz », verificando se os nós realmente melhoraram a estratégia, suportando provas verificáveis de aprendizagem (Proof-of-Learning), resolvendo a questão da confiança na recompensa distribuída.
DisTrO e Psyche: camada de otimização descentralizada
Treino RL tradicional (RLF, RLHF/RLAIF) depende de clusters centralizados de alta largura de banda, uma barreira difícil de replicar open-source. DisTrO usa desacoplamento de momento e compressão de gradiente para reduzir custos de comunicação em várias ordens de magnitude, permitindo treino na largura de banda da internet; Psyche implementa este mecanismo na cadeia, permitindo que os nós façam inferência, validação, avaliação de recompensa e atualização localmente, formando um ciclo completo de RL.
Na arquitetura de Nous, Atropos verifica cadeias de raciocínio; DisTrO comprime comunicação; Psyche executa o ciclo de RL; World Sim fornece ambientes complexos; Forge recolhe raciocínios reais; Hermes integra tudo num sistema vivo de autoaperfeiçoamento contínuo.
Gradient Network: arquitetura de RL Echo
O objetivo do Gradient é reestruturar o paradigma de IA através de um « Open Intelligence Stack », uma pilha de protocolos que evoluem de forma independente e colaborativa. Desde comunicação distribuída (Parallax), treino assíncrono (Echo), rede P2P (Lattica), até mecanismos de memória, segurança, validação (VeriLLM), e simulação de alta fidelidade (Mirage), a stack forma uma infraestrutura descentralizada de inteligência em evolução contínua.
Echo — arquitetura de treino de RL
Echo desacopla o treino, raciocínio e dados (sinais de recompensa), permitindo que geração de rollout, otimização de estratégia e avaliação de recompensa operem de forma independente e escalável em ambientes heterogéneos. Com uma rede de nós de inferência e treino, usa mecanismos leves de sincronização para manter a estabilidade, mitigando problemas de uso de GPU e de execução mista em DeepSpeed RLHF / VERL.
Adota uma arquitetura « dual de grupos de raciocínio e treino » para maximizar o uso de poder computacional, com grupos independentes que operam sem bloqueios:
· Maximize throughput de amostragem: o grupo de inferência (Inference Swarm), composto por GPUs de consumo e dispositivos de borda, usa Parallax para construir um pipeline paralelo de alta taxa de amostragem, focado na geração de trajetórias;
· Maximize poder de gradiente: o grupo de treino (Training Swarm), composto por GPUs de cluster ou de várias regiões, realiza atualização de gradiente, sincronização de parâmetros e microajustes com LoRA, focado na aprendizagem.
Para manter coerência entre estratégia e dados, Echo oferece protocolos leves de sincronização sequencial (Pull) e assíncrona (Push–Pull):
· Pull sequencial: o lado de treino força a atualização do modelo antes de puxar novas trajetórias, garantindo frescura, ideal para tarefas sensíveis à estratégia desatualizada;
· Push–Pull assíncrono: o lado de inferência gera trajetórias com tags de versão continuamente, o treino consome no seu ritmo, e o orquestrador monitora desvios de versão e aciona atualizações, maximizando uso de recursos.
Na base, Echo usa Parallax (inferência heterogênea de baixa largura de banda) e componentes leves de treino distribuído (como VERL), com LoRA para reduzir custos de sincronização entre nós, permitindo RL estável em redes heterogéneas globais.
Grail: ecossistema Bittensor de RL
GRAIL, através do seu mecanismo de consenso Yuma, constrói uma vasta rede de funções de recompensa esparsas e não estacionárias.
No ecossistema Bittensor, a cadeia de valor inclui o Covenant AI, com SN3 Templar, SN39 Basilica e SN81 Grail, formando uma pipeline vertical de pré-treinamento a pós-treinamento de RL. O SN3 Templar treina modelos básicos, o SN39 Basilica fornece mercado de poder computacional distribuído, e o SN81 Grail atua como camada de raciocínio verificável para RLHF / RLAIF, fechando o ciclo de alinhamento.
GRAIL visa provar criptograficamente a autenticidade de cada rollout de RL, vinculando-o à identidade do modelo, garantindo execução segura sem confiança. O protocolo usa três mecanismos:
Geração de desafios determinísticos: usando drand e hashes de blocos para criar tarefas imprevisíveis e reprodutíveis (ex. SAT, GSM8K), evitando trapaças pré-calculadas;
Amostragem via PRF e compromissos de esboço (sketch): permite verificar logprob e cadeias de raciocínio token a token a baixo custo, confirmando que o rollout foi gerado pelo modelo declarado;
Vinculação de identidade do modelo: assinatura estrutural do raciocínio e do peso do modelo, garantindo que qualquer substituição ou replay seja imediatamente detectado. Assim, fornece uma base de autenticidade para trajetórias de raciocínio em RL.
Com este mecanismo, o sub-rede Grail realiza um fluxo de pós-treinamento verificável ao estilo GRPO: mineradores geram múltiplas cadeias de raciocínio, verificadores avaliam a correção, qualidade e satisfação SAT, e escrevem na cadeia os resultados normalizados, que servem como pesos TAO. Experimentos públicos mostram que este sistema elevou a precisão em matemática do Qwen2.5-1.5B de 12,7% para 47,6%, demonstrando resistência a fraudes e aumento de capacidade do modelo. Na stack de treino Covenant AI, Grail é a base de confiança e execução de RLVR/RLAIF descentralizado, ainda não em produção.
Fraction AI: RL baseado em competição
Fraction AI estrutura-se em torno de « Reinforcement Learning from Competition » (RLFC) e gamificação de rotulagem, substituindo recompensas estáticas e marcações humanas por ambientes competitivos dinâmicos. Agentes enfrentam-se em diferentes « Spaces », com posições relativas e avaliações de juízes de IA formando recompensas em tempo real, transformando o alinhamento numa competição multiagente contínua.
Diferenças principais entre RLHF tradicional e Fraction AI
O valor central do RLFC é que as recompensas não vêm de um único modelo, mas de adversários e avaliadores em evolução, evitando manipulação de recompensas e promovendo diversidade de estratégias para evitar mínimos locais. A estrutura de « Spaces » define a natureza do jogo (zero-sum ou cooperativo), promovendo comportamentos complexos através de competição e cooperação.
Na arquitetura, Fraction AI divide o treino em quatro componentes principais:
· Agents: unidades de estratégia leves baseadas em LLM open-source, usando QLoRA para expansão diferencial de peso, com baixo custo de atualização;
· Spaces: ambientes de tarefas isolados, onde agentes entram mediante pagamento e recebem recompensas por vitórias ou derrotas;
· AI Judges: camada de avaliação instantânea baseada em RLAIF, escalável e descentralizada;
· Proof-of-Learning: vincula a atualização de estratégia aos resultados de competição, garantindo verificabilidade e resistência a fraudes.
A essência do Fraction AI é criar um motor de evolução colaborativa humano-máquina: o usuário atua como « meta-otimizador » (Meta-optimizer), guiando a exploração via prompts e hiperparâmetros; os agentes geram automaticamente vastas preferências de alta qualidade (Preference Pairs). Este modelo transforma a rotulagem em « fine-tuning trustless », fechando o ciclo de negócio.
Comparação de arquiteturas de projetos de RL Web3
Síntese e perspetivas: caminhos e oportunidades de RL × Web3
Da análise dos projetos, conclui-se que, apesar das diferentes abordagens (algoritmos, engenharia ou mercado), a arquitetura subjacente do RL + Web3 converge para um paradigma altamente consistente de « desacoplamento — verificação — incentivos ». Isto é, uma consequência natural da adaptação de redes descentralizadas às propriedades únicas do RL.
Características gerais da arquitetura de RL: resolução de limites físicos e de confiança
A amostragem de rollout é externalizada para GPUs de consumo global, com comunicação escassa, enquanto a atualização de parâmetros ocorre num núcleo central de alta largura de banda, como no Actor–Learner assíncrono do Prime Intellect ou na arquitetura de duplo grupo do Gradient.
Em redes sem permissão, a autenticidade do cálculo deve ser garantida por mecanismos matemáticos e de design de sistema, como PoL do Gensyn, TOPLOC do Prime Intellect, ou validação criptográfica do Grail.
Fornecimento de poder computacional, geração de dados, validação e distribuição de recompensas formam um ciclo, impulsionado por incentivos, com mecanismos de penalização (Slash) para evitar fraudes, mantendo a estabilidade e evolução contínua da rede.
Caminhos tecnológicos diferenciados: « avanços » sob uma arquitetura comum
Apesar da arquitetura comum, cada projeto escolhe diferentes « pontos de ruptura » com base na sua essência:
· Algoritmos inovadores (Nous Research): tentam resolver as limites físicas do treino distribuído (gargalo de largura de banda). DisTrO visa comprimir a comunicação de gradiente em milhares de vezes, permitindo treinar em redes domésticas, uma « redução dimensional » às limitações físicas.
· Engenharia de sistemas (Prime Intellect, Gensyn, Gradient): focam na construção de « runtime de IA » de próxima geração. ShardCast e Parallax são exemplos de engenharia para extrair máxima eficiência de clusters heterogéneos existentes.
· Mercado e jogo )Bittensor, Fraction AI(: concentram-se no design de funções de recompensa, incentivando mineradores a procurar estratégias ótimas, acelerando a emergência de inteligência.
Vantagens, desafios e o futuro
Na combinação de RL e Web3, as vantagens sistémicas residem na reescrita de custos e governança:
· Redefinição de custos: o pós-treinamento de RL requer amostragem ilimitada, que Web3 pode fornecer a baixo custo usando poder computacional global de cauda longa, uma vantagem difícil para cloud centralizado.
· Alinhamento soberano )Sovereign Alignment(: rompe o monopólio das grandes empresas na definição de valores de IA, permitindo que comunidades decidam por votação tokens « o que é uma boa resposta », democratizando a governança de IA.
Por outro lado, o sistema enfrenta duas restrições estruturais:
· Muralha de largura de banda )Bandwidth Wall(: apesar de inovações como DisTrO, a latência física limita o treino completo de modelos com mais de 70B de parâmetros, sendo que a IA Web3 se limita atualmente a fine-tuning e inferência.
· Lei de Goodhart )Reward Hacking(: em redes altamente incentivadas, mineradores tendem a « overfit » às regras de recompensa (pontuação), ao invés de melhorar a inteligência real. Criar recompensas robustas contra fraude é um jogo eterno.
· Ataques de nós maliciosos (Byzantine) )BYZANTINE worker(: manipulação ativa de sinais de treino e envenenamento de dados para prejudicar a convergência do modelo. O foco não é apenas projetar recompensas anti-fraude, mas construir mecanismos robustos contra adversários.
A integração de RL e Web3 é, essencialmente, uma reescrita do « como a inteligência é produzida, alinhada e distribuída ». O seu percurso evolutivo pode ser resumido em três direções complementares:
Redes descentralizadas de treino e raciocínio: desde mineradores de poder até redes de estratégia, externalizando rollout verificável para GPU de cauda longa global, inicialmente num mercado de inferência verificável, evoluindo para sub-redes de RL por tarefas;
Ativos de preferências e recompensas: de rotulagem manual a propriedade de dados, transformando feedback de alta qualidade e modelos de recompensa em ativos de governança e distribuição, evoluindo de « rotulagem » para « propriedade de dados »;
Pequenas e especializadas evoluções verticais: em cenários de resultados verificáveis e retorno quantificável, surgem agentes de RL especializados, como estratégias DeFi, geração de código, que vinculam diretamente a melhoria de estratégias e captura de valor, com potencial de superar modelos fechados e genéricos.
Em suma, as verdadeiras oportunidades de RL × Web3 não residem em criar uma versão descentralizada do OpenAI, mas em reescrever as « relações de produção de inteligência »: transformar o treino numa mercado aberto de poder computacional, fazer das recompensas e preferências ativos verificáveis na cadeia, e redistribuir o valor gerado pela IA entre treinadores, alinhadores e utilizadores, em vez de concentrar tudo numa plataforma.