Lin Junyang deixa a Alibaba e publica pela primeira vez: a era dos agentes inteligentes está chegando

金色财经_ · 2026-03-27T10:16:08+00:00

___Autor: Lin Junyang, ex-chefe do Qwen de "Reasoning" Thinking, o mais jovem P10 da Alibaba. Saiu da Alibaba em março de 2026.__Título original: "From 'Reasoning' Thinking to 'Agentic' Thinking"_Os últimos dois anos transformaram a nossa forma de avaliar modelos e as expectativas que temos deles. O OpenAI's o1 demonstrou que a "pensamento" pode tornar-se numa capacidade de primeira classe(first-class capability), uma habilidade pela qual se pode treinar especificamente e disponibilizar aos utilizadores.

金色财经_

2026-03-27 10:16:08

Autor: Lin Junyang. Anteriormente responsável do Qwen da Tongyi, o P10 mais jovem da Alibaba. Demitiu-se da Alibaba em março de 2026

Título original da tabela 《From “Reasoning” Thinking to “Agentic” Thinking 》

Nos dois últimos anos, remodelámos a forma como avaliamos os modelos e aquilo que esperamos deles. O o1 da OpenAI provou que o «pensamento» pode tornar-se uma capacidade de primeira classe (first-class capability), uma capacidade que podes treinar especificamente para isso e disponibilizar aos utilizadores. O DeepSeek-R1, por sua vez, provou que este tipo de raciocínio, pós-treinado, pode ser replicado e expandido fora dos laboratórios iniciais de topo. A OpenAI descreve o o1 como um modelo de uma linha de produtos de raciocínio treinado com aprendizagem por reforço (RL) e que «pensa antes de responder»; já o DeepSeek posiciona o R1 como um modelo de raciocínio open source capaz de competir de frente com o o1.

Aquela etapa foi profundamente significativa. Mas, na primeira metade de 2025, o foco esteve sobretudo na «capacidade de pensamento baseada em raciocínio»: como fazer o modelo investir mais poder de computação em ciclos de raciocínio, como treiná-los com sinais de recompensa mais fortes e como apresentar ou controlar esse investimento adicional de raciocínio. Agora, a questão é: e qual é o passo seguinte? Acredito que a resposta é «pensamento agentic» (agentic thinking): pensar para agir, e durante a interação com o ambiente, atualizar continuamente o plano com base em feedback do mundo real.

O que a ascensão do o1 e do R1 nos ensinou verdadeiramente

A primeira onda de modelos de raciocínio ensinou-nos isto: se queremos expandir a aprendizagem por reforço (RL) em modelos de linguagem, precisamos de sinais de feedback determinísticos, estáveis e escaláveis. Matemática, código, lógica e outros domínios verificáveis tornaram-se centrais porque, nesses cenários, os sinais de recompensa são muito mais fortes do que na supervisão de preferências habitual. Eles permitem que a aprendizagem por reforço otimize «correção» em vez de «aparência de razoabilidade». A infraestruturas tornou-se então a prioridade máxima.

Assim que o modelo é treinado para raciocinar através de trajetórias mais longas, a aprendizagem por reforço deixa de ser apenas um componente adicional leve de supervised fine-tuning (SFT). Torna-se um problema de sistema complexo. Precisas de expansões de políticas (rollouts) em grande escala, mecanismos de validação com alta capacidade de throughput, atualizações de políticas estáveis e capacidades de amostragem eficientes. O aparecimento de modelos de raciocínio é tanto um avanço na capacidade de modelação como uma vitória da engenharia de infraestruturas. A OpenAI descreve o o1 como uma linha de produtos de raciocínio treinada com RL; e, mais tarde, o DeepSeek R1 também confirmou ainda mais esta direção ao mostrar ao mundo quão grandes são os algoritmos e o trabalho de base necessários para RL baseado em raciocínio. Esta foi a primeira grande mudança na indústria: de expandir o pré-treino, para expandir o pós-treino para competências de raciocínio reforçado.

O verdadeiro problema nunca foi apenas «fundir pensamento e instruções»

No início de 2025, muitas pessoas da nossa equipa Qwen tinham uma visão grandiosa na cabeça: o sistema ideal deve unificar dois modos — «pensamento» e «instruções». Deve suportar níveis de intensidade de raciocínio ajustáveis, de forma mental semelhante a definições de «baixo/médio/alto». Melhor ainda, deve inferir automaticamente a quantidade de raciocínio necessária com base no prompt e no contexto, decidindo por si quando responder imediatamente, quando pensar mais um pouco e quando investir enormes recursos de computação em verdadeiros problemas difíceis.

Conceptualmente, esta é uma direção correta. O Qwen3 é um dos exemplos públicos mais claros dessa tentativa. Ele introduz um «modo de pensamento misto», conciliando comportamentos de pensamento e não-pensamento na mesma família de modelos, enfatizando um orçamento de pensamento controlável, e descrevendo uma pipeline de pós-treino em quatro etapas — incluindo explicitamente «fusão de modos de pensamento» depois do cold start de long-CoT e do raciocínio RL.

No entanto, falar de fusão é fácil; fazê-la bem é extremamente difícil. A dificuldade está nos dados. Quando as pessoas discutem a fusão de pensamento e instruções, a primeira coisa que costumam ter em mente é a compatibilidade no lado do modelo: um checkpoint consegue suportar os dois modos? Um template de chat consegue alternar entre os dois de forma fluida? A stack de serviço consegue fornecer os controlos e interruptores correspondentes? Mas a contradição mais profunda está no facto de que as distribuições de dados e objetivos comportamentais destas duas modalidades são intrinsecamente diferentes.

Ao tentar equilibrar «fusão do modelo» com «melhorar a qualidade e diversidade dos dados de pós-treino», tropeçámos em alguns obstáculos. Durante a reconstituição do processo, acompanhámos de perto como é que os utilizadores realmente usavam os modos de pensamento e de instruções em cenários reais. Um modelo de instruções forte recebe recompensas que, em geral, vêm de respostas diretas e concisas, seguir formatos e manter latência extremamente baixa em tarefas empresariais repetitivas e em grande volume (por exemplo, reescrita, anotação, suporte template/templated, extração estruturada e perguntas e respostas de operação). Em contrapartida, um modelo de pensamento forte recebe recompensas por gastar mais tokens em problemas difíceis, manter a coerência da estrutura lógica interna, explorar caminhos alternativos e conservar quantidade suficiente de computação interna para aumentar substancialmente a taxa final de correção.

Estes dois modos de comportamento restringem-se mutuamente. Se os dados de fusão não forem cuidadosamente planeados, o resultado costuma ser desfavorável a ambos os lados: o «pensamento» torna-se barulhento, inchado ou hesitante; enquanto as «instruções» perdem a elegância e a fiabilidade, e o custo de utilização fica muito acima do que os utilizadores comerciais realmente esperam.

Por isso, na prática, continuar a separar os dois mantém um apelo. Mais tarde em 2025, após a arquitetura híbrida inicial do Qwen3, a linha de produto 2507 lançou atualizações radicalmente separadas de Instruct (instruções) e Thinking (pensamento), incluindo variantes independentes de 30B e 235B. Em implementações comerciais, muitos clientes ainda desejam, para operações em lote, um comportamento de instruções com alto throughput, baixo custo e altamente controlável. Nestes cenários, a fusão não traz benefícios evidentes. Separar estas duas linhas de produto permite, pelo contrário, que a equipa resolva de forma mais pura os problemas de dados e de treino específicos de cada modalidade.

Outros laboratórios seguiram a rota oposta. A Anthropic defendeu publicamente a ideia de um modelo integrado: Claude 3.7 Sonnet é posicionado como um modelo de raciocínio híbrido, em que os utilizadores podem escolher respostas normais ou expandir o pensamento, e os utilizadores de API também podem definir um orçamento de pensamento. A Anthropic sublinhou claramente que acredita que o raciocínio deve ser uma capacidade integrada incorporada, e não um modelo independente separado. O GLM-4.5 também se vende como um modelo de raciocínio híbrido com ambos os modos, tentando fundir raciocínio, capacidade de codificação e capacidades de agente numa só coisa; mais tarde, o DeepSeek também lançou o mecanismo de raciocínio híbrido «pensar e não pensar» do V3.1.

A questão central aqui é se esta fusão é realmente natural e orgânica. Se o pensamento e as instruções forem simplesmente enfiados à força nos mesmos pesos do modelo e, no entanto, se comportarem como duas personalidades independentes, mal costuradas, então a experiência do produto continua a soar muito estranha. Uma fusão verdadeiramente bem-sucedida requer um intervalo suave de níveis de investimento em raciocínio. O modelo deve conseguir expressar diferentes níveis de dedicação e, idealmente, escolher de forma adaptativa. O controlo de «intensidade» no estilo GPT aponta precisamente para isto: é uma estratégia de alocação de capacidade de computação, e não um mero interruptor binário.

Porque a direção da Anthropic é uma correção útil

A divulgação externa da Anthropic no lançamento do Claude 3.7 e do Claude 4 pareceu bastante contida. Eles colocaram o foco no raciocínio integrado, num orçamento de pensamento controlável pelos utilizadores, em tarefas do mundo real, na qualidade da codificação e, mais tarde, na capacidade de chamar ferramentas durante a expansão do pensamento. O Claude 3.7 foi mostrado como um modelo de raciocínio híbrido com orçamento controlável; o Claude 4 vai ainda mais além, permitindo que o processo de raciocínio e as chamadas de ferramentas se entrelacem. Ao mesmo tempo, a Anthropic enfatizou repetidamente que a codificação, tarefas de execução longa e fluxos de trabalho de agente são o seu objetivo central.

Gerar simplesmente trajetórias de raciocínio mais longas não faz automaticamente com que o modelo se torne mais inteligente. Em muitos casos, expor demais o processo de raciocínio a público, na realidade, revela ineficiências na alocação de capacidade de computação. Se o modelo tenta raciocinar tudo do mesmo modo longo, isso significa que não fez bem a priorização, não conseguiu simplificar a informação, ou simplesmente não consegue agir de forma prática. A trajetória de desenvolvimento da Anthropic transmite uma visão mais disciplinada: o pensamento deve ser moldado pela carga de trabalho alvo. Se o objetivo é codificar, então o valor do pensamento deve refletir-se na navegação do repositório de código, na formulação do plano, na decomposição de tarefas, na recuperação de erros e na orquestração de ferramentas. Se o objetivo é um fluxo de trabalho de agente, então o pensamento deve dedicar-se a melhorar a qualidade da execução ao longo de ciclos longos, e não a escrever um intermediário repleto de retórica.

Esta ênfase na «utilidade do objetivo» aponta para uma tendência ainda maior: estamos a passar da era de treinar modelos para a era de treinar agentes (Agents). No blog do Qwen3, também apontámos isto de forma explícita — «Estamos a transitar de uma era focada em treinar modelos para uma era centrada em treinar agentes» — e ligámos os próximos avanços em RL aos feedbacks do ambiente necessários para raciocínio de longo ciclo. Quanto a «agente», trata-se de um sistema capaz de formular planos, decidir quando agir, chamar ferramentas, percecionar feedback do ambiente, ajustar estratégias e operar continuamente ao longo de ciclos longos. A sua definição essencial está precisamente na interação em ciclo fechado com o mundo real.

O que «pensamento agentic» significa realmente

O pensamento agentic é um objetivo de otimização totalmente diferente. Ao avaliar «pensamento baseado em raciocínio», o critério costuma ser a qualidade das deliberações internas antes de obter a resposta final: o modelo consegue resolver teoremas, escrever provas, gerar código sem bugs ou passar os testes de referência. Já ao avaliar «pensamento agentic», o critério passa a ser se o modelo consegue, de forma contínua, alcançar progressos substanciais enquanto interage com o ambiente.

O problema central deixa de ser «o modelo pensa tempo suficiente?» e passa a ser «o modo como o modelo pensa é suficiente para sustentar ações eficazes?» O pensamento agentic precisa de lidar com algumas dificuldades que os modelos puramente de raciocínio, em geral, conseguem evitar:

a. Decidir quando parar de pensar e agir
b. Selecionar que ferramentas chamar e a ordem das chamadas
c. Integrar observações barulhentas ou incompletas provenientes do ambiente
d. Reajustar o plano após falhar
e. Manter coerência lógica em múltiplas rondas de diálogo e múltiplas chamadas de ferramentas

Em suma, um modelo com pensamento agentic tem de raciocinar através da ação.

Porque a infraestruturas de aprendizagem por reforço agentic é mais difícil

Assim que o objetivo muda de «resolver questões de benchmarks» para «concluir tarefas interativas», a stack técnica de RL sofre uma transformação drástica. A infraestrutura usada na aprendizagem por reforço tradicional de raciocínio já não chega de forma nenhuma. No RL de raciocínio, geralmente podes tratar as expansões de políticas (rollouts) como trajetórias relativamente independentes, e equipar-te com avaliadores claros e diretos. Mas no RL agentic, a política fica profundamente embutida num grande quadro de suporte (harness): servidores de ferramentas, navegadores, terminais, motores de busca, simuladores, sandboxes de execução, camadas de API, sistemas de memória e frameworks de orquestração. O ambiente deixa de ser um árbitro estático; passa a ser uma parte inseparável de todo o sistema de treino.

Isto gera uma necessidade sistémica totalmente nova: o treino e o raciocínio têm de ser desacoplados de forma mais completa. Sem este desacoplamento, o throughput das expansões de políticas colapsa diretamente. Imagina um agente de codificação que tem de correr num framework de testes em tempo real para executar o código que gera: o lado do raciocínio será forçado a parar por esperar feedback de execução, enquanto o lado do treino ficará faminto por não receber dados de trajetórias completos; a utilização de GPU de todo o pipeline será muito inferior ao nível do RL de raciocínio tradicional. Se adicionares ainda atrasos de ferramentas, observabilidade parcial e ambientes com estado, estas ineficiências serão amplificadas. O resultado é que, muito antes de atingires as métricas de capacidade esperadas, o progresso do experimento se torna extremamente lento e doloroso.

O próprio ambiente, por conseguinte, eleva-se também a um produto central de pesquisa. Na era do SFT (supervised fine-tuning), procurávamos incessantemente a diversidade dos dados. Mas na era dos agentes, devemos concentrar-nos em «qualidade do ambiente»: estabilidade, autenticidade, cobertura de cenários, escalada de dificuldade, diversidade de estados, riqueza do feedback, capacidade anti-cheating e escalabilidade da geração por expansões de políticas. Construir um ambiente virtual tornou-se uma verdadeira pista de criação de empresas hardcore, e não um projeto secundário. Se os agentes vão ser treinados em condições semelhantes às de produção, então o ambiente é parte integrante da stack de tecnologias de capacidades.

A próxima área de ponta: mais capacidade de pensamento prática

A minha expectativa pessoal é que o pensamento agentic se tornará a forma de pensamento dominante no futuro. Penso que ele acabará por substituir a maior parte do antigo pensamento «estático em monólogo» — ou seja, aquela trajetória interna excessivamente longa, isolada e fechada, que tenta mascarar a falta de capacidade de interação despejando cada vez mais texto. Mesmo diante de tarefas matemáticas ou de codificação extremamente difíceis, um sistema verdadeiramente avançado deveria ter o direito de pesquisar, simular, executar, verificar e modificar. O nosso objetivo final é resolver problemas reais de forma robusta e eficiente.

O maior ponto de dor ao treinar sistemas deste tipo é «reward hacking». Assim que o modelo ganha acesso significativo a ferramentas, o reward hacking torna-se altamente destrutivo. Um modelo com função de pesquisa pode aprender diretamente, durante o treino RL, a pesquisar respostas na internet. Um agente de codificação pode tirar partido de informações futuras não divulgadas no repositório de código, abusar de logs, ou encontrar algum atalho que invalide a tarefa diretamente. Um ambiente com vulnerabilidades escondidas faz com que a estratégia do modelo pareça extraordinária, mas na prática apenas treinou um mestre do cheating. Comparado com a era do raciocínio, a era dos agentes é muito mais sutil e perigosa. Ferramentas mais fortes tornam o modelo mais útil, mas também ampliam a superfície de ataque de otimizações falsas em múltiplas vezes. Podemos prever que o próximo grande gargalo académico surgirá na conceção do ambiente, na robustez dos avaliadores, nos protocolos anti-cheating e na criação de interfaces mais normativas entre políticas e mundo físico. Apesar das dificuldades, a direção geral é inabalável: pensar habilitado por ferramentas é, por natureza, mais valioso do que pensar em isolamento e tem maior probabilidade de trazer uma verdadeira viragem de produtividade.

O pensamento agentic também implica a ascensão da «engenharia de harness» (harness engineering). A inteligência central do futuro vai depender cada vez mais de formas coordenadas de organização de múltiplos agentes: um orquestrador central responsável por planear e despachar tarefas, agentes dedicados que atuam como especialistas de domínio, e agentes subordinados que executam tarefas de decomposição vertical (não apenas fazem o trabalho, como também ajudam a controlar o contexto, evitam contaminação de memória e mantêm isolamento físico entre diferentes níveis de pensamento). O futuro da indústria está a passar de treinar modelos para treinar agentes e, finalmente, para treinar sistemas enormes.

Conclusão

A primeira fase da vaga de raciocínio estabeleceu uma regra de ferro: desde que o sinal de feedback seja suficientemente fiável e que a infraestrutura aguento, a aprendizagem por reforço empilhada sobre modelos de linguagem pode gerar capacidades cognitivas que provocam uma mudança qualitativa.

E a transição mais profunda da indústria está a acontecer, passando de «pensamento baseado em raciocínio» para «pensamento agentic»: isto é, de apenas pensar mais um pouco, para pensar para agir. O alvo central do treino já mudou. Já não é apenas o próprio modelo; é o sistema simbiótico de «modelo + ambiente», e, mais especificamente, os agentes e o seu framework de suporte periférico. Isto subverte completamente a nossa perceção do que é o «produto central de pesquisa»: a arquitetura do modelo e os dados de treino são, sem dúvida, importantes, mas a conceção do ambiente, as infraestruturas de expansão de políticas, a capacidade dos avaliadores de resistirem a interferências e a base das interfaces de coordenação entre múltiplos agentes serão elevadas a uma posição igual ou até mais alta. Também redefine o que é «bom pensamento»: o verdadeiro «bom» não é competir incessantemente por quem gera mais texto ou quem apresenta o processo de cálculo mais chamativo, mas sim sequências de pensamento que, sob as várias restrições do mundo real, sustentem melhor e de forma mais eficaz a ação.

Isto também muda a lógica das fossas de vantagem competitiva no futuro comercial. Na era do raciocínio, ganha quem tiver melhores algoritmos de RL, sinais de feedback mais puros e pipelines de treino mais escaláveis. Mas na era dos agentes, a cartada decisiva vai ser quem tiver um ambiente mais fidedigno, uma arquitetura mais suave de «treinar e inferir em conjunto», capacidades mais fortes de engenharia de framework, e quem consiga fechar, da forma mais perfeita possível, aquele ciclo de feedback crucial entre «as decisões do modelo» e «as consequências reais que essas decisões desencadeiam».

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.