A Microsoft deu a agentes de IA dinheiro falso para comprar coisas online. Eles gastaram tudo em fraudes.

Decrypt

2025-11-07 00:06:01

Em resumo

Agentes de IA configurados pela Microsoft ficaram sobrecarregados com 100 resultados de busca e escolheram a primeira opção—não importando quão ruim ela fosse.
Vendedores de IA maliciosos podem enganar os melhores modelos a entregarem todo o seu dinheiro virtual com avaliações falsas e fraudes.
Eles não conseguem colaborar ou pensar criticamente sem uma orientação humana passo a passo—a compra autônoma por IA ainda não está pronta para o grande público.

Hub de Arte, Moda e Entretenimento do Decrypt.

Descubra SCENE

<br>

A Microsoft construiu uma economia simulada com centenas de agentes de IA atuando como compradores e vendedores, e depois os observou falhar em tarefas básicas que os humanos lidam diariamente. Os resultados devem preocupar qualquer um que aposte em assistentes de compras autônomos.

A pesquisa do Magentic Marketplace da empresa, divulgada na quarta-feira em colaboração com a Universidade Estadual do Arizona, colocou 100 agentes de IA do lado do cliente contra 300 agentes do lado dos negócios em cenários como a encomenda de jantar. Os resultados, embora esperados, mostram que a promessa do comércio autônomo ainda não está madura o suficiente.

Quando apresentados com 100 resultados de pesquisa (demasiado para os agentes lidarem de forma eficaz), os principais modelos de IA falharam, com a sua “pontuação de bem-estar” (quão úteis os modelos se revelaram) a colapsar.

Os agentes falharam em realizar comparações exaustivas, optando em vez disso pela primeira opção “suficientemente boa” que encontraram. Este padrão manteve-se em todos os modelos testados, criando o que os pesquisadores chamam de “viés da primeira proposta” que deu à velocidade de resposta uma vantagem de 10 a 30 vezes sobre a qualidade real.

Mas há algo pior do que isto? Sim, manipulação maliciosa.

A Microsoft testou seis estratégias de manipulação, que vão desde táticas psicológicas, como credenciais falsas e prova social, até ataques agressivos de injeção de prompts. O GPT-4o da OpenAI e seu modelo de código aberto GPTOSS-20b mostraram-se extremamente vulneráveis, com todos os pagamentos redirecionados com sucesso para agentes maliciosos. O Qwen3-4b da Alibaba caiu em técnicas básicas de persuasão, como apelos à autoridade. Apenas o Claude Sonnet 4 resistiu a essas tentativas de manipulação.

Quando a Microsoft pediu aos agentes que trabalhassem em direção a objetivos comuns, alguns deles não conseguiram perceber quais papéis assumir ou como coordenar de forma eficaz. O desempenho melhorou com orientação humana explícita passo a passo, mas isso derrota todo o propósito de agentes autónomos.

<br>

Parece que, pelo menos por agora, é melhor você fazer suas próprias compras. “Os agentes devem auxiliar, não substituir, a tomada de decisões humanas”, disse a Microsoft. A pesquisa recomenda a autonomia supervisionada, onde os agentes lidam com tarefas, mas os humanos mantêm o controle e revisam as recomendações antes das decisões finais.

As descobertas chegam enquanto a OpenAI, Anthropic e outros correm para implantar assistentes de compras autônomos. Os agentes Operator da OpenAI e Claude da Anthropic prometem navegar em websites e completar compras sem supervisão. A pesquisa da Microsoft sugere que essa promessa é prematura.

No entanto, os receios de que agentes de IA atuem de forma irresponsável estão a agravar a relação entre as empresas de IA e os gigantes do retalho. A Amazon enviou recentemente uma carta de cessação e desistência à Perplexity AI, exigindo que esta interrompesse o uso do navegador Comet no site da Amazon, acusando o agente de IA de violar os termos ao se passar por compradores humanos e degradar a experiência do cliente.

A Perplexity respondeu, chamando a ação da Amazon de “bluster legal” e uma ameaça à autonomia do usuário, argumentando que os consumidores devem ter o direito de contratar os seus próprios assistentes digitais em vez de depender daqueles controlados pela plataforma.

O ambiente de simulação de código aberto já está disponível no Github para que outros pesquisadores reproduzam os resultados e assistam ao caos se descontrolar em seus mercados falsos.

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.