Agentes de IA configurados pela Microsoft ficaram sobrecarregados com 100 resultados de busca e escolheram a primeira opção—não importando quão ruim ela fosse.
Vendedores de IA maliciosos podem enganar os melhores modelos a entregarem todo o seu dinheiro virtual com avaliações falsas e fraudes.
Eles não conseguem colaborar ou pensar criticamente sem uma orientação humana passo a passo—a compra autônoma por IA ainda não está pronta para o grande público.
Hub de Arte, Moda e Entretenimento do Decrypt.
Descubra SCENE
<br>
A Microsoft construiu uma economia simulada com centenas de agentes de IA atuando como compradores e vendedores, e depois os observou falhar em tarefas básicas que os humanos lidam diariamente. Os resultados devem preocupar qualquer um que aposte em assistentes de compras autônomos.
A pesquisa do Magentic Marketplace da empresa, divulgada na quarta-feira em colaboração com a Universidade Estadual do Arizona, colocou 100 agentes de IA do lado do cliente contra 300 agentes do lado dos negócios em cenários como a encomenda de jantar. Os resultados, embora esperados, mostram que a promessa do comércio autônomo ainda não está madura o suficiente.
Quando apresentados com 100 resultados de pesquisa (demasiado para os agentes lidarem de forma eficaz), os principais modelos de IA falharam, com a sua “pontuação de bem-estar” (quão úteis os modelos se revelaram) a colapsar.
Os agentes falharam em realizar comparações exaustivas, optando em vez disso pela primeira opção “suficientemente boa” que encontraram. Este padrão manteve-se em todos os modelos testados, criando o que os pesquisadores chamam de “viés da primeira proposta” que deu à velocidade de resposta uma vantagem de 10 a 30 vezes sobre a qualidade real.
Mas há algo pior do que isto? Sim, manipulação maliciosa.
A Microsoft testou seis estratégias de manipulação, que vão desde táticas psicológicas, como credenciais falsas e prova social, até ataques agressivos de injeção de prompts. O GPT-4o da OpenAI e seu modelo de código aberto GPTOSS-20b mostraram-se extremamente vulneráveis, com todos os pagamentos redirecionados com sucesso para agentes maliciosos. O Qwen3-4b da Alibaba caiu em técnicas básicas de persuasão, como apelos à autoridade. Apenas o Claude Sonnet 4 resistiu a essas tentativas de manipulação.
Quando a Microsoft pediu aos agentes que trabalhassem em direção a objetivos comuns, alguns deles não conseguiram perceber quais papéis assumir ou como coordenar de forma eficaz. O desempenho melhorou com orientação humana explícita passo a passo, mas isso derrota todo o propósito de agentes autónomos.
<br>
Parece que, pelo menos por agora, é melhor você fazer suas próprias compras. “Os agentes devem auxiliar, não substituir, a tomada de decisões humanas”, disse a Microsoft. A pesquisa recomenda a autonomia supervisionada, onde os agentes lidam com tarefas, mas os humanos mantêm o controle e revisam as recomendações antes das decisões finais.
As descobertas chegam enquanto a OpenAI, Anthropic e outros correm para implantar assistentes de compras autônomos. Os agentes Operator da OpenAI e Claude da Anthropic prometem navegar em websites e completar compras sem supervisão. A pesquisa da Microsoft sugere que essa promessa é prematura.
No entanto, os receios de que agentes de IA atuem de forma irresponsável estão a agravar a relação entre as empresas de IA e os gigantes do retalho. A Amazon enviou recentemente uma carta de cessação e desistência à Perplexity AI, exigindo que esta interrompesse o uso do navegador Comet no site da Amazon, acusando o agente de IA de violar os termos ao se passar por compradores humanos e degradar a experiência do cliente.
A Perplexity respondeu, chamando a ação da Amazon de “bluster legal” e uma ameaça à autonomia do usuário, argumentando que os consumidores devem ter o direito de contratar os seus próprios assistentes digitais em vez de depender daqueles controlados pela plataforma.
O ambiente de simulação de código aberto já está disponível no Github para que outros pesquisadores reproduzam os resultados e assistam ao caos se descontrolar em seus mercados falsos.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
A Microsoft deu a agentes de IA dinheiro falso para comprar coisas online. Eles gastaram tudo em fraudes.
Em resumo
Hub de Arte, Moda e Entretenimento do Decrypt.
Descubra SCENE
<br>
A Microsoft construiu uma economia simulada com centenas de agentes de IA atuando como compradores e vendedores, e depois os observou falhar em tarefas básicas que os humanos lidam diariamente. Os resultados devem preocupar qualquer um que aposte em assistentes de compras autônomos.
A pesquisa do Magentic Marketplace da empresa, divulgada na quarta-feira em colaboração com a Universidade Estadual do Arizona, colocou 100 agentes de IA do lado do cliente contra 300 agentes do lado dos negócios em cenários como a encomenda de jantar. Os resultados, embora esperados, mostram que a promessa do comércio autônomo ainda não está madura o suficiente.
Quando apresentados com 100 resultados de pesquisa (demasiado para os agentes lidarem de forma eficaz), os principais modelos de IA falharam, com a sua “pontuação de bem-estar” (quão úteis os modelos se revelaram) a colapsar.
Os agentes falharam em realizar comparações exaustivas, optando em vez disso pela primeira opção “suficientemente boa” que encontraram. Este padrão manteve-se em todos os modelos testados, criando o que os pesquisadores chamam de “viés da primeira proposta” que deu à velocidade de resposta uma vantagem de 10 a 30 vezes sobre a qualidade real.
Mas há algo pior do que isto? Sim, manipulação maliciosa.
A Microsoft testou seis estratégias de manipulação, que vão desde táticas psicológicas, como credenciais falsas e prova social, até ataques agressivos de injeção de prompts. O GPT-4o da OpenAI e seu modelo de código aberto GPTOSS-20b mostraram-se extremamente vulneráveis, com todos os pagamentos redirecionados com sucesso para agentes maliciosos. O Qwen3-4b da Alibaba caiu em técnicas básicas de persuasão, como apelos à autoridade. Apenas o Claude Sonnet 4 resistiu a essas tentativas de manipulação.
Quando a Microsoft pediu aos agentes que trabalhassem em direção a objetivos comuns, alguns deles não conseguiram perceber quais papéis assumir ou como coordenar de forma eficaz. O desempenho melhorou com orientação humana explícita passo a passo, mas isso derrota todo o propósito de agentes autónomos.
<br>
Parece que, pelo menos por agora, é melhor você fazer suas próprias compras. “Os agentes devem auxiliar, não substituir, a tomada de decisões humanas”, disse a Microsoft. A pesquisa recomenda a autonomia supervisionada, onde os agentes lidam com tarefas, mas os humanos mantêm o controle e revisam as recomendações antes das decisões finais.
As descobertas chegam enquanto a OpenAI, Anthropic e outros correm para implantar assistentes de compras autônomos. Os agentes Operator da OpenAI e Claude da Anthropic prometem navegar em websites e completar compras sem supervisão. A pesquisa da Microsoft sugere que essa promessa é prematura.
No entanto, os receios de que agentes de IA atuem de forma irresponsável estão a agravar a relação entre as empresas de IA e os gigantes do retalho. A Amazon enviou recentemente uma carta de cessação e desistência à Perplexity AI, exigindo que esta interrompesse o uso do navegador Comet no site da Amazon, acusando o agente de IA de violar os termos ao se passar por compradores humanos e degradar a experiência do cliente.
A Perplexity respondeu, chamando a ação da Amazon de “bluster legal” e uma ameaça à autonomia do usuário, argumentando que os consumidores devem ter o direito de contratar os seus próprios assistentes digitais em vez de depender daqueles controlados pela plataforma.
O ambiente de simulação de código aberto já está disponível no Github para que outros pesquisadores reproduzam os resultados e assistam ao caos se descontrolar em seus mercados falsos.