微軟給AI代理人假錢用於在線購物。它們把錢花在了詐騙上。

Decrypt

2025-11-07 00:06:01

簡而言之

微軟配置的AI代理被100個搜索結果淹沒，抓住了第一個選項——無論它有多糟糕。
惡意的人工智能賣家可以通過虛假評論和騙局欺騙頂級模型，迫使它們交出所有虛擬現金。
他們無法在沒有逐步人類指導的情況下進行協作或批判性思考—自主AI購物還未準備好進入主流市場。

Decrypt的藝術、時尚和娛樂中心。

深入了解 SCENE

<br>

微軟構建了一個模擬經濟，數百個人工智能代理充當買家和賣家，然後觀察他們在處理人類日常生活中的基本任務時失敗。結果應該讓任何押注於自主人工智能購物助手的人感到擔憂。

公司的《磁性市場》研究於周三與亞利桑那州立大學合作發布，將100個客戶端AI代理與300個業務端代理在像訂購晚餐這樣的場景中進行對比。結果雖然在預期之中，但顯示出自主代理商業的前景尚未成熟。

當面對100個搜索結果(時，對代理而言實在太多，導致領先的AI模型無法有效處理)，“福利評分”(也隨之崩潰，反映出模型的實用性)下降。

代理商未能進行詳盡的比較，而是滿足於他們遇到的第一個“足夠好”的選項。這個模式在所有測試模型中都存在，形成了研究人員所稱的“首個提議偏見”，使響應速度比實際質量快了10到30倍。

但有沒有比這更糟糕的事情？有，惡意操控。

微軟測試了六種操控策略，從心理戰術如虛假證書和社會證明到激進的提示注入攻擊。OpenAI 的 GPT-4o 及其開源模型 GPTOSS-20b 顯示出極大的脆弱性，所有支付都成功重定向到惡意代理。阿裏巴巴的 Qwen3-4b 輕易受到了基本勸說技巧的影響，比如權威吸引。只有 Claude Sonnet 4 抵御了這些操控嘗試。

當微軟要求代理朝着共同目標努力時，其中一些代理無法弄清楚應該承擔哪些角色或如何有效協調。在明確的逐步人類指導下，表現有所改善，但這違背了自主代理的整個目的。

<br>

所以看起來，至少目前來說，你自己購物會更好。微軟表示：“代理應該協助，而不是取代人類的決策。”研究建議採用監督自主的方式，代理處理任務，但人類保留控制權，並在最終決策之前審核建議。

這些發現恰逢OpenAI、Anthropic等公司爭相推出自主購物助手。OpenAI的Operator和Anthropic的Claude代理承諾能夠導航網站並在沒有監督的情況下完成購買。微軟的研究表明這種承諾爲時尚早。

然而，AI代理人不負責任行爲的擔憂正在加劇AI公司與零售巨頭之間的關係。亞馬遜最近向Perplexity AI發出了一封停止和終止函，要求其停止在亞馬遜網站上使用Comet瀏覽器，指控該AI代理人通過冒充人類購物者來違反條款，降低客戶體驗。

Perplexity 回擊稱亞馬遜的舉動是 “法律上的虛張聲勢” 和對用戶自主權的威脅，認爲消費者應該有權僱傭自己的數字助理，而不是依賴平台控制的數字助理。

開源模擬環境現已在Github上可用，供其他研究人員重現結果並在他們的虛擬市場中觀看地獄的釋放。

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

讚賞
點讚
留言
轉發
分享

留言

0/400

暫無留言

Decrypt

熱門話題查看更多
#GateWeb3LaunchpadBOB上線
8342 熱度
#廣場發幣瓜分千U獎池
4.52萬熱度
#加密市場回調
24.5萬熱度
#隱私幣生態逆勢上漲
1.03萬熱度
#香港首個代幣化基金推出
3721 熱度

熱門 Gate Fun查看更多

1
DT龙币
市值:$4210.11持有人數:2
0.25%
2
BOBBOB
市值:$4698.45持有人數:3
2.10%
3
HCF户晨风
市值:$4089.65持有人數:1
0.00%
4
客服猫客服猫
市值:$4010.34持有人數:1
0.00%
5
AMTAutomated Mistakes
市值:$4017.24持有人數:1
0.00%