AI審計進入實戰,OpenAI發佈EVMbench,強化智能合約安全評等

ETH-1,35%
WELL-2,68%

OpenAI 攜手 Paradigm 推出 EVMbench,實測 AI 代理在 EVM 合約攻防能力,揭示攻強守弱隱憂。

聚焦經濟環境實測,OpenAI 攜手 Paradigm 強化鏈上安全評等

人工智慧龍頭 OpenAI 宣佈與知名加密貨幣風險投資公司 Paradigm 以及安全公司 OtterSec 合作,推出專為評估 AI 代理(AI Agents)在以太坊虛擬機(EVM)智能合約安全性表現的基準測試工具 EVMbench。

隨著 AI 與加密技術的深度匯流,智能合約已成為管理超過 1,000 億開源加密資產的核心基礎設施。這項工具的問世,象徵著產業界開始正視 AI 在「具備經濟意義環境」中的實戰能力。

OpenAI 團隊指出,隨著 AI 代理在程式碼撰寫與規劃能力上的飛躍,未來這些模型將在區塊鏈的攻擊與防禦兩端扮演轉型角色,因此建立一套標準化的測評架構對於監測 AI 進展至關重要。

三大模式深度測驗,120 個真實審計漏洞成為 AI 試金石

EVMbench 的核心設計圍繞著 120 個從 40 項專業審計報告中提取的高風險漏洞,數據來源包含 Code4rena 等知名的公開審計競賽,確保測試場景貼近真實世界的複雜性。該基準測試將 AI 代理置於三種不同的工作模式中進行評估:

圖源:OpenAI EVMbench 的核心設計是將 AI 代理置於三種不同的工作模式中進行評估

  • 第一是「檢測模式(Detect)」,要求 AI 審計合約程式碼庫並識別已知的漏洞,根據其找出的問題嚴重程度給予評分;
  • 第二是「修補模式(Patch)」,挑戰 AI 在維持原有功能不變的前提下,移除可利用的漏洞並修復程式碼;
  • 最後則是極具爭議的「利用模式(Exploit)」,AI 必須在沙盒化的區塊鏈環境中執行端對端的資金盜取攻擊。

為了確保測試的嚴謹性與可重複性,團隊開發了基於 Rust 語言的測試架構,透過確定性的交易回放技術來驗證 AI 的攻擊或修補是否成功。

攻強守弱趨勢顯著,GPT-5.3-Codex 展現驚人攻擊成長率

在首波釋出的測試結果中,AI 在不同任務間展現出明顯的能力落差。最新一代的 GPT-5.3-Codex 在利用模式(Exploit Mode)中表現優異,得分高達 72.2 %,相較於僅僅六個月前發佈的 GPT-5 模型(得分 31.9 %),展現出極為驚人的能力成長。

圖源:OpenAI 各種 AI 模型在三種模式下的分數概況

這顯示出當目標明確為「排空資金」時,AI 具備強大的迭代規劃與執行能力。然而,在防禦端的表現則相對疲軟,AI 在檢測模式下經常在發現單一錯誤後便停止搜尋,且在修補複雜邏輯時,往往難以在不影響合約正常運行的情況下完美修復漏洞。安全專家對此表達關注,認為 AI 可能會大幅壓縮從發現漏洞到開發出攻擊手段的時間,這對去中心化金融(DeFi)項目的防禦速度提出了更高要求。

人才引進與防禦補助,OpenAI 佈局 AI 代理生態系安全性

除了工具的開發,OpenAI 在人才佈局與生態防禦上也動作頻頻,近期聘請了開源 AI 代理項目 OpenClaw 的創辦人 Peter Steinberger,主導下一代個人化代理的開發,並將該項目轉化為 OpenAI 支持的基金會模式。

為了應對 AI 可能帶來的網路安全風險,OpenAI 承諾將透過其網路安全補助計畫,撥款 1,000 萬的 API 額度,用於支持開源防禦工具與關鍵基礎設施的研究。這項行動在近期發生的 Moonwell 協議事件後顯得尤為及時,該事件中因 AI 共著程式碼中的價格計算錯誤導致約 178 萬的損失。

延伸閱讀
拒絕Meta數十億邀約,OpenClaw創作者加入OpenAI掀人才爭奪戰都是Vibe Coding的錯?Moonwell預言機出包,178萬壞帳誰來買單

未來,隨著更多 AI 輔助的穩定幣支付代理與自動化錢包加入生態,如何利用 EVMbench 這類工具區分僅能描述漏洞的模型與能可靠提供防禦方案的模型,將成為區塊鏈安全產業的關鍵轉折點。

Disclaimer: The information on this page may come from third parties and does not represent the views or opinions of Gate. The content displayed on this page is for reference only and does not constitute any financial, investment, or legal advice. Gate does not guarantee the accuracy or completeness of the information and shall not be liable for any losses arising from the use of this information. Virtual asset investments carry high risks and are subject to significant price volatility. You may lose all of your invested principal. Please fully understand the relevant risks and make prudent decisions based on your own financial situation and risk tolerance. For details, please refer to Disclaimer.

Gerelateerde artikelen

HypurrFi 宣告區塊哈希突破,同日遭遇網域劫持事件

HypurrFi宣布其獨立開發的Hyperliquid客戶端成功實現區塊哈希一致性,讓開發者可自主驗證鏈狀態,提升去中心化程度。同日發現網域劫持事件,雖未影響用戶資金,仍呼籲快停止與可疑網域互動,並通過官方渠道獲取更新。AI在此技術開發中占到99.9%的貢獻。

MarketWhisper18m geleden

Chaos Labs 退出 Aave,指 DeFi 風險管理存在法律空白

風險管理公司Chaos Labs宣布終止與DeFi借貸協議Aave的三年合作,原因在於雙方對風險管理的見解存在根本分歧。此次退出暴露了DeFi生態中缺乏監管保障的法律灰色地帶,特別是在近期一宗導致約2,700萬美元錯誤清算的預言機事故後。Chaos Labs與Aave的分離,使得Aave在重要的V4升級時期面臨治理真空,進一步引發對去中心化風險系統責任的憂慮。

MarketWhisper55m geleden

21个加密项目因熊市宣布关闭或缩减服务,涵盖DeFi、NFT、钱包及游戏领域

4月7日,受熊市影响,21个加密项目宣布关闭或缩减服务,涵盖钱包、DeFi、NFT和游戏等领域。Leap Wallet和Magic Eden等项目因市场压力退出或调整,业内认为此次洗牌有助于重塑市场,未来关注可持续的Web3项目更具竞争力。

GateNews1u geleden

Polygon 主网将于 4 月 8 日进行 Giugliano 升级

Polygon 主网将于 4 月 8 日进行 Giugliano 硬分叉升级,改进包括更快的区块最终性、费用参数集成至区块头及新 RPC 接口支持费用查询。节点运营者需升级至相应版本以确保网络正常。

GateNews1u geleden

Pi Network 協議 21.2 強制升級,SDK 同步全面解鎖

Pi Network於4月6日發布了強制性協議21.2,並完整開放軟體開發工具包(SDK),支持1800萬KYC認證用戶的應用開發環境。協議升級主要提升網路穩定性,為去中心化交易所與智慧合約打下基礎。SDK解鎖讓開發者能建立實用應用,標誌著Pi Network從早期挖礦向支付與去中心化服務轉型,但社群對於溝通透明度仍有疑慮。

MarketWhisper1u geleden

Solana 推出 STRIDE 與 SIRN,升級生態安全防護標準

Solana 基金會推出 STRIDE 安全評估與監控體系,以及 SIRN 事件響應網路,以提升生態內 DeFi 協議的安全性。STRIDE 提供分層安全評估和監控,針對 TVL 超過 1,000 萬美元的協議進行全天候監控,而 SIRN 則為安全事件提供即時協同響應。兩者共同形成 Solana 生態的雙軌安全防護體系,強調協議需對自身安全負責。

MarketWhisper1u geleden
Opmerking
0/400
Geen opmerkingen