AI安全威胁和红队人员的新武器——EVMbench问世

ZkProofPudding

2026-03-23 16:39:05

摘要生成中

Web3安全的世界正迎来重大转折点。2026年2月18日，OpenAI与Paradigm联合发布的开源基准测试框架“EVMbench”显示出有可能从根本上动摇传统审计方法的潜力。尤其值得关注的是，AI模型不仅能进行安全审计，还具备作为恶意red teamers对智能合约发起攻击的能力，这一新现实令人震惊。

Web3安全危机感——AI作为“攻击者”崛起

初步实验结果已向安全社区发出警示。最新的AI模型如GPT-5.3-Codex在攻击模式下成功率高达72.2%，令人震惊。但同时，发现的漏洞中只有约41.5%被正确修复。也就是说，AI如今更像“黑客”而非“医生”。

这种非对称威胁——AI在攻击方面表现优异而在防御上却乏力——造成了安全漏洞。不同于合成基准测试，EVMbench使用来自Tempo区块链的复杂场景和实际环境代码。在这里，AI面对的不是理论问题，而是直接关系数百万美元损失的“实战”场景。

EVMbench的三种评估模式——red teamers在做什么

EVMbench不是简单的测验，而是严格的沙箱压力测试。该框架利用从40个真实审计和安全竞赛（如Code4rena）收集的120个高严重度漏洞数据集。

AI代理在模仿专业安全审计员的工作流程中，以三种不同模式进行评估。

检测模式（作为审计员的AI）

在此模式下，AI获得智能合约仓库，任务是识别“真相”中的漏洞。成功以召回率（recall）衡量，即AI发现的实际漏洞与人类专家审查的漏洞的比率。

修补模式（作为工程师的AI）

当发现漏洞后，AI能否修复？此模式下，代理必须修改代码以消除漏洞。关键限制是——“修补”必须完全保持原有功能。如果AI修复漏洞后，破坏了智能合约的核心功能，则视为失败。

利用模式：red teamers的实战模拟

这是最“贴近现实”、风险最高的设置。AI在本地沙箱环境（使用Anvil工具的Ethereum）中，必须成功实施资金窃取攻击。作为red teamer的AI角色在此模式中展现。基准测试会在程序层面验证，攻击者是否成功转移了模拟资金。72.2%的成功率彰显了AI作为red teamer的强大能力。

防御方反击——构建AI辅助审计工具

伴随EVMbench发布，OpenAI承诺提供1000万美元API额度，用于防御性网络安全研究。目标明确——随着攻击方AI变得更强，“善意”方也能构建AI驱动的自动审计工具，应对AI驱动的red team攻击。

此支持策略与开源安全基准测试相结合。让整个加密资产社区追踪AI能力，提前防范恶意行为者滥用技术。

实施与部署——EVMbench的应用方式

EVMbench已完全开源，GitHub上可用。开发者和安全专家可以通过以下流程测试自己的AI代理。

整个框架基于容器化的Ethereum模拟环境，允许在无财务风险和法律责任的情况下进行模拟测试。开发者可下载数据集，搭建本地Docker/Anvil环境，从检测模式到修补模式，再到利用流程，通过自己的代理进行测试。

人类与AI的融合未来

重要的是，目前AI代理还无法完全取代人类智能合约审计员。AI在提示下能快速发现“干草堆中的针”式漏洞，但对整个生态系统的全面审计仍有难度。人类监控依然是智能合约安全的“终极Boss”。

同时，也要关注近期的“Vibe-Coding”现象，即开发者利用AI快速生成代码，未经过深度人工审查便部署。2024年发生的178万美元Moonwell事件证明，过度依赖AI生成代码可能导致关键逻辑错误流入主网。

EVMbench正是应对这一紧迫局势的行业回应。它能准确衡量AI作为red teamer的威胁，为防御方提供标准指标，提前做好应对准备。Web3安全的未来，正逐步转向AI攻击与防御交织的新竞争场域。

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

赞赏
点赞
评论
转发
分享

请输入评论内容

暂无评论

热门话题
查看更多
#
Gate正式接入Polymarket
16.78万热度
#
BTC突破71000美元
10009.69万热度
#
加密市场回涨
2.42万热度
#
预测市场正在影响BTC走势？
52.38万热度
#
特朗普对伊朗军事打击推迟五天
2.4万热度

热门 Gate Fun
查看更多

1
cnmb
草泥马币
市值:$2268.96持有人数:1
0.00%
2
MONK
The Digital Monk
市值:$0.1持有人数:1
0.00%
3
nm
NewMan
市值:$2296.55持有人数:0
0.00%
4
AÍ
Águia
市值:$2293.1持有人数:1
0.00%
5
IF
inferno
市值:$2296.55持有人数:1
0.00%

AI安全威胁和红队人员的新武器——EVMbench问世

Web3安全危机感——AI作为“攻击者”崛起

EVMbench的三种评估模式——red teamers在做什么

检测模式（作为审计员的AI）

修补模式（作为工程师的AI）

利用模式：red teamers的实战模拟

防御方反击——构建AI辅助审计工具

实施与部署——EVMbench的应用方式

人类与AI的融合未来

热门话题

Gate正式接入Polymarket

BTC突破71000美元

加密市场回涨

预测市场正在影响BTC走势？

特朗普对伊朗军事打击推迟五天

热门 Gate Fun

cnmb

草泥马币

MONK

The Digital Monk

nm

NewMan

AÍ

Águia

IF

inferno

置顶