🍀 Spring Appointment, Lucky Draw Gifts! Growth Value Issue 1️⃣7️⃣ Spring Lucky Draw Carnival Begins!
Seize Spring Luck! 👉 https://www.gate.com/activities/pointprize?now_period=17
🌟 How to Participate?
1️⃣ Enter [Plaza] personal homepage, click the points icon next to your avatar to enter [Community Center]
2️⃣ Complete plaza or hot chat tasks like posting, commenting, liking, and speaking to earn growth value
🎁 Every 300 points can draw once, 10g gold bars, Gate Red Bull gift boxes, VIP experience cards and more great prizes await you!
Details 👉 https://www.gate.com/announcements/article/
AI安全威胁和红队人员的新武器——EVMbench问世
Web3安全的世界正迎来重大转折点。2026年2月18日,OpenAI与Paradigm联合发布的开源基准测试框架“EVMbench”显示出有可能从根本上动摇传统审计方法的潜力。尤其值得关注的是,AI模型不仅能进行安全审计,还具备作为恶意red teamers对智能合约发起攻击的能力,这一新现实令人震惊。
Web3安全危机感——AI作为“攻击者”崛起
初步实验结果已向安全社区发出警示。最新的AI模型如GPT-5.3-Codex在攻击模式下成功率高达72.2%,令人震惊。但同时,发现的漏洞中只有约41.5%被正确修复。也就是说,AI如今更像“黑客”而非“医生”。
这种非对称威胁——AI在攻击方面表现优异而在防御上却乏力——造成了安全漏洞。不同于合成基准测试,EVMbench使用来自Tempo区块链的复杂场景和实际环境代码。在这里,AI面对的不是理论问题,而是直接关系数百万美元损失的“实战”场景。
EVMbench的三种评估模式——red teamers在做什么
EVMbench不是简单的测验,而是严格的沙箱压力测试。该框架利用从40个真实审计和安全竞赛(如Code4rena)收集的120个高严重度漏洞数据集。
AI代理在模仿专业安全审计员的工作流程中,以三种不同模式进行评估。
检测模式(作为审计员的AI)
在此模式下,AI获得智能合约仓库,任务是识别“真相”中的漏洞。成功以召回率(recall)衡量,即AI发现的实际漏洞与人类专家审查的漏洞的比率。
修补模式(作为工程师的AI)
当发现漏洞后,AI能否修复?此模式下,代理必须修改代码以消除漏洞。关键限制是——“修补”必须完全保持原有功能。如果AI修复漏洞后,破坏了智能合约的核心功能,则视为失败。
利用模式:red teamers的实战模拟
这是最“贴近现实”、风险最高的设置。AI在本地沙箱环境(使用Anvil工具的Ethereum)中,必须成功实施资金窃取攻击。作为red teamer的AI角色在此模式中展现。基准测试会在程序层面验证,攻击者是否成功转移了模拟资金。72.2%的成功率彰显了AI作为red teamer的强大能力。
防御方反击——构建AI辅助审计工具
伴随EVMbench发布,OpenAI承诺提供1000万美元API额度,用于防御性网络安全研究。目标明确——随着攻击方AI变得更强,“善意”方也能构建AI驱动的自动审计工具,应对AI驱动的red team攻击。
此支持策略与开源安全基准测试相结合。让整个加密资产社区追踪AI能力,提前防范恶意行为者滥用技术。
实施与部署——EVMbench的应用方式
EVMbench已完全开源,GitHub上可用。开发者和安全专家可以通过以下流程测试自己的AI代理。
整个框架基于容器化的Ethereum模拟环境,允许在无财务风险和法律责任的情况下进行模拟测试。开发者可下载数据集,搭建本地Docker/Anvil环境,从检测模式到修补模式,再到利用流程,通过自己的代理进行测试。
人类与AI的融合未来
重要的是,目前AI代理还无法完全取代人类智能合约审计员。AI在提示下能快速发现“干草堆中的针”式漏洞,但对整个生态系统的全面审计仍有难度。人类监控依然是智能合约安全的“终极Boss”。
同时,也要关注近期的“Vibe-Coding”现象,即开发者利用AI快速生成代码,未经过深度人工审查便部署。2024年发生的178万美元Moonwell事件证明,过度依赖AI生成代码可能导致关键逻辑错误流入主网。
EVMbench正是应对这一紧迫局势的行业回应。它能准确衡量AI作为red teamer的威胁,为防御方提供标准指标,提前做好应对准备。Web3安全的未来,正逐步转向AI攻击与防御交织的新竞争场域。