OpenAI 推出了一個基準測試框架,旨在衡量 AI 代理在檢測、緩解甚至利用加密智能合約安全漏洞方面的有效性。該項目名為「EVMbench:評估 AI 代理在智能合約安全方面的表現」,是與 Paradigm 和 OtterSec 合作發布的,這兩個組織在區塊鏈安全和投資方面擁有豐富經驗。該研究針對從 40 份智能合約審計中精選出的 120 個潛在弱點評估 AI 代理,不僅試圖量化檢測和修補能力,還在受控環境中量化這些代理的理論利用潛力。
AI 代理的檢測獎勵在隨研究附帶的 OpenAI PDF 中有詳細說明,該文件還描述了評估方法和用於模擬真實智能合約風險的場景。作者強調,雖然 AI 代理已經發展到可以自動執行各種日常任務,但在「具有經濟意義的環境」中評估其表現對於了解它們在生產系統壓力下的表現至關重要。
OpenAI 指出,預期代理技術將擴大支付和結算的範圍,包括在自動化工作流程中使用的穩定幣。圍繞 AI 驅動支付的討論超越了安全測試,延伸到自主系統如何參與日常金融活動的更廣泛問題。該公司自己的預測表明,代理支付可能變得更加普遍,將 AI 能力紮根於觸及日常消費者交易的實際用例中。
與基準測試結果同時,Circle 執行長 Jeremy Allaire 公開預測,在未來五年內,數十億個 AI 代理可能會使用穩定幣進行日常支付交易。這一觀點與加密圈中反覆出現的主題相交:加密貨幣成為 AI 代理原生貨幣的潛力,這一敘事已經獲得了業界領袖和投資者的顯著關注。雖然這些預測仍具投機性,但潛在趨勢很明確——AI 自動化正在從實驗室轉向交易層,它可能重塑價值如何在網絡間流動。
該研究發布之際,加密安全繼續成為投資者的重大風險因素。關於 2025 年對加密資金的攻擊——攻擊者奪走了約 34 億美元——的數據點突顯了改進工具和更快、更可靠的修補機制的緊迫性。EVMbench 框架的部分定位是衡量 AI 代理是否能夠在規模上有意義地貢獻防禦能力,減少利用機會並加速威脅緩解。
為了建立基準測試,研究人員利用了跨越 40 份智能合約審計的 120 個精選漏洞,其中許多弱點可追溯到開源審計挑戰。OpenAI 認為,該基準測試將有助於追蹤 AI 在大規模識別和緩解合約級弱點方面的進展,提供一種標準化方式來比較未來的 AI 模型隨著它們的演進。該研究還提供了一個視角,說明 AI 如何應用於規範化各種智能合約架構的風險評估,而不僅僅關注孤立案例。
在 X 上的同期討論串中,Dragonfly 的合夥人 Haseeb Qureshi 認為,加密貨幣取代財產權和傳統合約的承諾從未實現,不是因為技術失敗,而是因為它從未以人類直覺為設計考量。他強調了在排空錢包和其他攻擊媒介仍是持續威脅的環境中簽署大額交易時的持續恐懼,與傳統銀行轉帳相對流暢的體驗形成鮮明對比。
Qureshi 主張,加密交易的下一階段可能由 AI 中介的自動駕駛錢包實現。這類錢包將監控風險、管理複雜操作,並代表用戶自主應對威脅,可能減少當今大額轉帳的摩擦和恐懼。
這個討論串的更廣泛啟示是,AI 代理可能在轉變人們與加密貨幣互動方式方面發揮關鍵作用——從手動、易錯的交易轉變為可以隨採用而擴展的自動化、風險感知流程。隨著 AI 代理開始在處理安全問題方面展現更多能力,用戶可能會在去中心化金融工作流程中看到改善的可靠性和韌性,即使底層技術持續成熟。
EVMbench 研究顯示,大型語言模型和相關 AI 代理開始在智能合約領域執行有意義的安全工作,模型之間存在明確可量化的差異。Claude Opus 4.6 在平均檢測獎勵方面的領先地位表明,某些架構可能更擅長在複雜合約邏輯中發現和緩解漏洞,而其他架構則落後,提供了研究人員可能希望改進的一系列能力。該項目中包含多個行業合作夥伴關係,凸顯了日益增長的共識,即 AI 驅動的安全和自動化風險管理可能成為去中心化環境規模化的關鍵。
隨著該領域的發展,觀察者將關注 AI 代理從檢測過渡到修復的速度,以及這些代理是否能在實時系統中可靠運行而不引入新風險。關於 AI 驅動錢包和自主支付的對話涉及圍繞安全治理、用戶同意和監管一致性的更廣泛問題。如果 OpenAI 及其合作夥伴建議的軌跡持續下去,AI 輔助工具可能成為未來加密基礎設施的核心組成部分,以有意義的方式改變風險計算和用戶體驗。下一輪基準測試以及實際部署將有助於確定這一願景實現的速度以及必須伴隨的保障措施。
本文最初以 OpenAI Pits AI Agents Against Each Other to Red-Team Smart Contracts 為標題發布於 Crypto Breaking News——您值得信賴的加密新聞、Bitcoin 新聞和區塊鏈更新來源。


