BitcoinWorld
Patronus AI 獲得 5000 萬美元融資,打造「數位世界」對 AI 代理進行壓力測試
AI 代理正在快速演進,從簡單的問答功能發展至自主執行複雜的多步驟任務,例如預訂旅遊或分析財務數據。但在這些代理能夠被信任用於實際應用之前,開發人員需要嚴格確保它們在無數情境下都能可靠運作。Patronus AI 是一家總部位於舊金山的新創公司,由前 Meta AI 研究員 Anand Kannappan 與 Rebecca Qian 於 2023 年創立,該公司已完成 B 輪融資,募得 5000 萬美元,用於擴展其解決方案:在訓練後對 AI 代理進行壓力測試的模擬數位環境。
Patronus AI 打造了其稱之為「數位世界模型」的產品——即網站與內部系統的複製環境,代理在其中透過強化學習進行測試。此流程透過反覆獎勵成功完成任務、懲罰錯誤,讓 AI 得以在安全、受控的環境中從錯誤中學習。該公司將其方法比喻為 Waymo 使用合成世界訓練自動駕駛車輛,以模擬罕見危險情境,例如惡劣天氣或兒童追球的場景。對於 AI 代理而言,挑戰有所不同:它們往往會走捷徑,導致以難以察覺的方式失敗。
本輪 B 輪融資由 Greenfield Partners 領投,Notable Capital、Lightspeed、Datadog 及 Samsung 參與跟投,使 Patronus 的總融資金額增加到 7000 萬美元。據 Notable Capital 董事總經理 Glenn Solomon 表示,市場對 Patronus 模擬環境的需求「幾乎無法滿足」。該新創公司的營收在過去一年內增加了 15 倍,反映出前沿 AI 實驗室與新興新創公司的強烈興趣。Solomon 表示:「Patronus 非常擅長發現漏洞,並確保模型被追責。」
傳統基準測試往往無法呈現 AI 代理在複雜的實際工作中的表現。Patronus 致力填補這一缺口,提供可讓代理在較長時間內接受測試的環境——從數小時、數天,乃至數週。目前公司主要聚焦於軟體工程與金融領域,並計劃擴展至更難驗證的領域,例如創意任務或開放式決策。Kannappan 表示:「我們目前非常專注於可驗證的問題,但還有更多領域是非常難以驗證的。」
Patronus 將主要競爭對手視為各大 AI 實驗室的內部評估團隊。雖然 Mercor 和 Surge 等人工數據公司透過人工回饋協助強化學習,但 Patronus 的評估流程完全不涉及人工參與。這種全自動化的方式能夠實現可擴展且一致的測試,並可發現邊緣案例與意外行為。
Patronus AI 的最新融資輪次顯示,投資人對嚴謹、自動化 AI 代理評估需求的信心持續增強。隨著代理日益自主化並嵌入關鍵任務,確保其可靠性的工具將變得不可或缺。該公司的數位世界模型為各產業實現更安全、更值得信賴的 AI 部署提供了一條充滿潛力的路徑。
Q1:Patronus AI 的主要產品是什麼?
Patronus AI 打造模擬數位環境——稱為「數位世界模型」——在訓練後對 AI 代理進行測試。這些網站與內部系統的複製環境讓代理得以練習複雜任務,並對其可靠性進行評估。
Q2:Patronus AI 與傳統 AI 基準測試有何不同?
傳統基準測試衡量特定任務的表現,但無法呈現代理如何應對現實世界的複雜性,包括意外情境或走捷徑的行為。Patronus 在模擬環境中使用強化學習,對代理進行更全面的壓力測試。
Q3:Patronus AI 的客戶有哪些?
該新創公司的客戶包括前沿 AI 實驗室與新興新創公司,尤其是那些為軟體工程與金融領域打造代理的公司。該公司計劃隨時間推移擴展至其他行業。
本文 Patronus AI 獲得 5000 萬美元融資,打造「數位世界」對 AI 代理進行壓力測試 最初發表於 BitcoinWorld。
