亞馬遜電子商務服務資深副總裁 Dave Treadwell 在週二發給員工的內部訊息中指出,過去幾週內公司發生了「數起重大事故」,其中至少一起與 AI 編碼助手 Amazon Q 有關,而其他事件則揭示了控制系統與審核流程上的深層問題。
隨著生成式 AI 被廣泛導入軟體開發流程,工程師現在能夠比以往產生更多程式碼。包括 Claude Code、Amazon Q 以及 Amazon Kiro 等 AI 開發工具,都被用於提升開發效率。
然而,程式碼數量的快速增加也讓傳統的軟體審查流程面臨壓力。當大量新程式碼進入既有審查機制時,系統風險也隨之放大。
Treadwell 在內部文件中指出,一些事故源於所謂的 「高爆炸半徑(high blast radius)變更」——即某些軟體更新在缺乏足夠安全防護的情況下被廣泛部署,導致問題迅速擴散。
此外,部分事件甚至需要數小時才能修復資料錯誤,而有些事故則是因為基本的安全機制被忽略,例如原本應該由兩人共同批准的程式碼變更流程。
內部文件顯示,近期最嚴重的兩起事故發生在 3 月初。
3 月 2 日,亞馬遜多個市場的顧客在購物車中看到錯誤的配送時間,導致約 12 萬筆訂單流失,並產生 160 萬次網站錯誤。內部調查顯示,AI 工具 Amazon Q 是觸發該事件的重要因素之一。
另一場事故發生在 3 月 5 日,亞馬遜北美市場的訂單量一度暴跌 99%,造成 630 萬筆訂單流失。調查指出,問題與一次未遵循正式變更審批流程的系統更新有關。
文件顯示,當時的系統變更並未經過自動化部署驗證,且單一授權人員就能執行高影響範圍的配置修改,缺乏必要的安全防護。
不過亞馬遜發言人表示,在近期檢討的事故中,只有一起與 AI 工具有關,且沒有任何事件涉及 AI 自動生成的程式碼。
為降低系統風險,亞馬遜已啟動為期 90 天的安全整改計畫,並對現有的工程管理政策進行補充。
新措施將針對約 335 個「Tier-1 系統」,這些系統直接影響消費者體驗,例如訂單處理、商品資訊與價格系統等。
根據新規定:
亞馬遜也通知所有 Tier-1 系統的負責人,以及總監與副總裁級管理層,要求對相關系統進行全面稽核。
Treadwell 表示,公司將在關鍵系統的程式碼變更流程中引入「可控摩擦(controlled friction)」,讓工程師在進行高影響操作前必須經過更多安全檢查。
在技術策略上,亞馬遜計畫同時採用 AI 驅動的「代理式(agentic)」工具 與基於規則的「確定性(deterministic)」系統。
這種組合旨在解決生成式 AI 的核心問題——AI 模型本身並非完全可預測,同一問題可能產生不同答案,因此在需要高度準確性的企業系統中仍需搭配嚴格的規則機制。
亞馬遜表示,未來將加強控制平面的安全設計,避免 AI 自動化工具在缺乏足夠防護的情況下放大系統風險。
外媒此前也曾報導,亞馬遜內部正在檢討去年 12 月一次長達 13 小時的 AWS 服務中斷事件,當時公司的 AI 開發工具 Kiro 也被認為是部分原因之一。
參考來源
Source


