Meta 投入數十億美元租用 Google TPU,並與 AMD 合作建置 6GW 等級 AI 運算架構。
就在Meta承諾繼續向NVIDIA採購數百萬顆GPU的同時,執行長Mark Zuckerberg也積極展開「去單一供應商化」的戰略佈局。近日,Meta不僅傳出豪擲數十億美元租用Google的TPU進行模型訓練,更宣佈與AMD達成規模高達6 GW規模的跨世代策略合作,徹底宣告AI晶片市場進入群雄割據的新時代。
根據The Information網站引述知情人士報導,Meta已經與Google達成一項價值「數十億美元」的長期協議。未來幾年,Meta將租用Google的AI加速晶片TPU (張量處理器)來開發全新AI模型。
震撼市場的決定:用TPU進行「模型訓練」
這份Meta與Google的協議,之所以引發市場高度關注,關鍵在於Meta打算將TPU用於最核心的「AI訓練」 (Training)環節。
過去業界普遍認為,由於NVIDIA在CUDA軟體生態系與NVLink晶片互聯技術上擁有絕對的統治力,其他競爭對手 (如AMD或Google)頂多只能在對生態要求較低的「模型推論」 (Inference)市場中分一杯羹。而Meta這次直接將訓練任務轉移至TPU,打破「訓練只能靠NVIDIA」的市場迷思。
促使Meta做出此決定的背後,除了自家自研AI訓練晶片MTIA進展不如預期,現實因素更包含去年在大規模佈署NVIDIA最新的Blackwell晶片時,曾遭遇技術故障與硬體複雜性帶來的產能爬坡問題,這讓Meta深刻體會到建立「第二選擇」,藉此分散風險的急迫性。
聯手AMD:6 GW史詩級佈署,涵蓋客製化MI450 GPU與EPYC處理器
在擁抱Google TPU的同時,Meta也在硬體採購與另一家晶片業者AMD合作。
AMD與Meta共同發表聲明,宣佈達成一項史無前例的6 GW (吉瓦)基礎設施佈署協議。這項為期多年、跨世代的合作,將全面涵蓋AMD的Instinct GPU、EPYC CPU,以及機架級AI系統。
這項龐大計畫的核心亮點包括:
• 客製化晶片首發:預計於2026年下半年開始出貨首批Gigawatt等級的設備,這些設備將搭載專為Meta工作負載最佳化的客製化AMD Instinct MI450 GPU。
• CPU戰略地位提升:隨著AI基礎設施的複雜度攀升,CPU的協調與擴展能力變得更為重要。Meta確認將成為AMD第6代EPYC處理器 (代號Venice)與下一代「Verano」的主要客戶。
• 系統級整合:雙方將基於在OCP全球峰會上發布的AMD Helios機架級架構進行佈署,並且深度整合ROCm軟體生態系。
• 股權深度綁定:為了確保雙方利益一致,AMD更向Meta發行最多可認購1.6億股的績效認股權證。這些股權將隨著Meta達成特定採購規模 (如首批1 GW出貨)與AMD股價門檻而逐步解鎖。
Google的算盤:把TPU變成下一個印鈔機
回到Google身上,拿下Meta這個超級大客戶,無疑是其TPU外部化戰略的重大勝利。
為了與NVIDIA正面競爭,Google正在積極推動TPU的商業化佈局。除了直接出租給Meta,Google甚至借鏡了金融圈的「特殊目的載體」 (SPV)模式,與大型投資機構合作設立合資專案,透過融資購買TPU再對外轉租,試圖將TPU業務打造成能貢獻數十億美元營收的新引擎。
分析觀點
Mark Zuckerberg很清楚,NVIDIA目前的確是地表最強的AI軍火商,但如果放任黃仁勳一家獨大,未來的議價權將完全喪失。因此,他一邊穩住與NVIDIA的合作 (繼續採購數百萬顆GPU),一邊拉攏Google填補訓練算力的缺口,同時砸下重金與股權深度綁定AMD,扶植一個能在硬體底層與NVIDIA抗衡的強大盟友。
這場算力大戰的最大變數,最終還是會落回到晶圓代工廠 (主要還是台積電)的產能分配上。當NVIDIA的GPU、AMD的Instinct、Google的TPU,甚至Meta未來可能的自研晶片,全部都要搶奪台積電最先進的CoWoS封裝與先進製程產能時,這場三國殺才正要進入最白熱化的肉搏戰。


