Nvidia 發表 Nemotron 3 AI 模型,採 Mamba-Transformer 混合架構。此模型專為企業級代理式 AI 設計,旨在顯著提升處理效率、降低運算成本,同時確保模型準確度與可靠性。Nvidia 發表 Nemotron 3 AI 模型,採 Mamba-Transformer 混合架構。此模型專為企業級代理式 AI 設計,旨在顯著提升處理效率、降低運算成本,同時確保模型準確度與可靠性。

NVIDIA Nemotron 3 懶人包:Mamba 架構、三種規格與 NeMo Gym 功能一次看

2025/12/16 12:39

全球市值最高的科技巨擘 NVIDIA 再度投下震撼彈,正式推出其前沿 AI 模型的最新版本「Nemotron 3」。此次更新不僅僅是參數的堆疊,更在於 NVIDIA 押注了一種結合 Mamba 與 Transformer 的混合專家模型(MoE)架構。官方宣稱,這項技術突破將為企業級的「代理式 AI」(Agentic AI)帶來前所未有的準確度與可靠性,並一舉解決效能與成本的兩難局面。

Nemotron 3 系列依應用場景分為三種規格:針對高效率特定任務的 Nano(30B 參數)、具備高精準度推論能力且適用於多代理應用的 Super(100B 參數),以及專攻複雜運算的大型推論引擎 Ultra(約 500B 參數)。

打破「三難困境」:效率提升 4 倍,成本大幅降低

NVIDIA 生成式 AI 軟體副總裁 Kari Briski 指出,當今開發者面臨著「極度開放、極度聰明、極度高效」的艱難三難困境(trifecta)。

為了突破此瓶頸,Nemotron 3 採用混合 Mamba-Transformer 架構,該架構源自 Carnegie Mellon University 與 Princeton 的研究,其巧妙地融合了「選擇性狀態空間模型」,使其在處理長達 100 萬 token 的超長上下文(context)時,仍能維持狀態並顯著降低運算成本。

NVIDIA 數據顯示,新架構的 token 處理量(throughput)較前代提升高達 4 倍,且因減少 60% 的推論 token 生成,大幅壓低了推論成本。Briski 解釋:「這種混合架構避免了為每個 token 建立龐大的注意力圖譜(attention maps)與Key-Value Caches(鍵值快取),因此能以更少的記憶體,跑出數倍的速度。」

針對高階的 Super 與 Ultra 模型,NVIDIA 更導入了「潛在 MoE」(Latent MoE)技術。Briski 生動地比喻:「這就像一群廚師共用一個大廚房(共享核心),但每個人都有專屬的香料架。」這種設計在提升效率的同時,保留了模型的專業分工能力。

NeMo Gym 登場:讓 AI 進健身房鍛鍊

除了模型本身,NVIDIA 也致力於建構完整的開發者生態系。作為發布的一部分,NVIDIA 推出強化學習實驗室「NeMo Gym」,讓開發者能在模擬環境中讓模型與代理「健身」(workout),測試其後訓練效能。這與 AWS Nova Forge 平台近期推出的工具概念相似,顯示科技巨頭們正將戰場延伸至模型訓練與驗證工具。

此外,NVIDIA 展現了高度的開放性,計畫釋出比市面上現有資料集「大上幾個數量級」的後訓練資料樣本、研究論文及範例提示詞。較大的模型更採用了 4-bit NVFP4 訓練格式,讓企業能在現有基礎設施上訓練而不犧牲準確度。

目前,包括 Accenture、Oracle、Palantir、Siemens 及 Zoom 等多家重量級企業已成為 Nemotron 3 的早期採用者。Artificial Analysis 的基準測試也顯示,Nemotron 在同級距模型中表現卓越。

核稿編輯:Sisley

加入 INSIDE 會員,獨享 INSIDE 科技趨勢電子報,點擊立刻成為會員

延伸閱讀:

  • 輝達強攻實體 AI,發布首款具備「常識」的自駕車推理模型
  • 川普晶片禁令:輝達 Blackwell 晶片限美國專用!比特幣應聲下挫破 10 萬美元
  • DeepSeek 爆走私NVIDIABlackwell 晶片,境外資料中心拆卸運回中國
免責聲明: 本網站轉載的文章均來源於公開平台,僅供參考。這些文章不代表 MEXC 的觀點或意見。所有版權歸原作者所有。如果您認為任何轉載文章侵犯了第三方權利,請聯絡 service@support.mexc.com 以便將其刪除。MEXC 不對轉載文章的及時性、準確性或完整性作出任何陳述或保證,並且不對基於此類內容所採取的任何行動或決定承擔責任。轉載材料僅供參考,不構成任何商業、金融、法律和/或稅務決策的建議、認可或依據。

您可能也會喜歡

DMCC 與 Crypto.com 合作探索實體商品的區塊鏈基礎設施

DMCC 與 Crypto.com 合作探索實體商品的區塊鏈基礎設施

杜拜多種商品中心與Crypto.com宣布建立合作夥伴關係,共同探索黃金、能源和農產品等實體商品的鏈上基礎設施。此次合作匯集了全球領先的自由貿易區之一與全球加密貨幣交易所,標誌著機構對商品代幣化的重大興趣。
分享
MEXC NEWS2025/12/16 20:46
盈透證券打通「穩定幣入金」:華爾街巨頭為何要在此時推倒「支付柏林牆」?

盈透證券打通「穩定幣入金」:華爾街巨頭為何要在此時推倒「支付柏林牆」?

美國線上券商盈透證券( Interactive Brokers )宣布,正式支持客戶使用穩定幣(主要為 USDC )為帳戶入金,用於交易股票、期貨等傳統資產。此舉被視為傳統金融巨頭對區塊鏈結算網路的實質接納,旨在打破長期存在的法幣通道障礙。 〈盈透證券打通「穩定幣入金」:華爾街巨頭為何要在此時推倒「支付柏林牆」?〉這篇
分享
Blockcast2025/12/16 19:48
比特幣歷次牛市「漲跌規律」:4 年週期為何發生,是否已消亡?

比特幣歷次牛市「漲跌規律」:4 年週期為何發生,是否已消亡?

比特幣長期以來一直遵循著 4 年週期的規律:從熊市緩慢復甦,進入減半階段,隨後價格持續飆升,之後隨著槓桿交易者的損失而迅速回落。本文將探討 4 年週期的各個階段、以往比特幣週期的情況。此外,還將探討比特幣週期是否依然存在? 〈比特幣歷次牛市「漲跌規律」:4 年週期為何發生,是否已消亡?〉這篇文章最早發佈於《區塊客》。
分享
Blockcast2025/12/16 19:34