Perplexity 公開搜尋 Agent 後訓練流程，基於開源 Qwen3.5 的模型在搜尋準確率上超越 G […] 〈每次查詢 2 美分勝 GPT-5.4：Perplexity 公開搜尋 Agent 後訓練配方〉這篇文章最早發佈於動區BlockTempo《動區動趨-最具影響力的區塊鏈新聞媒體》。Perplexity 公開搜尋 Agent 後訓練流程，基於開源 Qwen3.5 的模型在搜尋準確率上超越 G […] 〈每次查詢 2 美分勝 GPT-5.4：Perplexity 公開搜尋 Agent 後訓練配方〉這篇文章最早發佈於動區BlockTempo《動區動趨-最具影響力的區塊鏈新聞媒體》。

每次查詢 2 美分勝 GPT-5.4：Perplexity 公開搜尋 Agent 後訓練配方

來源：Blocktempo ZH

2026/04/23 14:46

閱讀時長 9 分鐘

4$0.010977+0.31%

G$0.003658-3.17%

如需對本內容提供反饋或相關疑問，請通過郵箱 crypto.news@mexc.com 聯絡我們。

Perplexity 公開搜尋 Agent 後訓練流程，基於開源 Qwen3.5 的模型在搜尋準確率上超越 GPT-5.4，同等任務成本僅需 2.0 美分，不及 GPT-5.4 的四分之一。（前情提要：Perplexity Personal Computer 上線：讓 AI 接管 Mac 本機，$200 月費向 Max 使用者開放）（背景補充：不會寫程式也能用？Perplexity Computer 讓 AI 直接替你交付成果、自動跑工作流程）開源模型能不能打贏閉源旗艦模型？Perplexity 用一份技術報告給了一個讓業界難以忽視的答案。這家以 AI 搜尋起家的公司，近日完整公開了旗下網頁搜尋 Agent 的後訓練方法論。先穩住規矩，再教它判斷整個訓練流程的底座，是兩個阿里巴巴通義千問系列的開源模型：Qwen3.5-122B-A10B 和 Qwen3.5-397B-A17B。光是這個選擇就已經表態 Perplexity 不打算付費使用 GPT 或 Claude 當骨幹，而是從開源模型出發，自己雕出搜尋能力。訓練分兩個階段。第一階段是監督微調（SFT）。翻譯過來就是，先給模型大量「標準答案」，讓它把基本行為規矩學好：回答要符合指令、語言要一致、格式不能亂。這個階段不追求聰明，只追求可靠 — 就像先把新員工的工作習慣養正，才輪到訓練判斷力。第二階段是強化學習（RL），用的是 GRPO 演演算法。讓模型在真實任務裡反覆嘗試，每次根據結果的好壞調整策略。 GRPO 的特別之處在於不需要另外訓練一個「評審 AI」，而是直接把同批次的輸出互相比較，從中提取學習訊號。這讓訓練成本更低，也更容易規模化。 RL 的訓練資料由兩條線構成。一條是 Perplexity 自行合成的多跳推理題庫。答題者必須先搜尋第一個事實，再根據那個事實去搜尋下一個，反覆 2 到 4 次才能得出最終答案。這類問題專門訓練模型的「鏈式推理」能力，讓它學會把搜尋當成一連串有邏輯的步驟，而不是一次性的關鍵字查詢。另一條是基於評分標準（rubric）的對話資料，把「遵循格式」「保持語言一致」等 SFT 建立的好習慣，轉化為強化學習階段同樣可以量化的條件，防止模型在「追高分」的過程中把基本紀律丟掉。答對才算數，搜尋越少越好 RL 訓練最大的難題，是如何定義「好的搜尋行為」。給分標準訂得不好，模型很容易學會表面上看起來流暢、實際上卻答錯了的回應。說服力和準確性是兩件事，但 AI 的訓練訊號很容易把兩者混在一起。 Perplexity 的解法稱為門控聚合。核心邏輯是：偏好得分必須在答案本身正確的前提下才會被計算。如果模型答錯，無論它的輸出看起來多有條理，也得不到任何加分。這道「門」把事實準確性放在所有偏好評估之前，確保獎勵訊號始終繫結在「有沒有答對」這件事上，而不是「說話方式有沒有討喜」。效率懲罰的邏輯同樣值得注意。判斷一次搜尋是否「太多工具呼叫」的基準，不是固定數字，而是同批次中其他答對的模型平均用了幾次。白話說就是：你的同組同學用三次搜尋答對了，你用了七次也答對了，你仍然會被扣效率分。比較的重點不在準確率，在成本評測結果用的是 FRAMES，一個業界認可的多跳搜尋基準，題目設計要求跨多個來源、分多個步驟推理才能作答。在這個基準上，後訓練後的 Qwen3.5-397B-SFT-RL 即使只用一次工具呼叫，準確率就達到 57.3%，超越 GPT-5.4 和 Claude Sonnet 4.6 各約 5 個百分點。但準確率只是敘事的第一層。真正引人注意的是成本欄位的數字。把工具呼叫上限放寬到四次時，三個模型的準確率分別是：Qwen3.5-397B-SFT-RL 73.9%、GPT-5.4 67.8%、Claude Sonnet 4.6 62.4%。準確率最高，這一點已經夠有競爭力。但每次查詢的費用分別是 2.0 美分、8.5 美分、15.3 美分，Perplexity 的成本比 GPT-5.4 少了七成五，比 Claude 少了近九成。數字按各廠商公開 API 定價計算，未含快取最佳化；實際部署場景下差距可能更大。這個組合的底層邏輯並不神秘：Qwen3.5 是開源模型，推論定價本來就遠低於閉源旗艦。Perplexity 做的事是在這個低成本底座上，用精準設計的後訓練流程把搜尋準確率推過閉源競爭對手。它不用為訓練費溢價買單，也不用為 API 授權買單，最後卻能在搜尋這個具體任務上拿到更好的分數。相關報導 Perplexity Personal Computer 上線：讓 AI 接管 Mac 本機，$200 月費向 Max 使用者開放不會寫程式也能用？Perplexity Computer 讓 AI 直接替你交付成果、自動跑工作流程 Perplexity AI 瀏覽器「Comet」開放免費使用：總結內容、自主導航、整合 Gmail…實用功能整理 Perplexity 全球下載量暴跌 80%：三大因素澆滅「AI 版 Google」增長神話 OpenAI 900 職業研究打臉 AI 失業恐慌：18% 高風險族群飯碗反而最穩？怎麼回事〈每次查詢 2 美分勝 GPT-5.4：Perplexity 公開搜尋 Agent 後訓練配方〉這篇文章最早發佈於動區BlockTempo《動區動趨-最具影響力的區塊鏈新聞媒體》。

市場機遇

4實時價格 (4)

$0.010977

$0.010977$0.010977

+0.17%

USD

4 (4) 實時價格圖表

$200,000 U 狂歡獎池不容錯過

解鎖驚喜盲盒、12% 加息券及 $200 新用戶好禮！

免責聲明: 本網站轉載的文章均來源於公開平台，僅供參考。這些文章不代表 MEXC 的觀點或意見。所有版權歸原作者所有。如果您認為任何轉載文章侵犯了第三方權利，請聯絡 crypto.news@mexc.com 以便將其刪除。MEXC 不對轉載文章的及時性、準確性或完整性作出任何陳述或保證，並且不對基於此類內容所採取的任何行動或決定承擔責任。轉載材料僅供參考，不構成任何商業、金融、法律和/或稅務決策的建議、認可或依據。