英偉達巧用8B模型秒掉GPT-5，開源了

一水 2025-12-06 14:10:21 來源：量子位

人類終極考試HLE分數更高、花錢更少

英偉達端著一個8B小模型對GPT-5說：

不好意思，你還得練（bushi）。

何出此言？——英偉達攜手香港大學開源的Orchestrator-8B，人類終極考試HLE分數更高、花錢更少、跑起來速度還更快。

哦對了，還在HuggingFace被狂贊，沖到了熱門模型前五。

而它超越GPT-5的打法是不當推理者，而是“工具主理人”，協調使用各路工具。

如何吊打GPT-5？

人在解決問題時會找各種幫手，比如搜索引擎、計算器，那這個工作能不能由模型代勞？

Orchestrator干的就是這事兒。

雖然自己只有8B參數，但手下管著一整個工具團隊。

既有GPT-5、Claude Opus 4.1這樣的頂級大模型，也有Qwen2.5-Math這樣的專業數學工具，還有網頁搜索、本地檢索、代碼解釋器這些實用小幫手。

它并不是自己解題，而是判斷現在該用哪個工具、控制工具的順序和使用次數、還能兼顧效果、成本、用戶偏好，工作日常如下：

拿到難題先分析：這題需要算數學？那就調用Qwen2.5-Math；
過程中動態調整：搜完資料發現需要驗證？那就先用代碼解釋器跑一遍；
全程把控用戶偏好：用戶說要省錢，那GPT-5能不用就不用，優先用本地工具。

簡單說，大模型是一個人干所有活，而Orchestrator-8B是帶著團隊干專業活。

能讓小模型精準協調這么多工具，全靠英偉達的ToolOrchestra訓練大法。

核心有兩個，一個是有獎有罰的強化學習，一個是量身定制的ToolScale數據集。

訓練時給Orchestrator立了三條獎懲規則：

效果獎：讓GPT-5判對錯，解題對了加分，錯了扣分；
效率獎：用的錢少、耗時短加分，反之扣分；
偏好獎：聽用戶的話加分，比如用戶要隱私保護，多用本地搜索就加分。

研究者建了個包含金融、醫療、電商、旅游等10個領域的訓練素材庫，里面全是“怎么用工具解題”的案例，讓模型充分接觸各類場景。

Orchestrator-8B也在權威測試中交出了令人滿意的答卷。

HLE測試里它拿下37.1%的得分，超過GPT-5的35.1%，成本卻僅為后者的1/2.5；

FRAMES、τ2-Bench測試中也拿下SOTA成績，降低了開支，運行速度更是快了一倍多。

小模型的逆襲

實際上，在AI領域工具編排和小模型驅動復合系統的賽道上，英偉達ToolOrchestra訓練的Orchestrator-8B并非孤例。

最早探索讓小模型學會調用工具的代表性研究，是谷歌DeepMind在2023年提出的Toolformer，通過監督學習+自生成數據，讓12B參數的模型學會調用計算器、翻譯API、搜索引擎等基礎工具；

但當時，Toolformer僅聚焦基礎工具，并沒有把大模型納入工具庫。

MIT和CMU聯合團隊的ToolRL，提出以獎勵為核心的工具學習框架，訓練小模型通過強化學習動態選擇工具，主要是解決“傳統工具學習過度依賴人工標注數據” 的問題，通過自動生成工具交互軌跡訓練模型。

雖然也是獎勵機制，但ToolRL的獎勵函數更側重于任務的正確性和工具調用效率，并沒有明確納入用戶偏好，且工具庫以基礎工具和專業API為主。

今年，香港大學和微軟提出的Optimal Tool Calls（OCT），也是專門針對“工具調用成本優化”的小模型訓練方法。

越來越多的團隊在做相關研究，也有越來越多的人關注該領域的進展。

就拿Orchestrator-8B來說，為什么它能獲得HuggingFace高贊？

最明顯的原因就是實用。大模型雖強，但太貴、太慢，而Orchestrator-8B參數量小，還能實現「強+省錢」，直接解決了落地時的成本難題。

用低成本實現高智能，這么一看，AI的未來還真不一定是超級大模型單打獨斗了。

作者簡介

Orchestrator-8B這篇論文的一作是香港大學博士蘇弘錦，主要研究方向是數據科學和自然語言處理，現在英偉達實習。

共一是英偉達研究院的研究科學家Shizhe Diao，主要進行大型基礎模型的預訓練、高效調優和對齊方面的研究，曾與字節跳動人工智能實驗室的李航博士合作。

論文地址：https://arxiv.org/abs/2511.21689
項目主頁：https://research.nvidia.com/labs/lpr/ToolOrchestra/
數據集：https://huggingface.co/datasets/nvidia/ToolScale
HuggingFace地址：https://huggingface.co/nvidia/Nemotron-Orchestrator-8B

英偉達

一水

SpaceX估值8000億美元超OpenAI，IPO就在明年2025-12-06
騰訊發布EdgeOne Pages正式版：國內首個邊緣全棧開發平臺，內測階段用戶突破15萬2025-12-05
中國AI計算開放架構創新風向標：HAIC2025重磅啟幕2025-12-04
Sora APP 30天留存率：1%2025-12-04

英偉達巧用8B模型秒掉GPT-5，開源了

如何吊打GPT-5？

小模型的逆襲

作者簡介

相關閱讀

老黃投了個120億美元最貴種子輪！但小錢：H20中國開賣，市值一夜暴漲1600億美元

老黃現場演示與游戲NPC聊天！大模型開口建議玩家去找犯罪頭目，網友：西部世界成真

英偉達Orin一旦「有事」，國產自動駕駛芯片誰能替代？

特斯拉機器人進廠打工，馬斯克：手的自由度今年將達到22個！

兩代汽車芯片收入360億，但英偉達一家賺錢的日子也結束了

全球十大AI訓練芯片大盤點：華為昇騰910是中國唯一入選

熱門文章

DeepSeek-V3.2系列開源，性能直接對標Gemini-3.0-Pro

階躍開源4B Agent模型，跑通所有安卓設備，手搓黨一鍵部署

能講“悄悄話”的智能助理，瑞聲科技助力夸克AI眼鏡S1開創語音交互新范式

商湯分拆了一家AI醫療公司，半年融資10億，劍指“醫療世界模型”

前端沒死，AI APP正在返祖

英偉達巧用8B模型秒掉GPT-5，開源了

如何吊打GPT-5？

小模型的逆襲

作者簡介

相關閱讀

老黃投了個120億美元最貴種子輪！但小錢：H20中國開賣，市值一夜暴漲1600億美元

老黃現場演示與游戲NPC聊天！大模型開口建議玩家去找犯罪頭目，網友：西部世界成真

英偉達Orin一旦「有事」，國產自動駕駛芯片誰能替代？

特斯拉機器人進廠打工，馬斯克：手的自由度今年將達到22個！

兩代汽車芯片收入360億，但英偉達一家賺錢的日子也結束了

全球十大AI訓練芯片大盤點：華為昇騰910是中國唯一入選

熱門文章

DeepSeek-V3.2系列開源，性能直接對標Gemini-3.0-Pro

階躍開源4B Agent模型，跑通所有安卓設備，手搓黨一鍵部署

能講“悄悄話”的智能助理，瑞聲科技助力夸克AI眼鏡S1開創 語音交互新范式

商湯分拆了一家AI醫療公司，半年融資10億，劍指“醫療世界模型”

前端沒死，AI APP正在返祖

能講“悄悄話”的智能助理，瑞聲科技助力夸克AI眼鏡S1開創語音交互新范式