商湯AI Agent把打工玩明白了
把工具按順序擺好都是小case
西風 發自 凹非寺
量子位 | 公眾號 QbitAI
家人們,商湯國產大模型也能把工具用明白了!
處理任務時,把要用的工具按順序一一擺好都是小case。
還能把任務拆成子任務,知道每個子任務要用啥工具。
你沒聽錯,為探究LLM的任務規劃和工具使用能力,商湯最近為基于LLM的AI智能體量身打造了一個框架。
結果發現AI處理任務時,引入統一工具-子任務生成策略,性能還能再次得到顯著提高。
網友直接被驚掉下巴:
自然語言處理領域振奮人心的進展!大語言模型正在徹底改變現實世界的應用。

為AI智能體量身定制一個框架
此前在自然語言處理領域,人們在看AI解決復雜任務時更多關注任務理解,而缺乏對工具使用和任務規劃能力的研究。
這不,為了彌補這一缺陷,商湯的研究人員提出了一種針對基于LLM的AI智能體的任務規劃和工具使用方法,并設計了兩種不同類型的智能體來執行推理過程。

具體來說,研究人員設計了一個包含六個組件的AI智能體框架。
六個組件分別是:任務指令(Task Instruction)、設計提示(Designed Prompt)、大語言模型(LLM)、工具集(Tool Set)、中間輸出(Intermediate Output)和最終答案(Final Answer)。
其中,任務指令是智能體的顯式輸入,可以來自系統的人類用戶;設計提示是一種額外的輸入形式,用于引導基于LLM的AI智能體生成適當的輸出。
△框架演示
要知道,要想增強或取代實際應用中的人工決策,除了任務規劃和使用工具的能力,AI智能體通常還需要感知能力、學習/反思/記憶能力、總結能力。
在這里研究人員總結了包括思維鏈、向量數據庫等方法,來解決這一問題:

但實際上,眾多能力中任務計劃和工具使用(簡稱TPTU)才是核心能力。
所以,研究人員專注于這兩個關鍵能力,設計了兩種不同類型的AI智能體:
一步智能體和順序智能體。
△一步智能體和順序智能體的工作流程,用于評估LLM的任務規劃和工具使用能力。
其中,一步智能體(TPTU-OA)可以從全局角度解釋原始問題,充分利用模型的整體理解能力,“一次到位”映射出所有子任務的規劃步驟。
而順序智能體(TPTU-SA),側重處理當前的子任務,完成后再請求下一個子任務。可以使模型保持清晰和集中式的關注,允許連續的反饋和進步。
這兩種智能體分別評估LLM的整體規劃與逐步推理的能力,可以從不同側面考察LLM處理復雜任務的效果。
下一步,研究人員使用不同的LLM實例化了這個框架,并在典型任務上評估了其任務規劃和工具使用能力。
一起康康效果如何。
AI用工具竟然如此順溜
先來看研究人員準備的工具,足足有12種: SQL生成器、Python生成器、天氣查詢工具、圖像生成器、文本提取器、翻譯器、必應搜索器、Shell生成器、Java生成器、Wikipedia搜索器、辦公軟件、電影播放器。
重點評估SQL生成器和Python生成器兩種:
- SQL生成器:給定一個輸入問題和一個數據庫,創建一個語法正確的SQLite查詢語句。
- Python生成器:給定一個輸入問題和一些信息,生成一個語法正確的Python代碼。
測試數據集,則來源于事先準備的120個問題-答案對。
被評估的LLM包括ChatGPT、Claude、上海人工智能實驗室和商湯聯合研發的InternLM等:

接下來就是正式評估環節。
任務規劃能力評估
在一步智能體中,研究人員設計了特定的提示,首先評估了基于LLM的AI智能體的工具使用順序規劃能力。
在這個提示中,智能體被要求從預定義的工具集中選擇工具,并嚴格遵守給定的格式,理解演示以從中學習。研究人員通過將這些提示輸入到評估中,得到了工具規劃的準確率。

結果表明,Ziya和ChatGLM模型在生成正確格式的列表方面存在困難。其它模型主要在生成正確順序的工具或偶爾遺漏必要工具方面存在挑戰??傮w而言,解析列表格式的問題通常可以忽略不計。
接著,他們評估智能體不僅能夠規劃工具的順序,還能夠規劃相應的子任務描述的能力。
研究人員設計提示,要求在生成工具順序后,對每個工具生成對應的子任務描述。
結果各個LLM的正確率顯著下降,ChatGPT從100%下降到55%,Claude從100%下降到15%,InternLM超過Claude,僅次于ChatGPT。

研究人員認為整體生成工具序列和子任務描述雖有效,但存在難以跟蹤調試錯誤、工具子任務匹配問題等困難。
為改進這一問題,研究人員進行了專門的規劃評估,要求智能體在復雜問題拆解中生成多個形式為{工具:子任務描述}的鍵值對序列。

結果各LLM正確率顯著提高,ChatGPT從55%上升到75%,Claude從15%上升到90%。
研究人員表示這是因為工具和子任務統一生成,確保了二者的匹配,避免了獨立生成的問題。
為了進一步評估,他們擴展了工具集,添加了其他無關的工具,結果穩定,說明提示設計有效,LLM能識別相關工具。
而在順序智能體中,研究人員設計了可以遞歸生成工具-子任務對的提示。

各LLM正確率與一步智能體相比普遍提高,ChatGPT從75%上升到80%,Claude從90%上升到100%,InternLM也有65%。
工具使用能力評估
在工具使用能力評估方面,研究人員首先評估了單一工具使用對SQL生成和數學代碼生成的有效性。
SQL生成綜合評估結果如下:

不同LLM的SQL生成能力截然不同,部分模型適合逐步指導。
數學代碼生成方面,國產大模型InternLM表現最優:

然后研究人員還進一步評估了一步智能體、順序智能體多工具的使用。
由于基于用戶界面的LLM缺乏調用外部工具的能力,所以這部分僅使用四個基于API的LLM來做評估:ChatGPT,Ziya,Chinese-Alpaca和InternLM

在一步智能體評估中,ChatGPT得分50%,明顯優于其它模型,InternLM為15%,而Ziya和China-Alpaca都沒有成功完成任何任務。
在順序智能體評估中,ChatGPT保持了領先地位,性能略有提高,達到55%。InternLM也表現出更好的表現,得分為20%。
總之,基于LLM的AI智能體在任務規劃和工具使用方面具備一定的能力,并且通過改進生成策略可以顯著提高智能體的性能。
論文傳送門:https://arxiv.org/abs/2308.03427
- 起底“豆包手機”:核心技術探索早已開源,GUI Agent布局近兩年,“全球首款真正的AI手機”2025-12-09
- 商湯分拆了一家AI醫療公司,半年融資10億,劍指“醫療世界模型”2025-12-02
- “豆包手機”在二手市場價格都翻倍了……2025-12-05
- OpenAI首席研究員Mark Chen長訪談:小扎親手端湯來公司挖人,氣得我們端著湯去了Meta2025-12-03



