色综合中文综合网_性猛交娇小69hd_久久精品99久久久久久_欧美日韩精品一区二区三区四区 _97视频色精品_国产高清精品久久久久_日日鲁鲁鲁夜夜爽爽狠狠视频97 _国产成人免费视频精品含羞草妖精 _熟女少妇在线视频播放_精品人妻一区二区三区麻豆91 _久久女同性恋中文字幕_一区二区福利视频

商湯AI Agent把打工玩明白了

把工具按順序擺好都是小case

西風 發自 凹非寺

量子位 | 公眾號 QbitAI

家人們,商湯國產大模型也能把工具用明白了!

處理任務時,把要用的工具按順序一一擺好都是小case。

還能把任務拆成子任務,知道每個子任務要用啥工具。

你沒聽錯,為探究LLM的任務規劃工具使用能力,商湯最近為基于LLM的AI智能體量身打造了一個框架。

結果發現AI處理任務時,引入統一工具-子任務生成策略,性能還能再次得到顯著提高。

網友直接被驚掉下巴:

自然語言處理領域振奮人心的進展!大語言模型正在徹底改變現實世界的應用。

商湯AI Agent把打工玩明白了

為AI智能體量身定制一個框架

此前在自然語言處理領域,人們在看AI解決復雜任務時更多關注任務理解,而缺乏對工具使用和任務規劃能力的研究。

這不,為了彌補這一缺陷,商湯的研究人員提出了一種針對基于LLM的AI智能體的任務規劃和工具使用方法,并設計了兩種不同類型的智能體來執行推理過程。

商湯AI Agent把打工玩明白了

具體來說,研究人員設計了一個包含六個組件的AI智能體框架。

六個組件分別是:任務指令(Task Instruction)、設計提示(Designed Prompt)、大語言模型(LLM)、工具集(Tool Set)、中間輸出(Intermediate Output)和最終答案(Final Answer)。

其中,任務指令是智能體的顯式輸入,可以來自系統的人類用戶;設計提示是一種額外的輸入形式,用于引導基于LLM的AI智能體生成適當的輸出。

商湯AI Agent把打工玩明白了

△框架演示

要知道,要想增強或取代實際應用中的人工決策,除了任務規劃和使用工具的能力,AI智能體通常還需要感知能力、學習/反思/記憶能力、總結能力。

在這里研究人員總結了包括思維鏈、向量數據庫等方法,來解決這一問題:

商湯AI Agent把打工玩明白了

但實際上,眾多能力中任務計劃和工具使用(簡稱TPTU)才是核心能力。

所以,研究人員專注于這兩個關鍵能力,設計了兩種不同類型的AI智能體:

一步智能體順序智能體

商湯AI Agent把打工玩明白了

△一步智能體和順序智能體的工作流程,用于評估LLM的任務規劃和工具使用能力。

其中,一步智能體(TPTU-OA)可以從全局角度解釋原始問題,充分利用模型的整體理解能力,“一次到位”映射出所有子任務的規劃步驟。

而順序智能體(TPTU-SA),側重處理當前的子任務,完成后再請求下一個子任務。可以使模型保持清晰和集中式的關注,允許連續的反饋和進步。

這兩種智能體分別評估LLM的整體規劃與逐步推理的能力,可以從不同側面考察LLM處理復雜任務的效果。

下一步,研究人員使用不同的LLM實例化了這個框架,并在典型任務上評估了其任務規劃和工具使用能力。

一起康康效果如何。

AI用工具竟然如此順溜

先來看研究人員準備的工具,足足有12種: SQL生成器、Python生成器、天氣查詢工具、圖像生成器、文本提取器、翻譯器、必應搜索器、Shell生成器、Java生成器、Wikipedia搜索器、辦公軟件、電影播放器。

重點評估SQL生成器和Python生成器兩種:

  • SQL生成器:給定一個輸入問題和一個數據庫,創建一個語法正確的SQLite查詢語句。
  • Python生成器:給定一個輸入問題和一些信息,生成一個語法正確的Python代碼。

測試數據集,則來源于事先準備的120個問題-答案對。

被評估的LLM包括ChatGPT、Claude、上海人工智能實驗室和商湯聯合研發的InternLM等:

商湯AI Agent把打工玩明白了

接下來就是正式評估環節。

任務規劃能力評估

在一步智能體中,研究人員設計了特定的提示,首先評估了基于LLM的AI智能體的工具使用順序規劃能力。

在這個提示中,智能體被要求從預定義的工具集中選擇工具,并嚴格遵守給定的格式,理解演示以從中學習。研究人員通過將這些提示輸入到評估中,得到了工具規劃的準確率。

商湯AI Agent把打工玩明白了

結果表明,Ziya和ChatGLM模型在生成正確格式的列表方面存在困難。其它模型主要在生成正確順序的工具或偶爾遺漏必要工具方面存在挑戰??傮w而言,解析列表格式的問題通常可以忽略不計。

接著,他們評估智能體不僅能夠規劃工具的順序,還能夠規劃相應的子任務描述的能力。

研究人員設計提示,要求在生成工具順序后,對每個工具生成對應的子任務描述。

結果各個LLM的正確率顯著下降,ChatGPT從100%下降到55%,Claude從100%下降到15%,InternLM超過Claude,僅次于ChatGPT。

商湯AI Agent把打工玩明白了

研究人員認為整體生成工具序列和子任務描述雖有效,但存在難以跟蹤調試錯誤、工具子任務匹配問題等困難。

為改進這一問題,研究人員進行了專門的規劃評估,要求智能體在復雜問題拆解中生成多個形式為{工具:子任務描述}的鍵值對序列。

商湯AI Agent把打工玩明白了

結果各LLM正確率顯著提高,ChatGPT從55%上升到75%,Claude從15%上升到90%。

研究人員表示這是因為工具和子任務統一生成,確保了二者的匹配,避免了獨立生成的問題。

為了進一步評估,他們擴展了工具集,添加了其他無關的工具,結果穩定,說明提示設計有效,LLM能識別相關工具。

而在順序智能體中,研究人員設計了可以遞歸生成工具-子任務對的提示。

商湯AI Agent把打工玩明白了

各LLM正確率與一步智能體相比普遍提高,ChatGPT從75%上升到80%,Claude從90%上升到100%,InternLM也有65%。

工具使用能力評估

在工具使用能力評估方面,研究人員首先評估了單一工具使用對SQL生成和數學代碼生成的有效性。

SQL生成綜合評估結果如下:

商湯AI Agent把打工玩明白了

不同LLM的SQL生成能力截然不同,部分模型適合逐步指導。

數學代碼生成方面,國產大模型InternLM表現最優:

商湯AI Agent把打工玩明白了

然后研究人員還進一步評估了一步智能體、順序智能體多工具的使用。

由于基于用戶界面的LLM缺乏調用外部工具的能力,所以這部分僅使用四個基于API的LLM來做評估:ChatGPT,Ziya,Chinese-Alpaca和InternLM

商湯AI Agent把打工玩明白了

在一步智能體評估中,ChatGPT得分50%,明顯優于其它模型,InternLM為15%,而Ziya和China-Alpaca都沒有成功完成任何任務。

在順序智能體評估中,ChatGPT保持了領先地位,性能略有提高,達到55%。InternLM也表現出更好的表現,得分為20%。

總之,基于LLM的AI智能體在任務規劃和工具使用方面具備一定的能力,并且通過改進生成策略可以顯著提高智能體的性能。

論文傳送門:https://arxiv.org/abs/2308.03427

版權所有,未經授權不得以任何形式轉載及使用,違者必究。
在线观看国产一级片| 国产美女被下药99| 久久久精品高清| 一区二区欧美国产| 国产69精品久久久久9| 91导航在线观看| 国产精品爽黄69| caoporn91| 日韩欧美黄色影院| 欧美另类一区| 91精品人妻一区二区三区蜜桃2| 日韩精品一区二区三区四区视频 | 欧美一区二不卡视频| 国产艳妇疯狂做爰视频| 国产欧美日韩精品专区| 久久综合色一综合色88| 日韩精品伦理第一区| 91蜜桃网址入口| www.av毛片| 亚洲自拍偷拍麻豆| 亚洲日本欧美在线| 日本欧美在线观看| av永久免费观看| 一区二区三区欧美日| 免费拍拍拍网站| 欧美综合久久久| 视频一区二区综合| 亚洲图片激情小说| 亚洲一区二区三区综合| 亚洲va欧美va在线观看| 欧美在线小视频| 天天色天天综合| 日韩美女在线看| 日韩在线视频第一页| 国产精品久久久久久久7电影| 丰满熟女人妻一区二区三| 欧美另类精品xxxx孕妇| 久久国产香蕉视频| 国产精品www网站| h片在线免费看| 日韩美女毛茸茸| 依依成人在线视频| 97**国产露脸精品国产| av黄色在线看| 少妇精69xxtheporn| 成人在线观看高清| 欧美日韩国产经典色站一区二区三区 | 久久国产亚洲精品无码| 久久久www成人免费无遮挡大片| 97视频久久久| 欧美午夜在线观看| 九九热精彩视频| 45www国产精品网站| 国产精选一区二区三区| 国产又爽又黄ai换脸| 中文字幕中文字幕一区| av漫画在线观看| 精品国产凹凸成av人导航| 69av视频在线| 成人久久18免费网站漫画| 欧美精品三级在线观看| 欧美高清在线视频| 高清乱码毛片入口| 五月婷婷六月合| 日韩在线视频网站| 成人黄色网址在线观看| 欧美黄色一级片视频| 午夜伦理精品一区| 日本熟妇毛茸茸丰满| 欧美一区二区三区系列电影| 永久免费看mv网站入口78| 日韩资源av在线| 五月激情丁香一区二区三区| 国产真实老熟女无套内射| 麻豆国产精品777777在线| 亚洲天堂最新地址| 日韩欧美亚洲日产国| 亚洲aⅴ怡春院| 97久久人国产精品婷婷| 在线免费观看视频| 久久无码人妻精品一区二区三区| 污污的视频免费| 亚洲少妇中文字幕| 色播五月综合网| 亚洲综合视频1区| 亚洲男人的天堂一区二区| 99热精品免费| 欧美日韩在线一区二区三区| 色妞一区二区三区| 国产精品一级片在线观看| 国产精品久久国产精品| 99久久精品国产导航| heyzo亚洲| 影音先锋日韩有码| 日韩欧美国产中文字幕| 99热这里只有精品99| 亚洲av无码一区二区二三区| aaa毛片在线观看| 成人黄色av片| 国产精品嫩草69影院| 一色道久久88加勒比一| 少妇精品无码一区二区免费视频| 成人性生活视频免费看| 亚洲精品午夜精品| 97se亚洲国产综合自在线| 欧美a视频在线观看| 韩国三级与黑人| 奇米一区二区三区四区久久| 亚洲天天综合网| 美女主播视频一区| 亚洲国产婷婷综合在线精品| 99自拍偷拍视频| 天堂www中文在线资源| 欧美亚洲日本一区二区三区| 伦理中文字幕亚洲| 欧美日韩中文字幕一区| 亚洲欧洲视频在线观看| 国产精品一二三| 亚洲成a人v欧美综合天堂| 777午夜精品免费视频| 欧美日韩和欧美的一区二区| 国产**成人网毛片九色| 亚洲国产精品成人无久久精品| www.精品在线| 精品国产_亚洲人成在线| 热久久美女精品天天吊色| 人妻偷人精品一区二区三区| 亚洲天堂第一区| 日韩美一区二区三区| 性插视频在线观看| 久久成人在线观看| 亚洲精品久久久久久国| 蜜臀av无码一区二区三区| 久久66热这里只有精品| 欧美一区二区视频17c| 久久久精品三级| 日韩av片在线播放| 五月婷婷伊人网| 欧美经典一区二区| 五月激情六月综合| 国产天堂亚洲国产碰碰| 毛片av中文字幕一区二区| 夜夜躁很很躁日日躁麻豆| 欧美日韩在线国产| 亚洲中文字幕无码爆乳av | 青青草免费在线视频观看| 伊人久久精品视频| 中文字幕一区二区三区不卡| 91av国产精品| 成人爽a毛片一区二区| 天堂va蜜桃一区二区三区漫画版| 免费在线观看av的网站| 日本天堂网在线| 高h调教冰块play男男双性文| 中文字幕一区不卡| 最新的欧美黄色| 97久久夜色精品国产九色| 欧美视频第一区| 日本美女视频一区| 秋霞无码一区二区| 大荫蒂性生交片| 日韩欧美精品久久| 日本中文不卡| 91黄色国产视频| 精品久久久久久中文字幕一区奶水| 日韩一级在线播放| 内射一区二区三区| 中文字幕在线综合| 一区二区三区四区毛片| 国产精品久久久久久在线观看| 污污免费在线观看| 喷水视频在线观看| 中文字幕免费看| 性做久久久久久久久久| 日本福利一区二区| 成人妇女淫片aaaa视频| 日本少妇激三级做爰在线| 99久久一区二区| 成人午夜视频免费看| 人妖欧美一区二区| 亚洲日本在线播放| 久久精品国产在热久久| 久久久久国产精品厨房| 亚洲成av人**亚洲成av**| 久久99国产精品久久| 怡红院成永久免费人全部视频| 网站永久看片免费| 日本一区二区在线观看视频| 久久国产免费视频| 久久久.www| 先锋av资源站| 国产精品影视天天线| 无码av免费一区二区三区试看| 欧美第一页在线| 精品人妻一区二区三区香蕉| 99久久综合国产精品| 久99久在线视频| 亚洲乱码中文字幕久久孕妇黑人| 蜜桃精品成人影片| 在线免费观看一级片| 国产精一区二区三区| 亚洲欧美一区二区不卡| 欧美喷潮久久久xxxxx| 欧美激情精品久久久久久久变态| 国产精品精品一区二区三区午夜版 | 欧美激情欧美激情在线五月| 国产日韩欧美亚洲一区| 久章草在线视频| 男人亚洲天堂网| 日本伦理一区二区三区| 三级久久三级久久久| 日韩一级二级三级| 色哺乳xxxxhd奶水米仓惠香| 国产成人无码精品| 亚洲va韩国va欧美va精品| 91av在线播放| 青青视频免费在线观看| 一区二区精品免费| 国产精品自偷自拍| a美女胸又www黄视频久久| 综合中文字幕亚洲| 欧美第一黄网免费网站| 欧美精品一区二区久久婷婷| 亚洲精品国产电影| 久久97精品久久久久久久不卡 | 欧美精品欧美极品欧美激情| 亚洲精品无amm毛片| 亚洲成av人片一区二区| 精品国产一区二区在线| 国产精品精品软件视频| 艳妇乳肉豪妇荡乳xxx| 亚洲日本国产精品| 国产日本欧美一区| 伊人久久久久久久久久久久| 亚洲欧美在线看| 丰满少妇大力进入| 91日韩精品一区| 欧美成人精品在线视频| 老司机午夜免费福利视频| 亚洲精品国产熟女久久久| 亚洲成人77777| 欧美日韩亚洲网| 欧美一级爽aaaaa大片| 特级西西人体高清大胆| 久久久久久久久99| 一区二区三区美女视频| 国产精品免费看一区二区三区| 亚洲免费激情视频| 亚洲成人综合视频| 韩剧1988在线观看免费完整版| 91亚洲精品在线观看| 手机免费看av网站| 国产精品九九九九| 国产香蕉久久精品综合网| 亚洲色图丝袜美腿| 亚洲人成电影网站色www| 国产在线视频欧美| 亚洲欧美国产日韩综合| 国产一区二区精品久久| 欧美极品少妇xxxxⅹ裸体艺术| 国产xxxxxxxxx| wwwav网站| 亚洲人成亚洲人成在线观看| 国产白丝袜美女久久久久| av在线播放一区二区三区| 日本福利视频导航| 国产精品成人一区二区三区夜夜夜| 免费拍拍拍网站| 久久久另类综合| 青青影院一区二区三区四区| 精产国品一区二区| 欧美在线观看一二区| 日韩精品电影网站| 精产国品一区二区| 亚洲精品成人久久久| 亚洲理论电影在线观看| 久草国产精品视频| 欧美日韩视频在线| 福利视频一区二区三区| 免费成人美女女在线观看| 亚洲福中文字幕伊人影院| 国产精品吴梦梦| 亚洲第一精品在线观看 | 国产精品一区在线免费观看| 黄色一级视频在线观看| 国产欧美一区二区精品久导航| 亚洲精品欧美极品| 国产一区二区三区四区视频| 亚洲一区二区视频在线观看| 国产精品视频在线免费观看| 视频这里只有精品| 99久精品国产| 亚洲娇小xxxx欧美娇小| 视频一区二区在线观看| 免费成人美女在线观看.| 全球成人中文在线| 中文字幕国产在线观看| 亚洲国产精品综合小说图片区| 国产一级做a爰片久久毛片男| 国产精品影视在线观看| 亚洲精品电影在线一区| 色一情一伦一子一伦一区| 午夜激情福利网| 久久久久久国产精品美女| 国产免费a视频| 国产精品男人的天堂| 亚洲av色香蕉一区二区三区| www.欧美免费| 亚洲欧美另类日本| 岛国av一区二区三区| 国内外成人免费激情视频| 99国产精品久久| 精品国产乱码久久久久久蜜柚| 日本在线视频不卡| 中文字幕观看av| 亚洲色图制服诱惑| 国产免费一区二区三区香蕉精| 日韩一级片av| 欧美一区二区三区人| 精品久久久久久久免费人妻| 成人av网站在线| 日本一区二区三区免费观看| 国产91高潮流白浆在线麻豆| 一区二区三区在线视频111| 亚洲 欧美 精品| 日本一区二区免费看| 久久综合久久久久88| 国产精品自在自线| 欧美美女视频在线观看| 天海翼在线视频| 国产精品va在线播放| 国产精品久久久久久69| 欧洲成人性视频| 黄色国产在线播放| 久久亚洲一区二区三区四区五区高| 亚洲免费黄色网址| 97免费视频在线| 国产精品久久久久久久一区二区| 日韩精品视频免费专区在线播放| 日韩 中文字幕| 精品国产乱码久久久久久图片| 久久99国产综合精品免费| 蜜桃传媒视频第一区入口在线看| 日本欧美一区二区在线观看| 国产91久久婷婷一区二区| 色屁屁草草影院ccyycom| 一本一道久久久a久久久精品91| 无码av中文一区二区三区桃花岛| 亚洲精品女人久久久| 99这里都是精品| 苍井空浴缸大战猛男120分钟| 欧美精品亚洲一区二区在线播放| 中文字幕观看av| 99久re热视频这里只有精品6| 成人国产免费视频| 右手影院亚洲欧美| 久久久久久久91| 精品人妻一区二区三区三区四区| 国产在线观看精品一区二区三区| 国产精品国产av| 久久久久网址| 亚洲精品国产品国语在线app| 鲁大师私人影院在线观看| 亚洲精品www久久久| 第一次破处视频| 欧美日本国产在线| 蜜桃在线一区二区三区| 青娱乐国产精品视频| 久久久久久久国产精品视频| 久久综合网络一区二区| 国内不卡一区二区三区| 国产精品国产三级国产三级人妇| 精品国精品国产| 中文字幕久久综合| 久久精品视频一区| 国产精品无码电影| 欧美一级电影在线| 国产日产欧产精品推荐色| 欧美性猛交xxxx乱| 亚洲免费伊人电影在线观看av| 国产精品50页| 亚洲视频导航| 亚洲精品一区久久久久久| 成人18视频在线播放| 美女久久久久久久久| 国产玖玖精品视频| 欧美日韩综合在线| 国产成人免费视频精品含羞草妖精| aa一级黄色片| 成人h猎奇视频网站| 香蕉加勒比综合久久 | 丁香网亚洲国际| 日批视频免费看| 美女福利精品视频| 中文一区在线播放| 亚洲欧美视频在线播放| 成人免费大片黄在线播放| 亚洲第一精品在线| 国产精品成人久久久| 久久人人九九| 欧美另类一区二区三区| 无码精品一区二区三区在线 | 久久精品aaaaaa毛片| 欧美国产欧美亚洲国产日韩mv天天看完整| 国产精品国产三级国产专播品爱网 | 久久久久久久久久一区| 亚洲精品一区二三区不卡| 超碰在线播放97| 欧美精品久久久久久久久久久| 视频一区视频二区国产精品 |