大模型應(yīng)用,最重要的是邏輯推理能力|面壁智能李大海@MEET2024
Internet of Agents
編輯部 整理自 MEET2024
量子位 | 公眾號 QbitAI
“一個法律案件的事實是否清晰,與法條之間的關(guān)系如何判定,全部都在講求邏輯。”
在MEET2024智能未來大會現(xiàn)場,面壁智能聯(lián)合創(chuàng)始人、CEO李大海談到大模型在法律行業(yè)的落地時強調(diào)了邏輯推理能力的重要性。
他認為,AGI革命是與蒸汽革命、電力革命和信息革命并列的第四次技術(shù)變革,而作為這場變革的核心技術(shù)路線,大模型能夠真正落地應(yīng)用到生產(chǎn)環(huán)節(jié)中,最重要的就是邏輯推理能力。
作為國內(nèi)最早做大模型的團隊,面壁智能在模型訓練的過程中,針對邏輯推理做了非常多細致工作,將其拆分成包括歸納、演繹、時間、空間等多個維度,并專門攻克,逐一提升。

據(jù)介紹,面壁智能的千億多模態(tài)大模型CPM-Cricket可以對標GPT-3.5的水平,同時邏輯推理能力十分突出。在公考行測的邏輯推理試題測試中,CPM的總正確率達到63.76%,甚至超過GPT-4的61.88%。
然而,隨著各行業(yè)和企業(yè)都看到了大模型的應(yīng)用前景和價值,如何才能發(fā)揮出大模型的更大潛力,并推動生產(chǎn)力的發(fā)展和變革?
李大海給出的答案是“大模型+Agent”。
他將大模型比做汽車的引擎,為汽車提供動力。但如果想要把汽車造出來,還需要轉(zhuǎn)向系統(tǒng),需要汽車底盤,以及包括內(nèi)飾等所有其他組件,才能真正給用戶提供一臺完整的汽車產(chǎn)品。
李大海認為,在大模型這個引擎的基礎(chǔ)上還需要疊加一系列上層技術(shù),包括記憶能力、使用工具等,從而帶來更多廣泛的應(yīng)用和想象空間,而AI Agent(智能體)就是這一系列技術(shù)能力的載體。
為了完整體現(xiàn)李大海在“大模型+Agent”賽道的思考,量子位在不改變原意的基礎(chǔ)上,對他的演講內(nèi)容進行了編輯整理。
關(guān)于MEET智能未來大會:MEET大會是由量子位主辦的智能科技領(lǐng)域頂級商業(yè)峰會,致力于探討前沿科技技術(shù)的落地與行業(yè)應(yīng)用。今年共有數(shù)十家主流媒體及直播平臺報道直播了MEET2024大會,吸引了超過300萬行業(yè)用戶線上參會,全網(wǎng)總曝光量累積超過2000萬。
演講要點
- 大模型要能夠真正用在生產(chǎn)環(huán)境里,最重要的就是邏輯推理能力
- 大模型是一個新的技術(shù)革命,可以跟工業(yè)革命、電力革命、信息革命相提并論
- 大模型是底層引擎,想要做好Agent就需要引擎提供強勁的動力輸出
- 大模型帶來的最根本變化是人和機器關(guān)系的變化,二者在未來將變得更平等
- 未來世界將是由智能體連接的Internet of Agents的世界
(以下為李大海演講分享全文)
大模型要以邏輯推理為核心能力
面壁智能是從清華大學THUNLP實驗室孵化出來的大模型公司,在公司正式成立之前,我們的團隊就開始深耕大模型領(lǐng)域。與此同時,我們還發(fā)起了OpenBMB的開源社區(qū),在這個社區(qū)里面做了很多大模型的開源技術(shù)和工具。
聯(lián)合清華大學和OpenBMB開源社區(qū),我們構(gòu)建了一個“一體兩翼”的產(chǎn)學研用大模型生態(tài)。
面壁智能是國內(nèi)最早做大模型的團隊,全球第一個中文預(yù)訓練大模型就是我們的團隊在2020年12月推出的,叫做CPM-1。2023年11月,我們發(fā)布了最新的千億多模態(tài)大模型CPM-Cricket,可以對標GPT-3.5的水平。

面壁智能的模型核心能力在于邏輯推理。
從成立之初,我們就認識到大模型能夠真正落地應(yīng)用到生產(chǎn)環(huán)境里,最重要的就是邏輯推理能力。所以我們在做模型訓練的過程中,針對邏輯推理做了非常多細致的工作,將其拆分成包括歸納、演繹、時間、空間等多個維度,并專門攻克,逐一提升。
為了測試模型在真實場景中的邏輯推理表現(xiàn),我們給大模型模擬了過去三年的公考行測試題,結(jié)果顯示CPM的總正確率達到63.76%,甚至超過GPT-4的61.88%。在英文的GMAT測試中,面壁智能大模型的分數(shù)是GPT-4的93%,已經(jīng)非常趨近,個別題型甚至超過GPT-4。
最近,我們在與法律行業(yè)客戶的合作中可以看到,應(yīng)用場景非常關(guān)注和依賴模型的邏輯推理能力。案件的事實是否清晰,事實與法律條款之間的關(guān)系如何判定,全部都是在講邏輯。經(jīng)過行業(yè)客戶的評估,面壁智能的大模型邏輯推理表現(xiàn)最為突出,恰恰符合客戶的實際需求。
到了今天,我相信大模型的技術(shù)路線在整個產(chǎn)業(yè)界已形成共識,但大家一定還是會思考,大模型帶來的到底是一個像web3這樣的技術(shù)浪潮,還是十年為期的產(chǎn)業(yè)變革。
我認為,以大模型為核心的AGI革命是第四次重大技術(shù)變革,它可以和蒸汽革命、電力革命、信息革命相提并論,并將至少持續(xù)20-30年的時間。若干年后,整個人類社會的生產(chǎn)和生活將會因為AGI革命的演進而發(fā)生翻天覆地的變化。
“大模型+Agent”創(chuàng)造更多想象空間
大模型就像是汽車的引擎,為汽車提供動力。但如果想要把汽車造出來,還需要轉(zhuǎn)向系統(tǒng),需要汽車底盤,以及包括內(nèi)飾等所有其他組件,才能真正給用戶提供一臺完整的汽車產(chǎn)品。
因此,在大模型這個引擎的基礎(chǔ)上還需要疊加一系列上層技術(shù),包括記憶能力、使用工具等,從而帶來更多廣泛的應(yīng)用和想象空間,而AI Agent就是這一系列技術(shù)能力的載體。
智能體具有人設(shè)、智商、情商、感知力、價值觀和成長性六個維度的典型特征,從而適應(yīng)各種應(yīng)用場景。同時,為了讓單個智能體發(fā)揮更強大的能力,還需要把它們連接和協(xié)同起來,去處理和完成更復雜的任務(wù)。
實際上,無論人類社會還是自然界中都有群體智能的典型案例。如同我們需要團隊和組織把個人集結(jié)起來,自然界中的蜂群、蟻群、魚群也表現(xiàn)出比單體更高級的智能表現(xiàn)。
基于這些思考,面壁智能自2023年6月起就開始布局“大模型+Agent”的技術(shù)路線和落地方向,并在過去的幾個月里,發(fā)布了一系列基于大模型驅(qū)動的AI Agent智能體應(yīng)用框架,我們稱之為面壁智能的“AI Agent三駕馬車”。
第一,是AgentVerse智能體通用平臺。
它構(gòu)建了一個豐富的虛擬空間,其中定義了眾多智能體專家,具有不同人設(shè)和專業(yè)能力。
當用戶提出需求后,智能體專家們立即啟動組隊流程。這是一個策略性的招募過程,旨在確定哪些專家應(yīng)當投入特定任務(wù)。這些專家組成團隊后,開始互相協(xié)商任務(wù)細節(jié),明確分工。協(xié)商完畢便轉(zhuǎn)入執(zhí)行階段,每個Agent依據(jù)其角色完成相應(yīng)的工作,然后再進行整合。

整個過程中還有一個策略規(guī)劃者,確保所有智能體的工作協(xié)同一致,形成最終成果,并與用戶需求進行對照,若存在較大偏差,還可進行迭代改進。這個框架的通用性使我們能夠在其基礎(chǔ)上開展廣泛的工作。
第二,是XAgent超強智能體應(yīng)用框架。
它是一個超級智能體,能夠針對復雜任務(wù)進行拆解,并基于動態(tài)指示做任務(wù)分布執(zhí)行。它扮演著智能體專家的角色,根據(jù)人的需求做規(guī)劃,完成用戶提出的目標。
在這個規(guī)劃的基礎(chǔ)上,如果用戶輸入的信息不夠多,它會與用戶交互,收集必要信息。
在做完規(guī)劃后每一步執(zhí)行的時候,XAgent還會評估執(zhí)行完每個步驟后是否需要做額外更多的工作,整個過程是一個動態(tài)的結(jié)構(gòu)。在基準測試中,XAgent的能力已經(jīng)全面超越AuotGPT。

舉個例子,當你向XAgent發(fā)出指令“我周末有朋友到訪,請為我推薦幾個餐廳”,這個超強智能體不會立刻列出一長串餐廳,相反,它會首先探詢你的偏好,詢問你是否偏愛安靜的環(huán)境或是特定類型的飲食,以此來理解你的需求。
它的第一步是與你互動,而不是立即執(zhí)行任務(wù);接著,基于你的回復進行餐廳搜索;然后,整理搜索結(jié)果,并提出幾個帶有優(yōu)缺點分析的方案。方案準備就緒后,它會以可視化的形式呈現(xiàn),供你選擇。一旦你做出選擇,它便會通過連接API直接為你預(yù)訂餐廳。
這不同于我們通常所熟悉的單步問答模式,它展現(xiàn)了智能體提供的一種更優(yōu)質(zhì)的體驗。
第三,是ChatDev多智能體協(xié)作開發(fā)框架。
它可以幫助我們構(gòu)建一個虛擬的AI軟件公司,設(shè)定CEO、CTO、產(chǎn)品經(jīng)理、程序員、設(shè)計師等不同角色的智能體,并通過一條稱為“對話鏈”的交流網(wǎng)絡(luò)連接它們。
這些角色的互動流程與軟件開發(fā)中的瀑布模型相契合,包括軟件設(shè)計、系統(tǒng)測試和文檔編制等環(huán)節(jié)。
我們讓這些AI智能體按照明確的分工協(xié)作,并通過自然語言進行交流和互動,平均最快不到3分鐘,平均小于3塊錢成本,“不到一杯可樂的時間和錢”就可以完成一個簡單的軟件開發(fā)。

在這個工作里,我們還做了一個叫HAI(Human-Agent-Interaction)的功能,讓人跟Agent通過自然語言進行交互,通過這種方式也能讓智能體得到足夠的數(shù)據(jù)反饋,讓他們的工作做得更好,這是我們在剛剛說的在智能體成長性上的一個探索。
短短兩個多月的時間,ChatDev在GitHub上的星標數(shù)量激增,超過1.8萬,連續(xù)多日位居Trending排行榜首。
大模型和Agent之間的耦合性非常重要
面壁智能需要同時把大模型和Agent兩件事都做好——
因為大模型是底層引擎,想要做好Agent就需要引擎提供強勁的動力輸出。
實際應(yīng)用中,發(fā)現(xiàn)Agent在哪些方向可能工作得還不夠好,就需要在底層能夠有實時的反饋,能夠及時進行修改和優(yōu)化。如果完全依賴外部大模型會有很多限制,二者之間的耦合性是非常重要的。
當前,我們在“大模型+Agent”這條技術(shù)路線上已經(jīng)有很多場景正在落地。
在金融場景,面壁智能和國內(nèi)頭部銀行客戶進行了深入合作,通過大模型為客戶的“智能財富助理”產(chǎn)品提供強大的語言對話能力和邏輯推理能力,解答用戶在金融理財?shù)葮I(yè)務(wù)咨詢中的專業(yè)問題。

在法律場景,面壁智能打造法律大模型,結(jié)合Agent技術(shù)為法務(wù)人員提供得力助手,針對案件關(guān)鍵點提取、事實點厘清、法律條款梳理等進行輔助工作,從而極大縮短案件處理的時間,提升效率。
國內(nèi)每年大概有3000萬左右的案件,但是基層法務(wù)人員數(shù)量非常有限。經(jīng)過訪談,我們發(fā)現(xiàn)平均每個基層法務(wù)人員每天要處理3-4個案子,但這里面包含了很多復雜案件,處理時間會非常長,一個案件需要訴訟可能會排到三、四個月后。這種情況下需要有法律大模型更好地去幫助法務(wù)部門大幅提升案件處理的效率。
大模型帶來的最根本變化是“人與機器之間關(guān)系的變化”。它讓機器能夠像人一樣通過自然語言的方式進行交互,并能夠進行邏輯思考,處理復雜任務(wù)。
大模型的出現(xiàn)將會使機器與人的關(guān)系變得更加平等,每個人都可以擁有一個AI的伙伴,“大模型+Agent”則能夠幫助人們打造更貼心、更懂你的生活智能伙伴。
我們相信,未來的世界將是一個由智能體鏈接的世界,也就是面壁智能所提出的“Internet of Agents”新時代。

大模型是第四次技術(shù)革命。每一次技術(shù)變革都需要花非常長的時間:第一次工業(yè)革命花了上百年,信息革命花了大約50多年,我相信AGI革命的時間也不會短。
2023只是第一年,相信還有很多問題需要解決和突破,包括任務(wù)的規(guī)劃、多模態(tài)、更高級的認知以及更小的模型等等。
希望行業(yè)里的所有伙伴一起來把這些問題攻克和解決,讓整個社會和人們的生活變得更好。



