GPT-4推理能力暴漲32%,谷歌新型思維鏈效果超CoT,成本降至1/40
讓大模型千人千面
明敏 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
GPT-4推理能力還能暴漲32%?
谷歌&南加大推出最新研究“自我發(fā)現(xiàn)”(Self-Discover),重新定義了大模型推理范式。
與已成行業(yè)標(biāo)準(zhǔn)的思維鏈(CoT)相比,新方法不僅讓模型在面對復(fù)雜任務(wù)時(shí)表現(xiàn)更佳,還把同等效果下的推理成本壓縮至1/40。

核心策略其實(shí)很簡單:千人千面。
讓大模型針對不同問題,提出特定的推理結(jié)構(gòu)。完全不同于以往CoT等方法“千篇一律”的方式。

這種靈活應(yīng)變的方式,更加貼近于人類的思考模式,也向著期待中的大模型思維方式更進(jìn)一步。

大模型“千人千面”
一直以來大模型在處理復(fù)雜問題時(shí)都容易遇到困難,所以一些模擬人類思維能力的提示方法被提出。
最出名的就是思維鏈(CoT),它通過引導(dǎo)大模型“一步一步來”,讓大模型能像人類一樣逐步思考解決問題,最終帶來顯著性能提升。
還有分解法(decomposition-based prompting),它是讓大模型將復(fù)雜問題拆解成一個(gè)個(gè)更小的子問題。
這類方法本身都能充當(dāng)一個(gè)原子推理模塊,對給定任務(wù)的處理過程做了先驗(yàn)假設(shè),也就是讓不同問題都套到同一個(gè)流程里解決。
但是不同方法其實(shí)都有更擅長和不擅長的領(lǐng)域。比如在解決涉及符號操作等問題時(shí),分解法要優(yōu)于CoT。
所以研究人員提出,對于每個(gè)任務(wù),都應(yīng)該有獨(dú)特的內(nèi)在推理過程,同時(shí)還不提高模型的推理成本。

自發(fā)現(xiàn)步驟架構(gòu)由此而來。
它主要分為兩個(gè)階段。
第一階段指導(dǎo)大語言模型從原子推理模塊中進(jìn)行挑選、調(diào)整、整合,搭建出一個(gè)可以解決特定任務(wù)的推理結(jié)構(gòu)。
比如“創(chuàng)造思維”可能在創(chuàng)作故事任務(wù)上有幫助、“反思思考”可能對搜索科學(xué)問題有幫助等。大模型需要根據(jù)任務(wù)進(jìn)行挑選,然后進(jìn)一步調(diào)整并完成整合。

第二階段輸入實(shí)例,讓大模型使用第一階段發(fā)現(xiàn)的推理結(jié)構(gòu)來生成答案。

通過在GPT-4和PaLM 2上進(jìn)行實(shí)驗(yàn),在BBH、T4D、MATH幾個(gè)基準(zhǔn)中,使用自發(fā)現(xiàn)步驟架構(gòu)后,模型的性能都有明顯提升。

在更細(xì)分的測試中,自發(fā)現(xiàn)步驟在需要世界知識(shí)的任務(wù)中表現(xiàn)最好,在算法、自然語言理解上超過CoT。

在處理問題的推理調(diào)用方面,自發(fā)現(xiàn)步驟需要的調(diào)用次數(shù)明顯少于CoT+Self Consistency,而且準(zhǔn)確性更高。
如果想要達(dá)到和自發(fā)現(xiàn)步驟同樣的準(zhǔn)確率,需要的推理計(jì)算量則是其40倍。

研究團(tuán)隊(duì)
本項(xiàng)研究由南加州大學(xué)和谷歌DeepMind聯(lián)合推出。
第一作者是Pei Zhou,他現(xiàn)在正在南加州大學(xué)的NLP小組攻讀博士。
兩位通訊作者分別是Huaixiu Zheng和Swaroop Mishra。
Huaixiu Zheng此前參與過谷歌LaMDA工作,這是谷歌一個(gè)專攻對話的大模型。
Swaroop Mishra是谷歌DeepMind的研究科學(xué)家,它參與的Self-Instruct框架在GitHub上星標(biāo)3.5k、被引用次數(shù)超過600,并被ACL 2023接收。
此外Quoc Le、Denny Zhou等大模型提示微調(diào)、推理方向的老面孔也參與其中。
雖然官方暫未開源,但已經(jīng)有迫不及待的開發(fā)者根據(jù)論文自行復(fù)現(xiàn)了代碼。
發(fā)現(xiàn)不僅適用于GPT-4和谷歌PaLM,連Mistral家泄露版模型Miqu上都能很好發(fā)揮作用。

論文地址:
https://arxiv.org/abs/2402.03620
- DeepSeek-V3.2-Exp第一時(shí)間上線華為云2025-09-29
- 你的AI助手更萬能了!天禧合作字節(jié)扣子,解鎖無限新功能2025-09-26
- 你的最快安卓芯片發(fā)布了!全面為Agent鋪路2025-09-26
- 任少卿在中科大招生了!碩博都可,推免學(xué)生下周一緊急面試2025-09-20



