李飛飛實(shí)驗(yàn)室2025 AI報(bào)告出爐：AI推理成本降低至1/280，中美AI模型差距更小了

一水 2025-04-08 15:48:33 來(lái)源：量子位

12個(gè)值得關(guān)注的重點(diǎn)趨勢(shì)

中美AI模型差距正在縮小。

由李飛飛聯(lián)合領(lǐng)導(dǎo)，斯坦福大學(xué)以人為本人工智能研究所（HAI）最新發(fā)布了2025 AI Index，用整整456頁(yè)追蹤了2024年全球AI行業(yè)的發(fā)展趨勢(shì)，并得出了這樣的結(jié)論。

李飛飛實(shí)驗(yàn)室2025 AI報(bào)告出爐：AI推理成本降低至1/280，中美AI模型差距更小了

至今，HAI已發(fā)布了8份（含本次）AI年度報(bào)告，不過(guò)今年的這份卻尤為特殊。

這是我們迄今為止最全面的版本，人工智能對(duì)社會(huì)的影響從未如此明顯。

雖然報(bào)告信息量爆炸，但手快的網(wǎng)友已經(jīng)提前為大家劃了重點(diǎn)：

AI推理成本降低了280倍
開(kāi)源模型正在迎頭趕上
AI基準(zhǔn)測(cè)試成績(jī)飆升
……

話不多說(shuō)，下面我們?cè)敿?xì)展開(kāi)報(bào)告中提到的一些重要結(jié)論。

中美AI模型差距正在縮小

從官網(wǎng)消息來(lái)看，鑒于報(bào)告內(nèi)容較多，HAI直接為大家挑出了其中最重要的12個(gè)結(jié)論。

我們先來(lái)看與國(guó)內(nèi)最相關(guān)的部分。

中美AI模型差距正在縮小

首先就是AI模型方面，中國(guó)模型雖然數(shù)量不及美國(guó)，但質(zhì)量方面已迅速縮小差距。

報(bào)告顯示，2024年美國(guó)機(jī)構(gòu)一共開(kāi)發(fā)了40個(gè)值得關(guān)注的AI模型，遠(yuǎn)高于中國(guó)開(kāi)發(fā)的15個(gè)和歐洲的3個(gè)。

不過(guò)，中美模型之間的性能差異正在快速縮小。具體表現(xiàn)為，在MMLU和HumanEval等主要基準(zhǔn)測(cè)試上，二者的性能差異由2023年的兩位數(shù)縮小到2024年的接近相等。

同時(shí)，從中美模型過(guò)去一年在大模型競(jìng)技場(chǎng)中的表現(xiàn)也能看出這一追趕趨勢(shì)：

當(dāng)然，這一性能差距正在縮小的趨勢(shì)也不局限于中美之間。

報(bào)告提到，排名第一和第十的模型之間的得分差距在一年內(nèi)從11.9%降至5.4%，排名前兩位的差距現(xiàn)在僅為 0.7%。

也就是說(shuō)，頂尖模型之間的競(jìng)爭(zhēng)越來(lái)越激烈。

順帶一提，國(guó)內(nèi)在發(fā)表AI論文和推出AI專利方面繼續(xù)保持領(lǐng)先地位。

中國(guó)是對(duì)AI最樂(lè)觀的國(guó)家

其次是在對(duì)AI的態(tài)度方面，中國(guó)始終是全球主要國(guó)家和地區(qū)中最樂(lè)觀的。

報(bào)告顯示，2024年中國(guó)有83%的人認(rèn)為AI產(chǎn)品和服務(wù)利大于弊，排在后面的是印度尼西亞（80%）和泰國(guó)（77%）。

相比之下，美國(guó)（39%）、加拿大（40%）等的樂(lè)觀情緒遠(yuǎn)低于國(guó)內(nèi)。

不過(guò)從整體趨勢(shì)來(lái)看，自2022年以來(lái)，幾個(gè)之前對(duì)AI持懷疑態(tài)度的國(guó)家樂(lè)觀情緒增長(zhǎng)顯著，比如美國(guó)（+4%）、加拿大（+8%）、法國(guó)（+10%）等等。

除了以上兩點(diǎn)，還有一些AI整體趨勢(shì)變化也值得關(guān)注。

AI基準(zhǔn)測(cè)試成績(jī)飆升，表現(xiàn)逐漸接近人類

一個(gè)比較符合大家日常感受的結(jié)論是：AI模型在各大基準(zhǔn)測(cè)試上的得分越來(lái)越高了。

報(bào)告顯示，研究人員在2023年引入了一些如今大家已耳熟能詳?shù)幕鶞?zhǔn)——MMMU、GPQA和SWE-bench，以此測(cè)試更高級(jí)AI模型的能力極限。

然而僅僅一年之后，從測(cè)試得分來(lái)看，其性能呈現(xiàn)大幅提升趨勢(shì)，分別在MMMU、GPQA和SWE-bench上提高了18.8、48.9和67.3個(gè)百分點(diǎn)。

從整體趨勢(shì)來(lái)看，AI各大能力表現(xiàn)逐漸接近人類，甚至在某些場(chǎng)景下，智能體能在限時(shí)編程任務(wù)中超越人類。

推理成本下降了280倍，開(kāi)源模型正在迎頭趕上

另一個(gè)符合大家印象的趨勢(shì)是：AI正變得更加高效、經(jīng)濟(jì)實(shí)惠和易于獲取。

過(guò)去兩年間，追求更具性價(jià)比的小模型逐漸成為一股潮流。

比如報(bào)告中提到的，在MMLU中得分超過(guò)60%的小模型：

數(shù)據(jù)顯示，由越來(lái)越強(qiáng)大的小模型驅(qū)動(dòng)，對(duì)于性能達(dá)到GPT-3.5水平的系統(tǒng)的推理成本，在2022年11月到2024年10月間下降了280倍。

遺憾的是，復(fù)雜推理仍然面臨挑戰(zhàn)。

截至目前，AI模型在國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽問(wèn)題等任務(wù)中表現(xiàn)出色，但仍無(wú)法很好應(yīng)對(duì)PlanBench等復(fù)雜推理基準(zhǔn)測(cè)試。

不過(guò)與此同時(shí)，開(kāi)源模型也在縮小與閉源模型的差距。

報(bào)告中特意提到，在某些基準(zhǔn)測(cè)試中，它們一年內(nèi)的性能差異就從8%減少到僅1.7%。

另外在硬件層面，成本每年下降30%，而能效每年提高40%。

以上趨勢(shì)共同降低了人們獲取高級(jí)AI的門檻。

AI正在融入日常生活，企業(yè)投資增長(zhǎng)強(qiáng)勁

正是由于AI獲取門檻降低，我們的日常生活也逐漸被AI改寫。

報(bào)告顯示，從醫(yī)療保健到交通運(yùn)輸，AI正迅速?gòu)膶?shí)驗(yàn)室走向日常生活。

比如2023年，美國(guó)FDA批準(zhǔn)了223種AI醫(yī)療設(shè)備，而2015年僅為6種。

另外在自動(dòng)駕駛方面，美國(guó)最大的運(yùn)營(yíng)商之一Waymo每周提供超過(guò)15萬(wàn)次自動(dòng)駕駛出行，而百度的經(jīng)濟(jì)型“蘿卜快跑” （Apollo Go）自動(dòng)駕駛出租車車隊(duì)現(xiàn)在已在中國(guó)多個(gè)城市提供服務(wù)。

整體而言，AI的應(yīng)用落地正在加速。

2024年，有78%的組織報(bào)告自己正在使用AI，這比前一年增長(zhǎng)了55%。

當(dāng)然，以上服務(wù)也離不開(kāi)企業(yè)對(duì)AI的大力投資。

報(bào)告顯示，2024年美國(guó)對(duì)AI的投資為1091億美元，這幾乎是中國(guó)（93億美元）的12倍和英國(guó)（45億美元）的24倍。

其中生成式AI尤其強(qiáng)勁，吸引了全球私營(yíng)投資339億美元，這一數(shù)字比2023年增長(zhǎng)了18.7%。

BTW，除了上述主要結(jié)論，報(bào)告還提到了：

各國(guó)政府正在加強(qiáng)對(duì)AI的監(jiān)管和投資；
負(fù)責(zé)任的AI生態(tài)系統(tǒng)正在不斷發(fā)展，但不均衡；
目前有2/3的國(guó)家提供或計(jì)劃提供K-12計(jì)算機(jī)科學(xué)教育（數(shù)量是2019年的兩倍），其中非洲和拉丁美洲的進(jìn)步最大；
2024年近90%的知名AI模型來(lái)自工業(yè)界，高于前一年的60%。

感興趣可以進(jìn)一步查閱原報(bào)告。

報(bào)告下載地址：
https://hai-production.s3.amazonaws.com/files/hai_ai_index_report_2025.pdf

版權(quán)所有，未經(jīng)授權(quán)不得以任何形式轉(zhuǎn)載及使用，違者必究。

斯坦福大學(xué)