李飛飛實(shí)驗(yàn)室2025 AI報(bào)告出爐:AI推理成本降低至1/280,中美AI模型差距更小了
12個(gè)值得關(guān)注的重點(diǎn)趨勢(shì)
中美AI模型差距正在縮小。
由李飛飛聯(lián)合領(lǐng)導(dǎo),斯坦福大學(xué)以人為本人工智能研究所(HAI)最新發(fā)布了2025 AI Index,用整整456頁(yè)追蹤了2024年全球AI行業(yè)的發(fā)展趨勢(shì),并得出了這樣的結(jié)論。

至今,HAI已發(fā)布了8份(含本次)AI年度報(bào)告,不過(guò)今年的這份卻尤為特殊。
這是我們迄今為止最全面的版本,人工智能對(duì)社會(huì)的影響從未如此明顯。

雖然報(bào)告信息量爆炸,但手快的網(wǎng)友已經(jīng)提前為大家劃了重點(diǎn):
- AI推理成本降低了280倍
- 開(kāi)源模型正在迎頭趕上
- AI基準(zhǔn)測(cè)試成績(jī)飆升
- ……

話不多說(shuō),下面我們?cè)敿?xì)展開(kāi)報(bào)告中提到的一些重要結(jié)論。
中美AI模型差距正在縮小
從官網(wǎng)消息來(lái)看,鑒于報(bào)告內(nèi)容較多,HAI直接為大家挑出了其中最重要的12個(gè)結(jié)論。
我們先來(lái)看與國(guó)內(nèi)最相關(guān)的部分。
中美AI模型差距正在縮小
首先就是AI模型方面,中國(guó)模型雖然數(shù)量不及美國(guó),但質(zhì)量方面已迅速縮小差距。
報(bào)告顯示,2024年美國(guó)機(jī)構(gòu)一共開(kāi)發(fā)了40個(gè)值得關(guān)注的AI模型,遠(yuǎn)高于中國(guó)開(kāi)發(fā)的15個(gè)和歐洲的3個(gè)。
不過(guò),中美模型之間的性能差異正在快速縮小。具體表現(xiàn)為,在MMLU和HumanEval等主要基準(zhǔn)測(cè)試上,二者的性能差異由2023年的兩位數(shù)縮小到2024年的接近相等。
同時(shí),從中美模型過(guò)去一年在大模型競(jìng)技場(chǎng)中的表現(xiàn)也能看出這一追趕趨勢(shì):

當(dāng)然,這一性能差距正在縮小的趨勢(shì)也不局限于中美之間。
報(bào)告提到,排名第一和第十的模型之間的得分差距在一年內(nèi)從11.9%降至5.4%,排名前兩位的差距現(xiàn)在僅為 0.7%。
也就是說(shuō),頂尖模型之間的競(jìng)爭(zhēng)越來(lái)越激烈。
順帶一提,國(guó)內(nèi)在發(fā)表AI論文和推出AI專利方面繼續(xù)保持領(lǐng)先地位。
中國(guó)是對(duì)AI最樂(lè)觀的國(guó)家
其次是在對(duì)AI的態(tài)度方面,中國(guó)始終是全球主要國(guó)家和地區(qū)中最樂(lè)觀的。
報(bào)告顯示,2024年中國(guó)有83%的人認(rèn)為AI產(chǎn)品和服務(wù)利大于弊,排在后面的是印度尼西亞(80%)和泰國(guó)(77%)。
相比之下,美國(guó)(39%)、加拿大(40%)等的樂(lè)觀情緒遠(yuǎn)低于國(guó)內(nèi)。
不過(guò)從整體趨勢(shì)來(lái)看,自2022年以來(lái),幾個(gè)之前對(duì)AI持懷疑態(tài)度的國(guó)家樂(lè)觀情緒增長(zhǎng)顯著,比如美國(guó)(+4%)、加拿大(+8%)、法國(guó)(+10%)等等。

除了以上兩點(diǎn),還有一些AI整體趨勢(shì)變化也值得關(guān)注。
AI基準(zhǔn)測(cè)試成績(jī)飆升,表現(xiàn)逐漸接近人類
一個(gè)比較符合大家日常感受的結(jié)論是:AI模型在各大基準(zhǔn)測(cè)試上的得分越來(lái)越高了。
報(bào)告顯示,研究人員在2023年引入了一些如今大家已耳熟能詳?shù)幕鶞?zhǔn)——MMMU、GPQA和SWE-bench,以此測(cè)試更高級(jí)AI模型的能力極限。
然而僅僅一年之后,從測(cè)試得分來(lái)看,其性能呈現(xiàn)大幅提升趨勢(shì),分別在MMMU、GPQA和SWE-bench上提高了18.8、48.9和67.3個(gè)百分點(diǎn)。
從整體趨勢(shì)來(lái)看,AI各大能力表現(xiàn)逐漸接近人類,甚至在某些場(chǎng)景下,智能體能在限時(shí)編程任務(wù)中超越人類。

推理成本下降了280倍,開(kāi)源模型正在迎頭趕上
另一個(gè)符合大家印象的趨勢(shì)是:AI正變得更加高效、經(jīng)濟(jì)實(shí)惠和易于獲取。
過(guò)去兩年間,追求更具性價(jià)比的小模型逐漸成為一股潮流。
比如報(bào)告中提到的,在MMLU中得分超過(guò)60%的小模型:

數(shù)據(jù)顯示,由越來(lái)越強(qiáng)大的小模型驅(qū)動(dòng),對(duì)于性能達(dá)到GPT-3.5水平的系統(tǒng)的推理成本,在2022年11月到2024年10月間下降了280倍。
遺憾的是,復(fù)雜推理仍然面臨挑戰(zhàn)。
截至目前,AI模型在國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽問(wèn)題等任務(wù)中表現(xiàn)出色,但仍無(wú)法很好應(yīng)對(duì)PlanBench等復(fù)雜推理基準(zhǔn)測(cè)試。

不過(guò)與此同時(shí),開(kāi)源模型也在縮小與閉源模型的差距。
報(bào)告中特意提到,在某些基準(zhǔn)測(cè)試中,它們一年內(nèi)的性能差異就從8%減少到僅1.7%。
另外在硬件層面,成本每年下降30%,而能效每年提高40%。
以上趨勢(shì)共同降低了人們獲取高級(jí)AI的門檻。
AI正在融入日常生活,企業(yè)投資增長(zhǎng)強(qiáng)勁
正是由于AI獲取門檻降低,我們的日常生活也逐漸被AI改寫。
報(bào)告顯示,從醫(yī)療保健到交通運(yùn)輸,AI正迅速?gòu)膶?shí)驗(yàn)室走向日常生活。
比如2023年,美國(guó)FDA批準(zhǔn)了223種AI醫(yī)療設(shè)備,而2015年僅為6種。
另外在自動(dòng)駕駛方面,美國(guó)最大的運(yùn)營(yíng)商之一Waymo每周提供超過(guò)15萬(wàn)次自動(dòng)駕駛出行,而百度的經(jīng)濟(jì)型“蘿卜快跑” (Apollo Go)自動(dòng)駕駛出租車車隊(duì)現(xiàn)在已在中國(guó)多個(gè)城市提供服務(wù)。

整體而言,AI的應(yīng)用落地正在加速。
2024年,有78%的組織報(bào)告自己正在使用AI,這比前一年增長(zhǎng)了55%。

當(dāng)然,以上服務(wù)也離不開(kāi)企業(yè)對(duì)AI的大力投資。
報(bào)告顯示,2024年美國(guó)對(duì)AI的投資為1091億美元,這幾乎是中國(guó)(93億美元)的12倍和英國(guó)(45億美元)的24倍。
其中生成式AI尤其強(qiáng)勁,吸引了全球私營(yíng)投資339億美元,這一數(shù)字比2023年增長(zhǎng)了18.7%。
BTW,除了上述主要結(jié)論,報(bào)告還提到了:
- 各國(guó)政府正在加強(qiáng)對(duì)AI的監(jiān)管和投資;
- 負(fù)責(zé)任的AI生態(tài)系統(tǒng)正在不斷發(fā)展,但不均衡;
- 目前有2/3的國(guó)家提供或計(jì)劃提供K-12計(jì)算機(jī)科學(xué)教育(數(shù)量是2019年的兩倍),其中非洲和拉丁美洲的進(jìn)步最大;
- 2024年近90%的知名AI模型來(lái)自工業(yè)界,高于前一年的60%。
感興趣可以進(jìn)一步查閱原報(bào)告。
報(bào)告下載地址:
https://hai-production.s3.amazonaws.com/files/hai_ai_index_report_2025.pdf
- 10億美元OpenAI股權(quán)兌換迪士尼版權(quán)!米老鼠救Sora來(lái)了2025-12-12
- 跳過(guò)“逐字生成”!螞蟻集團(tuán)趙俊博:擴(kuò)散模型讓我們能直接修改Token | MEET20262025-12-12
- 梁文鋒,Nature全球年度十大科學(xué)人物!2025-12-09
- 英偉達(dá)巧用8B模型秒掉GPT-5,開(kāi)源了2025-12-06



