Scaling Laws尺度定律科普報告|量子位智庫
分析師 馬邦
量子位智庫 | 公眾號 AI123All
都在說Scaling Laws,但什么是Scaling Laws?
Scaling Laws,尺度定律,OpenAI在2020年提出,并在如今迅速成為AI行業(yè)共識的產(chǎn)業(yè)規(guī)律。尺度定律不僅影響著Transformer架構(gòu)的大模型的發(fā)展,也影響著人工智能相關(guān)行業(yè)的發(fā)展。作為當(dāng)前AI行業(yè)公認(rèn)的大模型第一性原理,其揭示的有關(guān)模型規(guī)模、數(shù)據(jù)量和計算資源之間的關(guān)系,更是為企業(yè)提供了可預(yù)見性的前進方向。
為了更系統(tǒng)科普闡釋尺度定律,量子位智庫發(fā)布最新研究報告:《Scaling Laws尺度定律,如何影響AI研發(fā)和產(chǎn)業(yè)落地》。(下載地址后附)

報告中,量子位智庫將從尺度定律是什么、尺度定律如何影響AI研發(fā)、涌現(xiàn)能力、尺度定律如何影響AI落地以及尺度定律的局限性五個方向出發(fā),立體解讀尺度定律。
報告涵蓋:
- 全面解析尺度定律
- 分析對AI研發(fā)的影響
- 探討涌現(xiàn)能力及涌現(xiàn)能力的代表模型
- 產(chǎn)業(yè)落地分析
- 對尺度定律局限性思考
尺度定律的意義
尺度定律指的是,以Transformer架構(gòu)為研究目標(biāo)的模型的性能和模型的大小,數(shù)據(jù)集的大小以及用于訓(xùn)練的計算量之間存在冪律關(guān)系,并且這些關(guān)系在7個數(shù)量級的范圍內(nèi)表現(xiàn)出穩(wěn)定的趨勢。

自論文提出以來,引起了大模型開發(fā)行業(yè)的高度關(guān)注,各大廠家紛紛參考尺度定律,擴大模型和數(shù)據(jù)規(guī)模來提升模型性能。
尺度定律如何影響AI研發(fā)
OpenAI的GPT系列
GPT系列從GPT-2的15億參數(shù)到GPT-3的1750億參數(shù),GPT-4的參數(shù)雖未具體公布,但據(jù)聲稱達到了1.76萬億。
數(shù)據(jù)集方面,GPT-4采用了更多的訓(xùn)練樣本以及合成數(shù)據(jù),使得模型在理解未知數(shù)據(jù)和數(shù)學(xué)準(zhǔn)確度上有了顯著提升。
GPT-4在計算上使用了超算級別的計算資源以支持龐大的計算需求。
其他大模型中的尺度定律

根據(jù)圖上來看,從2019年至今,大模型進入軍備競賽。尺寸規(guī)模不斷擴張。
其中
- Google的PaLM達到了5400億參數(shù)。
- Meta的Llama 系列從70億參數(shù)到4000億參數(shù)不等,更注重優(yōu)化數(shù)據(jù)和訓(xùn)練方法。
- Anthropic的Claude系列,在Claude 3時,雖未公布具體數(shù)值,但據(jù)測算,達到了1.37萬億。而Claude 3.5 規(guī)模可能在5至15萬億,從而實現(xiàn)在編程能力上更勝GPT-4一籌。
涌現(xiàn)能力
智能涌現(xiàn)是隨著模型擴大而突然出現(xiàn)的能力,這種能力未被明確編程,也不可預(yù)測,所以稱之為智能涌現(xiàn)。
涌現(xiàn)能力最具代表的是自然語言理解與生成、多步驟推理、多模態(tài)理解與生成、少樣本零樣本學(xué)習(xí)。

智能涌現(xiàn)帶來了應(yīng)用端側(cè)的實用性大幅度提高,產(chǎn)生了許多優(yōu)秀的應(yīng)用。
同時,一些企業(yè)也在尋找著不一樣的模型開發(fā)線路。Llama系列在同等規(guī)模下,實現(xiàn)了更強的性能。
模型大小并非涌現(xiàn)能力的唯一因素,數(shù)據(jù)的質(zhì)量和數(shù)量以及訓(xùn)練方法的優(yōu)化同樣扮演著重要角色。
尺度定律如何影響產(chǎn)業(yè)落地
從尺度定律所包含的三個方向解讀,其主要發(fā)展困境如下圖所示:

因此所帶來的產(chǎn)業(yè)發(fā)展方向,量子位智庫將其劃分為四大部分:
數(shù)據(jù)行業(yè)
- 公開數(shù)據(jù)資源的枯竭引發(fā)合成數(shù)據(jù)產(chǎn)業(yè)的大幅提升。英偉達和微軟已率先使用合成數(shù)據(jù)訓(xùn)練3D生成模型以及大語言模型。
- 專業(yè)領(lǐng)域價值凸顯。醫(yī)療影像公司以及金融科技公司長期積累的專業(yè)數(shù)據(jù)助力專業(yè)商用模型開發(fā)。
模型研發(fā)
- 模型性能白熱化競爭。企業(yè)加大投入開發(fā)尺寸更大,性能更強的模型。
- 模型規(guī)模和效率之間的平衡。對于非強需求高性能模型的企業(yè),根據(jù)尺度定律,酌情選擇模型尺寸,平衡資源投入。
硬件開發(fā)
- AI專用硬件需求上升。各頭部加大AI專用硬件投資,Google發(fā)布的TPU v5在訓(xùn)練效果上是上一代的2-3倍。英特爾的GPU高墻優(yōu)勢仍在。國產(chǎn)芯片也需繼續(xù)加大對專用芯片的研發(fā)生產(chǎn)。
- 云平臺計算需求增加。微軟等企業(yè)開發(fā)云平臺為中小企業(yè)降低使用AI的門檻。
企業(yè)戰(zhàn)略
- 企業(yè)需求長期數(shù)據(jù)戰(zhàn)略,積累優(yōu)化數(shù)據(jù)資源。
- 優(yōu)化成本投入,參考尺度定律,指明了一定規(guī)模下的模型性能,支持企業(yè)有效分配投資預(yù)算。
尺度定律的局限性
最核心的還是核心的Transformer架構(gòu)的自身局限性,因大多數(shù)模型采用壓縮的方式進行訓(xùn)練,該方法帶來的是知識儲存量的增加,但智慧能力欠缺。如:人類基礎(chǔ)認(rèn)知架構(gòu)、常識推理、因果理解、多模態(tài)整合等方向大模型的水平尚未達到可應(yīng)用的水平。
因此,量子位智庫認(rèn)為尺度定律是通向AGI(通用人工智能)的重要組成部分,但可能不是全部答案。仍需要將不同學(xué)科底層打通,探索創(chuàng)新式架構(gòu)等方式來解決通往AGI的更為廣泛和綜合的挑戰(zhàn)。
不過,作為大模型第一性原理,或者第一個達成共識的產(chǎn)業(yè)規(guī)律,尺度定律對于整個AI領(lǐng)域的研發(fā)、落地和應(yīng)用,或許會像摩爾定律一樣,指引整個產(chǎn)業(yè)的潮水涌動方向。
完整報告下載地址:
https://jkhbjkhb.feishu.cn/wiki/W5D7wuDcbiPXDLkaRLQcAJpOn8f?fromScene=spaceOverview




