AI頂會ICLR,今年只有一家中國大模型公司受邀演講
講了整整1小時
金磊 假裝發自 維也納
量子位 | 公眾號 QbitAI
機器學習三大頂會之一的ICLR 2024,正在維也納如火如荼地舉行。
雖然首個時間檢驗獎、杰出論文獎等“重頭戲”已經陸續頒布,但在其它環節中,我們卻發現了一件更有意思的事情。

同樣是作為ICLR重要組成部分的特邀演講(Invited Talk),每年都會邀請在機器學習領域有突出貢獻和影響力的專家學者進行演講。
而今年,中國只有一位!

并且僅從他的演講主題The ChatGLM’s Road to AGI中,我們就能挖到更多的線索——
ChatGLM,正是由清華系初創智譜AI所推出的千億參數大語言模型。

那么被ICLR官方唯一“翻牌”的智譜AI團隊,又在長達1個小時的特邀演講中說了些什么?
我們繼續往下看。
唯一受邀的中國大模型團隊
在“大模型之戰”開啟以來,智譜AI的ChatGLM不夸張地說,是一直處于國內第一梯隊的玩家之一。
事實上,智譜AI從2019年就已經入局LLM的研究;從目前的發展來看,智譜AI與OpenAI在AIGC的各個模態上均已呈現出生態對標之勢:
- ChatGPT vs ChatGLM
- DALL·E vs CogView
- Codex vs CodeGeex
- WebGPT vs WebGLM
- GPT-4V vs GLM-4V
雖然生態對標得很緊密,但從技術路線上來看,智譜的GLM與GPT是截然不同的。
當下基于Transformer架構的模型大致可以分為三類:
僅編碼器架構(Encoder-only)、僅解碼器架構(Decoder-only)、編碼器-解碼器架構(Encoder-Decoder)。
GPT是屬于“僅解碼器架構”的玩家,而GLM則是借鑒“編碼器-解碼器架構”的思路去發展;因此也有一番獨樹一幟的味道。
而作為此次唯一被ICLR邀請做演講的中國大模型公司,智譜AI團隊在現場先分享了自己是如何從ChatGLM一步步走向GLM-4V,即從LLM邁向VLM。
我們可以從下面這張發展時間線中,先有一個整體脈絡上的感知。

具體到技術上的實現,比較關鍵的節點便是CogVLM的提出,主打讓大模型帶上視覺。

CogVLM模型主要包含四個組件,分別是ViT編碼器、MLP適配器、大型預訓練語言模型和視覺專家模塊。
這個方法可以說是改變了視覺語言模型的訓練范式,從淺層對齊轉向深度融合。
值得一提的是,CogVLM還被Stable Diffufion 3用來做了圖像標注。

基于此,智譜AI團隊在本次特邀演講環節中,更多地介紹并亮出了近期的前沿成果。
例如CogView3,是一個更快、更精細的文生圖模型。
其創新之處便是提出了一個級聯框架,是第一個在文本到圖像生成領域實現級聯擴散的模型。

從實驗結果來看,CogView3在人類評估中比當前最先進的開源文本到圖像擴散模型SDXL高出77.0%,同時只需要大約SDXL一半的推理時間。
CogView3的蒸餾變體在性能相當的情況下,只需SDXL的1/10的推理時間。
同樣是基于 CogVLM,智譜AI所做的另一項研究CogAgent,則是一款具有視覺Agent能力的大模型。
CogAgent-18B擁有110億的視覺參數和70億的語言參數, 支持1120*1120分辨率的圖像理解。在CogVLM的能力之上,它進一步擁有了GUI圖像Agent的能力。
據了解,CogAgent-18B已經在9個經典的跨模態基準測試中實現了最先進的通用性能;并且在包括AITW和Mind2Web在內的GUI操作數據集上顯著超越了現有的模型。
除此之外,智譜AI團隊還提出:AI大模型的智能涌現,關鍵在于Loss,而并非模型參數。

為此,團隊提出了Pre-training Loss作為語言模型“涌現能力”的指標,訓練了30多個不同模型參數和數據規模的語言模型,并評估了他們在 12 個英文和中文數據集上的表現:
- Pre-training Loss 與下游任務性能呈負相關,即預訓練損失越低,下游任務性能越好。這一結論適用于不同參數尺寸的語言模型,不受模型大小、訓練數據量的影響。
- 對于一些下游任務,當 Pre-training Loss 低于某個閾值時,性能才會超過隨機猜測水平,呈現出“涌現能力”。這些任務的性能閾值大致相同,約在2.2左右。
- 即使使用連續指標評估,仍觀察到“涌現能力”的存在。這表明涌現能力并非由非線性或離散指標導致。

再如針對LLM解決數學問題,提出了Self-Critique的迭代訓練方法,通過自我反饋機制,幫助LLM同時提升語言和數學的能力。

對于ChatGLM通向AGI的后續計劃,智譜AI在本次特邀演講中也亮出了自己的“三步走”。
首先是GLM-4的后續升級版本,即GLM-4.5。
據了解,新升級的模型將基于超級認知SuperIntelligence和超級對齊SuperAlignment技術,同時在原生多模態領域和AI安全領域有長足進步。
團隊表示:
通向通用人工智能之路,文本是最關鍵的基礎。
但下一步則應該把文本、圖像、視頻、音頻等多種模態混合在一起訓練,變成一個真正原生的多模態模型。
其次,為了解決更加復雜的問題,團隊將引入GLM-OS的概念。
GLM-OS是指以大模型為中心的通用計算系統,具體實現方法如下:
基于已有的All-Tools能力,再加上內存記憶memory和自我反饋self-reflection能力,GLM-OS有望成功模仿人類的PDCA機制,即Plan-Do-Check-Act循環。
首先做出計劃,然后試一試形成反饋,調整規劃然后再行動以期達到更好的效果。大模型依靠PDCA循環機制形成自我反饋和自我提升——恰如人類自己所做的一樣。
最后,是GLM-zero。
這項技術其實智譜AI從2019年以來便一直在鉆研,主要是研究人類的“無意識”學習機制:
當人在睡覺的時候,大腦依然在無意識地學習。
“無意識”學習機制是人類認知能力的重要組成部分,包括自我學習self-instruct、自我反思self-reflection和自我批評self-critics。
團隊認為,人腦中存在著反饋feedback和決策decision-making兩個系統,分別對應著LLM大模型和Memory內存記憶兩部分,GLM-zero的相關研究將進一步拓展人類對意識、知識、學習行為的理解。
而這也是GLM大模型團隊第一次向外界公開這一技術趨勢。
當然,除了這場特邀演講之外,回顧本屆ICLR其它亮點,可以說大模型著實是頂流中的頂流。
ICLR 2024,大模型贏麻了
首先是斬獲本屆ICLR頒發的第一個時間檢驗獎(Test of Time Award)的論文,可以說是經典中的經典——變分自編碼器(VAE)。
正是這篇11年前的論文,給后續包括擴散模型在內的生成模型帶來重要思想啟發,也才有了現如今大家所熟知的DALL·E 3、Stable Diffusion等等。
也正因如此,在獎項公布之際便得到了眾多網友的認可,紛紛表示“Well deserved”。

論文一作Diederik Kingma現任DeepMind研究科學家,也曾是OpenAI創始成員、算法負責人,還是Adam優化器發明者。
VAE采用了一個關鍵策略:使用一個較簡單的分布(如高斯分布)來近似復雜的真實后驗分布。模型的訓練通過最大化一個稱為證據下界(ELBO)的量來實現。

這種方法可以被看作是在圖像重建的同時,對潛在變量的分布施加了一種“規范化”約束。
與傳統自編碼器相比,VAE所學習的潛在表示通常具有更強的解釋性和更好的泛化能力。
在論文的實驗部分,作者展示了VAE在MNIST數據集上生成手寫數字圖像的能力。

ICLR 2024的首個時間檢驗獎還設置了亞軍(Runner Up)獎項。
同樣也是非常經典的一項研究,作者包括OpenAI首席科學家的Ilya、GAN的發明者Ian Goodfellow。

這項研究名為Intriguing properties of neural networks,官方對其的評價是:
研究強調了神經網絡容易受到輸入的微小變化的影響。
這個想法催生了對抗性攻擊(試圖愚弄神經網絡)和對抗性防御(訓練神經網絡不被愚弄)領域。
除了時間檢驗獎之外,每年的杰出論文獎(Outstanding Paper Awards)也是必看點之一。
本屆ICLR共有五篇論文榮登杰出論文獎。

第一篇:
Generalization in diffusion models arises from geometry-adaptive harmonic representations
這篇來自紐約大學、法蘭西學院的研究,從實驗和理論研究了擴散模型中的記憶和泛化特性。作者根據經驗研究了圖像生成模型何時從記憶輸入轉換到泛化機制,并通過 “幾何自適應諧波表征 ”與諧波分析的思想建立聯系,進一步從建筑歸納偏差的角度解釋了這一現象。

第二篇:
Learning Interactive Real-World Simulators
研究機構來自UC伯克利、Google DeepMind、MIT、阿爾伯塔大學。匯集多個來源的數據來訓練機器人基礎模型是一個長期的宏偉目標。這項名為 “UniSim ”的工作使用基于視覺感知和控制文字描述的統一界面來聚合數據,并利用視覺和語言領域的最新發展,從數據中訓練機器人模擬器。

第三篇:
Never Train from Scratch: Fair Comparison of Long-Sequence Models Requires Data-Driven Priors
來自特拉維夫大學、IBM的研究深入探討了最近提出的狀態空間模型和Transformer架構對長期順序依賴關系的建模能力。作者發現從頭開始訓練Transformer模型會導致對其性能的低估,并證明通過預訓練和微調設置可以獲得巨大的收益。

第四篇:
Protein Discovery with Discrete Walk-Jump Sampling
基因泰克、紐約大學的研究解決了基于序列的抗體設計問題,這是蛋白質序列生成模型的一個重要應用。作者引入了一種創新而有效的新建模方法,專門用于處理離散蛋白質序列數據的問題。

第五篇:
Vision Transformers Need Registers
來自Meta等機構的研究,識別了vision transformer網絡特征圖中的偽影,其特點是低信息量背景區域中的高規范Tokens。作者對出現這種情況的原因提出了關鍵假設,利用額外的register tokens來解決這些偽影問題,從而提高模型在各種任務中的性能。

而在五篇杰出論文獎中,與大模型相關的研究就占了四篇,可以說是贏麻了。
除此之外,還有11篇論文獲得了獲得榮譽提名(Honorable mentions),其中三篇論文是全華人陣容。
整體來看,本屆會議共收到了7262 篇提交論文,接收2260篇,整體接收率約為 31%。此外Spotlights論文比例為 5%,Oral論文比例為 1.2%。
One More Thing
ICLR的創立者之一Yann LeCun(另一位是Yoshua Bengio),在會議期間的“出鏡率”可以說是比較高了,頻頻出現在網友的照片中。
而他本人也開心地分享了自己的一張自拍合影:

不過也有網友指出:“拍得不錯,就是可憐手機后邊的兄弟了。”

以及會場的展廳也是有點意思:

嗯,是有種全球大模型玩家線下battle的既視感了。
時間檢驗獎論文地址:
[1]https://arxiv.org/abs/1312.6114
[2]https://arxiv.org/abs/1312.6199
杰出論文獎論文地址:
[1]https://openreview.net/forum?id=ANvmVS2Yr0
[2]https://openreview.net/forum?id=sFyTZEqmUY
[3]https://openreview.net/forum?id=PdaPky8MUn
[4]https://openreview.net/forum?id=zMPHKOmQNb
[5]https://openreview.net/forum?id=2dnO3LLiJ1
參考鏈接:
[1]https://iclr.cc/virtual/2024/calendar?filter_events=Invited+Talk&filter_rooms=
[2]https://twitter.com/ylecun/status/1788560248988373170
[3]https://arxiv.org/abs/2311.03079
- 共推空天領域智能化升級!趨境科技與金航數碼強強聯手2025-12-09
- Ilya剛預言完,世界首個原生多模態架構NEO就來了:視覺和語言徹底被焊死2025-12-06
- 看完最新國產AI寫的公眾號文章,我慌了!2025-12-08
- 給機器人打造動力底座,微悍動力發布三款高功率密度關節模組2025-12-08



