人大系初創與OpenAI三次“撞車”:類Sora架構一年前已發論文
大模型屆的汪峰???
金磊 衡宇 發自 凹非寺
量子位 | 公眾號 QbitAI
Sora一出,諸多創業公司的命運因之改變。
我們最近聽說了個超級戲劇性的故事,就在中國,就是中關村的一家創業公司:
Sora出世前,他們拿著一篇如今被ICLR 2024接收的論文,十分費勁地為投資人、求知者講了大半年,卻處處碰壁。
春節后,打電話來約見團隊的投資人排起了長隊,都是要學習Sora、學習團隊論文成果。
為什么?
答案很簡單,Sora本來就是新晉頂流,再一次親身實踐了scaling law的正確可行。
更何況Sora背后的架構,與這支團隊快1年前發表的論文提出的基于Transformer的Video統一生成框架,大、撞、車。
撞車到什么程度呢?用團隊自身的話來說,“可以說是幾乎一模一樣,嗯,就還得仔細地找到底哪里不同”。
敢這么說話,有點意思。
要知道,國內諸多團隊都在通往AGI的道路上苦苦耕耘,但很多人至今還是很不看好國內團隊的技術創新能力。如果事實真像團隊所說,那這就是國內隊伍有實力做最前沿創新的實際證明。
于是,量子位得知后,火速聯系上這個團隊,帶著大家第一時間把撞車瓜徹底吃透。
(淺淺劇透一下,后來我們發現跟Sora撞車這個瓜背后,還有更戲劇的故事)

誰在和OpenAI“撞車”?
不賣關子,和OpenAI“撞車”的這家初創公司,正是成立于2021年的智子引擎。
而在它的身上,有太多的屬性和標簽值得說道說道。
- 90后CEO:由中國人民大學高瓴人工智能學院博士生高一釗創立。
- 人大系:核心團隊成員多數來自人大,并且由高瓴人工智能學院盧志武教授擔任顧問一職。
- 多模態大模型:公司成立之際大語言模型依舊是主流,卻早早打入多模態這條“無人區”的賽道。
從目前智子引擎所交出的“作業”來看,最為矚目當屬于2023年3月發布的世界首個公開評測多模態對話應用ChatImg(元乘象),并且已經迭代到了3.5版本。
例如給ChatImg隨機投喂一張圖片,它可以立即用看圖說話,用文字精準描述圖片中的內容。
而且在問及觀點性問題時,例如“是否合理”,ChatImg的回答也是近乎接近人類的理解。

至于剛才提到與Sora“撞車”的論文,正是由這家“人大系”初創領銜,并聯合伯克利、港大等單位于2023年5月發表在arXiv上的VDT。

在我們與盧志武教授交流過程中,他這樣形容看到Sora技術報告后的感受:
像,實在是太像了。
因為Sora在技術架構上所采用的是Diffusion Transformer,這是區別于以往文生視頻(基于Stable Diffusion等)工作的關鍵點之一。
而僅從VDT論文的標題中,我們就不難發現,智子引擎在技術架構上早已提出并采用了Diffusion Transformer,而且是首發的那種。

但單從Diffusion Transformer還不足以說明“大撞車”,我們還需看一下VDT論文里的個中細節。
首先,在時空注意力機制方面,VDT在Transformer中集成了專門設計的時間注意力和空間注意力模塊,這樣就可以讓模型能夠更好地捕捉和理解視頻數據中的時空關系。
舉個例子

,假設你在看一部電影,導演通過鏡頭的切換和場景的布局來引導你關注故事的關鍵部分。時空注意力機制就像這樣的導演,它讓VDT能夠捕捉視頻中的關鍵時刻和動作,使得生成的視頻更加生動和連貫。
其次,是模塊化設計,VDT的Transformer塊是模塊化的,這意味著它可以根據不同的視頻生成任務靈活調整,而不需要對整個模型架構進行大規模修改。
模塊化設計就好比像樂高積木一樣,可以用不同的積木塊來構建各種形狀和結構,通過組合不同的模塊來適應不同的視頻生成任務,比如制作動畫或者預測未來的視頻幀等等。
最后,則是VDT提出的一種統一的時空掩模建模機制,可以允許模型在不同的視頻生成任務中使用相同的架構,通過調整掩模來適應不同的輸入和輸出需求。
它就宛如一個多功能工具箱,里面的工具可以用來做各種不同的修理工作,不需要額外為每種工作單獨購買工具;因此,VDT能夠在多種視頻生成任務中發揮作用,而不需要每次都重新訓練。

然后我們再對比Sora技術報告和VDT論文,就不難發現二者的大體思路是非常相似的。
例如Sora基于Transformer的特性使得它天然具有處理時空數據的能力,因為它可以捕捉視頻中的長期依賴關系。
Sora使用了一個視頻壓縮網絡來降低視覺數據的維度,這可以看作是一種模塊化設計,因為它將視頻處理分解為壓縮和解碼兩個獨立的步驟。
以及Sora能夠處理不同時長、分辨率和寬高比的視頻和圖像,這表明它也有一個類似“多功能工具箱”一樣的統一表示方法來處理各種類型的輸入數據。
至于區別之處,可能僅是一些實現方法上的細節。
例如在時空維度的處理上,VDT是分別進行注意力機制,而Sora則是將時間和空間統一,進行單一的處理;再如Sora還考慮到了將文本條件融合等等。
既然技術上如此高度相似,很多人或許也會好奇,為什么Sora能做出來長達1分鐘的高質量視頻,而VDT卻沒能出效果呢?
對此,盧志武教授也做出了解釋:
我們當時的探索是理論方向上的,雖然沒有做過生成60秒這么長時間的視頻,但是我們做過一個物理實驗,發現VDT是可以支持3D生成的,這也意味著VDT的方法在學習物理規律上具備較強的能力,這一點與OpenAI的思路不謀而合。
除此之外,盧志武教授也坦然地承認,要是想要做到Sora的效果,還需要非常龐大的算力支撐,這一點對于高校實驗室來說著實是有些困難。
總而言之,無論是從發布時間還是技術架構來看,VDT在技術路線上確實是與OpenAI的Sora發生了一次“撞車”事件。
不過有趣的一點是,在我們與智子引擎交流過程中還發現了更加戲劇性的事情——
這不是第一次與OpenAI“撞車”,前后竟然足足發生過三次!
一直與OpenAI同路,此前已經兩次“撞車”
先簡單概括,智子引擎和OpenAI三次撞車,第一次是與Clip,第二次是與GPT-4V,第三次就是與剛剛發布的Sora。
乍一聽,可能會覺得有點想笑,怎么智子引擎像是大模型屆的汪峰(汪峰老師對不起),每次都被OpenAI搶過風頭?
但你仔細想想,這可能是一種側面說明:
這支國內團隊長久地和OpenAI一路同行,在不知哪條路是通往AGI的情況下,甚至某些OpenAI都沒有打樣的時刻,居然每一步都走對了。

下面詳細說說同樣令人慨嘆萬千的“撞車”事件——
第一次與OpenAI發生“撞車”的故事,時間還需要追溯到2020年。
當時智子引擎并沒有成立公司,彼時國內外在大模型技術上也還是聚焦于文本,例如OpenAI的GPT-3,以及國內北京智源人工智能研究院悟道項目等等。
但盧志武教授和高瓴人工智能學院的團隊(即核心團隊前身)便已經著手準備自研多模態大模型;方式是參與到由高瓴人工智能學院院長文繼榮帶隊的悟道·文瀾。
到了2020年12月,這支小分隊便已經完成了文瀾的訓練工作并發布了1.0的版本,是國內第一個大規模預訓練的多模態模型,并首次運用多模態弱相關概念完成訓練。
而時隔僅一個月,OpenAI便在多模態大模型領域出手了——2021年1月發布CLIP。由此,文瀾和CLIP一道,成為了多模態領域的開山之作。
值得一提的是,在同年的6月份,文瀾還進行了一次迭代,發布2.0版本,參數量為50億,訓練數據量達6.5億。
并且相關論文還在2022年被Nature Communications接收,成為世界首個被Nature子刊接收的多模態領域論文。
不難看出,智子引擎前身團隊早在數年前便已經和OpenAI在多模態大模型的研究和進展上保持了近乎相同甚至超前的節奏。
這便是智子引擎與OpenAI的第一次“撞車”。

自身已經有所研究和理解,加之OpenAI也在跟進,因此,這支隊伍認為多模態大模型是值得繼續做下去的方向。
于是正如我們剛才提到的,智子引擎在2021年正式成立,公司的“標簽”也是非常明確,就是多模態大模型。
而這也為智子引擎與OpenAI的第二次“撞車”埋下了伏筆。
2023年3月8日,在潛心“苦修”了長達兩年之久過后,正如我們剛才提到的,智子引擎正式發布了自己的第一個多模態產品——
ChatImg,是世界首個公開評測的通用多模態對話應用。
據了解,ChatImg在技術上是基于多模態融合模塊和語言解碼器,參數量大約為150億,主打的就是讓AI學會看圖說話。
除了剛才我們展示的例子之外,ChatImg甚至是可以看一眼圖片,然后直接給用戶編故事。

而OpenAI這邊,則是在2023年3月15日,發布了其多模態預訓練大模型GPT-4。
在這一節點上,智子引擎再次與OpenAI在多模態大模型上“撞了一次車”,并且是提前發布了整整一周的那種。
至于智子引擎為何會選擇3月8日,其實也與OpenAI有著千絲萬縷的關系,用盧志武教授的話來說就是:
自ChatGPT在去年11月30日問世以來,經過多方評估,普遍認為傳統的研究模式正遭遇重大考驗。以往的自然語言處理研究多聚焦于單一任務,如翻譯、命名實體識別、情感分析等,通常需要分別訓練不同的小型模型。然而,隨著ChatGPT的問世,一個統一的大型模型就能夠勝任這些任務,使得針對單一任務的獨立研究變得不再那么重要。
盡管ChatGPT的發布對多模態研究領域的影響相對較小,因為它主要擅長處理文本信息,但我們也聽聞了GPT-4有意涉足多模態領域的傳聞,這讓我們感到緊迫。因此,我們的團隊迅速行動,大約用了幾個月的時間來訓練ChatImg,并在3月8日成功推出,搶在GPT-4之前。
然而,這還是第二次“撞車”的一個開始。
在ChatImg發布2個月之后,智子引擎便將其迭代到了2.0版本,這一次,更是將看視頻說話的功能融入了進來。

而OpenAI在多模態領域后來的大動作,應當屬同年9月份所發布的GPT-4V,新增了語言和圖像交互功能。
但從5月份到現在這期間,智子引擎在多模態大模型上的腳步其實也并沒有放緩。
除了剛才我們提到的與Sora相似架構的VDT研究之外,智子引擎更多的是將精力投入到了如何把ChatImg用起來。
正如高一釗在與我們交流過程中所述:
我們在2023年5月和8月分別拿到了兩筆融資之后,實際上花了半年的時間去探索落地,就看我們這個模型到底能干啥。
在經過大半年的時間之后,我們的驗證基本上已經通過了,發現在To B業務上有很大的落地價值。
通過我們的多模態大模型,可以將圖片和視頻中的內容轉變成文字,在非常復雜的交通、電網、化工等場景中,可以大幅降低高昂的人力成本。
因此,從商業化的角度來看,智子引擎似乎在多模態領域又比OpenAI提前了一步。
在智子引擎這里,多模態技術與商業化是并駕齊驅的。團隊看來,與AI研發相比,應用場景的拓展和落地同等重要,二者雙線程推進,才能形成閉環效應。
在電網、電力、化工、巡檢等多個場景,基于大模型的泛化能力和涌現特性,智子引擎已經利用一個多模態大模型,滿足了過去十幾乃至幾十個小模型才能解決的實際需求。
“我們對2024年收入實現爆發性增長非常有信心?!鄙虡I化進展順利,研發的資金支持也就有了眉目。
那么接下來的一個問題:
三次“撞車”,意味著什么?
Sora為AI視頻賽道再添一把烈火后,大家都在打問號,和一年前拿著ChatGPT追問如出一轍:
誰能第一個復現Sora?在奔向AGI終極目標的道路上,我們與國外的差距,是不是又被拉大了?
但冷靜下來,看看咱們手里已經有了的技術,事實或許并沒有那么悲觀。
就拿智子引擎來說吧,和OpenAI技術路線的撞車一次,可能是單純的巧合,或有許多運氣成分在。
但三個顛覆性節點的三次撞車,似乎已經能夠說明,國內確確實實有這么一家大模型公司代表,長年以來所堅持的通往AGI的技術路線,步子其實都踩在后來公認的正確路線上。
甚至有一兩步,還邁在了業內王者OpenAI之前。
這還只是一家公司。別忘了,智子引擎只是國內大模型初創公司的一個典型代表,是業界學界千千萬萬AI研究團隊的縮影。

我們近期搜集到不少業內人士討論及觀點——尤其是Claude 3問鼎全球大模型王座,在多個角度超越GPT-4后,大伙兒對OpenAI的過分神話更加趨于冷靜。
甚至開始呼吁,目光不必過多聚焦在國外巨頭身上。
放眼國內,也有很多成果是世界領先、值得借鑒的。不少還像智子引擎的VDT一樣,不僅走在世界前面的,更重要的是,核心技術是國內學者原創提出的。
Sora時代,我們與最尖端的水平,或許比GPT時代的差距更小。
當然了,也許你和我們一樣有疑問,都說了技術撞車,還發表在前,為什么拿出震驚世界demo的,不是VDT而是Sora?
“因為計算資源的限制,我們沒能做出OpenAI那樣長達60s的高質量視頻。”但第三次撞車給智子引擎帶來的不只是遺憾,也不只是對團隊思路的外部肯定。
更多的還有數不清的機會——
現在,因為Sora的舉世矚目,VDT這樣曾經給外人講不透的技術來到聚光燈下,得到了更多的曝光。
一切都有了更大的可能性。
論文地址:https://arxiv.org/pdf/2305.13311.pdf
- 讀懂2025中國AI走向!公司×產品×人物×方案,最值得關注的都在這里了2025-12-10
- 誤入人均10個頂級offer的技術天團活動,頂尖AI人才的選擇邏輯我悟了2025-12-04
- DeepSeek-V3.2系列開源,性能直接對標Gemini-3.0-Pro2025-12-01
- 字節“豆包手機”剛開賣,吉利系進展也曝光了:首月速成200人團隊,挖遍華為小米榮耀2025-12-01




