智源王仲遠:多模態大模型對產業更加重要,得多模態大模型得天下
其實Scaling Law在人工智能發展領域中一直起著作用
大模型的出現,成了AI第三次浪潮的新拐點。
正值“Scaling Law是否撞墻”熱議之際,北京智源人工智能研究院院長王仲遠表示:
看過去七、八十年,每一次新的科技浪潮背后都有一些本質規律,即隨著模型參數、訓練數據及計算能力提升,模型效果也會有巨大提升。
也就是說,如果拉長時間維度,其實Scaling Law在人工智能發展領域中一直起著作用。
此外,在本次量子位MEET 2025智能未來大會上,他還介紹了智源在過去6年里,建立了一支最早在國內從事大模型研發的頂尖團隊,并且從2020年10月開始,就成立了技術攻關團隊來持續推動大模型技術研發探索。
至于大模型未來的發展方向,在他看來,除了文本數據,世界上還存在大量的圖像、音頻、視頻等多模態數據。如何激發這些數據中的智能,是未來大模型研究的重要方向。
原生統一的多模態大模型才能更好支撐產業落地應用,實現人工智能對世界的感知、理解和推理。

為了完整體現王仲遠的思考,在不改變原意的基礎上,量子位對演講內容進行了編輯整理,希望能給你帶來更多啟發。
MEET 2025智能未來大會是由量子位主辦的行業峰會,20余位產業代表與會討論。線下參會觀眾1000+,線上直播觀眾320萬+,獲得了主流媒體的廣泛關注與報道。
核心觀點梳理
- 當下我們正處在人工智能七八十年歷程的第三次浪潮新拐點,尤其是出現了大模型;
- 可以預期明年會有越來越多基于大模型的各種場景應用的誕生;
- Scaling Law在大語言模型上開始放緩的一個非常重要的原因是文本數據消耗殆盡;
- 多模態數據如何進一步激發大模型的智能,是一個非常重要的研究方向;
- 原生統一的多模態大模型才能更好支撐產業落地應用,實現人工智能對世界的感知、理解、推理;
- ……
以下為王仲遠演講全文:
大模型:AI第三次浪潮的新拐點
大家上午好,我是來自北京智源人工智能研究院的王仲遠。
當下我們正處在人工智能七八十年歷程的第三次浪潮新拐點,尤其是出現了大模型。
以2023年大模型出現前后做一個分界線,可以認為過去屬于弱人工智能,也就是針對特定的場景,特定的任務,收集特定的數據,訓練一個模型,然后在特定場景解決問題。
像AlphaGO,能夠戰勝世界圍棋冠軍,但是無法直接用來解決醫療問題,解決無人駕駛問題等。
在大模型之后,弱人工智能開始向通用人工智能方向轉變,從專精尖的模型到通用模型,開啟了一個新的時代。由于能力還在不斷提升的過程中,所以我們還會覺得大模型依然不夠好用。

但是可以看到,過去七八十年每一次新的浪潮背后都有的本質規律:模型參數、訓練數據以及計算能力的提升,會帶來模型效果的巨大提升,這就是反復討論的Scaling Law。
最近關于Scaling Law是否失效,有很多爭論。
如果時間維度足夠長,會發現Scaling Law一直都在整個人工智能的發展歷程中不斷發揮作用。至于最近談到的Scaling Law已經失效,一個很大原因是數據、算力,這些支撐Scaling Law發展的要素出現瓶頸。
智源研究院:國內最早、國際同步布局大模型研發
通用人工智能時代的到來,對各行各業都有非常多的影響。
今年以來,大模型開始加速落地。
如果說過去兩年,中國依然在不斷地追基礎模型的能力,那么現階段國產模型的能力已經接近GPT4了,足以支撐更多的應用落地,因此可以預期在明年會有越來越多基于大模型的各種場景應用的誕生。

智源研究院是第三次浪潮中在北京成立的一家非營利性質的新型研發機構。
在過去六年時間里建立起了一支非常頂尖的科研團隊,科研人員60%有博士學位,30%有海外教育研究背景和經歷。正是因為有這樣一支年輕有活力、有國際視野的團隊,智源研究院在國內最早開始了大模型的研發。
而且智源研究院在2020年10月就成立了一支百余人的技術攻關團隊,專做大模型研發。并在2021年分別發布了悟道1.0、悟道2.0,2023年發布悟道3.0系列。

ChatGPT發布之后,產業界開始關注大模型,智源實際對國內大模型創業公司做了非常大的貢獻,包括孵化了一些公司,轉化了一些技術。就在今年智源大會上,頭部大模型公司對智源在過去這些年的貢獻也給予了充分肯定。
面向未來,大模型還遠沒有到發展的盡頭。百模大戰,很大程度上依然聚焦于大語言模型,Scaling Law在大語言模型上開始放緩的一個非常重要的原因是文本數據消耗殆盡。
ChatGPT后的o1,想要通過Post-Training(后訓練)的方式進一步激發大語言模型的智能。
面向未來看更多的技術發展趨勢,可以看到除了文本數據,還存在著大量的圖像、音頻、視頻等多模態數據,這些數據如何進一步激發大模型的智能,是一個非常重要的研究方向。
我們知道現階段有多模態理解的模型,也有多模態生成的模型。像Sora是Diffusion-Transformer的技術路線,多模態理解的模型基本上還是以大語言模型為核心,把不同模態的視覺信號等往語言模型上做映射。
我們認為原生統一的多模態大模型才能更好支撐產業落地應用,實現人工智能對世界的感知、理解、推理。如果與真實物理世界的硬件結合就是具身智能,與微觀世界的生命科學結合就是AI for Science,這一切最終都推動整個AGI時代的到來。

過程中,智源研究院會針對一些產業界的共性問題,進行科研層面的解決,以始終引領未來大模型的發展,支撐產業發展方向。
大模型一直有一個非常大的痛點就是幻覺。
去年,我們發布的通用向量模型被廣泛用在檢索增強中,在過去的兩年里,BGE已經成為全球知名開源平臺Hugging face上120多萬個開源AI模型中下載量最高的模型(超過20%)。
不僅在社區里廣受歡迎,而且主流的云廠商平臺集成了BGE模型。因為我們完全開源,也允許商用。這就是智源研究院對產業界的支撐。

前沿探索中,智源一直在開展視覺和多模態方向的研究。
當前階段,不同模態的模型依然采用不同的技術架構,它能夠在局部上展現出非常好的效果,但從長期的技術發展或最終落地來講,還是會面臨很多挑戰。
所以我們一直都在挑戰一個終極形態的技術路線——將所有的模態,包括理解和生成統一。
今年10月正式發布的Emu3原生多模態世界模型,我們將視覺信號和所有文本變成了token,通過類似大語言模型的訓練架構訓練出了一個統一的原生多模態大模型。
視頻所展現出來的所有關于圖像的生成、圖像的理解,視頻的生成、視頻的理解都是基于一個基礎模型。具體來說,基于Autoregressive技術路線的Emu3 ,還能夠做視頻的續寫,以及對于復雜圖像、視頻的理解。
我們已經將Emu3基礎模型以及微調的模型在開源社區開源,大家都可以使用。對比各種開源模型,可以發現Emu3在圖像生成、視頻生成以及圖像視頻的理解上都做得非常不錯。
我們的技術報告和模型發布之后,國際同行也對Emu3給予了非常高的評價。
事實上,統一的多模態大模型對于最終落地各行各業有非常大的幫助。因為在真實的工業場景、醫療場景、教育場景,其實存在著大量的多模態數據,不僅僅是文本的數據。當人工智能模型進入物理世界,跟硬件結合,更需要的還是多模態模型。
正在研發具身大模型
面向未來,我們正在研發具身智能一腦多體的具身大模型。
具體來說,具身大腦能夠更好地理解世界規律,跟環境交互,能夠做好規劃、決策的任務;小腦能夠實現跨不同的本體,進行整個本體的控制,靈巧手能夠做更加精細化的操作。
在規劃決策上,o1能夠不斷反思思考,在具身智能上顯得尤其重要。我們有快系統和慢系統,在真實世界交互中,對于某一個決策能夠反思,即執行失敗了能糾正自己的行為非常重要。
當然,我們也要意識到具身智能處在非常早期的階段,有非常多的技術依然亟待突破,尤其是泛化能力。比如泛化抓取、泛化操作,以及不同自由度操作的能力,包括具身導航的泛化導航能力等。
而智源在具身智能上也有一些進展。
在今年兩會央視連線智源研究員時,研究員說“我渴了”,機器人的機器手臂上的攝像頭疊加多模態大模型,它就能夠去理解、思考、抓取透明物體。

我們也將這樣的技術用在了所孵化的一家企業(北京銀河通用)的第一代機器人上,它能夠在零售場景下理解人類語言,做一些抓取工作。
當然我們也深刻意識到,具身智能依然處在非常早期的階段,因此我們現在也在不斷加強和高校、院所、企業之間的合作,從數據采集到模型,包括大腦模型、小腦模型、端到端模型,到最終場景的落地應用。
最后,非常歡迎各個企業、學校能跟智源研究院一起推動具身智能技術的發展。
- 10億美元OpenAI股權兌換迪士尼版權!米老鼠救Sora來了2025-12-12
- 跳過“逐字生成”!螞蟻集團趙俊博:擴散模型讓我們能直接修改Token | MEET20262025-12-12
- 梁文鋒,Nature全球年度十大科學人物!2025-12-09
- 英偉達巧用8B模型秒掉GPT-5,開源了2025-12-06




