上海WAIC大會(huì)現(xiàn)場(chǎng)“大鬧天宮”：模型夠猛，產(chǎn)品夠酷，公司夠強(qiáng)

衡宇 2024-07-04 18:51:17 來源：量子位

AI互動(dòng)游戲爆火WAIC

衡宇發(fā)自凹非寺

量子位 | 公眾號(hào) QbitAI

今年上海世界人工智能大會(huì)，誰最受關(guān)注？

展區(qū)現(xiàn)場(chǎng)，有個(gè)擠得水泄不通的互動(dòng)——

像孫猴子一樣在全世界大鬧天宮的AI大模型，而且真的和《大鬧天宮》聯(lián)動(dòng)！

只需一張真人正面圖片，就能get天庭打工人寸照；在測(cè)出屬于你的《大鬧天宮》版MBTI的同時(shí)，玉帝老兒還會(huì)賞咱個(gè)天上的官兒當(dāng)當(dāng)，何不美哉？

上海WAIC大會(huì)現(xiàn)場(chǎng)“大鬧天宮”：模型夠猛，產(chǎn)品夠酷，公司夠強(qiáng)

這個(gè)對(duì)大多數(shù)人來說見了就挪不動(dòng)腿的AI互動(dòng)體驗(yàn)背后，背后還是一支越來越出圈的國產(chǎn)大模型團(tuán)隊(duì)。

它不僅手握多模態(tài)能力，還在WAIC上亮出了手里最新的萬億MoE大模型。

平時(shí)低調(diào)，亮相不多，但總是一鳴驚人。

階躍星辰，微軟前全球副總裁，微軟亞洲互聯(lián)網(wǎng)工程院前首席科學(xué)家姜大昕創(chuàng)立，出道不早，但后發(fā)先至，目前已是公認(rèn)的大模型第一梯隊(duì)玩家，位列大模型創(chuàng)業(yè)“六小強(qiáng)”。

而且這一次WAIC期間，階躍星辰展示的大模型能力，不只是和孫悟空攜手鬧天空那么簡(jiǎn)單。

萬億MoE+多模態(tài)大模型

階躍目前推出的模型均為Step系列。

新模型發(fā)布之前，小結(jié)一下過去的成員：今年3月，階躍共發(fā)布3款模型，即Step-1千億參數(shù)語言大模型、Step-1V千億參數(shù)多模態(tài)大模型、Step-2萬億參數(shù)MoE語言大模型（預(yù)覽版）。

在這次WAIC，Step家族增加3名新成員。

Step-2萬億參數(shù)語言大模型正式版
Step-1.5V千億參數(shù)多模態(tài)大模型
Step-1X圖像生成大模型

第一個(gè)是MoE結(jié)構(gòu)的萬億參數(shù)大語言模型，后面二者則是多模態(tài)模型。

大語言模型：Step-2正式版

3月底的全球開發(fā)者先鋒大會(huì)開幕式上，階躍展示了萬億參數(shù)MoE語言大模型Step-2的預(yù)覽版。

不是我說，階躍是懂什么叫“淺嘗輒止”的，只有預(yù)覽版，讓人心癢癢。

好在階躍團(tuán)隊(duì)堅(jiān)信Scaling Law，因此不斷訓(xùn)練更大模型。

這次，Step-2正式版終于正式亮相。

Step-2擁有萬億參數(shù)，采用MoE架構(gòu)，官方介紹，Step-2在數(shù)理邏輯、編程、中文知識(shí)、英文知識(shí)、指令跟隨等方面體感全面逼近GPT-4。

背后有階躍團(tuán)隊(duì)花了大心思的巧思在。

首先是創(chuàng)新算法架構(gòu)。

一般而言，主流訓(xùn)練MoE模型有兩種方式，不然就基于已有模型通過upcycle（向上復(fù)用）開始訓(xùn)練，不然就從頭開始訓(xùn)練。

Upcycle方式所需算力相對(duì)更低、訓(xùn)練效率更高，但隨隨便便就到這種方式的天花板了。

比如基于拷貝復(fù)制得到的MoE模型，非常容易出現(xiàn)專家同質(zhì)化嚴(yán)重的情況。

而選擇從頭開始訓(xùn)練MoE模型的話，能夠探得更高的模型上限，但作為代價(jià)，訓(xùn)練難度也會(huì)增大。

俗話說得好，勇敢階躍，不怕困難（doge）。

在設(shè)計(jì)Step-2的MoE架構(gòu)時(shí)，階躍星辰迎難而上，完全自主研發(fā)，從頭開始訓(xùn)練。

過程中，通過部分專家共享參數(shù)、異構(gòu)化專家設(shè)計(jì)等創(chuàng)新MoE架構(gòu)設(shè)計(jì)，Step-2這個(gè)混合專家模型中的每個(gè)專家都得到了充分訓(xùn)練。

故而，Step-2總參數(shù)量達(dá)到萬億級(jí)別，每次訓(xùn)練或推理所激活的參數(shù)量也超過了市面上的大部分Dense模型。

此外，Step-2的訓(xùn)練過程中，階躍的系統(tǒng)團(tuán)隊(duì)突破了6D并行、極致顯存管理、完全自動(dòng)化運(yùn)維等關(guān)鍵技術(shù)，支撐起了整個(gè)模型的高效訓(xùn)練。

多模態(tài)大模型：追求多模理解和生成的統(tǒng)一

姜大昕曾經(jīng)堅(jiān)定表示過，團(tuán)隊(duì)追求的是多模理解和生成的統(tǒng)一，“Step系列大模型將為多模理解和生成的統(tǒng)一奠定堅(jiān)實(shí)基礎(chǔ)。”

于是，在多模理解方面秀肌肉的Step-1.5V多模態(tài)大模型，以及在多模生成方面小有所成的Step-1X圖像生成大模型，這次也對(duì)外發(fā)布。

Step-1.5V多模態(tài)大模型從Step-1V千億參數(shù)多模態(tài)大模型迭代而來。

Step-1V大模型已經(jīng)可以精準(zhǔn)描述和理解圖像中的文字、數(shù)據(jù)、圖表等信息，并根據(jù)圖像信息實(shí)現(xiàn)內(nèi)容創(chuàng)作、邏輯推理、數(shù)據(jù)分析等多項(xiàng)任務(wù)。

而視頻中的內(nèi)容，它也可以輕松理解。

對(duì)比前作，Step-1.5V多模態(tài)大模型有明顯躍升。

感知能力：創(chuàng)新的圖文混排訓(xùn)練方法，讓Step-1.5V能理解復(fù)雜圖表、流程圖、準(zhǔn)確感知物理空間復(fù)雜的幾何位置，還能夠處理高分辨率和極限長(zhǎng)寬比的圖像。
推理能力：根據(jù)圖像內(nèi)容進(jìn)行各類高級(jí)推理任務(wù)，如解答數(shù)學(xué)題、編寫代碼、創(chuàng)作詩歌等。
視頻理解能力：它不僅能夠準(zhǔn)確識(shí)別視頻中的物體、人物和環(huán)境，還能夠理解視頻的整體氛圍和人物情緒。

另一個(gè)新發(fā)布的Step-1X圖像生成大模型，有600M、2B、8B三種參數(shù)量，分別適合對(duì)于速度敏感、日常主力（平衡效果和速度）、追求更高效更極致這三種場(chǎng)景。

通過全鏈路自研的DiT模型架構(gòu)，Step-1X有更好的文本prompt和生成圖片的語義對(duì)齊能力，以及指令跟隨能力。

還有個(gè)不得不提的點(diǎn)：

Step-1X針對(duì)中國元素進(jìn)行了深度優(yōu)化，有關(guān)中國元素、文化的內(nèi)容都能輕松拿下，生成的效果也更符合國人審美。

對(duì)外亮相第一天起，階躍星辰就擺明姿態(tài)，攀登AGI巔峰之路“萬億參數(shù)”和“多模融合”缺一不可。

這次一股腦兒推出的三款新模型，就是其在既定路線上向前探索的有力證明。

不可或缺的AI應(yīng)用與生態(tài)布局

階躍星辰不是WAIC上唯一推陳出新的大模型玩家。

在現(xiàn)場(chǎng)有一種強(qiáng)烈的感受，相比去年WAIC，展區(qū)的大模型廠商出現(xiàn)了更多創(chuàng)業(yè)公司的身影，尤為不同的是，無論是展商、論壇還是觀眾，對(duì)AI大模型應(yīng)用的關(guān)注和討論都占去不小篇幅。

類似“模應(yīng)一體”“殺手級(jí)應(yīng)用”“AI應(yīng)用生態(tài)”這般的話題，頻頻被提起。

姜大昕此前有過一個(gè)生動(dòng)的比喻：模型和產(chǎn)品的關(guān)系，就像靈魂和皮囊。

當(dāng)你具體到某個(gè)應(yīng)用的時(shí)候一定要通用模型跟它深度綁定，應(yīng)用才能做到極致。

反過來也是一樣，我不覺得一個(gè)光做應(yīng)用的公司，沒有一個(gè)模型跟它深度綁定的話，它能做到極致。

這就凸顯出階躍星辰在模型與產(chǎn)品之間的伏線千里之妙。

以自家Step系列模型為基座，階躍星辰的產(chǎn)品共有兩類，自有產(chǎn)品和合作產(chǎn)品。

自有產(chǎn)品方面，有聊天類應(yīng)用躍問，定位個(gè)人效率助手，web端和App端可用；AI開放世界平臺(tái)冒泡鴨，提供海量智能體，主打一個(gè)休閑娛樂。

兩款toC產(chǎn)品，均已全面開放使用。

這里重點(diǎn)介紹一下躍問，它擁有聯(lián)網(wǎng)搜索、代碼分析增強(qiáng)（POT）等能力，能夠提供信息查詢、語言學(xué)習(xí)、創(chuàng)意寫作、圖文解讀等服務(wù)。

和其它家聊天類應(yīng)用相比，它有一個(gè)最大的優(yōu)勢(shì)：多模態(tài)內(nèi)容理解能力。

它能夠幫助用戶識(shí)別真實(shí)世界的萬事萬物：

能夠理解和分析復(fù)雜的金融圖表：

還能理解熱梗圖片中的深意：

甚至能夠根據(jù)歐洲杯賽程表，梳理生成“一圖讀懂”：

合作產(chǎn)品方面，最亮眼的就是此次吸粉無數(shù)的《大鬧天宮》AI互動(dòng)體驗(yàn)。

動(dòng)畫電影《大鬧天宮》制作于1961年，是上美影的靈魂代表作，60年來，更成為幾代人鐘愛的回憶。

半個(gè)多世紀(jì)以來，基于這個(gè)國民IP的創(chuàng)新層出不窮，還能玩出什么新花樣？

圍繞《大鬧天宮》，階躍團(tuán)隊(duì)與上影集團(tuán)利用AIGC和大模型技術(shù)，聯(lián)合推出了AI互動(dòng)體驗(yàn)產(chǎn)品，讓大家能與電影情境深度融合。

玩法也很簡(jiǎn)單：

上傳一張個(gè)人照片，然后開始走Step系列大模型生成的劇情。

模型算法會(huì)識(shí)別照片特征，提取后結(jié)合《大鬧天宮》的畫風(fēng)和角色，完成風(fēng)格遷徙，生成新的肖像。

劇情發(fā)展過程中，用戶能選擇，也能和系統(tǒng)對(duì)話交談。

等等，這還沒完！

根據(jù)剛才做出的選擇和回答，大模型還會(huì)進(jìn)一步分析用戶的MBTI人格，最后得出結(jié)論：

如果你在天庭當(dāng)打工人，最適合什么差事？

（沒辦法咯，孫悟空大鬧天宮前也老老實(shí)實(shí)做了段時(shí)間弼馬溫）

量子位測(cè)出來，是enfp的赤腳大仙。

都說光腳的不怕穿鞋的，本大仙今天就原地罷工吧（不是）。

據(jù)說只有1%的人能測(cè)出來齊天大圣，不是我，我慕了。

沒在現(xiàn)場(chǎng)但想玩一把的朋友們，可點(diǎn)擊文末閱讀原文，也歡迎大家把測(cè)出來的MBTI和神仙職位在評(píng)論區(qū)分享～

上述產(chǎn)品不只是階躍星辰利用自家大模型能力對(duì)外輸出的全部。

據(jù)了解，在內(nèi)容、金融、網(wǎng)絡(luò)文學(xué)、知識(shí)服務(wù)、影視等領(lǐng)域，階躍星辰都和行業(yè)頭部展開合作，多維探索面向C端用戶的創(chuàng)新應(yīng)用。

國產(chǎn)大模型創(chuàng)業(yè)第一梯隊(duì)新格局

對(duì)于所有的大模型玩家來說，從ChatGPT誕世的那一天起，全球范圍內(nèi)的競(jìng)爭(zhēng)就愈發(fā)激烈，再也沒有停歇過。

尤其是WAIC現(xiàn)場(chǎng)，這樣的信號(hào)傳遞得非常明顯。

谷歌、Meta、BAT、華為、訊飛、深度求索、AI四小龍……老牌AI布局者，在AI 2.0時(shí)代的實(shí)力依然不可小覷。

背后原因是AI 2.0實(shí)質(zhì)上是隨著研究深入，對(duì)判別式AI與生成式AI的人為劃分，而深度學(xué)習(xí)的核心三駕馬車，即對(duì)算法、算力、數(shù)據(jù)的掌握和運(yùn)用，依然是重中之重。

但古今中外，一個(gè)時(shí)代有一個(gè)時(shí)代的公司，每個(gè)時(shí)代都會(huì)有代表性的公司出現(xiàn)。

AI 2.0時(shí)代的大模型初創(chuàng)公司，確實(shí)已經(jīng)出現(xiàn)了對(duì)技術(shù)和產(chǎn)業(yè)的發(fā)展至關(guān)重要的銳力。

WAIC展區(qū)，就有這樣的玩家出現(xiàn)，而且經(jīng)過第一階段的競(jìng)速和洗牌，大模型創(chuàng)業(yè)的上半場(chǎng)基本已經(jīng)結(jié)束。

在上半場(chǎng)中，能夠脫穎而出的創(chuàng)業(yè)玩家，首先通過自研基礎(chǔ)大模型，證明了自己的技術(shù)研發(fā)實(shí)力；其次還通過產(chǎn)品和應(yīng)用，開啟了商業(yè)模式試水，構(gòu)建起了技術(shù)-產(chǎn)品-數(shù)據(jù)-商用的初步飛輪；最后，還獲得了創(chuàng)投和資本市場(chǎng)的認(rèn)證，完成了獨(dú)角獸級(jí)別的巨額融資，有糧草和底氣可以開啟下一階段比拼。

實(shí)際上，上半場(chǎng)也是創(chuàng)業(yè)玩家的分水嶺，能夠在此時(shí)此刻把公司推至獨(dú)角獸級(jí)別，是角逐下半場(chǎng)的門票體現(xiàn)。

也就是說，沒有門票，基本就告別下半場(chǎng)了，更別說AGI了。

因?yàn)殡S著第一階段競(jìng)速，市場(chǎng)的作用開始展現(xiàn)，不論是技術(shù)人才、研發(fā)資源、創(chuàng)投資本，都在急劇收斂，形成馬太效應(yīng)——留在桌上的玩家會(huì)獲得更多的資源挑戰(zhàn)更大的目標(biāo)，下了桌的玩家，原先有的也要被拿回。

互聯(lián)網(wǎng)時(shí)代、移動(dòng)互聯(lián)網(wǎng)時(shí)代、AI1.0時(shí)代的軌跡，再次重復(fù)上演。

而現(xiàn)在，在AI2.0上半場(chǎng)拿到門票的創(chuàng)業(yè)玩家，格局初現(xiàn)，六小強(qiáng)銳不可當(dāng)——

智譜華章、月之暗面、MiniMax、零一萬物、百川智能、階躍星辰……越來越多被放在一起談?wù)摗?/p>

而階躍星辰，是其中后發(fā)的一個(gè)，但正在展現(xiàn)出謀定而后動(dòng)的后發(fā)優(yōu)勢(shì)。

而且它是為數(shù)不多，在國內(nèi)同時(shí)擁有多模態(tài)大模型能力和萬億MoE大模型的玩家，這代表了面向下半場(chǎng)的某種潛在競(jìng)爭(zhēng)力和加速度來源。

版權(quán)所有，未經(jīng)授權(quán)不得以任何形式轉(zhuǎn)載及使用，違者必究。

衡宇

上海WAIC大會(huì)現(xiàn)場(chǎng)“大鬧天宮”：模型夠猛，產(chǎn)品夠酷，公司夠強(qiáng)

萬億MoE+多模態(tài)大模型

大語言模型：Step-2正式版

多模態(tài)大模型：追求多模理解和生成的統(tǒng)一

不可或缺的AI應(yīng)用與生態(tài)布局

國產(chǎn)大模型創(chuàng)業(yè)第一梯隊(duì)新格局

相關(guān)閱讀

秒殺700億Llama 2！最新國產(chǎn)大模型亮相，無需申請(qǐng)即可免費(fèi)商用，背后公司來自私募巨頭

Kimi宕機(jī)打醒巨頭！阿里百度360連夜出手，大模型商業(yè)化廝殺開始

有生命的AI？AI Agent的應(yīng)用可不只游戲NPC｜對(duì)話超參數(shù)科技

國產(chǎn)大模型再上一分！有道大模型翻譯質(zhì)量實(shí)測(cè)達(dá)全球第一

無畏契約AI陪練即將上線！新智慧心攜英特爾打造，秒get游戲技巧

黑馬！大模型競(jìng)技場(chǎng)榜單更新，國產(chǎn)玩家首次進(jìn)入全球總榜前10

熱門文章

云計(jì)算一哥10分鐘發(fā)了25個(gè)新品！Kimi和MiniMax首次上桌

GPT5.5代號(hào)“蒜你狠”曝光！OpenAI拉響紅色警報(bào)加班趕制新模型，最快下周就發(fā)

英偉達(dá)巧用8B模型秒掉GPT-5，開源了

DeepSeekV3.2技術(shù)報(bào)告還是老外看得細(xì)

“豆包手機(jī)”在二手市場(chǎng)價(jià)格都翻倍了……