上海WAIC大會(huì)現(xiàn)場(chǎng)“大鬧天宮”:模型夠猛,產(chǎn)品夠酷,公司夠強(qiáng)
AI互動(dòng)游戲爆火WAIC
衡宇 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
今年上海世界人工智能大會(huì),誰最受關(guān)注?
展區(qū)現(xiàn)場(chǎng),有個(gè)擠得水泄不通的互動(dòng)——
像孫猴子一樣在全世界大鬧天宮的AI大模型,而且真的和《大鬧天宮》聯(lián)動(dòng)!
只需一張真人正面圖片,就能get天庭打工人寸照;在測(cè)出屬于你的《大鬧天宮》版MBTI的同時(shí),玉帝老兒還會(huì)賞咱個(gè)天上的官兒當(dāng)當(dāng),何不美哉?

這個(gè)對(duì)大多數(shù)人來說見了就挪不動(dòng)腿的AI互動(dòng)體驗(yàn)背后,背后還是一支越來越出圈的國產(chǎn)大模型團(tuán)隊(duì)。
它不僅手握多模態(tài)能力,還在WAIC上亮出了手里最新的萬億MoE大模型。

平時(shí)低調(diào),亮相不多,但總是一鳴驚人。
階躍星辰,微軟前全球副總裁,微軟亞洲互聯(lián)網(wǎng)工程院前首席科學(xué)家姜大昕創(chuàng)立,出道不早,但后發(fā)先至,目前已是公認(rèn)的大模型第一梯隊(duì)玩家,位列大模型創(chuàng)業(yè)“六小強(qiáng)”。
而且這一次WAIC期間,階躍星辰展示的大模型能力,不只是和孫悟空攜手鬧天空那么簡(jiǎn)單。
萬億MoE+多模態(tài)大模型
階躍目前推出的模型均為Step系列。
新模型發(fā)布之前,小結(jié)一下過去的成員:今年3月,階躍共發(fā)布3款模型,即Step-1千億參數(shù)語言大模型、Step-1V千億參數(shù)多模態(tài)大模型、Step-2萬億參數(shù)MoE語言大模型(預(yù)覽版)。
在這次WAIC,Step家族增加3名新成員。
- Step-2萬億參數(shù)語言大模型正式版
- Step-1.5V千億參數(shù)多模態(tài)大模型
- Step-1X圖像生成大模型
第一個(gè)是MoE結(jié)構(gòu)的萬億參數(shù)大語言模型,后面二者則是多模態(tài)模型。
大語言模型:Step-2正式版
3月底的全球開發(fā)者先鋒大會(huì)開幕式上,階躍展示了萬億參數(shù)MoE語言大模型Step-2的預(yù)覽版。
不是我說,階躍是懂什么叫“淺嘗輒止”的,只有預(yù)覽版,讓人心癢癢。
好在階躍團(tuán)隊(duì)堅(jiān)信Scaling Law,因此不斷訓(xùn)練更大模型。
這次,Step-2正式版終于正式亮相。
Step-2擁有萬億參數(shù),采用MoE架構(gòu),官方介紹,Step-2在數(shù)理邏輯、編程、中文知識(shí)、英文知識(shí)、指令跟隨等方面體感全面逼近GPT-4。
背后有階躍團(tuán)隊(duì)花了大心思的巧思在。
首先是創(chuàng)新算法架構(gòu)。
一般而言,主流訓(xùn)練MoE模型有兩種方式,不然就基于已有模型通過upcycle(向上復(fù)用)開始訓(xùn)練,不然就從頭開始訓(xùn)練。
Upcycle方式所需算力相對(duì)更低、訓(xùn)練效率更高,但隨隨便便就到這種方式的天花板了。
比如基于拷貝復(fù)制得到的MoE模型,非常容易出現(xiàn)專家同質(zhì)化嚴(yán)重的情況。
而選擇從頭開始訓(xùn)練MoE模型的話,能夠探得更高的模型上限,但作為代價(jià),訓(xùn)練難度也會(huì)增大。

俗話說得好,勇敢階躍,不怕困難(doge)。
在設(shè)計(jì)Step-2的MoE架構(gòu)時(shí),階躍星辰迎難而上,完全自主研發(fā),從頭開始訓(xùn)練。
過程中,通過部分專家共享參數(shù)、異構(gòu)化專家設(shè)計(jì)等創(chuàng)新MoE架構(gòu)設(shè)計(jì),Step-2這個(gè)混合專家模型中的每個(gè)專家都得到了充分訓(xùn)練。
故而,Step-2總參數(shù)量達(dá)到萬億級(jí)別,每次訓(xùn)練或推理所激活的參數(shù)量也超過了市面上的大部分Dense模型。
此外,Step-2的訓(xùn)練過程中,階躍的系統(tǒng)團(tuán)隊(duì)突破了6D并行、極致顯存管理、完全自動(dòng)化運(yùn)維等關(guān)鍵技術(shù),支撐起了整個(gè)模型的高效訓(xùn)練。
多模態(tài)大模型:追求多模理解和生成的統(tǒng)一
姜大昕曾經(jīng)堅(jiān)定表示過,團(tuán)隊(duì)追求的是多模理解和生成的統(tǒng)一,“Step系列大模型將為多模理解和生成的統(tǒng)一奠定堅(jiān)實(shí)基礎(chǔ)。”
于是,在多模理解方面秀肌肉的Step-1.5V多模態(tài)大模型,以及在多模生成方面小有所成的Step-1X圖像生成大模型,這次也對(duì)外發(fā)布。
Step-1.5V多模態(tài)大模型從Step-1V千億參數(shù)多模態(tài)大模型迭代而來。
Step-1V大模型已經(jīng)可以精準(zhǔn)描述和理解圖像中的文字、數(shù)據(jù)、圖表等信息,并根據(jù)圖像信息實(shí)現(xiàn)內(nèi)容創(chuàng)作、邏輯推理、數(shù)據(jù)分析等多項(xiàng)任務(wù)。
而視頻中的內(nèi)容,它也可以輕松理解。
對(duì)比前作,Step-1.5V多模態(tài)大模型有明顯躍升。
- 感知能力:創(chuàng)新的圖文混排訓(xùn)練方法,讓Step-1.5V能理解復(fù)雜圖表、流程圖、準(zhǔn)確感知物理空間復(fù)雜的幾何位置,還能夠處理高分辨率和極限長(zhǎng)寬比的圖像。
- 推理能力:根據(jù)圖像內(nèi)容進(jìn)行各類高級(jí)推理任務(wù),如解答數(shù)學(xué)題、編寫代碼、創(chuàng)作詩歌等。
- 視頻理解能力:它不僅能夠準(zhǔn)確識(shí)別視頻中的物體、人物和環(huán)境,還能夠理解視頻的整體氛圍和人物情緒。
另一個(gè)新發(fā)布的Step-1X圖像生成大模型,有600M、2B、8B三種參數(shù)量,分別適合對(duì)于速度敏感、日常主力(平衡效果和速度)、追求更高效更極致這三種場(chǎng)景。
通過全鏈路自研的DiT模型架構(gòu),Step-1X有更好的文本prompt和生成圖片的語義對(duì)齊能力,以及指令跟隨能力。
還有個(gè)不得不提的點(diǎn):
Step-1X針對(duì)中國元素進(jìn)行了深度優(yōu)化,有關(guān)中國元素、文化的內(nèi)容都能輕松拿下,生成的效果也更符合國人審美。

對(duì)外亮相第一天起,階躍星辰就擺明姿態(tài),攀登AGI巔峰之路“萬億參數(shù)”和“多模融合”缺一不可。
這次一股腦兒推出的三款新模型,就是其在既定路線上向前探索的有力證明。
不可或缺的AI應(yīng)用與生態(tài)布局
階躍星辰不是WAIC上唯一推陳出新的大模型玩家。
在現(xiàn)場(chǎng)有一種強(qiáng)烈的感受,相比去年WAIC,展區(qū)的大模型廠商出現(xiàn)了更多創(chuàng)業(yè)公司的身影,尤為不同的是,無論是展商、論壇還是觀眾,對(duì)AI大模型應(yīng)用的關(guān)注和討論都占去不小篇幅。
類似“模應(yīng)一體”“殺手級(jí)應(yīng)用”“AI應(yīng)用生態(tài)”這般的話題,頻頻被提起。
姜大昕此前有過一個(gè)生動(dòng)的比喻:模型和產(chǎn)品的關(guān)系,就像靈魂和皮囊。
當(dāng)你具體到某個(gè)應(yīng)用的時(shí)候一定要通用模型跟它深度綁定,應(yīng)用才能做到極致。
反過來也是一樣,我不覺得一個(gè)光做應(yīng)用的公司,沒有一個(gè)模型跟它深度綁定的話,它能做到極致。
這就凸顯出階躍星辰在模型與產(chǎn)品之間的伏線千里之妙。
以自家Step系列模型為基座,階躍星辰的產(chǎn)品共有兩類,自有產(chǎn)品和合作產(chǎn)品。
自有產(chǎn)品方面,有聊天類應(yīng)用躍問,定位個(gè)人效率助手,web端和App端可用;AI開放世界平臺(tái)冒泡鴨,提供海量智能體,主打一個(gè)休閑娛樂。
兩款toC產(chǎn)品,均已全面開放使用。
這里重點(diǎn)介紹一下躍問,它擁有聯(lián)網(wǎng)搜索、代碼分析增強(qiáng)(POT)等能力,能夠提供信息查詢、語言學(xué)習(xí)、創(chuàng)意寫作、圖文解讀等服務(wù)。
和其它家聊天類應(yīng)用相比,它有一個(gè)最大的優(yōu)勢(shì):多模態(tài)內(nèi)容理解能力。
它能夠幫助用戶識(shí)別真實(shí)世界的萬事萬物:

能夠理解和分析復(fù)雜的金融圖表:

還能理解熱梗圖片中的深意:

甚至能夠根據(jù)歐洲杯賽程表,梳理生成“一圖讀懂”:

合作產(chǎn)品方面,最亮眼的就是此次吸粉無數(shù)的《大鬧天宮》AI互動(dòng)體驗(yàn)。

動(dòng)畫電影《大鬧天宮》制作于1961年,是上美影的靈魂代表作,60年來,更成為幾代人鐘愛的回憶。

半個(gè)多世紀(jì)以來,基于這個(gè)國民IP的創(chuàng)新層出不窮,還能玩出什么新花樣?
圍繞《大鬧天宮》,階躍團(tuán)隊(duì)與上影集團(tuán)利用AIGC和大模型技術(shù),聯(lián)合推出了AI互動(dòng)體驗(yàn)產(chǎn)品,讓大家能與電影情境深度融合。
玩法也很簡(jiǎn)單:
上傳一張個(gè)人照片,然后開始走Step系列大模型生成的劇情。

模型算法會(huì)識(shí)別照片特征,提取后結(jié)合《大鬧天宮》的畫風(fēng)和角色,完成風(fēng)格遷徙,生成新的肖像。

劇情發(fā)展過程中,用戶能選擇,也能和系統(tǒng)對(duì)話交談。

等等,這還沒完!
根據(jù)剛才做出的選擇和回答,大模型還會(huì)進(jìn)一步分析用戶的MBTI人格,最后得出結(jié)論:
如果你在天庭當(dāng)打工人,最適合什么差事?
(沒辦法咯,孫悟空大鬧天宮前也老老實(shí)實(shí)做了段時(shí)間弼馬溫)

量子位測(cè)出來,是enfp的赤腳大仙。
都說光腳的不怕穿鞋的,本大仙今天就原地罷工吧(不是)。
據(jù)說只有1%的人能測(cè)出來齊天大圣,不是我,我慕了。
沒在現(xiàn)場(chǎng)但想玩一把的朋友們,可點(diǎn)擊文末閱讀原文,也歡迎大家把測(cè)出來的MBTI和神仙職位在評(píng)論區(qū)分享~

上述產(chǎn)品不只是階躍星辰利用自家大模型能力對(duì)外輸出的全部。
據(jù)了解,在內(nèi)容、金融、網(wǎng)絡(luò)文學(xué)、知識(shí)服務(wù)、影視等領(lǐng)域,階躍星辰都和行業(yè)頭部展開合作,多維探索面向C端用戶的創(chuàng)新應(yīng)用。
國產(chǎn)大模型創(chuàng)業(yè)第一梯隊(duì)新格局
對(duì)于所有的大模型玩家來說,從ChatGPT誕世的那一天起,全球范圍內(nèi)的競(jìng)爭(zhēng)就愈發(fā)激烈,再也沒有停歇過。
尤其是WAIC現(xiàn)場(chǎng),這樣的信號(hào)傳遞得非常明顯。
谷歌、Meta、BAT、華為、訊飛、深度求索、AI四小龍……老牌AI布局者,在AI 2.0時(shí)代的實(shí)力依然不可小覷。
背后原因是AI 2.0實(shí)質(zhì)上是隨著研究深入,對(duì)判別式AI與生成式AI的人為劃分,而深度學(xué)習(xí)的核心三駕馬車,即對(duì)算法、算力、數(shù)據(jù)的掌握和運(yùn)用,依然是重中之重。

但古今中外,一個(gè)時(shí)代有一個(gè)時(shí)代的公司,每個(gè)時(shí)代都會(huì)有代表性的公司出現(xiàn)。
AI 2.0時(shí)代的大模型初創(chuàng)公司,確實(shí)已經(jīng)出現(xiàn)了對(duì)技術(shù)和產(chǎn)業(yè)的發(fā)展至關(guān)重要的銳力。
WAIC展區(qū),就有這樣的玩家出現(xiàn),而且經(jīng)過第一階段的競(jìng)速和洗牌,大模型創(chuàng)業(yè)的上半場(chǎng)基本已經(jīng)結(jié)束。
在上半場(chǎng)中,能夠脫穎而出的創(chuàng)業(yè)玩家,首先通過自研基礎(chǔ)大模型,證明了自己的技術(shù)研發(fā)實(shí)力;其次還通過產(chǎn)品和應(yīng)用,開啟了商業(yè)模式試水,構(gòu)建起了技術(shù)-產(chǎn)品-數(shù)據(jù)-商用的初步飛輪;最后,還獲得了創(chuàng)投和資本市場(chǎng)的認(rèn)證,完成了獨(dú)角獸級(jí)別的巨額融資,有糧草和底氣可以開啟下一階段比拼。
實(shí)際上,上半場(chǎng)也是創(chuàng)業(yè)玩家的分水嶺,能夠在此時(shí)此刻把公司推至獨(dú)角獸級(jí)別,是角逐下半場(chǎng)的門票體現(xiàn)。
也就是說,沒有門票,基本就告別下半場(chǎng)了,更別說AGI了。
因?yàn)殡S著第一階段競(jìng)速,市場(chǎng)的作用開始展現(xiàn),不論是技術(shù)人才、研發(fā)資源、創(chuàng)投資本,都在急劇收斂,形成馬太效應(yīng)——留在桌上的玩家會(huì)獲得更多的資源挑戰(zhàn)更大的目標(biāo),下了桌的玩家,原先有的也要被拿回。
互聯(lián)網(wǎng)時(shí)代、移動(dòng)互聯(lián)網(wǎng)時(shí)代、AI1.0時(shí)代的軌跡,再次重復(fù)上演。
而現(xiàn)在,在AI2.0上半場(chǎng)拿到門票的創(chuàng)業(yè)玩家,格局初現(xiàn),六小強(qiáng)銳不可當(dāng)——
智譜華章、月之暗面、MiniMax、零一萬物、百川智能、階躍星辰……越來越多被放在一起談?wù)摗?/p>
而階躍星辰,是其中后發(fā)的一個(gè),但正在展現(xiàn)出謀定而后動(dòng)的后發(fā)優(yōu)勢(shì)。
而且它是為數(shù)不多,在國內(nèi)同時(shí)擁有多模態(tài)大模型能力和萬億MoE大模型的玩家,這代表了面向下半場(chǎng)的某種潛在競(jìng)爭(zhēng)力和加速度來源。



