國內(nèi)首個(gè)音樂版「ChatGPT」來了!Sora同款架構(gòu),唱作技巧全面發(fā)展,還劇透了全新MoE大模型
已面向社會開啟免費(fèi)邀測
允中 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
AI音樂大模型最近有多火,不用多介紹了吧?(doge)
不過,海外版應(yīng)用別的先不說,奇奇怪怪的中文AI發(fā)音就能把人難受死……
好在卷應(yīng)用嘛,國產(chǎn)大模型廠商沒在怕的,這不,國產(chǎn)版音樂“ChatGPT”這就來了~
話不多說,先聽效果:
這情感表現(xiàn)力,是有那么點(diǎn)競爭短視頻神曲的潛質(zhì)了。

如此作品,背后作者正是剛剛開放邀測的國產(chǎn)AI音樂生成大模型「天工SkyMusic」。
4月2日,昆侖萬維官宣,「天工SkyMusic」基于昆侖萬維「天工3.0」超級大模型打造,即日起面向社會開啟免費(fèi)邀測。
本輪測試已開放1000個(gè)免費(fèi)名額,面向行業(yè)媒體、專家,以及感興趣的音樂從業(yè)者開放。
據(jù)官方消息稱,昆侖萬維「天工SkyMusic」首日預(yù)約申請已有幾十萬。
「天工SkyMusic」也是目前國內(nèi)唯一公開可用的AI音樂生成大模型。
昆侖萬維工程師透露,「天工SkyMusic」是昆侖萬維情感AGI研究方向上的重要成果:
智力固然重要,但情感是我們能夠被稱之為人的關(guān)鍵。
我們發(fā)現(xiàn)相比文本和圖片,音頻內(nèi)容是理解人類情感最好的方式,而音樂又是人類情感表達(dá)最充沛、最不受地域和文化限制的內(nèi)容載體。
采用自研類Sora模型架構(gòu)
來看具體技術(shù)細(xì)節(jié)。
「天工SkyMusic」采用音樂音頻領(lǐng)域類Sora模型架構(gòu):
Large-scale Transformer 負(fù)責(zé)譜曲,來學(xué)習(xí) Music Patches 的上下文依賴關(guān)系,同時(shí)完成音樂可控性;
Diffusion Transformer 負(fù)責(zé)演唱,通過LDM讓Music Patches被還原成高質(zhì)量音頻,使得「天工SkyMusic」能夠支持生成80秒44100Hz 采樣率雙聲道立體聲歌曲。
這套模型架構(gòu)在處理視頻、音頻和音樂領(lǐng)域效果極佳。昆侖萬維團(tuán)隊(duì)還計(jì)劃在后續(xù)逐步迭代和添加新的能力,讓模型具備多模態(tài)的情感理解與表達(dá)能力。

「天工SkyMusic」具有以下五大特點(diǎn):
- 高質(zhì)量AI音樂
「天工SkyMusic」能夠生成80秒44100Hz采樣率雙聲道立體聲AI歌曲,并可根據(jù)用戶輸入的歌詞風(fēng)格生成對應(yīng)歌曲風(fēng)格。
- 人聲以假亂真
人聲合成是AI音樂生成中最重要、最能體現(xiàn)生成效果和品質(zhì)的維度。「天工SkyMusic」的AI人聲合成能夠達(dá)到業(yè)內(nèi)頂尖的SOTA水平,尤其是中文發(fā)音清晰、無異響,演唱效果顯著好于國外產(chǎn)品。
- 歌詞段落控制
「天工SkyMusic」能夠通過歌詞來控制歌曲,讓生成的歌曲可以明確分辨出不同歌詞段落的情緒變化,體現(xiàn)出主歌和副歌、前奏和主歌的段落差異。
- 多種音樂風(fēng)格
「天工SkyMusic」支持說唱、民謠、放克、古風(fēng)、電子等多種音樂風(fēng)格,用戶在創(chuàng)作音樂時(shí),可以通過參考音頻制定想要的音樂風(fēng)格。
- 音樂智能表達(dá):歌唱技巧學(xué)習(xí)
「天工SkyMusic」同時(shí)能夠?qū)W習(xí)如顫音、歌劇、吟唱、男女對唱,自動(dòng)和聲等多種歌唱技巧,讓用戶創(chuàng)作的歌曲得到更恰當(dāng)?shù)那楦斜磉_(dá)。
基于「天工3.0」大模型打造
在「天工SkyMusic」背后,有一點(diǎn)值得關(guān)注的是,昆侖萬維同時(shí)劇透了自家MoE大模型「天工3.0」的最新信息:
4月17日,「天工3.0」將正式開啟公測,并同步開源。
「天工3.0」是4000億級參數(shù)MoE混合專家模型,是全球模型參數(shù)最大、性能最強(qiáng)的MoE模型之一。

官方表示,相較于上一代「天工2.0」MoE大模型,「天工3.0」在模型語義理解、邏輯推理、以及通用性、泛化性、不確定性知識、學(xué)習(xí)能力等領(lǐng)域都擁有顯著的性能提升,其模型技術(shù)知識能力提升超過20%,數(shù)學(xué)/推理/代碼/文創(chuàng)能力提升超過30%。
同時(shí),「天工3.0」新增了搜索增強(qiáng)、研究模式、調(diào)用代碼及繪制圖表、多次調(diào)用聯(lián)網(wǎng)搜索等能力,并針對性地訓(xùn)練了模型的Agent能力,使得「天工3.0」能夠獨(dú)立完成規(guī)劃、調(diào)用、組合外部工具及信息,以精準(zhǔn)高效地完成產(chǎn)業(yè)分析、產(chǎn)品對比等各類復(fù)雜需求。
「天工3.0」也是全球首個(gè)多模態(tài)“超級模型”(Super Model),集成了AI搜索、AI寫作、AI長文本閱讀、AI對話、AI語音合成、AI圖片生成、AI漫畫創(chuàng)作、AI圖片識別、AI音樂生成、AI代碼寫作、AI表格生成等多項(xiàng)能力,堪稱大模型時(shí)代的“超級應(yīng)用”。
更多劇透,我們分成四個(gè)方面來看:
邏輯推理能力更強(qiáng)
邏輯推理能力的提升對于大模型解決復(fù)雜問題至關(guān)重要,「天工3.0」的數(shù)學(xué)與推理能力均提升超過30%,強(qiáng)大的邏輯推理能力使其能夠在實(shí)際應(yīng)用中更加準(zhǔn)確和高效地處理信息。
例如,在「天工3.0」AI搜索的研究模式中,模型能夠圍繞用戶的某個(gè)簡單指令進(jìn)行相關(guān)問題的延伸,并實(shí)時(shí)判斷該段落信息是否需要聯(lián)網(wǎng)搜索,能夠?qū)崿F(xiàn)如對某個(gè)行業(yè)進(jìn)行細(xì)致的拆解分析,總結(jié)相關(guān)事件、拆解產(chǎn)業(yè)鏈地圖等復(fù)雜功能,并以結(jié)構(gòu)化或思維導(dǎo)圖的形式進(jìn)行最終展示,讓模型更“聰明”。
語義理解能力更強(qiáng)
「天工3.0」能夠更好地理解和處理用戶自然語言Query中的復(fù)雜語義信息,包括隱喻、多義詞等。
例如,在「天工3.0」AI搜索的增強(qiáng)搜索中,模型能夠針對用戶的復(fù)雜Query進(jìn)行拆解、細(xì)化、并進(jìn)行追問、信息理解與補(bǔ)全,使其在自然語義理解方面性能更強(qiáng),面對不確定性知識時(shí)表現(xiàn)更好,能夠更精準(zhǔn)、高效地滿足用戶需求。
專項(xiàng)Agent訓(xùn)練,應(yīng)對復(fù)雜需求能力更強(qiáng)
大模型時(shí)代,AI Agent(智能體)已經(jīng)成為大模型技術(shù)的主流落地方向。
「天工3.0」針對模型獨(dú)立規(guī)劃、調(diào)用、組合外部工具及信息的能力進(jìn)行了專項(xiàng)訓(xùn)練,使其能夠獨(dú)立生成并調(diào)用代碼,完成包括產(chǎn)業(yè)研究、產(chǎn)品橫評、信息分析、圖片生成、圖表繪制等多種復(fù)雜用戶需求,并成為具備多個(gè)領(lǐng)域?qū)I(yè)知識和能力的全能專家,以強(qiáng)大的語義理解及邏輯推理能力對用戶需求進(jìn)行深度理解,并把任務(wù)拆解成細(xì)分環(huán)節(jié),發(fā)到不同的最優(yōu)模型去處理,最大程度提升模型性能。
同時(shí),針對B端用戶,「天工3.0」也在知識庫能力、任意工具調(diào)用能力、復(fù)雜角色指令追尋能力等領(lǐng)域進(jìn)行了全面升級,企業(yè)用戶可以通過上傳知識文檔構(gòu)建專屬知識庫及Agent,并實(shí)現(xiàn)自動(dòng)調(diào)用制定工具、完成復(fù)雜指令遵循Agent構(gòu)建等實(shí)用能力。
內(nèi)容創(chuàng)作能力全面升級
內(nèi)容創(chuàng)作能力一直是「天工」系列大模型的強(qiáng)項(xiàng),在上一代「天工2.0」大模型的基礎(chǔ)上,「天工3.0」更是進(jìn)行了全面的內(nèi)容創(chuàng)作能力升級,其不僅能實(shí)現(xiàn)AI音樂生成、AI語音、AI對話、AI二次元漫畫生成等強(qiáng)大的內(nèi)容創(chuàng)作能力,更是通過專項(xiàng)Agent訓(xùn)練實(shí)現(xiàn)了在對話中結(jié)合文本需求實(shí)時(shí)生成圖片、結(jié)合文本需求實(shí)時(shí)內(nèi)容分析及圖表構(gòu)建等能力,成為真正能搜、能寫、能讀、能聊、能聽、能說、能畫、能看、能唱的超級模型。
昆侖萬維董事長兼CEO方漢對此表示,“超級模型”是大模型時(shí)代發(fā)展的必然,未來,行業(yè)內(nèi)將出現(xiàn)不止一個(gè)“超級模型”,昆侖萬維也將持續(xù)朝著這一方向不斷努力,持續(xù)為用戶提供更智能、更高效、更可靠的人工智能服務(wù)。

All in AGI與AIGC
自2023年確定“All in AGI 和 AIGC”戰(zhàn)略后,在AIGC應(yīng)用領(lǐng)域,昆侖萬維已圍繞自研「天工」系列大模型,推出了一系列前沿AI產(chǎn)品:
2023年8月,昆侖萬維推出國內(nèi)第一款A(yù)I搜索產(chǎn)品天工AI搜索。
9月,昆侖萬維推出多模態(tài)大模型Skywork-MM,在多模態(tài)大語言模型測評MME中綜合得分排名第一。
10月,昆侖萬維開源百億級大語言模型天工Skywork-13B系列。
12月,昆侖萬維發(fā)布國內(nèi)領(lǐng)先的AI Agent開發(fā)平臺天工SkyAgents。
2024年2月,天工基座大模型更是迎來了推出以來的最大版本更新天工2.0,成為國內(nèi)首個(gè)搭載MoE架構(gòu)并面向全體C端用戶免費(fèi)開放的千億級參數(shù)大語言模型AI應(yīng)用。
再加上最新亮相的天工SkyMusic,基于天工系列大模型,昆侖萬維已構(gòu)建起AI大模型、AI搜索、AI音樂、AI 社交、AI動(dòng)漫、AI游戲等AI業(yè)務(wù)矩陣,是國內(nèi)模型技術(shù)與工程能力最強(qiáng)、布局最全面的人工智能企業(yè)之一。
這樣的成績單之下,此番「天工3.0」究竟會帶來怎樣的體驗(yàn),值得期待。
我們也將第一時(shí)間測評體驗(yàn),你有什么想測試的,不妨在評論區(qū)告訴我們~
— 完 —



