國內(nèi)首個(gè)音樂版「ChatGPT」來了！Sora同款架構(gòu)，唱作技巧全面發(fā)展，還劇透了全新MoE大模型

魚羊 2024-04-03 13:34:16 來源：量子位

已面向社會開啟免費(fèi)邀測

允中發(fā)自凹非寺

量子位 | 公眾號 QbitAI

AI音樂大模型最近有多火，不用多介紹了吧？（doge）

不過，海外版應(yīng)用別的先不說，奇奇怪怪的中文AI發(fā)音就能把人難受死……

好在卷應(yīng)用嘛，國產(chǎn)大模型廠商沒在怕的，這不，國產(chǎn)版音樂“ChatGPT”這就來了~

話不多說，先聽效果：

這情感表現(xiàn)力，是有那么點(diǎn)競爭短視頻神曲的潛質(zhì)了。

國內(nèi)首個(gè)音樂版「ChatGPT」來了！Sora同款架構(gòu)，唱作技巧全面發(fā)展，還劇透了全新MoE大模型

如此作品，背后作者正是剛剛開放邀測的國產(chǎn)AI音樂生成大模型「天工SkyMusic」。

4月2日，昆侖萬維官宣，「天工SkyMusic」基于昆侖萬維「天工3.0」超級大模型打造，即日起面向社會開啟免費(fèi)邀測。

本輪測試已開放1000個(gè)免費(fèi)名額，面向行業(yè)媒體、專家，以及感興趣的音樂從業(yè)者開放。

據(jù)官方消息稱，昆侖萬維「天工SkyMusic」首日預(yù)約申請已有幾十萬。

「天工SkyMusic」也是目前國內(nèi)唯一公開可用的AI音樂生成大模型。

昆侖萬維工程師透露，「天工SkyMusic」是昆侖萬維情感AGI研究方向上的重要成果：

智力固然重要，但情感是我們能夠被稱之為人的關(guān)鍵。

我們發(fā)現(xiàn)相比文本和圖片，音頻內(nèi)容是理解人類情感最好的方式，而音樂又是人類情感表達(dá)最充沛、最不受地域和文化限制的內(nèi)容載體。

采用自研類Sora模型架構(gòu)

來看具體技術(shù)細(xì)節(jié)。

「天工SkyMusic」采用音樂音頻領(lǐng)域類Sora模型架構(gòu)：

Large-scale Transformer 負(fù)責(zé)譜曲，來學(xué)習(xí) Music Patches 的上下文依賴關(guān)系，同時(shí)完成音樂可控性；

Diffusion Transformer 負(fù)責(zé)演唱，通過LDM讓Music Patches被還原成高質(zhì)量音頻，使得「天工SkyMusic」能夠支持生成80秒44100Hz 采樣率雙聲道立體聲歌曲。

這套模型架構(gòu)在處理視頻、音頻和音樂領(lǐng)域效果極佳。昆侖萬維團(tuán)隊(duì)還計(jì)劃在后續(xù)逐步迭代和添加新的能力，讓模型具備多模態(tài)的情感理解與表達(dá)能力。

「天工SkyMusic」具有以下五大特點(diǎn)：

高質(zhì)量AI音樂

「天工SkyMusic」能夠生成80秒44100Hz采樣率雙聲道立體聲AI歌曲，并可根據(jù)用戶輸入的歌詞風(fēng)格生成對應(yīng)歌曲風(fēng)格。

人聲以假亂真

人聲合成是AI音樂生成中最重要、最能體現(xiàn)生成效果和品質(zhì)的維度。「天工SkyMusic」的AI人聲合成能夠達(dá)到業(yè)內(nèi)頂尖的SOTA水平，尤其是中文發(fā)音清晰、無異響，演唱效果顯著好于國外產(chǎn)品。

歌詞段落控制

「天工SkyMusic」能夠通過歌詞來控制歌曲，讓生成的歌曲可以明確分辨出不同歌詞段落的情緒變化，體現(xiàn)出主歌和副歌、前奏和主歌的段落差異。

多種音樂風(fēng)格

「天工SkyMusic」支持說唱、民謠、放克、古風(fēng)、電子等多種音樂風(fēng)格，用戶在創(chuàng)作音樂時(shí)，可以通過參考音頻制定想要的音樂風(fēng)格。

音樂智能表達(dá)：歌唱技巧學(xué)習(xí)

「天工SkyMusic」同時(shí)能夠?qū)W習(xí)如顫音、歌劇、吟唱、男女對唱，自動(dòng)和聲等多種歌唱技巧，讓用戶創(chuàng)作的歌曲得到更恰當(dāng)?shù)那楦斜磉_(dá)。

基于「天工3.0」大模型打造

在「天工SkyMusic」背后，有一點(diǎn)值得關(guān)注的是，昆侖萬維同時(shí)劇透了自家MoE大模型「天工3.0」的最新信息：

4月17日，「天工3.0」將正式開啟公測，并同步開源。

「天工3.0」是4000億級參數(shù)MoE混合專家模型，是全球模型參數(shù)最大、性能最強(qiáng)的MoE模型之一。

官方表示，相較于上一代「天工2.0」MoE大模型，「天工3.0」在模型語義理解、邏輯推理、以及通用性、泛化性、不確定性知識、學(xué)習(xí)能力等領(lǐng)域都擁有顯著的性能提升，其模型技術(shù)知識能力提升超過20%，數(shù)學(xué)/推理/代碼/文創(chuàng)能力提升超過30%。

同時(shí)，「天工3.0」新增了搜索增強(qiáng)、研究模式、調(diào)用代碼及繪制圖表、多次調(diào)用聯(lián)網(wǎng)搜索等能力，并針對性地訓(xùn)練了模型的Agent能力，使得「天工3.0」能夠獨(dú)立完成規(guī)劃、調(diào)用、組合外部工具及信息，以精準(zhǔn)高效地完成產(chǎn)業(yè)分析、產(chǎn)品對比等各類復(fù)雜需求。

「天工3.0」也是全球首個(gè)多模態(tài)“超級模型”（Super Model），集成了AI搜索、AI寫作、AI長文本閱讀、AI對話、AI語音合成、AI圖片生成、AI漫畫創(chuàng)作、AI圖片識別、AI音樂生成、AI代碼寫作、AI表格生成等多項(xiàng)能力，堪稱大模型時(shí)代的“超級應(yīng)用”。

更多劇透，我們分成四個(gè)方面來看：

邏輯推理能力更強(qiáng)

邏輯推理能力的提升對于大模型解決復(fù)雜問題至關(guān)重要，「天工3.0」的數(shù)學(xué)與推理能力均提升超過30%，強(qiáng)大的邏輯推理能力使其能夠在實(shí)際應(yīng)用中更加準(zhǔn)確和高效地處理信息。

例如，在「天工3.0」AI搜索的研究模式中，模型能夠圍繞用戶的某個(gè)簡單指令進(jìn)行相關(guān)問題的延伸，并實(shí)時(shí)判斷該段落信息是否需要聯(lián)網(wǎng)搜索，能夠?qū)崿F(xiàn)如對某個(gè)行業(yè)進(jìn)行細(xì)致的拆解分析，總結(jié)相關(guān)事件、拆解產(chǎn)業(yè)鏈地圖等復(fù)雜功能，并以結(jié)構(gòu)化或思維導(dǎo)圖的形式進(jìn)行最終展示，讓模型更“聰明”。

語義理解能力更強(qiáng)

「天工3.0」能夠更好地理解和處理用戶自然語言Query中的復(fù)雜語義信息，包括隱喻、多義詞等。

例如，在「天工3.0」AI搜索的增強(qiáng)搜索中，模型能夠針對用戶的復(fù)雜Query進(jìn)行拆解、細(xì)化、并進(jìn)行追問、信息理解與補(bǔ)全，使其在自然語義理解方面性能更強(qiáng)，面對不確定性知識時(shí)表現(xiàn)更好，能夠更精準(zhǔn)、高效地滿足用戶需求。

專項(xiàng)Agent訓(xùn)練，應(yīng)對復(fù)雜需求能力更強(qiáng)

大模型時(shí)代，AI Agent（智能體）已經(jīng)成為大模型技術(shù)的主流落地方向。

「天工3.0」針對模型獨(dú)立規(guī)劃、調(diào)用、組合外部工具及信息的能力進(jìn)行了專項(xiàng)訓(xùn)練，使其能夠獨(dú)立生成并調(diào)用代碼，完成包括產(chǎn)業(yè)研究、產(chǎn)品橫評、信息分析、圖片生成、圖表繪制等多種復(fù)雜用戶需求，并成為具備多個(gè)領(lǐng)域?qū)I(yè)知識和能力的全能專家，以強(qiáng)大的語義理解及邏輯推理能力對用戶需求進(jìn)行深度理解，并把任務(wù)拆解成細(xì)分環(huán)節(jié)，發(fā)到不同的最優(yōu)模型去處理，最大程度提升模型性能。

同時(shí)，針對B端用戶，「天工3.0」也在知識庫能力、任意工具調(diào)用能力、復(fù)雜角色指令追尋能力等領(lǐng)域進(jìn)行了全面升級，企業(yè)用戶可以通過上傳知識文檔構(gòu)建專屬知識庫及Agent，并實(shí)現(xiàn)自動(dòng)調(diào)用制定工具、完成復(fù)雜指令遵循Agent構(gòu)建等實(shí)用能力。

內(nèi)容創(chuàng)作能力全面升級

內(nèi)容創(chuàng)作能力一直是「天工」系列大模型的強(qiáng)項(xiàng)，在上一代「天工2.0」大模型的基礎(chǔ)上，「天工3.0」更是進(jìn)行了全面的內(nèi)容創(chuàng)作能力升級，其不僅能實(shí)現(xiàn)AI音樂生成、AI語音、AI對話、AI二次元漫畫生成等強(qiáng)大的內(nèi)容創(chuàng)作能力，更是通過專項(xiàng)Agent訓(xùn)練實(shí)現(xiàn)了在對話中結(jié)合文本需求實(shí)時(shí)生成圖片、結(jié)合文本需求實(shí)時(shí)內(nèi)容分析及圖表構(gòu)建等能力，成為真正能搜、能寫、能讀、能聊、能聽、能說、能畫、能看、能唱的超級模型。

昆侖萬維董事長兼CEO方漢對此表示，“超級模型”是大模型時(shí)代發(fā)展的必然，未來，行業(yè)內(nèi)將出現(xiàn)不止一個(gè)“超級模型”，昆侖萬維也將持續(xù)朝著這一方向不斷努力，持續(xù)為用戶提供更智能、更高效、更可靠的人工智能服務(wù)。

All in AGI與AIGC

自2023年確定“All in AGI 和 AIGC”戰(zhàn)略后，在AIGC應(yīng)用領(lǐng)域，昆侖萬維已圍繞自研「天工」系列大模型，推出了一系列前沿AI產(chǎn)品：

2023年8月，昆侖萬維推出國內(nèi)第一款A(yù)I搜索產(chǎn)品天工AI搜索。

9月，昆侖萬維推出多模態(tài)大模型Skywork-MM，在多模態(tài)大語言模型測評MME中綜合得分排名第一。

10月，昆侖萬維開源百億級大語言模型天工Skywork-13B系列。

12月，昆侖萬維發(fā)布國內(nèi)領(lǐng)先的AI Agent開發(fā)平臺天工SkyAgents。

2024年2月，天工基座大模型更是迎來了推出以來的最大版本更新天工2.0，成為國內(nèi)首個(gè)搭載MoE架構(gòu)并面向全體C端用戶免費(fèi)開放的千億級參數(shù)大語言模型AI應(yīng)用。

再加上最新亮相的天工SkyMusic，基于天工系列大模型，昆侖萬維已構(gòu)建起AI大模型、AI搜索、AI音樂、AI 社交、AI動(dòng)漫、AI游戲等AI業(yè)務(wù)矩陣，是國內(nèi)模型技術(shù)與工程能力最強(qiáng)、布局最全面的人工智能企業(yè)之一。

這樣的成績單之下，此番「天工3.0」究竟會帶來怎樣的體驗(yàn)，值得期待。

我們也將第一時(shí)間測評體驗(yàn)，你有什么想測試的，不妨在評論區(qū)告訴我們~

— 完 —

版權(quán)所有，未經(jīng)授權(quán)不得以任何形式轉(zhuǎn)載及使用，違者必究。

天工SkyMusic 昆侖萬維

魚羊

國內(nèi)首個(gè)音樂版「ChatGPT」來了！Sora同款架構(gòu)，唱作技巧全面發(fā)展，還劇透了全新MoE大模型

采用自研類Sora模型架構(gòu)

基于「天工3.0」大模型打造

邏輯推理能力更強(qiáng)

語義理解能力更強(qiáng)

專項(xiàng)Agent訓(xùn)練，應(yīng)對復(fù)雜需求能力更強(qiáng)

內(nèi)容創(chuàng)作能力全面升級

All in AGI與AIGC

相關(guān)閱讀

昆侖萬維CEO方漢：AIGC以低成本達(dá)到80分水平，腰部工作者將大概率被淘汰 | 中國AIGC產(chǎn)業(yè)峰會

直播網(wǎng)友AI寫歌征婚，實(shí)測最新登榜音樂SOTA模型：免費(fèi)無限次，一鍵生成

最強(qiáng)32B中文推理大模型易主：開源免費(fèi)商用，1/20 DeepSeek-R1參數(shù)量SOTA，權(quán)重代碼數(shù)據(jù)集全開源

昆侖萬維發(fā)布「天工SkyAgents」，零代碼打造AI智能體

昆侖萬維重磅發(fā)布AIGC全系列算法與模型領(lǐng)跑未來

「天工大模型4.0」o1版和4o版正式上線天工APP和網(wǎng)頁免費(fèi)使用

熱門文章

英偉達(dá)巧用8B模型秒掉GPT-5，開源了

“豆包手機(jī)”在二手市場價(jià)格都翻倍了……

DeepSeekV3.2技術(shù)報(bào)告還是老外看得細(xì)

谷歌新架構(gòu)突破Transformer超長上下文瓶頸！Hinton靈魂拷問：后悔Open嗎？

SpaceX估值8000億美元超OpenAI，IPO就在明年

國內(nèi)首個(gè)音樂版「ChatGPT」來了！Sora同款架構(gòu)，唱作技巧全面發(fā)展，還劇透了全新MoE大模型

采用自研類Sora模型架構(gòu)

基于「天工3.0」大模型打造

邏輯推理能力更強(qiáng)

語義理解能力更強(qiáng)

專項(xiàng)Agent訓(xùn)練，應(yīng)對復(fù)雜需求能力更強(qiáng)

內(nèi)容創(chuàng)作能力全面升級

All in AGI與AIGC

相關(guān)閱讀

昆侖萬維CEO方漢：AIGC以低成本達(dá)到80分水平，腰部工作者將大概率被淘汰 | 中國AIGC產(chǎn)業(yè)峰會

直播網(wǎng)友AI寫歌征婚，實(shí)測最新登榜音樂SOTA模型：免費(fèi)無限次，一鍵生成

最強(qiáng)32B中文推理大模型易主：開源免費(fèi)商用，1/20 DeepSeek-R1參數(shù)量SOTA，權(quán)重代碼數(shù)據(jù)集全開源

昆侖萬維發(fā)布「天工SkyAgents」，零代碼打造AI智能體

昆侖萬維重磅發(fā)布AIGC全系列算法與模型 領(lǐng)跑未來

「天工大模型4.0」o1版和4o版正式上線天工APP和網(wǎng)頁 免費(fèi)使用

熱門文章

英偉達(dá)巧用8B模型秒掉GPT-5，開源了

“豆包手機(jī)”在二手市場價(jià)格都翻倍了……

DeepSeekV3.2技術(shù)報(bào)告還是老外看得細(xì)

谷歌新架構(gòu)突破Transformer超長上下文瓶頸！Hinton靈魂拷問：后悔Open嗎？

SpaceX估值8000億美元超OpenAI，IPO就在明年

昆侖萬維重磅發(fā)布AIGC全系列算法與模型領(lǐng)跑未來

「天工大模型4.0」o1版和4o版正式上線天工APP和網(wǎng)頁免費(fèi)使用