讓莫扎特“續(xù)寫”披頭士的音樂，OpenAI的新AI作曲能力強(qiáng)丨Demo可玩

安妮

郭一璞 2019-04-26 15:42:34 來源：量子位

安妮郭一璞假裝發(fā)自舊金山

量子位報(bào)道 | 公眾號 QbitAI

熱愛打游戲的OpenAI，正式涉足音樂圈了。

它們今天發(fā)布了新AI，名叫MuseNet，利用無監(jiān)督學(xué)習(xí)的方法，可以用10種不同的樂器來制作時長4分鐘的音樂。

注意，不是10種不同的樂器自顧自的演奏，而是多聲部合奏，放一起聽起來毫無違和感。

還可以駕馭各種曲風(fēng)，從莫扎特、貝多芬，到爵士樂、鄉(xiāng)村音樂，還有披頭士、Lady Gaga的曲風(fēng)。

甚至，MuseNet能讓莫扎特“續(xù)寫”Lady Gaga的歌，讓肖邦“續(xù)寫”Adele的歌。

現(xiàn)在，你可以點(diǎn)開下面的音頻，聽著AI創(chuàng)作的音樂讀下去了。

有Demo，不懂音樂和代碼也能玩

在MuseNet的網(wǎng)站上，有一個Demo可以讓你親自選定音樂風(fēng)格，合成你想要的曲子。

只要做三步：

1、選擇你想聽哪位音樂家的風(fēng)格：

比如我們選莫扎特。

2、選擇開始的旋律：

這里如果選NONE（START FROM SCRATCH），AI就會看心情，隨便給你來一段莫扎特風(fēng)格的曲子；

如果選了其他幾首歌，比如Lady Gaga的Poker Face，就相當(dāng)于命題作文，用莫扎特的風(fēng)格續(xù)寫Poker Face。

3、點(diǎn)下面的→，讓它生成音樂：

這里，黑色背景上紫色橫條的圖樣是曲譜，箭頭左邊這一塊譜子是Poker Face原有開頭部分的音樂，注意沒有詞，只是前奏，大概只有一兩個小節(jié)，圖上一根小橫條就是一個音符，位置高地表示它們的高低音。

點(diǎn)箭頭之后，右邊的這一長串才是AI生成的音樂。

點(diǎn)擊PLAY FROM START就可以播放了，你可以聽到平靜的前奏進(jìn)行完后，突然開始了復(fù)雜的和弦，已然從Lady Gaga的夸張曲風(fēng)平滑的跳轉(zhuǎn)到莫扎特古典優(yōu)雅的音樂風(fēng)格。

你可以點(diǎn)下面的視頻來試聽：

如果你按住曲譜拖拽，就可以看到后面因?yàn)槠聊徊粔驅(qū)挾浑[藏的部分曲譜。

甚至有時候還會發(fā)現(xiàn)其他顏色的的音符，這里是加入了另外的音色。

比如這里，原有的紫色是鋼琴的聲音，新增的橙色，是的小提琴的聲音。

一共生成了4個版本的曲子，可以點(diǎn)曲譜下面Completion 1 of 4左側(cè)的左右箭頭來切換。

然鵝，其實(shí)這里的曲子是OpenAI提前寫好的，是打好的小抄。

如果你想要聽現(xiàn)場freestyle，點(diǎn)曲譜上方的SHOW ADVANCED SETTINGS，有更多的音樂風(fēng)格和開頭音樂可以選擇，還能設(shè)定一種或者幾種樂器的音色，選定TOKENS來生成不同長度的音樂，就可以聽AI現(xiàn)場發(fā)揮的版本了。

可以試試讓披頭士樂隊(duì)“續(xù)寫”《哈利波特》的BGM然后用鋼琴彈出來，或者用貝多芬的風(fēng)格續(xù)寫Let It Go然后用吉他演奏。

當(dāng)然，這個Demo還不太完美，比如你選擇鋼琴、吉他還是鼓的音色，生成的曲子聽起來音色都差不多，OpenAI說這版Demo會存活到5月12號，后面會有一個迭代的版本。

逆天模型GPT-2

創(chuàng)作型選手MuseNet背后是一套強(qiáng)大的支持技術(shù)，與GTP-2通用無監(jiān)督學(xué)習(xí)技術(shù)相同。

幾個月前，GTP-2生成的假新聞和編造的故事甚至以假亂真，還能完成閱讀理解、常識推理、文字預(yù)測、文章總結(jié)等多種任務(wù)。

作為一個沒有經(jīng)過任何領(lǐng)域數(shù)據(jù)專門訓(xùn)練的模型，它的表現(xiàn)比那些專為特定領(lǐng)域打造的模型還要好，一經(jīng)問世就獲得了Hinton等大牛的強(qiáng)推和關(guān)注。

△?GPT-2在不同語言建模任務(wù)上的測試結(jié)果

簡單來說，GPT-2就是基于Transformer架構(gòu)的大規(guī)模模型。

GPT-2是GPT算法“進(jìn)化版”，比GPT參數(shù)擴(kuò)大10倍，達(dá)到了15億個，數(shù)據(jù)量擴(kuò)大10倍，使用了包含800萬個網(wǎng)頁的數(shù)據(jù)集，共有40GB。

這個龐大的算法使用語言建模作為訓(xùn)練信號，以無監(jiān)督的方式在大型數(shù)據(jù)集上訓(xùn)練一個Transformer，然后在更小的監(jiān)督數(shù)據(jù)集上微調(diào)這個模型，以幫助它解決特定任務(wù)。

上圖左部分，是研究中使用的Transformer架構(gòu)以及訓(xùn)練目標(biāo)。右邊部分，是針對特定任務(wù)進(jìn)行微調(diào)。

將所有結(jié)構(gòu)化輸入轉(zhuǎn)換為token序列，由預(yù)訓(xùn)練模型處理，然后經(jīng)過線性+softmax層處理。

就GPT-2而言，它的訓(xùn)練目標(biāo)很簡單：根據(jù)所有給定文本中前面的單詞或音符，預(yù)測下一個單詞。現(xiàn)在，MuseNet在此基礎(chǔ)上進(jìn)行改進(jìn)，也能預(yù)測音符了。

72層網(wǎng)絡(luò)

了解了MuseNet的底層架構(gòu)，現(xiàn)在來看它的整套音樂加工流水線。

首先，研究人員為音樂家和樂器分別創(chuàng)建了token，模型用這些token進(jìn)行訓(xùn)練預(yù)測下一個音符是什么，更好地控制MuseNet生成的示例的種類。

隨后，研究人員為MuseNet中嵌入了可視化信息，讓模型理解所學(xué)習(xí)到音樂家與樂器的風(fēng)格間互相的關(guān)聯(lián)性。

看似氣質(zhì)毫不相同的音樂，其實(shí)也有相似的元素在里面。研究人員用t-SNE創(chuàng)建了2D風(fēng)格信息圖中，更形象地說明了這一點(diǎn)：

以貝多芬的風(fēng)格為例，它的樂曲中包含了部分莫扎特元素、海頓元素、柴可夫斯基元素和門德爾松元素。

而莫扎特則多了克萊門蒂元素：

這樣一張關(guān)系圖中，AI摸清了每個音樂家風(fēng)格的門道。

最后，該神經(jīng)網(wǎng)絡(luò)出馬了。MuseNet計(jì)算和優(yōu)化了稀疏Transformer，訓(xùn)練了72層的多頭（核心數(shù)=24）注意神經(jīng)網(wǎng)絡(luò)，內(nèi)含共有4096個token，讓生成音樂的時長可達(dá)到4分鐘。

就這樣，一只MuseNet，就能同時駕馭多位音樂大家的風(fēng)格，Lady Gaga和莫扎特的“混搭風(fēng)”，來了解一下？

傳送門

研究人員表示，到五月中旬，代碼和預(yù)訓(xùn)練模型也將放出。

OpenAI博客地址（內(nèi)附Demo）：

https://openai.com/blog/musenet/

GPT-2官方介紹：

https://openai.com/blog/better-language-models/

版權(quán)所有，未經(jīng)授權(quán)不得以任何形式轉(zhuǎn)載及使用，違者必究。

安妮

讓莫扎特“續(xù)寫”披頭士的音樂，OpenAI的新AI作曲能力強(qiáng)丨Demo可玩

相關(guān)閱讀

OpenAI最新大模型曝光：劍指多模態(tài)，GPT-4之后最大升級

ChatGPT學(xué)會自己提問題了，還支持多文件上傳

谷歌承認(rèn)“竊取”O(jiān)penAI模型關(guān)鍵信息：成本低至150元，調(diào)用API即可得手

奧特曼：我承認(rèn)GPT-5發(fā)布搞砸了

不到1分鐘開發(fā)一個GPT應(yīng)用！各路大神瘋狂整活，網(wǎng)友：ChatGPT就是新iPhone

OpenAI Agent來了！大小事務(wù)自動幫你搞定，帶推送提醒的那種，今日可開玩

熱門文章

英偉達(dá)巧用8B模型秒掉GPT-5，開源了

“豆包手機(jī)”在二手市場價格都翻倍了……

DeepSeekV3.2技術(shù)報(bào)告還是老外看得細(xì)

谷歌新架構(gòu)突破Transformer超長上下文瓶頸！Hinton靈魂拷問：后悔Open嗎？

SpaceX估值8000億美元超OpenAI，IPO就在明年