讓莫扎特“續(xù)寫”披頭士的音樂,OpenAI的新AI作曲能力強(qiáng)丨Demo可玩
安妮 郭一璞 假裝發(fā)自 舊金山
量子位 報(bào)道 | 公眾號 QbitAI
熱愛打游戲的OpenAI,正式涉足音樂圈了。
它們今天發(fā)布了新AI,名叫MuseNet,利用無監(jiān)督學(xué)習(xí)的方法,可以用10種不同的樂器來制作時長4分鐘的音樂。
注意,不是10種不同的樂器自顧自的演奏,而是多聲部合奏,放一起聽起來毫無違和感。
還可以駕馭各種曲風(fēng),從莫扎特、貝多芬,到爵士樂、鄉(xiāng)村音樂,還有披頭士、Lady Gaga的曲風(fēng)。
甚至,MuseNet能讓莫扎特“續(xù)寫”Lady Gaga的歌,讓肖邦“續(xù)寫”Adele的歌。
現(xiàn)在,你可以點(diǎn)開下面的音頻,聽著AI創(chuàng)作的音樂讀下去了。
有Demo,不懂音樂和代碼也能玩
在MuseNet的網(wǎng)站上,有一個Demo可以讓你親自選定音樂風(fēng)格,合成你想要的曲子。
只要做三步:
1、選擇你想聽哪位音樂家的風(fēng)格:
比如我們選莫扎特。
2、選擇開始的旋律:
這里如果選NONE(START FROM SCRATCH),AI就會看心情,隨便給你來一段莫扎特風(fēng)格的曲子;
如果選了其他幾首歌,比如Lady Gaga的Poker Face,就相當(dāng)于命題作文,用莫扎特的風(fēng)格續(xù)寫Poker Face。
3、點(diǎn)下面的→,讓它生成音樂:
這里,黑色背景上紫色橫條的圖樣是曲譜,箭頭左邊這一塊譜子是Poker Face原有開頭部分的音樂,注意沒有詞,只是前奏,大概只有一兩個小節(jié),圖上一根小橫條就是一個音符,位置高地表示它們的高低音。
點(diǎn)箭頭之后,右邊的這一長串才是AI生成的音樂。
點(diǎn)擊PLAY FROM START就可以播放了,你可以聽到平靜的前奏進(jìn)行完后,突然開始了復(fù)雜的和弦,已然從Lady Gaga的夸張曲風(fēng)平滑的跳轉(zhuǎn)到莫扎特古典優(yōu)雅的音樂風(fēng)格。
你可以點(diǎn)下面的視頻來試聽:
如果你按住曲譜拖拽,就可以看到后面因?yàn)槠聊徊粔驅(qū)挾浑[藏的部分曲譜。
甚至有時候還會發(fā)現(xiàn)其他顏色的的音符,這里是加入了另外的音色。
比如這里,原有的紫色是鋼琴的聲音,新增的橙色,是的小提琴的聲音。
一共生成了4個版本的曲子,可以點(diǎn)曲譜下面Completion 1 of 4左側(cè)的左右箭頭來切換。
然鵝,其實(shí)這里的曲子是OpenAI提前寫好的,是打好的小抄。
如果你想要聽現(xiàn)場freestyle,點(diǎn)曲譜上方的SHOW ADVANCED SETTINGS,有更多的音樂風(fēng)格和開頭音樂可以選擇,還能設(shè)定一種或者幾種樂器的音色,選定TOKENS來生成不同長度的音樂,就可以聽AI現(xiàn)場發(fā)揮的版本了。
可以試試讓披頭士樂隊(duì)“續(xù)寫”《哈利波特》的BGM然后用鋼琴彈出來,或者用貝多芬的風(fēng)格續(xù)寫Let It Go然后用吉他演奏。
當(dāng)然,這個Demo還不太完美,比如你選擇鋼琴、吉他還是鼓的音色,生成的曲子聽起來音色都差不多,OpenAI說這版Demo會存活到5月12號,后面會有一個迭代的版本。
逆天模型GPT-2
創(chuàng)作型選手MuseNet背后是一套強(qiáng)大的支持技術(shù),與GTP-2通用無監(jiān)督學(xué)習(xí)技術(shù)相同。
幾個月前,GTP-2生成的假新聞和編造的故事甚至以假亂真,還能完成閱讀理解、常識推理、文字預(yù)測、文章總結(jié)等多種任務(wù)。
作為一個沒有經(jīng)過任何領(lǐng)域數(shù)據(jù)專門訓(xùn)練的模型,它的表現(xiàn)比那些專為特定領(lǐng)域打造的模型還要好,一經(jīng)問世就獲得了Hinton等大牛的強(qiáng)推和關(guān)注。
△?GPT-2在不同語言建模任務(wù)上的測試結(jié)果
簡單來說,GPT-2就是基于Transformer架構(gòu)的大規(guī)模模型。
GPT-2是GPT算法“進(jìn)化版”,比GPT參數(shù)擴(kuò)大10倍,達(dá)到了15億個,數(shù)據(jù)量擴(kuò)大10倍,使用了包含800萬個網(wǎng)頁的數(shù)據(jù)集,共有40GB。
這個龐大的算法使用語言建模作為訓(xùn)練信號,以無監(jiān)督的方式在大型數(shù)據(jù)集上訓(xùn)練一個Transformer,然后在更小的監(jiān)督數(shù)據(jù)集上微調(diào)這個模型,以幫助它解決特定任務(wù)。
上圖左部分,是研究中使用的Transformer架構(gòu)以及訓(xùn)練目標(biāo)。右邊部分,是針對特定任務(wù)進(jìn)行微調(diào)。
將所有結(jié)構(gòu)化輸入轉(zhuǎn)換為token序列,由預(yù)訓(xùn)練模型處理,然后經(jīng)過線性+softmax層處理。
就GPT-2而言,它的訓(xùn)練目標(biāo)很簡單:根據(jù)所有給定文本中前面的單詞或音符,預(yù)測下一個單詞。現(xiàn)在,MuseNet在此基礎(chǔ)上進(jìn)行改進(jìn),也能預(yù)測音符了。
72層網(wǎng)絡(luò)
了解了MuseNet的底層架構(gòu),現(xiàn)在來看它的整套音樂加工流水線。
首先,研究人員為音樂家和樂器分別創(chuàng)建了token,模型用這些token進(jìn)行訓(xùn)練預(yù)測下一個音符是什么,更好地控制MuseNet生成的示例的種類。
隨后,研究人員為MuseNet中嵌入了可視化信息,讓模型理解所學(xué)習(xí)到音樂家與樂器的風(fēng)格間互相的關(guān)聯(lián)性。
看似氣質(zhì)毫不相同的音樂,其實(shí)也有相似的元素在里面。研究人員用t-SNE創(chuàng)建了2D風(fēng)格信息圖中,更形象地說明了這一點(diǎn):
以貝多芬的風(fēng)格為例,它的樂曲中包含了部分莫扎特元素、海頓元素、柴可夫斯基元素和門德爾松元素。
而莫扎特則多了克萊門蒂元素:
這樣一張關(guān)系圖中,AI摸清了每個音樂家風(fēng)格的門道。
最后,該神經(jīng)網(wǎng)絡(luò)出馬了。MuseNet計(jì)算和優(yōu)化了稀疏Transformer,訓(xùn)練了72層的多頭(核心數(shù)=24)注意神經(jīng)網(wǎng)絡(luò),內(nèi)含共有4096個token,讓生成音樂的時長可達(dá)到4分鐘。
就這樣,一只MuseNet,就能同時駕馭多位音樂大家的風(fēng)格,Lady Gaga和莫扎特的“混搭風(fēng)”,來了解一下?
傳送門
研究人員表示,到五月中旬,代碼和預(yù)訓(xùn)練模型也將放出。
OpenAI博客地址(內(nèi)附Demo):
https://openai.com/blog/musenet/
GPT-2官方介紹:
https://openai.com/blog/better-language-models/



