讓莫扎特“續(xù)寫”披頭士的音樂,OpenAI的新AI作曲能力強丨Demo可玩
安妮 郭一璞 假裝發(fā)自 舊金山
量子位 報道 | 公眾號 QbitAI
熱愛打游戲的OpenAI,正式涉足音樂圈了。
它們今天發(fā)布了新AI,名叫MuseNet,利用無監(jiān)督學習的方法,可以用10種不同的樂器來制作時長4分鐘的音樂。
注意,不是10種不同的樂器自顧自的演奏,而是多聲部合奏,放一起聽起來毫無違和感。
還可以駕馭各種曲風,從莫扎特、貝多芬,到爵士樂、鄉(xiāng)村音樂,還有披頭士、Lady Gaga的曲風。
甚至,MuseNet能讓莫扎特“續(xù)寫”Lady Gaga的歌,讓肖邦“續(xù)寫”Adele的歌。
現(xiàn)在,你可以點開下面的音頻,聽著AI創(chuàng)作的音樂讀下去了。
有Demo,不懂音樂和代碼也能玩
在MuseNet的網站上,有一個Demo可以讓你親自選定音樂風格,合成你想要的曲子。
只要做三步:
1、選擇你想聽哪位音樂家的風格:
比如我們選莫扎特。
2、選擇開始的旋律:
這里如果選NONE(START FROM SCRATCH),AI就會看心情,隨便給你來一段莫扎特風格的曲子;
如果選了其他幾首歌,比如Lady Gaga的Poker Face,就相當于命題作文,用莫扎特的風格續(xù)寫Poker Face。
3、點下面的→,讓它生成音樂:
這里,黑色背景上紫色橫條的圖樣是曲譜,箭頭左邊這一塊譜子是Poker Face原有開頭部分的音樂,注意沒有詞,只是前奏,大概只有一兩個小節(jié),圖上一根小橫條就是一個音符,位置高地表示它們的高低音。
點箭頭之后,右邊的這一長串才是AI生成的音樂。
點擊PLAY FROM START就可以播放了,你可以聽到平靜的前奏進行完后,突然開始了復雜的和弦,已然從Lady Gaga的夸張曲風平滑的跳轉到莫扎特古典優(yōu)雅的音樂風格。
你可以點下面的視頻來試聽:
如果你按住曲譜拖拽,就可以看到后面因為屏幕不夠寬而被隱藏的部分曲譜。
甚至有時候還會發(fā)現(xiàn)其他顏色的的音符,這里是加入了另外的音色。
比如這里,原有的紫色是鋼琴的聲音,新增的橙色,是的小提琴的聲音。
一共生成了4個版本的曲子,可以點曲譜下面Completion 1 of 4左側的左右箭頭來切換。
然鵝,其實這里的曲子是OpenAI提前寫好的,是打好的小抄。
如果你想要聽現(xiàn)場freestyle,點曲譜上方的SHOW ADVANCED SETTINGS,有更多的音樂風格和開頭音樂可以選擇,還能設定一種或者幾種樂器的音色,選定TOKENS來生成不同長度的音樂,就可以聽AI現(xiàn)場發(fā)揮的版本了。
可以試試讓披頭士樂隊“續(xù)寫”《哈利波特》的BGM然后用鋼琴彈出來,或者用貝多芬的風格續(xù)寫Let It Go然后用吉他演奏。
當然,這個Demo還不太完美,比如你選擇鋼琴、吉他還是鼓的音色,生成的曲子聽起來音色都差不多,OpenAI說這版Demo會存活到5月12號,后面會有一個迭代的版本。
逆天模型GPT-2
創(chuàng)作型選手MuseNet背后是一套強大的支持技術,與GTP-2通用無監(jiān)督學習技術相同。
幾個月前,GTP-2生成的假新聞和編造的故事甚至以假亂真,還能完成閱讀理解、常識推理、文字預測、文章總結等多種任務。
作為一個沒有經過任何領域數據專門訓練的模型,它的表現(xiàn)比那些專為特定領域打造的模型還要好,一經問世就獲得了Hinton等大牛的強推和關注。
△?GPT-2在不同語言建模任務上的測試結果
簡單來說,GPT-2就是基于Transformer架構的大規(guī)模模型。
GPT-2是GPT算法“進化版”,比GPT參數擴大10倍,達到了15億個,數據量擴大10倍,使用了包含800萬個網頁的數據集,共有40GB。
這個龐大的算法使用語言建模作為訓練信號,以無監(jiān)督的方式在大型數據集上訓練一個Transformer,然后在更小的監(jiān)督數據集上微調這個模型,以幫助它解決特定任務。
上圖左部分,是研究中使用的Transformer架構以及訓練目標。右邊部分,是針對特定任務進行微調。
將所有結構化輸入轉換為token序列,由預訓練模型處理,然后經過線性+softmax層處理。
就GPT-2而言,它的訓練目標很簡單:根據所有給定文本中前面的單詞或音符,預測下一個單詞。現(xiàn)在,MuseNet在此基礎上進行改進,也能預測音符了。
72層網絡
了解了MuseNet的底層架構,現(xiàn)在來看它的整套音樂加工流水線。
首先,研究人員為音樂家和樂器分別創(chuàng)建了token,模型用這些token進行訓練預測下一個音符是什么,更好地控制MuseNet生成的示例的種類。
隨后,研究人員為MuseNet中嵌入了可視化信息,讓模型理解所學習到音樂家與樂器的風格間互相的關聯(lián)性。
看似氣質毫不相同的音樂,其實也有相似的元素在里面。研究人員用t-SNE創(chuàng)建了2D風格信息圖中,更形象地說明了這一點:
以貝多芬的風格為例,它的樂曲中包含了部分莫扎特元素、海頓元素、柴可夫斯基元素和門德爾松元素。
而莫扎特則多了克萊門蒂元素:
這樣一張關系圖中,AI摸清了每個音樂家風格的門道。
最后,該神經網絡出馬了。MuseNet計算和優(yōu)化了稀疏Transformer,訓練了72層的多頭(核心數=24)注意神經網絡,內含共有4096個token,讓生成音樂的時長可達到4分鐘。
就這樣,一只MuseNet,就能同時駕馭多位音樂大家的風格,Lady Gaga和莫扎特的“混搭風”,來了解一下?
傳送門
研究人員表示,到五月中旬,代碼和預訓練模型也將放出。
OpenAI博客地址(內附Demo):
https://openai.com/blog/musenet/
GPT-2官方介紹:
https://openai.com/blog/better-language-models/
- 微軟公布19財年財報:凈利潤增長22%,云計算首超個人計算業(yè)務2019-07-19
- 騰訊云推出物聯(lián)網邊緣計算平臺,具備五大特點,想攻克物聯(lián)網落地難題2019-08-28
- DeepMind醫(yī)療業(yè)務幾經動蕩,現(xiàn)在團隊并入Google2019-09-20
- 首例基因編輯干細胞治療艾滋病:北大鄧宏魁參與,達最佳治療效果2019-09-14



