MIT腦洞研究!只聽(tīng)6秒語(yǔ)音,就知道你長(zhǎng)什么樣,效果好得不敢信
可怕~
邊策 問(wèn)耕 發(fā)自 凹非寺
量子位 出品 | 公眾號(hào) QbitAI
△ CSAIL所在的MIT Building 32
只聽(tīng)聲音,就能知道一個(gè)人長(zhǎng)什么樣?
是的。
大名鼎鼎的麻省理工CSAIL(人工智能實(shí)驗(yàn)室),最近就發(fā)布了這樣一個(gè)令人驚訝的研究。只需要聽(tīng)6秒的聲音片段,AI就能推斷出說(shuō)話者的容貌。
詳細(xì)解釋之前,咱們一起試試先。
聽(tīng)聽(tīng)下面這段錄音,一共有六段。你能想象出來(lái),說(shuō)話的人長(zhǎng)什么樣么?
怎么樣?你行么?
MIT研究人員,設(shè)計(jì)和訓(xùn)練的神經(jīng)網(wǎng)絡(luò)Speech2Face,就能通過(guò)短短的語(yǔ)音片段,推測(cè)出說(shuō)話者的年齡、性別、種族等等多重屬性,然后重建說(shuō)話人的面部。
下面就是AI聽(tīng)聲識(shí)臉,給出的結(jié)果:
左邊一列是真實(shí)的照片,右邊一列是神經(jīng)網(wǎng)絡(luò)根據(jù)聲音推斷出來(lái)的長(zhǎng)相。
講真,這個(gè)效果讓我們佩服。
這篇論文也入圍了今年的學(xué)術(shù)頂級(jí)會(huì)議CVPR 2019。
當(dāng)然這個(gè)研究也會(huì)引發(fā)一些隱私方面的擔(dān)憂。不過(guò)研究團(tuán)隊(duì)在論文中特別聲明,這個(gè)神經(jīng)網(wǎng)絡(luò)不追求完全精確還原單一個(gè)體的臉部圖像。
不同的語(yǔ)言也有影響。論文中舉了一個(gè)案例,同一男子分別說(shuō)中文和英文,AI卻分別還原出了不同的面孔樣貌。當(dāng)然,這也跟口音、發(fā)聲習(xí)慣等相關(guān)。
另外,研究團(tuán)隊(duì)也表示,目前這套系統(tǒng)對(duì)還原白人和東亞人的面孔效果更好。可能由于印度和黑人的數(shù)據(jù)較少,還原效果還有待進(jìn)一步提高。
原理
從聲音推斷一個(gè)人的長(zhǎng)相不是一種玄學(xué),平時(shí)我們?cè)诖螂娫挄r(shí)會(huì)根據(jù)對(duì)方的聲音腦補(bǔ)出相貌特征。
這是因?yàn)椋挲g、性別、嘴巴形狀、面部骨骼結(jié)構(gòu),所有這些都會(huì)影響人發(fā)出的聲音。此外,語(yǔ)言、口音、速度通常會(huì)體現(xiàn)出一個(gè)的民族、地域、文化特征。
AI正是根據(jù)語(yǔ)音和相貌的關(guān)聯(lián)性做出推測(cè)。
為此,研究人員提取了幾百萬(wàn)個(gè)YouTube視頻,通過(guò)訓(xùn)練,讓深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)聲音和面部的相關(guān)性,找到說(shuō)話的人一些基本特征,比如年齡、性別、種族等,并還原出相貌。
而且在這個(gè)過(guò)程中,不需要人類標(biāo)記視頻,由模型自我監(jiān)督學(xué)習(xí)。這就是文章中所說(shuō)的Speech2Face模型。
將電話另一端通過(guò)卡通人物的方式顯示在你的手機(jī)上,可能是Speech2Face未來(lái)的一種實(shí)際應(yīng)用。
模型結(jié)構(gòu)
Speech2Face模型是如何還原人臉的,請(qǐng)看下圖:
給這個(gè)網(wǎng)絡(luò)輸入一個(gè)復(fù)雜的聲譜圖,它將會(huì)輸出4096-D面部特征,然后使用預(yù)訓(xùn)練的面部解碼器將其還原成面部的標(biāo)準(zhǔn)圖像。
訓(xùn)練模塊在圖中用橙色部分標(biāo)記。在訓(xùn)練過(guò)程中,Speech2Face模型不會(huì)直接用人臉圖像與原始圖像進(jìn)行對(duì)比,而是與原始圖像的4096-D面部特征對(duì)比,省略了恢復(fù)面部圖像的步驟。
在訓(xùn)練完成后,模型在推理過(guò)程中才會(huì)使用面部解碼器恢復(fù)人臉圖像。
訓(xùn)練過(guò)程使用的是AVSpeech數(shù)據(jù)集,它包含幾百萬(wàn)個(gè)YouTube視頻,超過(guò)10萬(wàn)個(gè)人物的語(yǔ)音-面部數(shù)據(jù)。
在具體細(xì)節(jié)上,研究使用的中每個(gè)視頻片段開(kāi)頭最多6秒鐘的音頻,并從中裁剪出人臉面部趨于,調(diào)整到224×224像素。
△從原始圖像提取特征重建的人臉,以及從聲音推測(cè)的人臉
之前,也有人研究過(guò)聲音推測(cè)面部特征,但都是從人的聲音預(yù)測(cè)一些屬性,然后從數(shù)據(jù)庫(kù)中獲取最適合預(yù)測(cè)屬性的圖像,或者使用這些屬性來(lái)生成圖像。
然而,這種方法存在局限性,需要有標(biāo)簽來(lái)監(jiān)督學(xué)習(xí),系統(tǒng)的魯棒性也較差。
由于人臉圖像中面部表情、頭部姿態(tài)、遮擋和光照條件的巨大變化,想要獲得穩(wěn)定的輸出結(jié)果,Speech2Face人臉模型的設(shè)計(jì)和訓(xùn)練變得非常重要。
一般從輸入語(yǔ)音回歸到圖像的簡(jiǎn)單方法不起作用,模型必須學(xué)會(huì)剔除數(shù)據(jù)中許多不相關(guān)的變化因素,并隱含地提取人臉有意義的內(nèi)部表示。
為了解決這些困難,模型不是直接得到人臉圖像,而是回歸到人臉的低維中間表示。更具體地說(shuō),是利用人臉識(shí)別模型VGG-Face,并從倒數(shù)第二層的網(wǎng)絡(luò)提取一個(gè)4096-D面部特征。
模型的pipeline由兩個(gè)主要部分組成:
1、語(yǔ)音編碼器
語(yǔ)音編碼器模塊是一個(gè)CNN,將輸入的語(yǔ)音聲譜圖轉(zhuǎn)換成偽人臉特征,并預(yù)測(cè)面部的低維特征,隨后將其輸入人臉解碼器以重建人臉圖像。
2、面部解碼器
面部解碼器的輸入為低維面部特征,并以標(biāo)準(zhǔn)形式(正面和中性表情)產(chǎn)生面部圖像。
在訓(xùn)練過(guò)程中,人臉解碼器是固定的,只訓(xùn)練預(yù)測(cè)人臉特征的語(yǔ)音編碼器。語(yǔ)音編碼器是作者自己設(shè)計(jì)和訓(xùn)練的模型,而面部解碼器使用的是前人提出的模型。
將實(shí)驗(yàn)結(jié)果更進(jìn)一步,Speech2Face還能用于人臉檢索。把基于語(yǔ)音的人臉預(yù)測(cè)結(jié)果與數(shù)據(jù)庫(kù)中的人臉進(jìn)行比較,系統(tǒng)將給出5個(gè)最符合的人臉照片。
不足之處
若根據(jù)語(yǔ)言來(lái)預(yù)測(cè)種族,那么一個(gè)人說(shuō)不同的語(yǔ)言會(huì)導(dǎo)致不同的預(yù)測(cè)結(jié)果嗎?
研究人員讓一個(gè)亞洲男性分別說(shuō)英語(yǔ)和漢語(yǔ),結(jié)果分別得到了2張不同的面孔。
模型有時(shí)候也能正確預(yù)測(cè)結(jié)果,比如讓一個(gè)亞洲小女孩說(shuō)英文,雖然恢復(fù)出的圖像和本人有很大差距,但仍可以看出黃種人的面部特征。
研究人員表示,這個(gè)小女孩并沒(méi)有明顯的口音特征,所以他們的模型還要進(jìn)一步檢查來(lái)確定對(duì)語(yǔ)言的依賴程度。
在其他一些情況下,模型也會(huì)“翻車”。比如:變聲期之前的兒童,會(huì)導(dǎo)致模型誤判性別發(fā)生錯(cuò)誤;口音與種族特征不匹配;將老人識(shí)別為年輕人,或者是年輕人識(shí)別為老人。
作者團(tuán)隊(duì)
這個(gè)研究的作者,大部分來(lái)自MIT CSAIL。
一作Tae-Hyun Oh是在CSAIL工作的Postdoctoral Associate,這個(gè)韓國(guó)小哥博士畢業(yè)于韓國(guó)科學(xué)技術(shù)院(KAIST),本科畢業(yè)于韓國(guó)光云大學(xué)(KWU)。他還曾經(jīng)在微軟亞洲研究院實(shí)習(xí)。
二作Tali Dekel現(xiàn)在是Google的一位研究員,之前也是CSAIL實(shí)驗(yàn)室的Postdoctoral Associate。她博士畢業(yè)于以色列的特拉維夫大學(xué)。
Tali Dekel還有一篇論文,也入選了今年的CVPR 2019,而且還拿到了Oral。在那篇論文里,她也是二作的身份。這篇論文昨天我們也報(bào)道了~
今年的CVPR將于6月16日在加州長(zhǎng)灘召開(kāi)。
最后,給一下傳送門(mén)。
論文地址在此:
https://arxiv.org/pdf/1905.09773.pdf
項(xiàng)目地址在此:
https://speech2face.github.io/
- 泰合資本梅林:2021是資本市場(chǎng)結(jié)構(gòu)性轉(zhuǎn)折的一年2021-12-14
- 獨(dú)家!扒出騰訊新高管余總的真面目!2021-04-01
- 點(diǎn)云處理不得勁?球卷積了解一下2019-10-24
- Dota2冠軍OG如何被AI碾壓?OpenAI累積三年的完整論文終于放出2019-12-14




