首次發(fā)現(xiàn)!AI腦回路演化向人類更進(jìn)一步,OpenAI最新研究引熱議,有學(xué)者評價(jià):太嚇人了
AI思維方式第一次與人類如此同步
浩楠 曉查 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號 QbitAI
兩個(gè)月前轟動網(wǎng)絡(luò)的AI設(shè)計(jì)大師CLIP,剛剛被OpenAI“扒開”了腦子。
沒想到,這個(gè)性能強(qiáng)大的AI竟和人類思維方式如此相像。
打個(gè)比方,無論你聽到“炸雞”二個(gè)字,還是看到炸雞實(shí)物,都可能流口水。因?yàn)槟愕拇竽X里有一組“炸雞神經(jīng)元”,專門負(fù)責(zé)對炸雞起反應(yīng)。
這個(gè)CLIP也差不多。
無論聽到“蜘蛛俠”三個(gè)字,還是看到蜘蛛俠的照片,CLIP的某個(gè)特殊區(qū)域就開始響應(yīng),甚至原本用來響應(yīng)紅色和藍(lán)色的區(qū)域也會“躁動”。
OpenAI發(fā)現(xiàn),原來CLIP有一個(gè)“蜘蛛俠神經(jīng)元”。
在腦科學(xué)中,這并不是啥新鮮事。因?yàn)樵缭?5年前,研究人腦的科學(xué)家就發(fā)現(xiàn)了,一張臉對應(yīng)一組神經(jīng)元。
但是對AI來說卻是一個(gè)巨大的進(jìn)步。過去,從文字到圖像,和從圖像到文字,用的是兩套系統(tǒng),工作方式都不一樣。
而CLIP卻有著和人腦極為相似的工作方式,CV和NLP不僅技術(shù)上打通,連腦子里想的都一樣,還有專門的處理區(qū)域。
看到二者如此相像,有網(wǎng)友表示:
太可怕了,這說明通用人工智能(AGI)到來,比所有人想象的都快。
而且,OpenAI還驚訝地發(fā)現(xiàn),CLIP對圖片的響應(yīng)似乎類似與癲癇患者顱內(nèi)神經(jīng)元,其中包括對情緒做出反應(yīng)的神經(jīng)元。說不定AI今后還能幫助治療神經(jīng)類疾病。
AI的“腦子”,其實(shí)和人類一樣
先前情回顧一下,CLIP到底是神馬。
不久前,OpenAI發(fā)布了脫胎于GPT-3的DALL·E,能按照文字描述準(zhǔn)確生成圖片。
DALL·E對自然語言和圖像的理解和融匯貫通,做到了前無古人的水準(zhǔn)。一經(jīng)問世,立刻引來吳恩達(dá)、Keras之父等大佬點(diǎn)贊。
而DALL·E的核心部分,就是CLIP。
簡單的說,CLIP是一個(gè)重新排序模型,檢查DALL·E所有生成結(jié)果,挑出好的展現(xiàn)出來。
CLIP能做“裁判”,離不開將文字和圖片意義“融合”理解的能力,但這樣的能力從哪來,之前人們根本不清楚。
OpenAI緊接著深挖CLIP神經(jīng)網(wǎng)絡(luò)的原理結(jié)構(gòu),發(fā)現(xiàn)了它的多模態(tài)神經(jīng)元,具有跟人類大腦類似的工作機(jī)制:能夠?qū)ξ淖趾蛨D像中的相同意義同時(shí)做出響應(yīng)。
而所謂模態(tài),是指某個(gè)過程或某件事,包含多個(gè)不同的特征,圖像通常與標(biāo)簽和文本解釋相關(guān)聯(lián),是完整理解一個(gè)事物的要素。
比如,你看到蜘蛛俠三個(gè)字,或者是Spiderman,都能聯(lián)想起穿著紅藍(lán)緊身衣的超級英雄。
熟悉這個(gè)概念以后,看到這樣一幅黑白手繪,你也能馬上明白這是“蜘蛛俠”:
CLIP中的多模態(tài)神經(jīng)元,能力與人類沒有任何區(qū)別。
這樣專門負(fù)責(zé)某個(gè)事物的神經(jīng)元,OpenAI發(fā)現(xiàn)了好幾個(gè),其中有18個(gè)是動物神經(jīng)元,19個(gè)是名人神經(jīng)元。
甚至還有專門理解情緒的神經(jīng)元:
其實(shí),人本身就是一個(gè)多模態(tài)學(xué)習(xí)的總和,我們能看到物體,聽到聲音,感覺到質(zhì)地,聞到氣味,嘗到味道。
為了讓AI擺脫以往“人工智障”式的機(jī)械工作方式,一條路徑就是讓它向人一樣能夠同時(shí)理解多模態(tài)信號。
所以也有研究者認(rèn)為認(rèn)為,多模態(tài)學(xué)習(xí)是真正的人工智能發(fā)展方向。
在實(shí)現(xiàn)過程中,通常是將識別不同要素子網(wǎng)絡(luò)的輸出加權(quán)組合,以便每個(gè)輸入模態(tài)可以對輸出預(yù)測有一個(gè)學(xué)習(xí)貢獻(xiàn)。
根據(jù)任務(wù)不同,將不同的權(quán)值附加到子網(wǎng)后預(yù)測輸出,就能讓神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)不同的性能。
而具體到CLIP上,可以從研究人員的測試結(jié)果中清楚的看到,從語言模型中誕生的它,對于文字,比對圖像更加敏感。
攻擊AI也更容易了
但是,文字和圖像在AI“腦?!敝械穆?lián)動是一把雙刃劍。
如果我們在貴賓犬的身上加上幾串美元符號,那么CLIP就會把它識別為存錢罐。
OpenAI把這種攻擊方式叫做“印字攻擊”(typographic attacks)。
這意味著,我們可以在圖片中插入文字實(shí)現(xiàn)對AI的攻擊,甚至不需要復(fù)雜的技術(shù)。
只需一張紙、一支筆,攻破AI從未如此容易。
蘋果就這樣被改裝成了“蘋果”iPod。
甚至還有網(wǎng)友把蘋果改裝成了圖書館。
中國網(wǎng)友應(yīng)該更加熟悉,看來我們可以像用符咒封住僵尸一樣封住AI。
在防止對抗攻擊這件事上,CLIP還有很多工作要做。
AI黑匣子沒那么黑
即便如此,“多模態(tài)神經(jīng)元”依然是在AI可解釋性上的重要進(jìn)展。
可用性和可解釋性就像魚和熊掌。
我們現(xiàn)在用的正確率最高的圖像識別模型,其可解釋性很差。而可解釋AI做出的模型,很難應(yīng)用在實(shí)際中。
AI并不能滿足于實(shí)用。AI醫(yī)療、無人駕駛,如果不能知其所以然,倫理道德就會受到質(zhì)疑。
OpenAI表示,大腦和CLIP這樣的合成視覺系統(tǒng),似乎都有一種非常相似的信息組織方式。CLIP用事實(shí)證明,AI系統(tǒng)并沒有我們想象的那么黑。
CLIP不僅是個(gè)設(shè)計(jì)大師,它還是一個(gè)開放大腦的AI,未來也許減少人工智能錯(cuò)誤與偏見。
參考鏈接:
[1] https://openai.com/blog/multimodal-neurons/
[2] https://www.axios.com/openai-vision-recognition-system-bias-fadb191c-de0f-46c5-a5a8-ef5ae7421c9e.html




