眼見為實(shí)?其實(shí)是“腦補(bǔ)”!華人數(shù)學(xué)家解開視覺奧秘:一切都是大腦假裝讓人看見
邊策 魚羊 發(fā)自 凹非寺
量子位 報道 | 公眾號 QbitAI
眼見為實(shí)?不不,你以為你“看見”的世界,其實(shí)是大腦創(chuàng)造的。
這就是數(shù)學(xué)家?guī)淼淖钚卵芯拷Y(jié)論。
在我們錯誤的認(rèn)知中,人的眼睛就像一臺相機(jī),可以直接拍下這個美麗的世界。
但事實(shí)并非如此,眼睛和大腦之間相連的神經(jīng)元數(shù)量太少,對于傳輸圖像來說是遠(yuǎn)遠(yuǎn)不夠的。
來自紐約大學(xué)的華人女?dāng)?shù)學(xué)家楊麗笙,與神經(jīng)科學(xué)家Robert Shapley認(rèn)為,數(shù)學(xué)才是破譯人類視覺秘密的關(guān)鍵。
他們提出了一種單一的數(shù)學(xué)模型,解釋了大腦如何根據(jù)少量神經(jīng)元的數(shù)據(jù)生成絢爛多彩的圖像。
這個模型,解釋了視覺皮層中的神經(jīng)元如何檢測物體邊緣和對比度的變化。現(xiàn)在,他們正在研究如何解釋大腦如何感知物體移動的方向。
而且, 這一研究帶來的影響,并不僅僅限于理解視覺, 對于研究神經(jīng)網(wǎng)絡(luò),也多有裨益。
要理解他們的研究成果,首先要從人類的視覺神經(jīng)構(gòu)造說起。
眼睛如何看見世界
從構(gòu)造上來看,人眼是一臺照相機(jī),但晶狀體是鏡頭,視網(wǎng)膜是CMOS感光元件,而大腦是相機(jī)的圖像處理器。
物體發(fā)出的光線經(jīng)過晶狀體的聚焦后,在視網(wǎng)膜上形成了一個倒立且縮小的圖像。
在通常的認(rèn)知中,人們一直認(rèn)為,視網(wǎng)膜與大腦的連接就像就像CMOS與圖像處理器的連接一樣,視網(wǎng)膜將逐點(diǎn)掃描后的完整數(shù)據(jù)傳輸給大腦。
然而事實(shí)并非如此。解剖學(xué)的結(jié)果告訴我們,視網(wǎng)膜連接到大腦的視覺皮層的神經(jīng)元數(shù)量相對而言并不多,從視網(wǎng)膜傳遞到視覺皮層的信息其實(shí)非常少。
這些神經(jīng)細(xì)胞構(gòu)成外側(cè)膝狀體(LGN),是視覺信息從外界傳播到大腦的唯一途徑。LGN不僅數(shù)量稀少,而且功能有限,它只能在檢測到明暗的變化,然后將脈沖信號發(fā)送給視覺皮層。
大腦必須要做的是處理由LGN細(xì)胞傳來的微弱信號。用如此少的信息來看清世界,就像是用餐巾紙上的簡短筆記寫出一部長篇小說。
“你可能會認(rèn)為大腦正在拍攝你在視野中看到的東西,”楊麗笙說,“但大腦沒有拍照,視網(wǎng)膜確實(shí)如此,從視網(wǎng)膜傳遞到視覺皮層的信息很少。”
雖然視覺皮層和視網(wǎng)膜由相對較少的神經(jīng)元連接,但視網(wǎng)膜蜿蜒過來每10個LGN神經(jīng)元,對接著初始“輸入層”中4000個神經(jīng)元,其他部分則更多。視覺皮層本身的神經(jīng)細(xì)胞密度很大。
巨大的差異表明大腦會深度處理它收到的數(shù)量極少的視覺數(shù)據(jù)。
揭秘真相的數(shù)學(xué)模型
楊麗笙和Robert Shapley試圖在大腦解剖學(xué)的基礎(chǔ)之上,創(chuàng)建一個數(shù)學(xué)模型,解密大腦是如何根據(jù)有限的視覺信息生成人們所看到的美好世界的。
早期的視覺皮層模型認(rèn)為信息僅以一種方式傳遞:從眼睛的前部到視網(wǎng)膜,再到皮層,最后形成視覺。這樣的“前饋”模型易于構(gòu)建,但忽略了皮質(zhì)解剖學(xué)揭示的重要一點(diǎn)——視覺皮層中反饋回路扮演著重要的角色。
楊麗笙指出:
反饋回路很難處理,因?yàn)樾畔粩嗷貧w并導(dǎo)致改變。
而它在大腦中又是無處不在的。
楊麗笙和合作者Robert Shapley,Logan Chariker從一開始就非常重視反饋回路。2016年他們合作發(fā)表的第一篇論文,他們在模型中引入了一個類似蝴蝶效應(yīng)的反饋回路:
來自LGN(外側(cè)膝狀體核)的信號的微小變化在經(jīng)過一個又一個反饋回路時被放大,這會最終導(dǎo)致模型產(chǎn)生的視覺表示發(fā)生比較大的變化。
模型的主要組成部分是位于約5°偏心率的獼猴初級視皮層(V1)的一小塊4Cα層。研究人員們將兩片投射到4Cα區(qū)域的LGN細(xì)胞,以及第6層輸出和4Cα的反饋層都進(jìn)行了建模。
靈長類動物的LGN有六層,其中第1、4、6層接收一只眼的信息,第2、3、5層接收另一只眼的信息。
早前的研究表明,V1層的4Cα皮質(zhì)輸入層中可以觀察到方向選擇性和空間頻率(SF)選擇性。4Cα層接收來自大細(xì)胞LGN層的輸入。
輸入V1層的大細(xì)胞LGN非常稀疏,每個V1皮層柱中的4Cα層僅直接接收10個左右的大細(xì)胞輸入。
各個LGN細(xì)胞的動態(tài)可以用一個integrate-and-fire方程表示:
V表示膜電位,c=100,I+和I–?分別代表ON狀態(tài)和OFF狀態(tài)的LGN細(xì)胞,Snoise是泊松噪聲項的耦合系數(shù),ti是泊松噪聲輸入的達(dá)到時。
當(dāng)V達(dá)到1左右,電位重置為0,并且尖峰被發(fā)送到4Cα層中的所有突觸后細(xì)胞。
進(jìn)入LGN細(xì)胞的電流I(t, x)則可以表示為:
LGN細(xì)胞的背景激發(fā)速率約20 spikes/s,被驅(qū)動時,峰值激發(fā)速率約100 spikes/s。被驅(qū)動時的LGN模型產(chǎn)生的激發(fā)模式更接近真實(shí)的LGN細(xì)胞,也就能更有效地激發(fā)V1細(xì)胞。
為了模擬神經(jīng)元膜電位的時間演變規(guī)律,這里采用了歸一化電壓單位,其中靜息電位Vrest=0,尖峰閾值Vth=1。
而通過下面這個LIF(leaky integrate-and-fire)方程,第n個神經(jīng)元vn的膜電位會趨向標(biāo)準(zhǔn)化尖峰閾值Vth:
當(dāng)vn達(dá)到Vth時,峰值被激發(fā),并且vn被重置為0,這個過程中會有一段2ms的不應(yīng)期。
神經(jīng)元n的I電導(dǎo)率gI^n(t)隨時間變化如下:
而E電導(dǎo)率gE^n(t)是四個突觸傳導(dǎo)的總和,分別來自LGN,4Cα層,第6層和大腦或身體其他部位的神經(jīng)調(diào)節(jié)的影響。
這個模型重要的新特性在于,它考慮了對V1層稀疏的LGN輸入,這跟解剖學(xué)的結(jié)論是相匹配的。
結(jié)果表明,他們這一反饋豐富的模型能夠重現(xiàn)物體邊緣的方向,無論是垂直,水平還是介于兩者之間,而這些,都僅基于進(jìn)入模型的少數(shù)LGN輸入的微小變化。
這也就意味著,人們可以使用連接到其他神經(jīng)元的少數(shù)神經(jīng)元在視覺世界中生成所有的方向。
但視覺并不僅僅是邊緣檢測。
2018年,三位科學(xué)家發(fā)表了第二篇論文,他們用進(jìn)行邊緣檢測的視覺模型再現(xiàn)了大腦皮質(zhì)中伽馬神經(jīng)振蕩的整體模式,從而證明了這一數(shù)學(xué)模型的合理性。
而在尚未發(fā)表的第三篇論文當(dāng)中,科學(xué)家們還將解釋視覺皮層是如何感知對比度變化的。這涉及興奮神經(jīng)元加強(qiáng)彼此活動的機(jī)制。
CNN
如果你覺得神經(jīng)科學(xué)的理論太難理解,不妨看一下CNN的工作原理。CNN和人眼處理圖像數(shù)據(jù)有很多相似之處,二者同樣簡化了圖像與處理過程之間的連接。
對人工神經(jīng)網(wǎng)絡(luò)而言,如果對圖像逐點(diǎn)處理,數(shù)據(jù)量將是巨大的。即使是最簡單的MNIST數(shù)據(jù)集為例,圖像分辨率只有28×28,直接用神經(jīng)網(wǎng)絡(luò)來處理,也有784個權(quán)重之多。
為此,CNN會先對圖像做卷積處理,用卷積核找到圖像的邊緣,這部分才是處理MNIST所關(guān)心的信息。
在圖像處理中有一個著名的“索伯濾波器”,可以分別檢測到物體垂直和水平的邊緣,與視覺神經(jīng)何其相似。
經(jīng)過卷積運(yùn)算后,我們會發(fā)現(xiàn)圖像中的相鄰像素一般又具有相似的值,卷積層的輸出也會產(chǎn)生相似的值,輸出中包含的大部分信息都是冗余的。
引入池化層可以解決這個問題。所謂池化就是將卷積層輸出的結(jié)果進(jìn)一步壓縮,取近鄰之間的平均值或者最大值,減少輸出數(shù)據(jù)的數(shù)量。
作者簡介
楊麗笙(Lai-Sang Young)1952年出生于香港,現(xiàn)在是美國紐約大學(xué)科朗數(shù)學(xué)研究所的教授。她的研究方向包括動力系統(tǒng)、遍歷理論、混沌理論、概率論、統(tǒng)計力學(xué)和神經(jīng)科學(xué)。
雖然楊麗笙在香港出生和長大,但她接受的高等教育都是在美國:1973年獲得威斯康星大學(xué)麥迪遜分校的學(xué)士學(xué)位,1976年和1978年分別獲得了加州大學(xué)伯克利分校的數(shù)學(xué)碩士和博士學(xué)位。
1985年獲得斯隆獎,1997年獲得古根海姆獎,1993年獲得美國數(shù)學(xué)學(xué)會頒發(fā)的Ruth Lyttle Satter獎,2004年當(dāng)選為美國文理科學(xué)院院士。
她在1998年在Annals of Mathematics(注:數(shù)學(xué)類期刊影響因子排名前三)上發(fā)表的論文已經(jīng)被引用718次。
Robert Shapley是紐約大學(xué)神經(jīng)科學(xué)中心教授,本科畢業(yè)于哈佛大學(xué),之后再洛克菲勒大學(xué)獲得了神經(jīng)生理學(xué)和生物物理學(xué)博士學(xué)位。
他的主要研究方向就是動物的視覺神經(jīng),在獲得博士學(xué)位后,Shapley赴西北大學(xué)研究貓視網(wǎng)膜神經(jīng)節(jié)細(xì)胞,之后又去劍橋大學(xué)研究人類視覺如何探測邊緣。目前Shapley還在研究關(guān)于人類視覺皮層中的色彩感知和顏色表示。
論文傳送門:
https://www.jneurosci.org/content/36/49/12368#F4
https://www.jneurosci.org/content/38/40/8621
參考鏈接:
https://www.quantamagazine.org/a-mathematical-model-unlocks-the-secrets-of-vision-20190821/




