我們和計(jì)算生物學(xué)從業(yè)者深度聊了聊|對(duì)撞派 · 圓桌實(shí)錄
量子位智庫(kù) 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
名噪一時(shí)的AlphaFold 2背后,是蓄勢(shì)待發(fā)的計(jì)算生物學(xué)。
但,計(jì)算生物學(xué)究竟是什么?目前進(jìn)展如何,又蘊(yùn)藏了怎樣的未來(lái)機(jī)遇?
AI制藥、疾病研究、AI for Science、21世紀(jì)最偉大的科學(xué)發(fā)明…
這些都不足以概括這一領(lǐng)域。
過(guò)去的兩周,量子位對(duì)撞派推出了「計(jì)算生物學(xué)」專題,先后邀請(qǐng)到了專注蛋白質(zhì)組學(xué)的西湖歐米、專注分子模擬的深勢(shì)科技,和AI領(lǐng)域的頭部研究院微軟亞洲研究院,從不同角度和我們直播探討了計(jì)算生物學(xué)。
在這一系列對(duì)談中,我們談到了計(jì)算生物學(xué)的定義、現(xiàn)狀、應(yīng)用潛力、底層含義、技術(shù)瓶頸、發(fā)展細(xì)節(jié)等等…..
這個(gè)領(lǐng)域比我們想象的更加復(fù)雜,潛力也更加可觀。
精華版文字內(nèi)容在此,快來(lái)聽聽業(yè)內(nèi)人士怎么說(shuō)~(文末還有彩蛋)
第一場(chǎng):對(duì)話西湖歐米
西湖歐米是專注于AI賦能的微觀世界數(shù)據(jù)公司。致力于以蛋白質(zhì)組大數(shù)據(jù)技術(shù)創(chuàng)新為驅(qū)動(dòng)力,聯(lián)合多模態(tài)大數(shù)據(jù),助力精準(zhǔn)醫(yī)學(xué)和藥物研發(fā)。
對(duì)談嘉賓:
郭天南(右):西湖歐米創(chuàng)始人,西湖大學(xué)生命科學(xué)院特聘研究員
陳 義(左):西湖歐米首席AI科學(xué)家,中國(guó)科學(xué)院軟件研究所博士
Q1:Alphafold的最大意義是什么?
A1:我們可以用兩條線,把世界分為四個(gè)維度——宏觀和不借助設(shè)備看不到的微觀;生命和非生命。
在Alphafold2之前, AI 實(shí)際上一直都沒有真正進(jìn)入微觀的生命的世界。而這個(gè)部分其實(shí)對(duì)我們的生命健康有重大意義,比如病毒的侵入擴(kuò)增、抗體免疫,都屬于其中的蛋白質(zhì)世界。
此外,AlphaFold2是給AI從業(yè)者打開的一個(gè)新的窗口。因?yàn)榭蒲锌梢苑譃榘l(fā)現(xiàn)問(wèn)題、定義問(wèn)題,還有探索解決方案這么多環(huán)節(jié)。AlphaFold2證明了AI 在探索解決方案的環(huán)節(jié)未來(lái)可以是人類的一個(gè)好幫手。
Q2:蛋白質(zhì)的重要性是怎樣的?基于蛋白質(zhì)的改變,有哪些領(lǐng)域和應(yīng)用會(huì)發(fā)生改變呢?
A2:根據(jù)生物學(xué)的中心法則,DNA 轉(zhuǎn)錄成 RNA ,RNA必須要翻譯成蛋白質(zhì)才會(huì)起作用。
對(duì)于蛋白質(zhì)組學(xué),一方面是疾病治療。
以電影《我不是藥神》里,在白血病細(xì)胞中靶向融合蛋白BCR-ABL,進(jìn)而控制細(xì)胞增殖的神藥為例,如果不從蛋白質(zhì)角度出發(fā),無(wú)論是問(wèn)切、血細(xì)胞計(jì)數(shù)、CT、心電圖等,這些檢測(cè)都不可能達(dá)到這樣一個(gè)效果。現(xiàn)在的很多生物制藥、靶向治療、免疫治療等等都是基于蛋白質(zhì)完成的,對(duì)于精準(zhǔn)醫(yī)療也有意義。
另外一個(gè)層面是疾病診斷。
比如甲狀腺結(jié)節(jié)到底是良性還是惡性?有一部分人是處于無(wú)法判斷結(jié)節(jié)良惡性的灰色地帶的。無(wú)論你做什么檢測(cè),CT、B超,甚至基因檢測(cè)都無(wú)法準(zhǔn)確地判斷。而通過(guò)蛋白質(zhì),加上一些 AI 的模型后,判斷能夠達(dá)到 90% 左右的準(zhǔn)確度。
現(xiàn)在幾乎所有的領(lǐng)域都會(huì)有基因測(cè)序,但一個(gè)人從出生到死亡,或是在不同的器官里,它的基因組都是差不多是一樣的,所以每個(gè)人做一次基因測(cè)序就夠了。
但是我們今天跟明天,生病后跟治療后它的蛋白質(zhì)組是不一樣的。由于時(shí)間維度和空間維度都不同,蛋白質(zhì)組能更充分地反映疾病的變化。
如果我們能夠?qū)Φ鞍踪|(zhì)在各個(gè)時(shí)間各個(gè)空間進(jìn)行消費(fèi)級(jí)的測(cè)量,擁有大量細(xì)胞水平的微觀世界的數(shù)據(jù),我們對(duì)生命的理解、對(duì)健康的管控會(huì)處于一個(gè)完全不一樣的境界。
Q3:您覺得AlphaFold2現(xiàn)在在蛋白質(zhì)的結(jié)構(gòu)和功能預(yù)測(cè)上是否已經(jīng)比較完善了?他距離蛋白質(zhì)這個(gè)領(lǐng)域中的終極真理還遙遠(yuǎn)嗎?
A3:從我的理解來(lái)看,我覺得現(xiàn)在的AlphaFold2肯定還有改進(jìn)的空間。AlphaFold2帶來(lái)的象征意義,也許比它的實(shí)際意義會(huì)更大。AI 的科學(xué)家們當(dāng)知道有這樣的數(shù)據(jù)和問(wèn)題時(shí),就會(huì)涌進(jìn)來(lái),然后快速迭代,然后不斷地發(fā)現(xiàn)新的解決方案。
現(xiàn)在蛋白質(zhì)結(jié)構(gòu)上面還有很多問(wèn)題,因?yàn)樵谡鎸?shí)的場(chǎng)景下面,蛋白質(zhì)是會(huì)在不同環(huán)境里相互作用的。我們?cè)谧鏊幬铩⒗斫馍飳W(xué)、診斷疾病的時(shí)候,肯定不能只單獨(dú)地看某一個(gè)蛋白質(zhì)內(nèi)部的解剖。我覺得我們還是要在真實(shí)場(chǎng)景中采集蛋白質(zhì),觀察它在真實(shí)的細(xì)胞里面、體液里面是一個(gè)什么樣的狀態(tài)。從而進(jìn)行結(jié)構(gòu)和功能的分析,這樣會(huì)更有價(jià)值。
Q4:對(duì)于更為動(dòng)態(tài),變化也更為豐富的這個(gè)蛋白質(zhì)組織領(lǐng)域,我們?cè)诶?AI 去對(duì)它做一些預(yù)測(cè)和分析的時(shí)候,從 AI 的角度來(lái)看,會(huì)覺得它有額外的難度嗎?會(huì)在建模上造成一些其他的困難嗎?
A4:在蛋白這種領(lǐng)域,雖然它動(dòng)態(tài),但是我覺得這不是問(wèn)題。在宏觀世界,我們產(chǎn)生的數(shù)據(jù)給我們非常大的便利,我們可以預(yù)測(cè)春運(yùn),我們可以知道新冠的流行的狀態(tài)。
相對(duì)于問(wèn)題的復(fù)雜度和對(duì)應(yīng)的算法,缺乏足夠的數(shù)據(jù)是一個(gè)更大的問(wèn)題。
雖然這十幾年來(lái)蛋白質(zhì)測(cè)量的成本一直在降低,但還是零點(diǎn)幾美金才可以測(cè)一個(gè)蛋白質(zhì),而我們有數(shù)以千計(jì)萬(wàn)計(jì)的蛋白質(zhì),還需要進(jìn)一步的改進(jìn)。這也是我們歐米在努力的,我們希望他的成本盡可能低到比基因組還要低,這樣的話我們就可以非常快地高效地產(chǎn)生足夠的數(shù)據(jù)。然后一定會(huì)有足夠好的 AI 的算法去解決這些問(wèn)題。
Q5:我們了解到蛋白質(zhì)是可以作為一種更為動(dòng)態(tài)和直接的生物標(biāo)記物的。它是怎樣如何和 AI 具體結(jié)合起來(lái),進(jìn)行疾病判斷的呢?
A5:第一個(gè)核心,整個(gè)流程的背后是蛋白質(zhì)組分析的核心技術(shù),就是怎么從少量的樣品,肉眼都看不到的組織里面提取數(shù)以千計(jì)、數(shù)以萬(wàn)計(jì)的蛋白。
然后第二個(gè)核心,就是我們?cè)趺礃咏⒁粋€(gè)與之相適應(yīng)的 AI 模型,從數(shù)千萬(wàn)的蛋白中挑出那么 10 來(lái)個(gè)左右的蛋白進(jìn)行診斷。
第三個(gè)就是產(chǎn)品化,我們?cè)趺礃幼屵@個(gè)這測(cè)量這十幾個(gè)蛋白成本盡可能的低,達(dá)到消費(fèi)級(jí)要低于每個(gè)蛋白 0.1 美金以下,希望是越低越好,這樣越低我們就可以更廣泛的使用。
Q6:對(duì)于整個(gè)計(jì)算生物學(xué)來(lái)說(shuō),這個(gè)領(lǐng)域現(xiàn)在大概發(fā)展到了什么程度?
A6:目前計(jì)算生物學(xué)實(shí)際上是高度依賴數(shù)據(jù)的,因?yàn)槲谋镜臄?shù)據(jù)多,因?yàn)閳D像的數(shù)據(jù)多,因?yàn)榛蚪M的數(shù)據(jù)多,所以大家的主要的這個(gè)關(guān)注度在這個(gè)方面。
然后現(xiàn)在我們可以非常有信心的說(shuō)這個(gè)蛋白質(zhì)組的數(shù)據(jù)會(huì)也會(huì)越來(lái)越多。AlphaFold2的出現(xiàn)就是這樣一個(gè)突破。作為最重要的一個(gè)分子,蛋白質(zhì)組會(huì)在結(jié)構(gòu)、動(dòng)態(tài)、功能、網(wǎng)絡(luò)等方面都被進(jìn)一步開發(fā)。
第二場(chǎng):對(duì)談深勢(shì)科技
深勢(shì)科技致力于以新一代分子模擬技術(shù)解決微尺度工業(yè)設(shè)計(jì)難題。以打造切實(shí)服務(wù)于藥企、材料商和科研機(jī)構(gòu)的模擬研發(fā)平臺(tái)為主要業(yè)務(wù)方向,以解放研發(fā)工作者的生產(chǎn)力為主要業(yè)務(wù)目標(biāo)。
對(duì)談嘉賓:
孫偉杰(左一):深勢(shì)科技創(chuàng)始人,首席執(zhí)行官
張林峰(左二):深勢(shì)科技創(chuàng)始人,首席科學(xué)家
Q1:AlphaFold2 對(duì)于整個(gè)學(xué)科領(lǐng)域來(lái)說(shuō)究竟意味著什么呢?
A1:更宏觀來(lái)看,AlphaFold2是一種將AI極致地與前沿科學(xué)的數(shù)據(jù)相結(jié)合,解決前沿科學(xué)問(wèn)題的新的范式。
無(wú)論是在大的分子結(jié)構(gòu)預(yù)測(cè)、藥物篩選,還是材料、化工等別的學(xué)科上,這樣的機(jī)會(huì)是廣泛存在的。
將 AI 與 Science 相結(jié)合,這其實(shí)也是 AlphaFold2 所給我們帶來(lái)的一個(gè)系列性的、涉及所有的 Science 行業(yè)的一個(gè)可能性。
AlphaFold2 的出現(xiàn)是一個(gè)捅破窗戶紙的,讓大家意識(shí)到原來(lái)我們的 AI 計(jì)算真正產(chǎn)生了一個(gè)可以和實(shí)驗(yàn)精度去媲美的這樣的一套算法工具。
而我們的計(jì)算真正能夠和實(shí)驗(yàn)對(duì)比,是所有的計(jì)算發(fā)展的一個(gè)很重要的里程碑和目標(biāo),用計(jì)算去替代一部分實(shí)驗(yàn),也是我們最終的研發(fā)的目的和終點(diǎn)。
我愿意把它定義成這是我們計(jì)算生物學(xué)的大航海時(shí)代的開端。這個(gè)時(shí)代才剛剛開始。
Q2:在過(guò)去的一年,包括AlphaFold2、RosettaFold、以及RNA結(jié)構(gòu)預(yù)測(cè)在內(nèi),計(jì)算生物學(xué)領(lǐng)域到了一個(gè)爆發(fā)的節(jié)點(diǎn)。有哪些利好的因素導(dǎo)致了這一波突破呢?
A2:從技術(shù)的角度去看,很多技術(shù)發(fā)展包括AI本身,突然的巨變性的變化,往往是因?yàn)橛?strong>多個(gè)要素的組合。數(shù)據(jù)、算力和算法的組合之下,突然這層窗戶紙捅破了,就會(huì)有很多的結(jié)果涌現(xiàn)。現(xiàn)在這三點(diǎn)的結(jié)合最終到了一個(gè)所謂的奇點(diǎn)(critical point),就會(huì)爆發(fā)。
所以我想一方面恰好發(fā)生于去年,另一方面這三條線的發(fā)展也是經(jīng)歷了一個(gè)相當(dāng)于符合客觀規(guī)律的過(guò)程。
其實(shí)我覺得整個(gè)領(lǐng)域從2016年就具備這樣的基礎(chǔ)。但是這個(gè)領(lǐng)域相比于大家能直觀認(rèn)知的下圍棋的 AlphaGo ,還有互聯(lián)網(wǎng)的一些應(yīng)用,還是相對(duì)小眾,并且需要的知識(shí)門檻是更高的。所以說(shuō)它的實(shí)際突破的出現(xiàn),肯定相對(duì)來(lái)說(shuō)會(huì)更晚。
但是晚到什么程度呢?
從技術(shù)發(fā)展的趨勢(shì)上,我覺得是一個(gè)十年之內(nèi)肯定會(huì)發(fā)生的事情,畢竟所有的要素其實(shí)都是具備的。所以說(shuō)我覺得從2016年到2026年之間,肯定會(huì)出現(xiàn)技術(shù)的突破,只是說(shuō)或早或晚,那取決于它的問(wèn)題有多被行業(yè)需要,取決于相關(guān)的這些要素有沒有被有機(jī)的整合到一起。
至于說(shuō)2021年這個(gè)時(shí)間點(diǎn),我覺得在這十年之間,就算 DeepMind 沒有在去年做出 AlphaFold2,可能今年、明年像我們這樣的玩家,像RosatteFold, 可能也會(huì)產(chǎn)生這樣的突破,因?yàn)閯偛潘f(shuō)技術(shù)的積淀已經(jīng)到這樣了。
Q3:深勢(shì)科技也推出了一個(gè)中國(guó)版的 AlphaFold2 就是我們的 Uni-Fold, 那當(dāng)時(shí)咱們是出于怎么樣的動(dòng)機(jī)或者說(shuō)觀察來(lái)決定完成這一項(xiàng)工作的呢?
A3:其實(shí)我們面臨的一個(gè)系統(tǒng)性的機(jī)會(huì),以及我們希望做到的事情,本質(zhì)上是用計(jì)算替代實(shí)驗(yàn)。
在醫(yī)藥、材料、化工等這些領(lǐng)域,面臨的問(wèn)題本質(zhì)上抽象出來(lái)是一樣的,大家關(guān)注的都是在微觀層面怎么樣設(shè)計(jì)出一個(gè)有用的分子。
我們抽象的在微觀層面上想做的微尺度工業(yè)平臺(tái),本質(zhì)上就是三個(gè)物理問(wèn)題:結(jié)構(gòu)、能量和動(dòng)力學(xué)。而結(jié)構(gòu)就像是一個(gè)起點(diǎn)或者milestone,對(duì)于算法矩陣和商業(yè)落地都是至關(guān)重要的。
Uni-Fold還有很大潛力可以挖掘,我們也不會(huì)止步于此。比如說(shuō)對(duì)蛋白聚合體的結(jié)構(gòu)預(yù)測(cè),蛋白和分子結(jié)合的結(jié)構(gòu)預(yù)測(cè),當(dāng)然很多比較大的蛋白現(xiàn)在還沒有做得很準(zhǔn),我們也可以提升它的精度。
我們還有一系列的比如說(shuō)強(qiáng)化分子動(dòng)力學(xué)的算法,來(lái)和Uni-Fold形成完整的對(duì)蛋白結(jié)構(gòu)進(jìn)行預(yù)測(cè)、乃至對(duì)動(dòng)態(tài)結(jié)構(gòu)進(jìn)行預(yù)測(cè)的算法體系,以及這些計(jì)算的方法怎樣和實(shí)驗(yàn)聯(lián)動(dòng),去提升實(shí)驗(yàn)的效率,或者是做一些實(shí)驗(yàn)上很難做的事情。
所以說(shuō)我們是要在整個(gè)結(jié)構(gòu)生物學(xué)領(lǐng)域深刻地去布局前沿的算法,然后最終達(dá)到替代不必要的實(shí)驗(yàn),并且讓必要進(jìn)行的實(shí)驗(yàn)也能高效穩(wěn)定地進(jìn)行,這是我們想達(dá)到的最終目的。
Q4:在計(jì)算生物學(xué)里面,我們會(huì)把我們能解決的問(wèn)題會(huì)做一個(gè)怎樣的分類,或者說(shuō)我們大概有一個(gè)怎樣去攻克的一個(gè)規(guī)劃和理解嗎。
A4:科學(xué)問(wèn)題普遍上都遵循兩種范式。
第一種范式,可被完善地定義成一個(gè)物理或者化學(xué)問(wèn)題,意味著可以找到相應(yīng)的物理模型去很完備地描述它,這種我們就稱之為叫規(guī)則驅(qū)動(dòng),或者叫物理驅(qū)動(dòng)的問(wèn)題。那這種問(wèn)題最好的辦法就是我們精準(zhǔn)的求解物理模型。
另一種問(wèn)題就是很難定義為一個(gè)物理問(wèn)題。也就是所謂數(shù)據(jù)驅(qū)動(dòng)的。
這兩種范式上發(fā)展出來(lái)算法也很不一樣。
Q5:我們認(rèn)為哪些場(chǎng)景是計(jì)算生物學(xué)能夠最快落地,或者發(fā)揮最大潛能的?
A5:我覺得可能的突破口還是會(huì)從兩個(gè)地方出現(xiàn)。
一個(gè)是理解生命體運(yùn)作的機(jī)制。我們無(wú)論是做藥物還是做療法、做任何的東西,第一個(gè)前提就是我們要知道我們到底是怎么樣運(yùn)行的,疾病的產(chǎn)生與治愈是怎樣的一個(gè)微觀的過(guò)程。那第二,在充分理解生物體運(yùn)作機(jī)制的前提下,我們就會(huì)確定一些藥物的靶標(biāo)和疾病之間的關(guān)系。那再往下其實(shí)就是藥物的設(shè)計(jì)。之后,就是這些相應(yīng)療法在人體內(nèi)作用的預(yù)測(cè)等相關(guān)的這件事情。
這部分的突破,我認(rèn)為會(huì)比較快地出現(xiàn)在兩個(gè)方向上:1. 能更明確地能定義為物理問(wèn)題和化學(xué)問(wèn)題的方向,比如蛋白質(zhì)尺度的結(jié)構(gòu)和藥物計(jì)。2. 實(shí)驗(yàn)技術(shù)進(jìn)步能夠帶來(lái)大量高質(zhì)量標(biāo)準(zhǔn)化數(shù)據(jù),且問(wèn)題相對(duì)不是那么高維。也就是數(shù)據(jù)的積累會(huì)對(duì)算法產(chǎn)生非常大幫助的領(lǐng)域。
第二個(gè)方面就是逆向問(wèn)題。我們?cè)诶斫饬松矬w的運(yùn)作機(jī)制之后,去反向生成。比如說(shuō)像合成生物學(xué),我們通過(guò)編程的方式去創(chuàng)造生命,那這是解反問(wèn)題。
可能還有一個(gè)維度其實(shí)是計(jì)算生物學(xué)的解決方案和專家的關(guān)系。將原來(lái)專家的經(jīng)驗(yàn)知識(shí)轉(zhuǎn)化成了一個(gè)模型或者可執(zhí)行的一個(gè)工具,更好地賦能下游的科學(xué)家和工作人員。
Q6: 那如果我們用百分比來(lái)衡量的話,今天比如說(shuō)以Alphafold2 為一個(gè)代表,我們會(huì)覺得它大概到了一個(gè)怎么樣的進(jìn)度?
A6:我覺得遵循著一個(gè)指數(shù)發(fā)展的規(guī)律。當(dāng)前的一系列技術(shù)的積累,其實(shí)是剛剛捅破了這層窗戶紙,也可能是黎明前的黑暗到往上走的關(guān)鍵時(shí)期。所以說(shuō)當(dāng)下的這個(gè)點(diǎn)或許是還比較少的,甚至可能不一定到1%。
如果借鑒AI的圖片識(shí)別和語(yǔ)音識(shí)別發(fā)展歷程,我想它還是一個(gè)快速增長(zhǎng)的時(shí)期。它的導(dǎo)數(shù)可能非常的大。
比如說(shuō)以AlphaFold2的話,它分為兩種層面,一種是已知的未知,比如說(shuō)對(duì)人類的蛋白組的預(yù)測(cè)可能接近60%,都預(yù)測(cè)的相對(duì)比較靠譜。那剩下 40% 預(yù)測(cè)的不靠譜的部分,至少也能給出一個(gè)大致的置信區(qū)間。這意味著算法是初步可用了。
更大的其實(shí)是未知的未知。科學(xué)家們普遍都認(rèn)為我們對(duì)可見宇宙或者已知宇宙的認(rèn)知肯定是不超過(guò) 5% ,更何況還有很大的未知的宇宙。我覺得在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)這個(gè)領(lǐng)域也是同樣的。我們可見的包括這些預(yù)測(cè)不準(zhǔn)的 40%, 主要是一些大蛋白、膜蛋白、蛋白復(fù)合物等等。就可見部分而言,我覺得可能只完成了 10% 到 20。我們其實(shí)并不知道分母有多大。
這是計(jì)算生物學(xué)領(lǐng)域大航海時(shí)代的開始,這個(gè)真正的競(jìng)爭(zhēng)或者真正的突破才剛剛開始。整個(gè)的技術(shù)發(fā)展肯定是非線性的,出現(xiàn)了一個(gè)突破可能一下就提升了一大截,大家也可以密切地關(guān)注這個(gè)領(lǐng)域的進(jìn)展,這里面也可能獲得很多非線性的回報(bào)機(jī)會(huì)。
第三場(chǎng):對(duì)談微軟亞洲研究院
微軟亞洲研究院是微軟在美國(guó)本土以外規(guī)模最大的研究機(jī)構(gòu),世界一流的計(jì)算機(jī)基礎(chǔ)及應(yīng)用研究機(jī)構(gòu)。致力于推動(dòng)整個(gè)計(jì)算機(jī)科學(xué)領(lǐng)域的前沿技術(shù)發(fā)展,將最新研究成果快速轉(zhuǎn)化到微軟的關(guān)鍵產(chǎn)品中,著眼于下一代革命性技術(shù)的研究和孵化。
對(duì)談嘉賓:
劉鐵巖(左二):微軟亞洲研究院副院長(zhǎng)
邵 斌(右二):微軟亞洲研究院首席研究員
王 童(右一):微軟亞洲研究院主管研究員
Q1:AlphaFold2的最大意義是什么?
A1:這個(gè)看似突破性的進(jìn)展,其實(shí)是技術(shù)演進(jìn)的必然結(jié)果。
此外,如果我們換個(gè)視角來(lái)看待這個(gè)問(wèn)題,蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)僅僅是計(jì)算生物學(xué)這個(gè)大門類里面一個(gè)相對(duì)來(lái)說(shuō)定義得比較清晰(well-defined)的問(wèn)題。還有很多比蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)更加復(fù)雜也更有挑戰(zhàn)性的問(wèn)題,等著我們用人工智能的手段去推進(jìn)。
Q2:我們認(rèn)為應(yīng)該如何去定義計(jì)算生物學(xué)這一個(gè)學(xué)科,它里面又會(huì)有哪些細(xì)分的領(lǐng)域和維度呢?
A2:從研究對(duì)象的角度,有宏觀的,也有微觀的。從微觀的角度,可以小到一個(gè)蛋白、DNA 或者是一個(gè)單細(xì)胞。從宏觀的角度,可以大到人類或者說(shuō)生物體的組織、器官、個(gè)體甚至是群體。
從研究手段來(lái)講,既有傳統(tǒng)的生物實(shí)驗(yàn),也有包括計(jì)算手段在內(nèi)的數(shù)學(xué)建模、數(shù)值仿真、數(shù)據(jù)分析或者是機(jī)器學(xué)習(xí)。
從應(yīng)用門類來(lái)講,幾乎和我們平時(shí)生活或者科學(xué)發(fā)展的方方面面都有關(guān)系,它既有在基礎(chǔ)科學(xué)方面的潛力,也在制藥診療方面有著巨大價(jià)值。
Q3:2021 年,微軟亞洲研究院首次針對(duì)新冠病毒中的 NTD 提出了對(duì)應(yīng)的楔型模型,并鑒定了潛在的藥物靶點(diǎn)。能否介紹一下這項(xiàng)工作是怎么基于計(jì)算生物學(xué)完成的呢?
A3:?之前科學(xué)家們發(fā)現(xiàn),新冠感染人體的物質(zhì)叫 S 蛋白。我們可以把它想象成一個(gè)英文字母 Y,有兩個(gè)枝杈,還有一個(gè)中軸。S蛋白的中軸會(huì)固定在病毒的表面,而伸出的這兩個(gè)枝杈(RBD和NTD),其中的RBD會(huì)和我們的受體蛋白發(fā)生識(shí)別,然后進(jìn)入人體。
我們的研究主要圍繞著機(jī)理還未明確的NTD展開。我們和清華大學(xué)計(jì)算生物學(xué)的老師通力合作,利用分子動(dòng)力學(xué)模擬技術(shù)對(duì)整個(gè)S 蛋白,全構(gòu)象是百萬(wàn)級(jí)原子的巨大體系,進(jìn)行了數(shù)十億步的動(dòng)力學(xué)平衡模擬。通過(guò)分子動(dòng)力學(xué),我們發(fā)現(xiàn)NTD就像一個(gè)開關(guān),可以去控制另一個(gè)枝杈RBD是否能和人體的蛋白發(fā)生識(shí)別、結(jié)合。而NTD和RBD兩者結(jié)合的界面,就自然形成了藥物和疫苗設(shè)計(jì)的一個(gè)潛在靶點(diǎn)。
Q4:計(jì)算生物學(xué)算是一門交叉性非常強(qiáng)的學(xué)科,一方面是生物知識(shí)和人工智能的交叉,也就是所謂的 BT+IT。另一方面,也是干實(shí)驗(yàn)和濕實(shí)驗(yàn)的一種交叉。那請(qǐng)問(wèn)幾位老師是如何看待這兩種強(qiáng)的交叉關(guān)系的?
A4:?計(jì)算生物學(xué)是一個(gè)非常典型的交叉學(xué)科。這個(gè)交叉二字其實(shí)有幾個(gè)不同的層次。
首先是知識(shí)層面上,有生物學(xué)、醫(yī)學(xué)、藥學(xué)、計(jì)算機(jī)科學(xué),包括人工智能這些不同的知識(shí)門類的交叉。
還有一個(gè)研究方法的交叉,比如說(shuō)傳統(tǒng)生物學(xué)的生物實(shí)驗(yàn),就是“濕實(shí)驗(yàn)”。計(jì)算機(jī)的模擬或者人工智能的手段,我們通常稱為“干實(shí)驗(yàn)”。
更重要的其實(shí)是人才的交叉。因?yàn)樵谶@個(gè)過(guò)程中會(huì)涉及到計(jì)算機(jī)的人才、生物學(xué)的人才。而最有趣的是,每個(gè)人其實(shí)都是有自己的個(gè)性的,甚至是有一些偏見的。當(dāng)我們面對(duì)著一個(gè)新的課題或者一個(gè)新的事物的時(shí)候,通常會(huì)帶入我們固有的一些思維。所以想要讓交叉學(xué)科發(fā)展得非常好,我們就需要一個(gè)開放、包容、多元化的環(huán)境,讓不同的知識(shí)做交融,讓不同類型的人才去做碰撞,讓不同的研究手段去進(jìn)行互補(bǔ)或者形成某種閉環(huán)。
Q5: 是否存在哪些明顯的瓶頸?
A5:高質(zhì)量數(shù)據(jù)。盡管過(guò)去我們?cè)谏飳W(xué)領(lǐng)域積累了大量的數(shù)據(jù),但是高質(zhì)量的數(shù)據(jù)仍然十分短缺。
從技術(shù)上來(lái)說(shuō),在做計(jì)算生物學(xué)的過(guò)程中,我們還是碰到了非常多的挑戰(zhàn)。比如說(shuō),真正的蛋白質(zhì)其實(shí)是處在一個(gè)非常復(fù)雜的細(xì)胞環(huán)境中的,這種微環(huán)境使得計(jì)算機(jī)的建模難度非常大。比如說(shuō)在NTD的分子動(dòng)力模擬中,就需要考慮到這個(gè)蛋白在人體內(nèi)真正的環(huán)境是什么樣的?是不是處在一個(gè)水溶液的環(huán)境里?是不是會(huì)有一些離子?在計(jì)算生物學(xué)的研究中,我們也要盡量地去仿照人體中真實(shí)的微環(huán)境,這可能是一個(gè)比較大的挑戰(zhàn)。
那還有一個(gè)挑戰(zhàn)是什么呢?在做計(jì)算免疫學(xué)的時(shí)候,其實(shí)每個(gè)人內(nèi)在的免疫環(huán)境都是千差萬(wàn)別的。我們做一個(gè)AI模型,如果想在每個(gè)人身上都適用,取得很好的效果,也是很大的一個(gè)挑戰(zhàn)。這也就是為什么我們要對(duì)每個(gè)人有一個(gè)更個(gè)性化的建模過(guò)程和解決方案。
還有動(dòng)態(tài)變化的問(wèn)題。
生命科學(xué)很特別的一點(diǎn),就是它的研究對(duì)象是活的。比如說(shuō),人體每天應(yīng)對(duì)著我們所在的環(huán)境,包括各種病源的侵?jǐn)_,我們是不斷地在進(jìn)化、在變化中去抵抗它們的。所以當(dāng)我們使用傳統(tǒng)的機(jī)器學(xué)習(xí)或人工智能的手段去做了分析建模,很可能這個(gè)模型未來(lái)要使用的對(duì)象已經(jīng)發(fā)生了變化。
所以當(dāng)我們用人工智能的手段去解決這些生物問(wèn)題的時(shí)候,怎么能夠做更好的泛化外推,能夠去解決和應(yīng)對(duì)生物體本身的變化,這是一個(gè)非常有趣的問(wèn)題,它不僅僅是對(duì)計(jì)算生物學(xué)有意義,對(duì)人工智能、對(duì)機(jī)器學(xué)習(xí)都是一個(gè)新的挑戰(zhàn)。
Q6:那我們是如何看待AI for Science這種形式的?
A6:當(dāng)我們用人工智能跟自然科學(xué)進(jìn)行交叉的時(shí)候,其實(shí)有兩個(gè)視角。
一個(gè)是我們已經(jīng)知道了自然科學(xué)的規(guī)律,也產(chǎn)生了很多的數(shù)據(jù),我們?cè)趺?strong>用人工智能從里面學(xué)到某種模型去加速這個(gè)過(guò)程。
另一分支就是當(dāng)我們能夠有那么多的觀測(cè)數(shù)據(jù),這些數(shù)據(jù)可能是科學(xué)家們用肉眼分析不過(guò)來(lái)的。如果我們有很好的人工智能技術(shù),我們能不能去通過(guò)大量的高通量數(shù)據(jù)分析,總結(jié)出一些現(xiàn)有的科學(xué)家還沒有發(fā)現(xiàn)的科學(xué)規(guī)律,這個(gè)科學(xué)發(fā)現(xiàn)的價(jià)值可能比加速的價(jià)值更高。
Q7:在AI for Science,這個(gè)具體的融合過(guò)程中,有沒有什么經(jīng)驗(yàn)和大家分享?
A7:人工智能帶來(lái)了科學(xué)研究范式的轉(zhuǎn)型。因?yàn)閺挠?jì)算機(jī)科學(xué)的視角看,現(xiàn)在很多的問(wèn)題求解不再單純依賴于人工的算法設(shè)計(jì),而更多的是轉(zhuǎn)成以數(shù)據(jù)驅(qū)動(dòng)的模型構(gòu)建。
此外,從基礎(chǔ)科學(xué)研究的視角去看,傳統(tǒng)基礎(chǔ)科學(xué)研究更多是一種提出科學(xué)假設(shè),然后驗(yàn)證科學(xué)假設(shè)的研究范式。隨著大數(shù)據(jù)和人工智能的發(fā)展、普及和成熟,我們觀察到越來(lái)越多的科學(xué)研究從假設(shè)推動(dòng)的范式,走向了利用大數(shù)據(jù)和計(jì)算機(jī)技術(shù)挖掘科學(xué)洞見的這種數(shù)據(jù)驅(qū)動(dòng)的科學(xué)研究范式。
從生物科學(xué)的角度出發(fā),我們之前更多是基于專業(yè)領(lǐng)域知識(shí)(domain knowledge)的觸發(fā)來(lái)做研究。通俗來(lái)講,AI其實(shí)只是作為一種計(jì)算手段扮演了配角的作用。更多是在有大量的生物學(xué)數(shù)據(jù)和生物領(lǐng)域知識(shí)的前提下,用一種非常簡(jiǎn)單的統(tǒng)計(jì)模型或者是機(jī)器學(xué)習(xí)來(lái)做簡(jiǎn)單的擬合。
但伴隨著AI技術(shù)的發(fā)展和深化,AI在AI for Science里逐漸變成了主角。它并不是只去對(duì)生物數(shù)據(jù)做簡(jiǎn)單的擬合,而是從 AI 入手去認(rèn)識(shí)科學(xué)問(wèn)題,即為科學(xué)問(wèn)題量身定制一套AI的算法與開發(fā)。
但從另一方面來(lái)說(shuō),傳統(tǒng)計(jì)算生物學(xué)的研究,更多是為了提升性能,也就是追求更高的數(shù)字。現(xiàn)在的 AI for Science 并不是這樣。以AI+藥物設(shè)計(jì)研發(fā)為例,我們并不像之前一樣只關(guān)注準(zhǔn)確率,而更關(guān)注可解釋性。比如說(shuō)在藥物虛擬篩選里,是潛在藥物的哪些原子和我們的受體蛋白的哪一些殘基、哪一些原子能發(fā)生相互作用,這個(gè)模型能否提供更好的解釋性等等。
傳統(tǒng)的自然科學(xué)領(lǐng)域有一個(gè)研究范式,就是科學(xué)家們受到實(shí)驗(yàn)數(shù)據(jù)的啟發(fā),然后大膽假說(shuō)提出一套科學(xué)理論,再通過(guò)設(shè)計(jì)實(shí)驗(yàn)去進(jìn)一步地驗(yàn)證這些理論或者推論。人工智能其實(shí)就是使傳統(tǒng)科學(xué)家做研究的這種過(guò)程變得自動(dòng)化、規(guī)模化、并行化。所以,如果我們說(shuō)傳統(tǒng)的自然科學(xué)的發(fā)展嚴(yán)重依賴于少數(shù)頂級(jí)科學(xué)家的智慧的話,在未來(lái),有了人工智能技術(shù)的加持,我們相信有更多的科學(xué)工作者可以以更高的通量去做更了不起的研究。
錯(cuò)過(guò)了直播的小伙伴可以點(diǎn)擊我們的直播回看視頻,了解更多技術(shù)細(xì)節(jié)和問(wèn)題詳解~
第一期:西湖歐米—從蛋白質(zhì)組學(xué)看計(jì)算生物學(xué)
計(jì)算生物學(xué)系列對(duì)談01期-西湖歐米 x 量子位·對(duì)撞派_嗶哩嗶哩_bilibili
第二期:深勢(shì)科技—分子模擬與計(jì)算生物學(xué)的交叉
計(jì)算生物學(xué)系列對(duì)談02期-深勢(shì)科技 x 量子位·對(duì)撞派_嗶哩嗶哩_bilibili
第三期:微軟亞洲研究院—從AI從業(yè)者的角度看計(jì)算生物學(xué)和AI for Science
計(jì)算生物學(xué)系列對(duì)談03期-微軟亞洲研究院 x 量子位·對(duì)撞派_嗶哩嗶哩_bilibili
在計(jì)算生物學(xué)領(lǐng)域,智庫(kù)后續(xù)還會(huì)推出深度報(bào)告與解讀視頻。如果您深耕于計(jì)算生物學(xué)相關(guān)領(lǐng)域,歡迎掃碼添加分析師進(jìn)行深度討論與交流。
關(guān)于量子位智庫(kù):
量子位旗下科技創(chuàng)新產(chǎn)業(yè)鏈接平臺(tái),致力于提供前沿科技和技術(shù)創(chuàng)新領(lǐng)域產(chǎn)學(xué)研體系化研究(如前沿AI&計(jì)算機(jī),生命科學(xué),量子技術(shù)及新型半導(dǎo)體等)。通過(guò)媒體,社群和線下活動(dòng),基于專題技術(shù)報(bào)道及報(bào)告、專項(xiàng)交流會(huì)等形式,幫助決策者更早掌握創(chuàng)新風(fēng)向。
關(guān)于對(duì)撞派:
量子位智庫(kù)旗下的高端圓桌欄目。
對(duì)撞派致力于邀請(qǐng)前沿科技領(lǐng)域的專業(yè)人士,如創(chuàng)業(yè)公司CEO及CTO、資深科學(xué)家、專業(yè)投資人等,對(duì)特定趨勢(shì)進(jìn)行深度討論及解讀。從業(yè)內(nèi)與專業(yè)的角度,幫助讀者更為準(zhǔn)確地把握未來(lái)科技動(dòng)向。
—?完?—
- 天云數(shù)據(jù)CEO雷濤:從軟件到數(shù)件,AI生態(tài)如何建立自己的“Android”?| 量子位·視點(diǎn)分享回顧2022-03-23
- 火熱報(bào)名中丨2022實(shí)景三維創(chuàng)新峰會(huì)成都站將于4月13日召開!2022-03-21
- 從軟件到數(shù)件,AI生態(tài)如何建立自己的“Android”?天云數(shù)據(jù)CEO直播詳解,可預(yù)約 | 量子位·視點(diǎn)2022-03-11
- 什么樣的AI制藥創(chuàng)企才能走得更遠(yuǎn)?來(lái)聽聽業(yè)內(nèi)怎么說(shuō)|直播報(bào)名2022-03-03



