清華AIR的AI蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè),連續(xù)4周奪得CAMEO第一
來自清華大學(xué)智能產(chǎn)業(yè)研究院(AIR)
衡宇 夢(mèng)晨 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
AI蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)賽道,國(guó)產(chǎn)模型又有吸睛表現(xiàn):
在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)競(jìng)賽CAMEO上,有支隊(duì)伍連續(xù)四周奪得全球第一。
達(dá)成這一成就的是來自清華大學(xué)智能產(chǎn)業(yè)研究院(AIR)的AIRFold。
△AIRFold 在7.23-8.20的評(píng)估中連續(xù)四周全球第一
CAMEO競(jìng)賽(Continous Automated Model Evaluation)與CASP并列為蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)領(lǐng)域的兩大權(quán)威競(jìng)賽。
不同之處在于CASP兩年一屆,CAMEO則是持續(xù)舉辦,每周都有結(jié)構(gòu)生物學(xué)家最新破解出的蛋白質(zhì)結(jié)構(gòu)作為賽題。
CAMEO上得分與排名每周實(shí)時(shí)更新,華盛頓大學(xué)David Baker團(tuán)隊(duì)的RoseTTAFold、百度騰訊華為等行業(yè)頂尖選手都在其中參與角逐。
AIRFold在近4周的比賽中,不僅預(yù)測(cè)結(jié)果IDDT分?jǐn)?shù)領(lǐng)先,系統(tǒng)響應(yīng)時(shí)間上也遠(yuǎn)遠(yuǎn)領(lǐng)先后幾名的團(tuán)隊(duì)。
亮眼成績(jī)?nèi)绾稳〉茫亢罄m(xù)又有哪些研究和應(yīng)用方向?
帶著這些問題,我們聯(lián)系到項(xiàng)目負(fù)責(zé)人清華大學(xué)智能產(chǎn)業(yè)研究院清華大學(xué)智能產(chǎn)業(yè)研究院(AIR)的蘭艷艷教授,與她進(jìn)行了深入交流。
下面送上對(duì)話實(shí)錄,為方便閱讀,我們?cè)诓桓淖冊(cè)獾幕A(chǔ)上做了編輯整理。
對(duì)話實(shí)錄
量子位:AIRFold項(xiàng)目是從什么時(shí)候開始做的?能否介紹一下團(tuán)隊(duì)基本情況?
蘭艷艷教授:AIRFold項(xiàng)目是AIR智慧醫(yī)療方向的一個(gè)重要部分,大約是2021年9月份開始,距離現(xiàn)在剛好一年左右的時(shí)間。
團(tuán)隊(duì)成員是陸續(xù)到位的,目前總共有7-8人,除我之外還包括科研工程師,博士后和博士生等。成員背景基本都是AI方向的,也有生物學(xué)和化學(xué)背景的同學(xué)參與。
張亞勤老師和馬維英老師在整個(gè)項(xiàng)目進(jìn)行過程中也一直在幫我們把握方向,提供資源支持,給我們團(tuán)隊(duì)很多指導(dǎo)。同時(shí)我們的訪問教授彭健老師以及他帶領(lǐng)的Helixon(華深智藥)團(tuán)隊(duì)也和我們進(jìn)行過多次討論,對(duì)我們進(jìn)行了一些技術(shù)指導(dǎo),幫助我們團(tuán)隊(duì)得到了很好的成長(zhǎng)。
量子位:在AlphaFold2之后,出現(xiàn)了單序列預(yù)測(cè)的一些方法,AIRFold為什么堅(jiān)持走同源信息挖掘這條路線?
蘭艷艷教授:OmegaFold和ESMFold等單序列模型確實(shí)沒有顯式地使用MSA作為特征,但嚴(yán)格講并非沒有用同源序列中隱含的共進(jìn)化信息,它采取了一種隱式的使用方式。具體來說,OmegaFold通過基于掩碼語言模型(Mask Language Model, MLM)的蛋白質(zhì)預(yù)訓(xùn)練模型編碼了主序列然后用于預(yù)測(cè)結(jié)構(gòu),MLM天然地具有捕捉共進(jìn)化信息的能力,這點(diǎn)在早期Meta 的蛋白質(zhì)預(yù)訓(xùn)練工作ESM中也有體現(xiàn)。直接使用MSA或者使用具備捕捉共進(jìn)化能力的編碼器都是不同的方法而已。
我們選擇同源挖掘路線主要有幾個(gè)原因:
第一,從效果上講,以Meta(原FAIR)的ESMFold為代表的基于單序列的結(jié)構(gòu)預(yù)測(cè)方案,比基于單序列的AlphaFold2效果要好,但是與直接顯式使用MSA序列的AlphaFold2方法相比還有不少差距。例如ESMFold在CAMEO以及CASP數(shù)據(jù)集上測(cè)試所得的TM-score分別是82.8以及67.8,對(duì)應(yīng)AlphaFold2的TM-score是88.3以及84.7,有較大差距。我們認(rèn)為ESMFold確實(shí)給我們指明了利用同源信息的新方式,但要達(dá)到替代MSA的效果還有較大的改進(jìn)空間。
第二,當(dāng)時(shí)選擇同源挖掘這條路線,首先是因?yàn)槲覀儓F(tuán)隊(duì)有豐富的NLP背景,我們一看到AlphaFold2,就發(fā)現(xiàn)MSA這個(gè)模塊作為同源信息的輸入非常關(guān)鍵,而AlphaFold2的使用方式還停留在傳統(tǒng)方法上,因此我們很自然會(huì)優(yōu)先選擇從我們擅長(zhǎng)的MSA序列建模和檢索這個(gè)方面入手,應(yīng)用最新的NLP技術(shù)來進(jìn)行突破。
第三,最重要的原因,我們做AIRFold和參加比賽最終的目的不僅僅是為了蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)本身。我們希望在這個(gè)過程中從建模和計(jì)算的角度探究哪些重要信息如何作用最后影響了折疊的結(jié)果,這些積累能夠鍛煉我們的隊(duì)伍,讓大家對(duì)結(jié)構(gòu)預(yù)測(cè)這個(gè)問題有更深刻的認(rèn)識(shí),同時(shí)也會(huì)啟發(fā)我們對(duì)蛋白質(zhì)相互作用、序列到結(jié)構(gòu)到功能等問題的思考,從而促進(jìn)我們開展與AI賦能新藥研發(fā)相關(guān)領(lǐng)域的研究和應(yīng)用。
量子位:能否展開講講同源挖掘模塊Homology Miner的技術(shù)細(xì)節(jié)和特色?
蘭艷艷教授:挖掘同源信息是目前主流蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)模型以及參賽服務(wù)器都會(huì)關(guān)注的一個(gè)關(guān)鍵技術(shù)方向,AIRFold的特色集中在獲取同源蛋白和對(duì)同源蛋白進(jìn)行優(yōu)化校正的方法上。
AIRFold 的Homology Miner在經(jīng)典的同源檢索算法之外,整合了一些基于NLP全新技術(shù)所形成的算法,包括稠密檢索、面向多序列比對(duì)的同源蛋白生成等模型,這一系列的方法在一些初始缺乏同源信息的孤兒蛋白上,展示了比較明顯的效果,說明目前主流的同源檢索方法存在可提升空間。
除此之外,我們針對(duì)“什么是好的同源蛋白”這一問題,從信息論的角度給出了一個(gè)量化的定義,基于這一量化指標(biāo)對(duì)于同源表征進(jìn)行優(yōu)化,可以穩(wěn)定地提高結(jié)果以及魯棒性,這也為同源表征學(xué)習(xí)也提供了一個(gè)全新的思路和角度。
量子位:除了同源挖掘模塊外,AIRFold在AlphaFold2的基礎(chǔ)上還做了哪些改進(jìn)?
蘭艷艷教授:除了同源挖掘模塊,我們對(duì)AlphaFold2目前所存在的一些問題也進(jìn)行了有針對(duì)性的探索和改進(jìn)。
例如在結(jié)果預(yù)測(cè)上,AlphaFold2還無法很好的解決蛋白的多構(gòu)象和點(diǎn)突變問題,模型精度(即pLDDT)的預(yù)測(cè)也存在偏差的問題等。
以pLDDT的偏差為例,pLDDT本身是結(jié)構(gòu)預(yù)測(cè)結(jié)果的一個(gè)置信度,大家發(fā)現(xiàn)在AlphaFold2提供的預(yù)測(cè)結(jié)果中,pLDDT通常還是比較準(zhǔn)的,高的地方預(yù)測(cè)結(jié)果相對(duì)比較準(zhǔn)確,低的地方預(yù)測(cè)結(jié)果不夠好,但是事實(shí)上作為神經(jīng)網(wǎng)絡(luò)的輸出結(jié)果,pLDDT的魯棒性很差,很難反映MSA的微小變化或攻擊帶來的影響,這樣就導(dǎo)致在比賽或者實(shí)際應(yīng)用中,如果完全以pLDDT為標(biāo)準(zhǔn)進(jìn)行選擇,會(huì)引發(fā)嚴(yán)重的問題。
在這方面我們也提出了一些對(duì)抗訓(xùn)練,多目標(biāo)優(yōu)化等新的思路,在這些問題的解決上取得了一些進(jìn)展,歡迎大家關(guān)注我們后續(xù)的科研工作。
量子位:AIRFold保持高IDDT評(píng)估的同時(shí),在系統(tǒng)響應(yīng)時(shí)間上遠(yuǎn)遠(yuǎn)領(lǐng)先其他團(tuán)隊(duì),是靠什么做到的?
蘭艷艷教授:AIRFold是一個(gè)自動(dòng)化的平臺(tái),包括同源序列增廣、同源序列篩選、特征處理、結(jié)構(gòu)預(yù)測(cè)、結(jié)果分析以及自動(dòng)提交等模塊。
比賽序列過來的時(shí)候沒有任何人為的干預(yù),我們的系統(tǒng)會(huì)自動(dòng)的監(jiān)控server是否有新來的序列,自動(dòng)的補(bǔ)上提前設(shè)置好的參數(shù)配置,自動(dòng)對(duì)蛋白質(zhì)結(jié)構(gòu)進(jìn)行預(yù)測(cè)最后提交預(yù)測(cè)結(jié)果。
我們?cè)O(shè)計(jì)并實(shí)現(xiàn)AIRFold的初衷就是為蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)以及同源蛋白分析這一問題,找到通用的解決方案。盡管在比賽中的序列之間差異很大,比如有的同源很多,有的同源蛋白很少,我們?cè)诒荣愔惺冀K堅(jiān)持使用同一套策略和系統(tǒng),來減少人工對(duì)于不同的比賽序列進(jìn)行不同的處理,力求得到一套通用的結(jié)構(gòu)預(yù)測(cè)解決方案,這是我們響應(yīng)迅速的主要原因。
量子位:AIRFold團(tuán)隊(duì)重點(diǎn)介紹了CAMEO比賽中一個(gè)較難預(yù)測(cè)的蛋白7TVI,它的預(yù)測(cè)難點(diǎn)在哪里?
蘭艷艷教授:7TVI是來自 Planctomycetes(浮游菌門)細(xì)菌的Cas13bt3蛋白,相比其他序列來說有兩個(gè)難點(diǎn)。
首先是這個(gè)序列同源序列相對(duì)少,多序列比對(duì)(Multiple Sequence Alignment ,MSA)結(jié)果無論是從深度還是覆蓋度來說都是非常不理想的。我們第一次搜索的結(jié)果只搜索到了700條左右的同源序列,有三分之二以上的序列基本沒有覆蓋。我們都知道當(dāng)下流行的AlphaFold2是高度依賴同源信息的,這樣低質(zhì)量的同源序列必然是不利于結(jié)構(gòu)預(yù)測(cè)的。
AIRFold團(tuán)隊(duì)充分利用自主研發(fā)的HomoMiner的優(yōu)勢(shì),對(duì)低質(zhì)量的MSA進(jìn)行篩選過濾,選擇其中有價(jià)值的部分,去除冗余;同時(shí)利用深度稠密檢索技術(shù)和同源序列生成技術(shù)對(duì)MSA進(jìn)行補(bǔ)充,豐富其中的信息,因此能在這個(gè)序列上做出比較好的結(jié)果。
其次,這個(gè)蛋白結(jié)構(gòu)域多,變構(gòu)大,因此構(gòu)象比較復(fù)雜靈活。從PDB的結(jié)構(gòu)和以往的研究來看,這個(gè)蛋白有HEPN1和HEPN2兩個(gè)核酸酶結(jié)構(gòu)域,crRNA結(jié)合結(jié)構(gòu)域又分為Helical1-1,Lid,Helical1-2,Helical2和Helcal1-3五個(gè),中間有l(wèi)inker連接。目前主流的結(jié)構(gòu)預(yù)測(cè)方法,比如AlphaFold2和ESMFold都主要使用單結(jié)構(gòu)域蛋白進(jìn)行訓(xùn)練,這是因?yàn)镻DB數(shù)據(jù)庫(kù)中單結(jié)構(gòu)域蛋白遠(yuǎn)多于多結(jié)構(gòu)域蛋白。
此外,MSA中往往也會(huì)出現(xiàn)每條序列只覆蓋一個(gè)結(jié)構(gòu)域的情況,不能提供多結(jié)構(gòu)域之間關(guān)系的信息。這就造成多結(jié)構(gòu)域之間關(guān)系不容易被準(zhǔn)確預(yù)測(cè)。
AlphaFold-Multimer的成果對(duì)我們很有啟發(fā),秉承結(jié)構(gòu)域間關(guān)系信息也蘊(yùn)藏于MSA中的理念,我們使用HomoMiner對(duì)MSA進(jìn)行篩選,去除信息量低、噪聲大的序列,提高高質(zhì)量同源序列中長(zhǎng)程相互作用信息的信噪比。因此我們可以更準(zhǔn)確地建模多結(jié)構(gòu)域之間的關(guān)系。
這些經(jīng)驗(yàn)也符合我前面說到的,充分挖掘MSA信息雖然更加耗時(shí),但是在實(shí)際數(shù)據(jù)上能提供更具啟發(fā)性的結(jié)果,也能夠讓我們?cè)诖诉^程中有思路去分析蛋白質(zhì)的進(jìn)化生物學(xué)問題。
量子位:除了CRISPR相關(guān)分子工具的挖掘與設(shè)計(jì)之外,AIRFold還在哪些領(lǐng)域有競(jìng)爭(zhēng)優(yōu)勢(shì)?
蘭艷艷教授:除了研究CRISPR/Cas系統(tǒng)本身之外,其實(shí)我們也在關(guān)注一些抗CRISPR蛋白(anti-CRISPRs,Acrs)。Acrs其實(shí)是非常有意思的蛋白。一方面,一些噬菌體會(huì)表達(dá)Acrs蛋白,從而增強(qiáng)其侵染細(xì)菌的能力。另一方面,一些細(xì)菌會(huì)產(chǎn)生針對(duì)自身基因組的CRISPR(self-targeing CRISPR),為了防止“自身免疫病”,細(xì)菌自己也會(huì)表達(dá)這樣的Acrs蛋白。
在我們內(nèi)部的測(cè)試中,我們測(cè)試了一個(gè)上面描述的Acrs蛋白。7ENR_C這個(gè)蛋白是來自葡萄球菌的AcrIIA14,他可以結(jié)合Cas9抑制其活性(其中Cas9結(jié)合AcrIIA14的片段在圖片中標(biāo)記為粉色)。AcrIIA14這個(gè)蛋白同源蛋白非常少,搜索數(shù)據(jù)庫(kù)后沒有找到什么同源序列,AlphaFold2預(yù)測(cè)的結(jié)構(gòu)的lDDT也只有不到70。我們使用HomoMiner對(duì)MSA進(jìn)行補(bǔ)充,能夠非常有效地提高預(yù)測(cè)效果,lDDT一下提高到了85。
除此之外,我們還觀察到原來AlphaFold2預(yù)測(cè)的不太好的區(qū)域主要是結(jié)合Cas9的結(jié)合位點(diǎn)附近,AlphaFold2預(yù)測(cè)的口袋偏小,而這個(gè)位置我們預(yù)測(cè)的結(jié)構(gòu)更接近真實(shí)結(jié)構(gòu),口袋大小也更合適。這樣準(zhǔn)確的預(yù)測(cè)可以允許我們更好的將預(yù)測(cè)Acrs蛋白結(jié)構(gòu)并后續(xù)和已知的Cas9蛋白結(jié)構(gòu)進(jìn)行對(duì)接,分析其阻遏Cas9的原理,從而啟發(fā)我們?cè)O(shè)計(jì)出更強(qiáng)的Acrs來強(qiáng)化噬菌體療法;也可以助力相關(guān)抑制劑的設(shè)計(jì)。也許以后我們能讓細(xì)菌患上“自身免疫病”,緩解日益嚴(yán)重的抗生素耐藥問題。
我們后續(xù)會(huì)繼續(xù)推進(jìn)在CRISPR/Anti-CRISPR這一對(duì)歡喜冤家上的結(jié)構(gòu)預(yù)測(cè),增強(qiáng)和相關(guān)生物研究組的合作,共同發(fā)掘微生物這一神奇的系統(tǒng)。
量子位:在研發(fā)過程中遇到最大的困難是什么?有沒有一個(gè)印象特別深刻的事件?
蘭艷艷教授:最大的困難是最開始的時(shí)候,團(tuán)隊(duì)的主要成員背景都不是生物計(jì)算,對(duì)于蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)更是知之甚少。大家從頭開始,花了很多力氣一起學(xué)習(xí)領(lǐng)域知識(shí),讀paper,向生物計(jì)算背景的人請(qǐng)教,包括Helixon的彭健老師以及他們的團(tuán)隊(duì),一點(diǎn)一點(diǎn)的把體系建立起來,研發(fā)新的模型,形成新的技術(shù),搭建整套系統(tǒng),再進(jìn)一步再更多數(shù)據(jù)上進(jìn)行預(yù)測(cè)和分析,也就開始有更多的理解和認(rèn)識(shí)。
印象深刻的是參加CAMEO之后不久的一周,我們第一次拿到了周第二,當(dāng)時(shí)特別開心,團(tuán)隊(duì)成員受到了很大的鼓舞,感覺很長(zhǎng)時(shí)間的辛苦沒有白費(fèi),再后面更加振奮,有信心去對(duì)原來不懂的問題設(shè)計(jì)新的解決方案,逐漸的成績(jī)?cè)絹碓胶茫兊梅€(wěn)定起來。到現(xiàn)在,大家越做越興奮,因?yàn)槌四芸吹叫阅艿奶嵘€能看到在具體某些重要蛋白上預(yù)測(cè)結(jié)果的變化,有了生物學(xué)背景同學(xué)的幫助和分析,我們能獲取更多模型上的理解和改進(jìn),大家真正體會(huì)到了學(xué)科交叉的樂趣,也對(duì)AI for Science的信心更堅(jiān)定了。
量子位:AIRFold是從什么時(shí)候開始參加CAMEO競(jìng)賽的,剛開始就取得了好成績(jī)么?
蘭艷艷教授:團(tuán)隊(duì)最早是從今年的三月末開始第一次提交CAMEO結(jié)果,我們一開始制定的目標(biāo)是實(shí)現(xiàn)一個(gè)系統(tǒng)化的結(jié)構(gòu)預(yù)測(cè)解決方案,同時(shí)鍛煉我們的團(tuán)隊(duì),讓大家對(duì)蛋白質(zhì)的結(jié)構(gòu)預(yù)測(cè)問題有更深刻的理解。
那時(shí)候我們已經(jīng)有一些模型上的積累了,但是接觸真正的實(shí)際數(shù)據(jù)還是第一次,并不是一開始就特別有效,從實(shí)際數(shù)據(jù)中發(fā)現(xiàn)了很多問題,幫助我們進(jìn)一步去改進(jìn)了模型,后來由于團(tuán)隊(duì)成員也并行的參與其他的研究和CASP15的比賽,我們?cè)谒惴ㄉ戏e累了更多的經(jīng)驗(yàn)。
六月末,我們把這些經(jīng)驗(yàn)逐步的變成新算法加入我們CAMEO比賽的服務(wù)器,逐漸展示出來不錯(cuò)的表現(xiàn)。
量子位:我們注意到在AIRFold在研究院官網(wǎng)和微信公眾號(hào)都是第一次出現(xiàn),為什么選擇這一時(shí)間亮相?
蘭艷艷教授:包括AIRFold在內(nèi)的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)和設(shè)計(jì)等研究方向一直是我們的AIR智慧醫(yī)療組的重要研究方向。選擇在現(xiàn)在公開AIRFold,一方面是展示我們?cè)谶@一方向上持續(xù)布局投入的一個(gè)階段性成果。
另外,單體的蛋白預(yù)測(cè)以及對(duì)于共進(jìn)化信息的深入理解是我們團(tuán)隊(duì)后續(xù)開展在蛋白質(zhì)以及大分子藥物相關(guān)研究的基礎(chǔ),我們也希望利用這個(gè)契機(jī)增加和學(xué)界業(yè)界的交流與溝通,在結(jié)構(gòu)與計(jì)算相關(guān)的領(lǐng)域持續(xù)發(fā)力,為AI賦能創(chuàng)新藥物研發(fā)做出貢獻(xiàn)。
量子位:官方消息說AIRFold的相關(guān)技術(shù)還在蛋白單點(diǎn)突變、多構(gòu)象評(píng)估等問題取得初步進(jìn)展,簡(jiǎn)單展開講講?
蘭艷艷教授:在后AlphaFold2時(shí)代,其實(shí)蛋白結(jié)構(gòu)預(yù)測(cè)已經(jīng)是一個(gè)幾乎被解決的問題了。雖然所謂孤兒序列(Orphan Sequence)的結(jié)構(gòu)并不容易預(yù)測(cè),但是從進(jìn)化的角度,有重要生物學(xué)功能的序列幾乎不可能是獨(dú)立存在的,因此這并不是很大的問題。AIRFold團(tuán)隊(duì)在這樣一個(gè)時(shí)間點(diǎn)開始研究蛋白質(zhì)結(jié)構(gòu),我們更多的是想關(guān)注蛋白的結(jié)構(gòu)如何決定功能,如何助力藥物與療法的研發(fā),并不是只關(guān)注結(jié)構(gòu)預(yù)測(cè)這一個(gè)孤立的問題。在這樣一個(gè)背景下,我們就更加關(guān)注突變蛋白和多構(gòu)象預(yù)測(cè)等問題。
蛋白點(diǎn)突變實(shí)際上和很多疾病是有關(guān)系的。我們現(xiàn)在耳熟能詳?shù)囊恍┻z傳病,比如囊性纖維化和家族性阿茲海默綜合征都是由蛋白發(fā)生點(diǎn)突變導(dǎo)致的。現(xiàn)在AlphaFold2預(yù)測(cè)突變后蛋白的能力還很有限,主要因?yàn)閬碜詥涡蛄械耐蛔冃畔?huì)被MSA中信息掩蓋住。如果一個(gè)點(diǎn)突變發(fā)生后導(dǎo)致原有的殘基間的相互作用消失了,這類突變是相對(duì)容易研究的;AIRFold團(tuán)隊(duì)目前在這類問題中有一些進(jìn)展,我們可以利用HomoMiner有針對(duì)性的破壞MSA中對(duì)應(yīng)的信息。但是如果一個(gè)點(diǎn)突變導(dǎo)致這個(gè)殘基可以和其他殘基發(fā)生原來沒有的相互作用,這也會(huì)影響蛋白的結(jié)構(gòu)和功能,但是這一信息卻不容易引入MSA中。我們目前也在聚焦這類問題對(duì)HomoMiner進(jìn)行有針對(duì)性的優(yōu)化和改進(jìn)。
多構(gòu)象預(yù)測(cè)其實(shí)是蛋白結(jié)構(gòu)和功能以及藥物研發(fā)之間的另一道鴻溝。我們知道無論是AlphaFold2預(yù)測(cè)的還是實(shí)驗(yàn)解析的蛋白結(jié)構(gòu)其實(shí)都是靜態(tài)的。但是在酶、離子通道等重要蛋白發(fā)揮活性的時(shí)候,他們都很發(fā)生非常大的構(gòu)象變化,變化過程中不穩(wěn)定的中間狀態(tài),往往可能是更好更高效的藥物靶點(diǎn)。盡管通過分子動(dòng)力學(xué)模擬的方法可以研究蛋白的構(gòu)象變化,但是分子動(dòng)力學(xué)模擬往往會(huì)消耗較大的計(jì)算資源,而且不容易研究時(shí)間尺度較大的過程。目前我們也積累了一些關(guān)于多構(gòu)象預(yù)測(cè)的技術(shù)方法,我們團(tuán)隊(duì)通過深入分析AlphaFold在多構(gòu)象任務(wù)上的不足,開發(fā)了一系列輸入信息微調(diào)的流程,以可控的方式獲得大量具有高度多樣性的構(gòu)象。比如說在剛剛結(jié)束的CASP15中,我們遇到了經(jīng)典的蛋白激酶Scr蛋白變構(gòu)的問題(T1197),我們就使用目前開發(fā)的方法獲得了很多不同的構(gòu)象。后續(xù)我們也會(huì)深入挖掘概率生成式模型在多構(gòu)象預(yù)測(cè)上的潛力和可能性。
△CASP15比賽中的T1197蛋白
量子位:對(duì)AIRFold后續(xù)技術(shù)上還有哪些改進(jìn)方向?又有哪些應(yīng)用方向?
蘭艷艷教授:AIRFold本身更關(guān)注于深入利用同源信息,提高通用的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)預(yù)測(cè)表現(xiàn)。雖然相關(guān)的技術(shù)可以直接應(yīng)用到更復(fù)雜的場(chǎng)景下,但還存在一些局限性。從我們的角度來看,我們更期待對(duì)于一些學(xué)界業(yè)界關(guān)注的重點(diǎn)難題有更加令人滿意的解決方案,如對(duì)于抗體等特殊蛋白等處理,可變區(qū)域等預(yù)測(cè),以及l(fā)igand和protein在結(jié)合狀態(tài)的下的構(gòu)象預(yù)測(cè)等。我們團(tuán)隊(duì)正在持續(xù)地推進(jìn)這一部分的研究,同時(shí)我們也跟相關(guān)企業(yè)和科研單位進(jìn)行密切交流,希望能夠在大分子制藥等方向找到共同感興趣的關(guān)鍵性問題,并且開展深入合作。我們也期待未來有更多的優(yōu)秀研究人員加入到這個(gè)新興交叉科學(xué)領(lǐng)域,進(jìn)一步發(fā)揮AI的價(jià)值。
團(tuán)隊(duì)介紹
AIRFold來自清華大學(xué)智能產(chǎn)業(yè)研究院蘭艷艷教授團(tuán)隊(duì)。
蘭艷艷教授畢業(yè)于中國(guó)科學(xué)院數(shù)學(xué)與系統(tǒng)科學(xué)研究院,獲得概率論與數(shù)理統(tǒng)計(jì)專業(yè)理學(xué)博士學(xué)位,師從著名數(shù)學(xué)家馬志明院士,研究方向?yàn)樾畔z索,機(jī)器學(xué)習(xí)和自然語言處理。
△AIRFold團(tuán)隊(duì)
清華大學(xué)智能產(chǎn)業(yè)研究院(AIR)AI+生命科學(xué)團(tuán)隊(duì)招聘博士后/科研工程師/實(shí)習(xí)生,主要從事AI for Science的交叉學(xué)科研究,利用深度學(xué)習(xí)、自然語言處理、信息檢索等領(lǐng)域的前沿方法,解決交叉學(xué)科的各類挑戰(zhàn)性問題,技術(shù)創(chuàng)新將落地在AI制藥、健康計(jì)算等領(lǐng)域。
AIR將提供一流的科研平臺(tái)與創(chuàng)新氛圍,并提供有競(jìng)爭(zhēng)力的薪酬。其中,本科和碩士實(shí)習(xí)生,有機(jī)會(huì)成為擬2023年入學(xué)的博士生候選人(團(tuán)隊(duì)多位老師有計(jì)算機(jī)系直博名額)。
指導(dǎo)教師:馬維英教授/蘭艷艷教授/周浩副教授
簡(jiǎn)歷請(qǐng)發(fā)送至?airhr@air.tsinghua.edu.cn
郵件主題:醫(yī)療健康+姓名+申請(qǐng)職位
參考鏈接:
[1]https://mp.weixin.qq.com/s/ROeZYKvVJm-EBbhnDKZR1w
[2]https://air.tsinghua.edu.cn/info/1046/1200.htm
[3]https://www.sciencedirect.com/science/article/pii/S1097276522007547



