用AIGC搞藥物發現,大分子那種,來自Bengio核心團隊教授唐建新成果
改變AlphaFold傳統
衡宇 發自 凹非寺
量子位 | 公眾號 QbitAI
又一名AI大牛,為AI制藥領域帶來了新進展——
AlphaFold2僅僅是蛋白質結構建模邁出的第一步,現在可以基于結構進行蛋白質設計了!
最近在智源大會AI+生命科學論壇上,來自Mila實驗室的教授唐建介紹了團隊的最新成果,一同受邀參會的還有諾貝爾化學獎得主Arieh Warshel等知名學者。

相關論文《Protein Representation Learning by Geometric Structure Pretraining》已經被頂會ICLR’23接收,還在GitHub上開源。

研究團隊由深度學習三巨頭之一Yoshua Bengio的Mila實驗室、蒙特利爾大學、劍橋大學、IBM Research等機構組成。
在MILA這個學術界最大AI研究中心之一里,唐建任終身教授,同時也是該實驗室創辦以來唯一的華人教授。
其研究方向主要包括幾何深度學習、深度生成模型、知識圖譜以及這些方法在藥物發現中的應用。
AI 2.0浪潮下,唐建想做的事,是加速AI參與藥物設計逐漸走向從drug discovery(發現自然界存在的drug)到drug design(直接通過AI設計drug分子)的演變。
于是,延續之前的發展路線,所創AI驅動型生物制藥公司百奧幾何,近期將重點落到構建尋找新分子結構的生成式模型上。
蛋白質大分子的基礎模型,搞它!
唐建團隊的目標,是利用生成式AI,向藥物設計更進一步。
大分子藥物(蛋白質、抗體)在生物醫藥領域扮演著越來越重要的作用,有著廣泛的應用前景。

蛋白質的功能有三種不同的表示:一級序列,二級結構,三級空間結構。
大多數已有的蛋白質建模的方法是基于序列的方法。蛋白質的序列決定其3D結構,而結構決定功能。
因此,想要更好地理解蛋白質的功能,從基于結構的角度出發,是一條更好的技術路徑。
But!AlphaFold2只是在基于蛋白質結構的建模方向上走出了第一步。
唐建團隊做的事,是基于AIGC,進一步推進基于結構的大分子藥物設計。

首先基于蛋白質3D結構的表征學習,得到預訓練模型,在此基礎上就能做更精準的功能預測。
也就是前面介紹到的發表在ICLR’23的論文。
團隊首先提出GearNet和GearNet-edge,它們依賴稀疏邊緣消息(sparse edge message)的傳遞,來增強蛋白質圖中的序列和結構信息的捕獲。
在功能預測和折疊分類任務上,這個方法和最先進的基于序列預測蛋白質表征的方法相當(或優于),而且使用的預訓練數據更少。

第二步是更精準的結構預測。AlphaFold2主要是對主鏈進行了預測,對側鏈的預測不是很準確。
團隊提出扭轉擴散模型DiffPack,通過在扭轉空間上擴散和去噪,來學習側鏈扭轉角的聯合分布。

側鏈是蛋白質結構的構成部分之一,它的差異會帶來蛋白質結構和功能的差異。
搞清楚側鏈結構,能夠更精準地幫助藥物設計流程更快更準地抓住藥物和受體該在什么點位結合。
DiffPack包含了一個自回歸擴散過程,對準確度和速度的限制有所緩解。
實驗結果顯示,新方法在CASP13和CASP14上的角度和精度,分別提高了11.9%和13.5%,雙雙取得SOTA,且模型參數卻能減少60倍。

接下來,基于精準結構預測結果,就能更好完成蛋白質設計。
這部分用到了擴散模型。已有的工作如華盛頓知名教授David Baker組的工作RFDiffusion采用的是兩階段算法,首先生成結構,然后根據結構設計蛋白質序列。
唐建團隊提出了一個新算法,能夠同時對結構和序列進行設計。
也就是說,只需要利用同一個算法,就可以對大分子蛋白質的氨基酸序列和三維結構進行建模和設計,并展示二者之間的相互關系,從而生成具有特定功能的蛋白質。
迄今為止,團隊已經實現了抗體CDR Loop結構和序列的生成,還設計了具有指定個數的α螺旋跨膜蛋白。

其實唐建團隊這段征程里的主角,即蛋白質3D結構大模型,無論是模型參數和訓練數據量都遠不如最熱門的ChatGPT。
但因其用于垂直領域,還是生物制藥領域——人類的語言詞匯量多大幾千萬,而蛋白質的詞匯表只有20個——不那么龐大的參數和訓練量已經能夠滿足實際需求,達到比較好的生成效果。
而對訓練數據細究來處,有三個源頭:生物制藥領域公開數據、AlphaFold2等預測出的大分子結構、實驗室的自有數據。
來自最后兩個實驗室的訓練數據,被唐建團隊視為壁壘之一。
Bengio所領導的實驗室核心團隊唯一華人教授
2014年,唐建博士畢業于北京大學信息科學技術學院,其研究方向主要包括幾何深度學習、深度生成模型等。
而后,唐建遠赴美國,在CMU以及密歇根大學進行博士后研究。
2013年,恰逢深度學習興起,一直專注傳統機器學習領域的他在關注到ImageNet、Word2Vec等在深度學習領域取得了非常不錯的效果。
“當時我覺得自己的研究遇到了一定的瓶頸,所以也開始想轉向深度學習領域。”
唐建稱自己做了很多層面的思考,即便是要真的做出研究方向的調整,也想做自己能drive、相對獨立的研究,而不是隨大流進行“follow”。
最后,他尋找的的機會是用深度學習解決圖結構數據,成為國內利用DL研究圖結構數據的最早的一批人。
他作為一作的理論工作《Understanding the Limiting Factors of Topic Modeling via Posterior Contraction》獲得ML頂級會議ICML 2014的最佳論文。
此后,他在圖表示學習領域的工作LINE(《Line: Large-scale information network embedding》)引用次數超5300次,并多次在計算機頂會ICML、NeurlPS擔任領域主席。
再后來,因為對“21世紀是生物的世紀”這句話的深信不疑,他的研究逐漸集中在AI和生物交叉領域,在分子性質預測、結構性質預測上進行探索。
2017年12月起,唐建成為Mila實驗室(加拿大魁北克省人工智能研究中心)20余名教授中的一員,與深度學習三巨頭之一Yoshua Bengio一起,致力于推進AI for Science。
投身創業前,唐建團隊已經發布了藥物研發機器學習平臺TorchDrug。
并在一年后,即2022年9月,聯合英偉達、英特爾、IBM等公司,發布了針對大分子藥物研發的開源機器學習平臺TorchProtein。
平臺開源了深度學習對大分子建模的一個通用框架、基于蛋白質三維幾何結構的第一個預訓練大模型、以及專門用于評價深度學習對蛋白質建模效果的標準數據集。
唐建坦然表示,在接下來的進展中,這些公司也將成為百奧幾何在大模型研究中的國際合作伙伴,“這是我們與同行相比的優勢所在”。
TorchProtein發布的同時,公司宣布完成千萬美元天使輪融資。
現在,唐建白天醉心百奧幾何的技術研究,夜晚為遠在大洋彼岸的學生們指導。但這樣的工作模式并沒有讓他疲于應對或感到苦惱:
在兩者間取得平衡并不是難事,這反而讓公司團隊更具國際化優勢。
- 讀懂2025中國AI走向!公司×產品×人物×方案,最值得關注的都在這里了2025-12-10
- 誤入人均10個頂級offer的技術天團活動,頂尖AI人才的選擇邏輯我悟了2025-12-04
- DeepSeek-V3.2系列開源,性能直接對標Gemini-3.0-Pro2025-12-01
- 字節“豆包手機”剛開賣,吉利系進展也曝光了:首月速成200人團隊,挖遍華為小米榮耀2025-12-01



