國產AI蛋白質結構預測再現突破,用單條序列解決3D結構,彭健團隊:“AlphaFold2以來最后一塊拼圖補齊了”
AlphaFold2沒做到的它做到了
萬博 發自 凹非寺
量子位 | 公眾號 QbitAI
計算生物領域,出現一則最新進展:
AI預測蛋白質3D結構,僅通過單條蛋白序列就能搞定。
也就是說,AI預測蛋白質結構,可以不需要蛋白質進化過程中的同源信息。一些人工設計的蛋白質藥物和工業合成用酶,也可以通過AI預測3D結構,確定其對人體的功能。
達成這一成就的AI算法名為OmegaFold,在最近的全球持續蛋白質預測競賽中,整體預測能力已經與DeepMind此前開發的AlphaFold2,和華盛頓大學開發的RoseTTAFold不相上下,甚至有些指標優于后兩者。
研究成果來自國內AI創新藥物公司華深智藥,一家成立不到一年的中國初創企業,孵化自張亞勤旗下的清華大學智能產業研究院。
AI預測蛋白質結構不再需要同源信息
據華深智藥披露,其最新開發的OmegaFold算法,實現了用單一蛋白質序列預測蛋白質3D結構的能力。
而且在測試準確度上,和AlphaFold2和RoseTTAFold不相上下。
同時在測試速度,快于AlphaFold2和RoseTTAFold。
具體測試過程,是這樣的:
研究團隊分別對CASP和CAMEO的蛋白質數據集進行了測試,其中CASP數據集有29個蛋白質,CAMEO數據集有146個單鏈蛋白質。
(PS:這里的CASP和CAMEO,是蛋白質結構預測領域最重要的兩項比賽)
作為對比,在測試中,研究團隊在上OmegaFold僅輸入單一蛋白質序列,對 AlphaFold2和RoseTTAFold,則是在默認模式下輸入多重序列(MSA)。
最終,CAMEO數據集測試,OmegaFold預測的蛋白質3D結構,平均局部距離差異測試(LDDT:全球結構預測領域主要評價指標)得分為0.82。
而AlphaFold2與RoseTTAFold的得分,分別是0.75和0.86。
CASP數據集的測試結果,OmegaFold的平均TM分值*(評估蛋白質結構拓撲學相似性的常用指標)為0.79,與AlphaFold2不相上下,不過略低于RoseTTAFold 0.81的分數。
研究團隊表示,從結果來看,采用單序列進行預測的OmegaFold,已經整體達到或超越了采用多序列預測的AlphaFold2和RoseTTAFold。
而且,研究團隊還發現,因為只采用單一序列預測蛋白質的3D結構,因此在AI算法的訓練和預測速度上,也有很大提升,蛋白質結構預測時間,可以被壓縮到數秒內。
Helixon團隊還同時發現,僅通過氨基酸序列來預測三維結構,不僅減少了同源序列所帶來的噪音,還能夠提高訓練和預測的計算速度,使得蛋白質結構可以在數秒內被預測完畢。
基于此,研究團隊用OmegaFold,對兩類缺乏蛋白質同源進化信息的蛋白質,抗體蛋白質和孤兒蛋白質進行結構預測。
結果發現,OmegaFold在這兩類蛋白質,尤其是抗體的關鍵功能區結構預測,有突破性的進展。
而這類缺乏蛋白質同源進化信息的蛋白質,恰好是AlphaFold2和RoseTTAFold無法到達的盲區。
對此,華深智藥創始人彭健認為,這項研究成果意味著:
蛋白質3D結構預測,并不需要同源序列的存在,也不需要知道任何進化信息。
而華深智藥表示:
OmegaFold的出現補全了蛋白質三維結構預測的最后一塊拼圖。
另外,華深智藥還披露了OmegaFold背后的技術細節。
具體來看,OmegaFold能夠用單一序列取代多重同源序列,是因為研究團隊采用了一種,基于幾何信息的深度學習模型——OmegaPLM。
該學習模型可以根據蛋白質的序列信息,預測原子坐標,同時經過訓練學習,預測原子在三維空間的距離。
在不斷的迭代之后,可以讓這些預測出來的原子坐標和距離,滿足基本的幾何定律,最終形成蛋白質結構。
OmegaFold的能力,和背后的技術原理整明白了,最后還剩下一個問題:
華深智藥是誰?
公開信息顯示,華深智藥是一家AI創新藥物研發商,成立于2021年6月,總部位于北京,最早是由張亞勤旗下的清華大學智能產業研究院孵化而來。
早在去年12月份,華深智藥開發的HeliXonAI算法,就在全球持續蛋白質結構預測競賽CAMEO上,實現對AlphaFold2的反超,以84.0的lDDT預測精確度得分,刷新了CAMEO競賽得分記錄。
一家成立半年左右的初創企業,出道即巔峰。
而巔峰背后的關鍵先生,就是華深智藥創始人彭健。
彭健,伊利諾伊大學厄巴納-香檳分校(UIUC)計算機科學系及醫學院終身教授,計算生物領域的知名大牛,機器學習與蛋白質結構和功能預測的頂級科學家。
他在博士期間設計的著名算法 RaptorX,以及在UIUC任教期間設計的DeepContact算法,多次在CASP比賽中獲得領先的成績,并很早就嘗試將深度學習的技術引入這個領域。
彭健也因此在2016年獲得有“諾獎風向標”之稱的斯隆研究獎,并于2020年獲得計算生物領域最高獎奧弗頓獎(Overton Prize),成為該獎項20年來首位華人得主。
去年6月,彭健看到AI在生物制藥領域的應用前景,于是就在清華大學智能產業研究院孵化之下,正式創辦華深智藥。很快便完成了千萬美元級天使輪融資。
同時在今年6月,成立一周年之際,華深智藥又完成由五源資本領投,高榕資本、Neumann Capital以及三家天使輪投資方襄禾資本、高瓴創投、清智資本跟投的A輪融資,融資金額近5億元人民幣。
參考鏈接:
[1]https://helixon.s3.amazonaws.com/omegafold.pdf
[2]https://twitter.com/peng_illinois/status/1538536909814874113
- 數學家教你烤肉餅:按最佳時機翻面可節省近1/3烹飪時間,網友:想去漢堡王應聘廚子了2022-08-22
- 包攬數理化國際奧賽全部第一,全員金牌,網友:中國隊太秀了2022-07-19
- 減肥人士要哭:食物不吃看看也不行,因為你的大腦會發炎2022-07-18
- 語言AI原來知道自己的回答是否正確!伯克利等高校新研究火了,網友:危險危險危險2022-07-15



