科技動態(tài)
中國科大用深度學習實現高實驗成功率的蛋白質序列從頭設計
中國科學技術大學生命科學與醫(yī)學部劉海燕教授、陳泉副教授團隊與信息科學技術學院李厚強教授團隊合作,開發(fā)了一種基于深度學習為給定主鏈結構從頭設計氨基酸序列的算法ABACUS-R,在實驗驗證中,ABACUS-R的設計成功率和設計精度超過了原有統(tǒng)計能量模型ABACUS。相關成果以“Rotamer-Free Protein Sequence Design Based on Deep Learning and Self-Consistency”為題于北京時間2022年7月21日發(fā)表于Nature Computational Science。
劉海燕教授、陳泉副教授團隊致力于發(fā)展數據驅動的蛋白質設計方法,建立并實驗驗證了利用神經網絡能量函數從頭設計主鏈結構的SCUBA模型,以及對給定主鏈結構設計氨基酸序列的統(tǒng)計能量函數ABACUS。然而,通過優(yōu)化能量函數來進行序列設計的方法在成功率、計算效率等方面仍有不足。近期有多項研究表明,用深度學習進行氨基酸序列設計能夠在天然氨基酸殘基類型恢復率等計算指標上超過能量函數方法;但截至目前已正式發(fā)表的工作中,對相關方法的實驗驗證結果遠未達到能量函數方法的成功率。該論文報道的ABACUS-R模型,則不僅在計算指標上超過ABACUS,在實驗驗證中成功率和結構精度也有大幅提高。
用ABACUS-R進行序列設計的方法由兩部分組成(圖1)。第一部分為預訓練的編碼器-解碼器網絡:該網絡用Transformer把中心氨基酸殘基的化學和空間結構環(huán)境映射為隱空間表示向量,再用多層感知機網絡將該向量解碼為包括中心殘基氨基酸類型在內的多種真實特征(圖1a)。在方法的第二部分,經用非冗余天然蛋白序列結構數據訓練后,ABACUS-R編碼器-解碼器被用于給定主鏈結構的全部或部分氨基酸序列從頭設計。具體為:從任意初始序列出發(fā),對各個類型待定殘基分別應用ABACUS-R編碼器-解碼器,得到環(huán)境依賴的最適宜殘基類型,并反復迭代至不同位點的殘基類型最大程度自洽(圖1b)。
圖1. 用ABACUS-R模型進行蛋白質序列設計的原理。(a) 預訓練的編碼器-解碼器網絡;(b)采用自洽迭代策略進行全序列從頭設計。
在理論驗證的基礎上,中國科大團隊嘗試了實驗表征用ABACUS-R對3個天然主鏈結構重新設計的57條序列;其中86%的序列(49條)可溶表達并能折疊為穩(wěn)定單體;實驗解析的5個高分辨晶體結構與目標結構高度一致(主鏈原子位置均方根位移在1?以下)(圖2)。此外,與以前報道的從頭設計蛋白相似,ABACUS-R從頭設計的蛋白表現出超高熱穩(wěn)定性,去折疊溫度大多可達100℃以上。
圖2. 左側圖為實驗驗證采用的一個目標主鏈結構(天藍色)與相應ABACUS-R設計蛋白晶體結構(綠色)的疊合比較。在右側展示的局部結構放大圖中,ABACUS-R設計蛋白的殘基間氫鍵等極性相互作用不同于天然結構。
相較于ABACUS模型,ABACUS-R序列設計更高的成功率和結構精度進一步增強了數據驅動蛋白質從頭設計方法的實用性。ABACUS-R還提供了一種對蛋白質局部結構信息的預訓練表示方式,可用于序列設計以外的其他任務。
我校生命科學與醫(yī)學部劉海燕教授、陳泉副教授、信息科學技術學院李厚強教授為該論文通訊作者。生命科學與醫(yī)學部碩士生劉宇楓、博士生張璐、信息科學技術學院博士生王煒倫為該論文共同第一作者。該研究工作得到了科技部、國家自然科學基金委和中國科學院的資助支持。
原文鏈接:https://www.nature.com/articles/s43588-022-00273-6
(生命科學與醫(yī)學部、信息科學技術學院、微尺度國家研究中心、細胞動力學教育部重點實驗室、科研部)
來源:科大新聞網