有望治愈癌症!微软开源新模型,诺奖级重大突破
添加书签
今天凌晨,微软在官网开源了,最新动态蛋白质生成模型BioEmu-1。
BioEmu-1能在单个GPU上每小时生成数千种蛋白质结构,生成效率比传统 MD 模拟提高了几个数量级。这种超高效率的蛋白质生成,可以帮助医学家更全面、快速地了解靶点蛋白质的动态变化,设计出有效治疗癌症等绝症药物。
例如,p53 是一种重要的肿瘤抑制蛋白,其突变与多种癌症的发生密切相关。但p53 的结构复杂且动态变化非常大,传统方法很难设计出有效的靶向药物。通过BioEmu-1可以快速生成p53蛋白数千种变体结构,帮助医生找到稳定的结合点,设计出准确的治愈癌症药物。
此外,每位癌症患者的肿瘤细胞都具有独特的基因突变和蛋白质表达谱。而BioEmu-1 可以根据患者特定的基因序列预测蛋白质的结构变化,提供个性化癌症治疗方案
开源地址:https://github.com/microsoft/bioemu
有网友看到这个新蛋白质模型激动表示,就是现在!治愈癌症!
生物技术领域的又一次颠覆性突破
研究界一定在欢呼庆祝!
癌症迟早成为历史。
微软真是在搞一些硬核科技啊!
BioEmu-1架构简单介绍
BioEmu-1采用了类似于DistributionalGraphormer的模型架构,但在训练方法上进行了大幅度创新。从输入的蛋白质序列开始,BioEmu-1首先通过一个复杂的序列编码器提取单个和成对表示。
这个编码器基于AlphaFold 2中的evoformer模块,利用多层Transformer网络来捕捉序列内部各位置之间的依赖关系。
每个氨基酸被映射到高维向量空间,作为后续操作的基础。再通过多次自注意力运算计算序列中各个位置之间的相似度矩阵,从而捕获全局依赖关系。
接着,通过跨层连接和残差连接进一步加工和提炼特征,确保模型能够更好地处理长序列和复杂的结构模式。这些序列表示随后被送入一个去噪扩散模型,该模型逐步生成粗粒度的蛋白质结构。
在去噪扩散模型中,BioEmu-1定义了一个前向扩散过程,其中每一步都向输入数据添加少量噪声,直到最终变成完全随机的状态。然后,通过学习逆向过程中的条件概率分布,逐步去除噪声,最终生成目标样本。
为了提高效率,BioEmu-1采用了一种新颖的二阶积分方法,使得每次去噪步骤只需进行少量迭代即可达到较好的效果。还通过引入注意力机制,BioEmu-1确保模型在处理不同尺度的结构时具备良好的不变性和鲁棒性,避免局部噪声对全局结构的影响,保证生成的蛋白质结构具有较高的准确性。
在训练过程中,BioEmu-1的数据处理流程分为预训练和微调两个阶段。预训练阶段利用了超过2亿条来自AFDB数据库的蛋白质序列,并进行了多级过滤和聚类,最终得到约5万个具有多样化结构的序列簇。
这些序列簇不仅覆盖了广泛的蛋白质家族,还包含了丰富的结构信息。然后研究人员对这些序列簇进行了进一步增强,通过多结构增强技术,将每个序列簇中的代表性序列与其他结构相结合,生成多样化的训练样本。
BioEmu-1测试数据
为了验证BioEmu-1的有效性,研究人员设计了一系列测试案例,涵盖了多种类型的蛋白质。例如,在快速折叠蛋白的测试中,BioEmu-1展示了其卓越的速度优势,仅需数百小时的GPU时间即可完成一次完整的折叠过程,而传统的MD模拟则需要数十万小时。
更重要的是,BioEmu-1生成的结构与实际观测结果高度一致,平均绝对误差控制在较小范围内
对于CATH域,BioEmu-1不仅能够准确预测二级结构,还能捕捉到结构灵活性的变化。特别是在处理复杂蛋白如Complexin II时,BioEmu-1同样表现出色,其螺旋含量和回转半径的预测结果与两种全原子力场高度一致。
此外,在预测人类血管紧张素转换酶2的构象柔性方面,BioEmu-1成功揭示了ACE2在不同构象下的动态特性,证明了其在解析生物大分子相互作用及预测蛋白质功能方面的巨大潜力。
本文素材来源微软,如有侵权请联系删除