详情

首页手游攻略 Nat. Methods | RNAbpFlow: 碱基配对促进RNA三维结构生成

Nat. Methods | RNAbpFlow: 碱基配对促进RNA三维结构生成

佚名 2026-07-02 09:56:52

DRUGONE

尽管深度学习极大推动了生物分子建模,但由于 RNA 分子高度柔性,且可用进化序列和同源结构信息有限,准确预测 RNA 三维结构仍然困难。研究人员提出 RNAbpFlow,这是一种同时以 RNA 序列和碱基配对信息为条件的 SE(3) 等变 Flow Matching 模型,用于生成 RNA 三维结构构象集合。该方法采用核碱基中心表示,能够端到端生成全原子 RNA 结构,不需要显式或隐式使用进化信息,也不依赖同源结构模板。实验结果表明,引入碱基配对条件后,RNAbpFlow 在 RNA 拓扑采样和预测建模的大规模基准测试中,相比现有方法取得了更广泛、更稳定的性能提升。

RNA 三维结构解析已成为结构生物学中的关键问题,尤其随着 RNA 药物和 RNA 靶向小分子治疗的发展,精确理解 RNA 的三维构象对于设计具有特定功能的 RNA 分子和推动 RNA 介导的药物发现具有重要意义。然而,RNA 天生具有较强构象柔性,这给 X 射线晶体学、核磁共振和冷冻电镜等实验结构解析方法带来很大挑战。因此,计算 RNA 结构预测逐渐成为填补 RNA 结构空间空白、理解 RNA 构象动态的重要工具。

传统 RNA 三维结构预测方法包括基于模板的方法,以及依赖物理势能、知识势能或片段库的建模方法。这些方法受限于蛋白质数据库中 RNA 结构数量稀缺,并且计算成本较高,尤其不适合大型、复杂拓扑 RNA 的快速预测。近年来,受 AlphaFold2 在蛋白质结构预测中的成功启发,多种基于深度学习的 RNA 结构预测方法被提出。然而,许多方法仍依赖多序列比对或生物语言模型隐式学习的同源信息,而可靠 RNA 多序列比对本身并不容易获得。此外,许多现有方法没有充分利用 RNA 的二维碱基配对信息,尤其是非经典碱基配对和复杂拓扑中的关键相互作用。由于 RNA 通常不是单一静态结构,而是多个构象状态的分布,因此还需要能够从序列和碱基配对条件出发,直接生成全原子 RNA 三维构象集合的新方法。

方法

研究人员提出RNAbpFlow,一种基于 SE(3) 等变 Flow Matching 的条件生成模型,用于单链 RNA 单体的全原子三维结构生成。模型以 RNA 序列和碱基配对图作为条件输入,碱基配对信息来自三种互补注释方法,从而覆盖经典和非经典碱基配对相互作用。RNAbpFlow 采用核碱基中心表示,将每个核苷酸表示为刚体框架,并通过预测旋转、平移和可旋转键角度,端到端重建全原子 RNA 结构。该设计避免了后处理几何优化模块,使大规模结构采样更高效。训练过程中,研究人员还引入以碱基配对为中心的辅助损失,使模型更好地实现输入的经典和非经典碱基配对约束。

图1|RNAbpFlow 方法框架。

结果

RNAbpFlow 框架概述

RNAbpFlow 建立在 FrameFlow 的基础上,将 RNA 序列中的每个核苷酸表示为由平移和旋转定义的刚体框架。模型从高斯噪声初始化的核苷酸框架开始,在 RNA 序列特征和碱基配对图的条件引导下,通过迭代采样逐步生成 RNA 三维结构。模型不仅生成骨架原子,还通过预测多个扭转角恢复核糖、磷酸骨架和碱基的全原子坐标。因此,RNAbpFlow 能够以端到端方式生成全原子 RNA 三维结构,并显式建模核碱基方向和柔性。

RNA 结构集合生成性能

研究人员首先将 RNAbpFlow 与 RNAJP 进行比较。RNAJP 是一种基于粗粒度分子动力学模拟的 RNA 三维结构采样方法,显式考虑碱基配对、碱基堆叠和长程环—环相互作用。在包含三路连接结构的 12 个 RNA 靶标基准集中,RNAbpFlow 每个靶标生成 1,000 个三维结构样本,并在 TM-score 和 lDDT 两项指标上均优于 RNAJP。RNAbpFlow 的平均 lDDT 为 0.66,高于 RNAJP 的 0.59;平均 TM-score 为 0.38,高于 RNAJP 的 0.32。更重要的是,RNAbpFlow 生成正确折叠结构的比例更高,说明它不仅能产生更好的最优结构,也能更高效地采样全局拓扑和局部构象。

图2|RNAbpFlow 与 RNAJP 的采样性能比较。

CASP15 靶标上的性能

在 CASP15 RNA 靶标上,研究人员将 RNAbpFlow 与多种基于物理、知识和深度学习的 RNA 三维结构预测方法进行比较。当输入准确的天然碱基配对信息时,RNAbpFlow 的平均 TM-score 达到 0.48,全原子 RMSD 为 7.77,非 Watson–Crick 碱基配对保真度为 0.62,明显优于其他方法。当使用预测的碱基配对信息时,RNAbpFlow 的性能有所下降,但仍在多数指标上优于 DRfold、NuFold、trRosettaRNA 和 RhoFold 等深度学习方法。对于包含非经典相互作用和假结的复杂 RNA,RNAbpFlow 也表现出更好的碱基配对保真度,尤其在非经典碱基配对和碱基堆叠恢复方面更具优势。

CASP16 靶标上的性能

在 CASP16 盲测靶标中,研究人员重点评估了长度不超过 200 个核苷酸的 14 个 RNA 靶标。RNAbpFlow 不使用多序列比对或模板信息,仅依赖预测碱基配对作为条件输入,但在平均最大 TM-score 和 lDDT 上超过了两个 CASP16 表现最好的自动服务器方法 AF3-server 和 Yang-Server。对于进化信号较弱、MSA 较浅的困难靶标,RNAbpFlow 表现尤其突出,说明在 RNA 同源序列信息不足的情况下,碱基配对条件建模具有明显优势。

与本地运行的 AlphaFold3、NuFold、trRosettaRNA2 和 DRfold2 相比,RNAbpFlow 也取得了更好的平均最大 TM-score 和 lDDT。在 14 个小于等于 200 个核苷酸的 CASP16 靶标中,RNAbpFlow 在 12 个靶标中生成了至少一个正确折叠结构,而 AlphaFold3 为 8 个靶标。对于超过 200 个核苷酸的大型 RNA,RNAbpFlow 仍优于 NuFold、trRosettaRNA2 和 DRfold2,但略低于 AlphaFold3。研究人员认为,这主要是因为大型 RNA 的预测碱基配对质量较差,限制了 RNAbpFlow 的条件生成效果。

图3|RNAbpFlow 与先进方法在 CASP16 靶标上的比较。

数据增强、微调和碱基配对准确性的贡献

研究人员进一步分析了交叉蒸馏数据增强、使用预测碱基配对微调,以及碱基配对准确性对 RNAbpFlow 的影响。结果显示,交叉蒸馏训练能够显著提升性能。当使用预测碱基配对时,加入蒸馏训练后,平均最大 TM-score 从 0.50 提高到 0.57,平均最大 lDDT 从 0.61 提高到 0.69。当使用实验碱基配对作为输入时,性能进一步提升,平均最大 TM-score 达到 0.68,平均最大 lDDT 达到 0.77。这说明 RNAbpFlow 的性能上限很高,但高度依赖输入碱基配对的准确性。

进一步使用预测碱基配对进行微调后,RNAbpFlow 的平均最大 TM-score 提升到 0.61,并显著改善平均 TM-score 和 lDDT,从而缩小了预测碱基配对与实验碱基配对之间的性能差距。研究人员还发现,RNAbpFlow 会高度遵循输入的碱基配对条件:当输入天然碱基配对时,输出结构与输入高度一致;当输入有噪声的预测碱基配对时,模型也会较强地复现这些不准确约束。因此,碱基配对预测质量是影响 RNAbpFlow 下游三维结构生成质量的关键因素。

消融实验

为了评估碱基配对信息的重要性,研究人员在 RNA3DB 的非冗余测试集上进行了消融实验。模型分别使用三种不同碱基配对注释图、三者组合,以及完全不使用碱基配对信息进行训练和推理。结果显示,三种碱基配对图联合输入时性能最好,平均最大 TM-score 和 lDDT 分别达到 0.51 和 0.71。相比仅使用序列条件的基线模型,TM-score 平均提升 41.7%,lDDT 平均提升 54.3%。这表明,碱基配对信息在 RNA 三维结构生成中起关键作用。

研究人员还评估了辅助损失的贡献。移除任意与碱基配对相关的辅助损失都会降低采样质量,说明碱基配对中心的训练监督有助于模型更忠实地实现输入的经典和非经典相互作用。

图4|碱基配对条件提升 RNA 三维结构生成质量。

讨论

本研究开发了 RNAbpFlow,一种以序列和碱基配对为条件的全原子 RNA 三维结构生成方法。该方法基于 SE(3) 等变 Flow Matching,不依赖多序列比对、同源结构模板或隐式进化信息,而是利用 RNA 的碱基配对信息直接生成全原子三维结构集合。实验结果表明,引入碱基配对条件可以显著提升 RNA 结构生成和预测性能,并且性能提升与输入碱基配对质量密切相关。

RNAbpFlow 的重要意义在于,它为 RNA 构象集合生成提供了一个快速、端到端、全原子级别的深度生成框架。与传统单一结构预测不同,RNAbpFlow 可以生成大量候选构象,从而更适合研究 RNA 构象动态。它不依赖同源序列和模板,因此特别适用于进化信息稀缺、结构同源性弱的 RNA 靶标。

不过,RNAbpFlow 也存在明显局限。首先,其采样和预测性能高度依赖输入碱基配对信息的准确性。对于大型 RNA,当前二维结构预测器给出的碱基配对图质量下降,进而限制三维结构生成性能。其次,当前模型尚未专门针对超长 RNA 优化,未来可能需要更多长 RNA 训练数据,以及更适合长序列建模的架构,例如局部感知消息传递和稀疏注意力机制,以提高长程信息传递效率。

未来,RNAbpFlow 可以进一步扩展,不仅引入碱基配对信息,还可结合多序列比对、化学探针反应性数据、近邻连接或交联实验约束等额外信息,以改善困难靶标的预测精度。同时,探索更多开放可用的碱基配对注释流程,也可能进一步提升训练标注质量、模型鲁棒性和整体预测准确性。总体而言,RNAbpFlow 为 RNA 三维结构建模提供了一种兼具数据驱动和结构先验的新范式,有望推动 RNA 结构预测、RNA 动态构象研究和 RNA 药物设计。

整理 | DrugOne团队

参考资料

Tarafder, S., Bhattacharya, D. RNAbpFlow: base pair-augmented SE(3) flow matching for conditional RNA 3D structure generation. Nat Methods (2026).

https://doi.org/10.1038/s41592-026-03128-4

内容为【DrugOne】公众号原创|转载请注明来源

本文参与腾讯云自媒体同步曝光计划,分享自微信公众号。原始发表:2026-06-30,如有侵权请联系[email protected] 删除
相关资讯
点击查看更多
游戏推荐
推荐专题
热门阅读
推荐下载