分享一篇发表在Nature Methods上的文章,文章标题“Geometric deep learning of protein–DNA binding specificity”,文章的通讯作者是来自南加州大学的Remo Rohs教授,其课题组致力于DNA结构方面的研究。
预测蛋白质与DNA的结合特异性是一项必要而又充满挑战的任务。一方面,它有助于我们理解基因调控,了解蛋白质靶向特定DNA序列的结构机制;另一方面,蛋白质能够以不同特异性与多种DNA序列结合,但相应的结构信息却并非总是可及。本文,作者基于几何深度学习方法提出了DeepPBS模型,用于预测蛋白质-DNA的结合特异性。DeepPBS以蛋白质-DNA复合物结构作为输入,以预测的DNA上每个位置的核苷酸偏好性作为主要输出。作者利用二分图的方法分别处理蛋白质和DNA结构。蛋白质以重原子图表示,而DNA结构以成对称螺旋(sym-helix)表示。需要指出的是,在对称螺旋的表示中,DNA的序列信息并非必需的。DeepPBS以平均绝对误差作为评估指标。具体而言,对于给定长的DNA序列,计算每个位置处目标核苷酸与预测核苷酸概率的绝对值,最后求取平均。作者在不同蛋白质家族上测试了DeepPBS上的表现。模型对于不同蛋白质家族并未呈现明显的倾向性,对于结构较少的家族如热休克因子蛋白,模型也表现良好。在模型应用上,作者指出DeepPBS也可接受预测的蛋白质-DNA复合物结构。同时,可以将模型的预测结合特异性作为反馈,进一步优化DNA序列,以增强蛋白质-DNA的结合特异性。另外,在针对特定DNA序列的蛋白质支架设计过程中,DeepPBS也能够提供有益的帮助。原文链接:https://doi.org/10.1038/s41592-024-02372-wDOI:10.1038/s41592-024-02372-w