Nature子刊,|,青岛华大基因研究院等开发了可以准确预测gRNA效率的深度学习模型CRISPRon

CRISPRgRNAs的设计需要准确的靶向效率预测,这需要高质量的gRNA活性数据和有效的建模。在过去的十年中,已经开发了一些机器和深度学习方法来预测目标gRNA的活性。该研究表明慢病毒载体可以捕获内源性基因组位点的gRNA效率。

来源:iNature Life(ID:iNature_Lifes)

CRISPR gRNAs的设计需要准确的靶向效率预测,这需要高质量的gRNA活性数据和有效的建模。

2021年5月28日,来自青岛华大基因研究院和哥本哈根大学的研究团队在Nature Communications上在线发表了题为“EnhancingCRISPR-Cas9 gRNA efficiency prediction by data integration and deep learning”的研究论文,报告了10,592个SpCas9 gRNAs的靶向gRNA活性数据的生成,结合这些数据和补充性的公开数据,开发了一个深度学习模型CRISPRon,可以更准确的预测gRNA效率。

CRISPR/Cas9已被成功地用于原核生物、人类和许多其他生物体的可编程RNA引导的基因组编辑。一个成功的CRISPR基因编辑应用在很大程度上取决于对高效gRNA的选择。在过去的十年中,已经开发了一些机器和深度学习方法来预测目标gRNA的活性。

然而,其中一些模型在选择用于模型验证的参数和用于测试的数据方面表现出差异,这直接影响了这些工具的性能报告。例如,最近的Deep SpCas9变体模型的预测性能,当采用经典和非经典PAMs进行测试时,与仅基于经典PAMs的评估相比,似乎要高得多,这是gRNA设计的首选。虽然更先进的机器学习策略的应用对gRNA活性预测性能的影响相对较小,但通过增加训练数据的规模和质量,可以实现明显的改善。

最近在大规模数据上训练的模型仍然缺乏学习曲线的完全饱和,因此为进一步的数据驱动的改进留下了空间。目前,适合开发机器学习模型的gRNA效率数据量仍然很少,主要是由于各研究之间在实验设计和裂解评估方法方面的同质性较低,这可能与功能丧失有关。因此,必须从gRNA活性中产生与以前的研究相匹配的额外数据,以开发更准确的预测方法。

为了克服实验性靶标效率数据的稀缺性,以前的研究采用了数据增强等技术,在图像识别领域广为人知,通过在实验验证的gRNAs的输入序列中引入微小的改变来创造新的输入-输出对,同时考虑其输出,效率不受影响。然而,虽然两个镜像图像由高度不同的输入矩阵编码,但保持相同的原始含义,但增强的gRNA数据是高度冗余的,不能保证在裂解效率方面的一致性。因此,数据量仍然是改进预测器的主要瓶颈。

该研究表明慢病毒载体可以捕获内源性基因组位点的gRNA效率。使用这种方法,产生了10,592个SpCas9 gRNAs的靶向gRNA活性数据。在将其与补充性的已发表数据(共产生23,902个gRNA的活性数据)整合后,开发了一个深度学习预测模型CRISPRon,与现有的工具相比,它在独立的测试数据集上表现出明显更高的预测性能。

对管理gRNA效率的特征分析表明,gRNA-DNA结合能ΔGB是预测gRNA靶向活性的主要因素。此外,在CRISPRon独立软件的基础上开发了一个互动的gRNA设计网络服务器,两者都可以通过https://rth.dk/resources/crispr/和https://github.com/RTH-tools/crispron/上下载。

参考文献:

https://www.nature.com/articles/s41467-021-23576-0#Abs1

本文版权归原作者所有,文章内容不代表平台观点或立场。如有关于文章内容、版权或其他问题请与我方联系,我方将在核实情况后对相关内容做删除或保留处理!

随便看看别的百科