《Science》子刊,监督学习模型预测蛋白质对碳纳米管的吸附

工程纳米颗粒,在生物技术应用中具有优势,包括生物分子传感和传递。然而,在生物系统中测试纳米技术的兼容性和功能需要一种启发式的方法,但不可预测的蛋白质冠形成阻碍了它们的有效实施。在此,来自美国加州大学伯克利分校的MarkitaP.Landry等研究者,利用质谱数据开发了一个随机森林分类器,用于识别仅基于蛋白质序列吸附在纳米颗粒上的蛋白质。

工程纳米颗粒,在生物技术应用中具有优势,包括生物分子传感和传递。然而,在生物系统中测试纳米技术的兼容性和功能需要一种启发式的方法,但不可预测的蛋白质冠形成阻碍了它们的有效实施。

在此,来自美国加州大学伯克利分校的Markita P. Landry等研究者,利用质谱数据开发了一个随机森林分类器,用于识别仅基于蛋白质序列(78%准确率,70%精确性)吸附在纳米颗粒上的蛋白质。相关论文以题为“Supervised learning model predicts protein adsorption to carbon nanotubes”发表在Science Advances上。

论文链接:

https://www.science.org/doi/10.1126/sciadv.abm0898

设计优异的纳米颗粒,可以改变人们进行生物传感、成像和传递的方式:纳米材料,可以在其他不可接近的生物环境中进行定位,并显示出高度可调的物理化学特性,以定制功能。模式识别技术,包括机器学习技术,提供了一条以高通量的方式描述蛋白质-纳米颗粒相互作用的途径,这种方式贯穿了纳米颗粒在不同生物系统中应用的广泛设计空间。先前的工作开创了这一想法,应用随机森林分类来预测在生物相关环境中吸附到银纳米粒子的蛋白质,并已扩展到更大的纳米粒子库。然而,某些方面还有待改进,比如设置一个蛋白质被归类为冠内或冠外的阈值,以及更广泛地将这些策略应用到非球形纳米颗粒上。

在此,研究者开发了一个分类器来研究蛋白质的氨基酸序列和蛋白质与碳纳米管的结合倾向之间的关系。研究者的目的有两个:其中之一,是预测在生物环境中蛋白质与SWCNT的相互作用。这些知识,将为纳米颗粒的有效生物应用,提供抗生物污染策略的实施。研究者的第二个目标:是预测SWCNTs的高亲和力蛋白结合物以及与这种结合亲和力相关的蛋白特征,以改善蛋白质-纳米颗粒结构设计的过程。

为此,研究者构建并优化了一个用于SWCNTs上蛋白质吸附的随机森林分类器(RFC)。研究者将蛋白质特性(源自蛋白质序列数据)与SWCNTs上的蛋白质是否处于冠状相(通过定量质谱蛋白质组学实验确定)之间联系起来。具体而言,由于(GT)15-SWCNTs已被证明可用于多巴胺感知,研究者重点研究了其蛋白冠的形成;然而,工作流可推广到其他纳米颗粒,正如研究者简要地演示了聚苯乙烯纳米颗粒(PNPs)。研究者使用基于MS的蛋白质组学数据,来训练他们的分类器,这些数据表征了(GT)15-SWCNTs在两种相关生物环境中形成的冠状结构:静脉环境(血浆)和脑环境(脑脊液(CSF))。研究者发现,他们的分类器可以精确地针对吸附在纳米颗粒上的少量蛋白质。此外,研究者确定了最重要的蛋白质特性之间的种群分布变化,以洞察他们的分类器如何区分积极的目标。

图1 测定(GT)15-SACNTS冠相内与冠相外蛋白质的RFC流程和开发。

图2 分类器的性能结果在不同的生物流体训练数据集和不同的蛋白质特征输入。

图3 在(GT)15-SACNTS上,冠相外蛋白(红色)与冠相外蛋白(蓝色)的前4个归一化特征值的分布。

图4 预测蛋白与(GT)15-SACNTS结合的蛋白冠动力学。

综上所述,研究者应用监督学习方法,开发了一个分类器来预测ssDNA功能化SWCNTs上的蛋白质吸附,准确率为78%,AUC为76%,精密度为70%,召回率为65%。研究者扩展了之前预测蛋白质冠的工作,通过(i)利用定量蛋白质冠数据,(ii)重新定义冠阈值,与相应的预测概率,(iii)建立一种基于蛋白质氨基酸序列的蛋白质分类方法,(iv)实验证实了在溶液阶段与未修饰的蛋白质的吸附。

该机器学习算法允许人们快速解析公共数据库中的蛋白质属性,以确定SWCNTs上冠形成的蛋白质特征和感兴趣的蛋白质。所开发的分类器,为预测有望参与生物沉积的关键蛋白和合理设计的纳米生物技术中候选蛋白的快速预筛选提供了初步工具。

本文来自微信公众号【材料科学与工程】,未经许可谢绝二次转载至其他网站,如需转载请联系微信公众号mse_material

本文版权归原作者所有,文章内容不代表平台观点或立场。如有关于文章内容、版权或其他问题请与我方联系,我方将在核实情况后对相关内容做删除或保留处理!联系邮箱: yzhao@koushare.com

随便看看别的百科