Nature,发现新病毒的开源计算工具和数据库

2022年1月26日Nature报道,加拿大的ArtemBabaian研究团队开发了一种名为“Serratus”的云计算平台,能够进行PB级别的序列比对,目前已经检测到超过10万种新型病毒,其中9种冠状病毒和300多种与丁型肝炎病毒相关的病毒,并鉴定出了超过105个新型RNA病毒。病毒已经对世界经济与人类健康造成巨大冲击。

编译整理|吴晓燕 生物科技战略研究中心

2022年1月26日Nature报道,加拿大的Artem Babaian研究团队开发了一种名为“Serratus”的云计算平台,能够进行PB(1PB=1024TB)级别的序列比对,目前已经检测到超过10万种新型病毒,其中9种冠状病毒和300多种与丁型肝炎病毒相关的病毒,并鉴定出了超过105个新型RNA病毒。

病毒已经对世界经济与人类健康造成巨大冲击。病毒学家估计仍然存在数以万亿计的未知病毒,而且很多都具有致死性。基于云的计算工具为新病毒检测提供了强大工具。目前的公开数据库比如SRA(Sequence Read Archive)上有PB级别的序列,并且可以自由访问。研究人员将这些信息镜像上传至云平台Serratus(免费且开源,https://serratus.io)上,并利用Serratus对超过短序列数据集进行了分析。这些数据集包含过去13年来七大洲四大洋研究过的所有动物。

为了鉴定含有与病毒相关序列的文库,研究者筛选了3,837,755个公共RNA-seq、meta-genome、meta-transcriptome和meta-virome数据集并与所有的冠状病毒以及脊椎动物病毒序列进行对比,之后与所有的RNA依赖RNA聚合酶(RNA-dependent RNA polymerase,RdRP)序列进行比对,鉴定出了已知的15,016个sOTU(species-like operational taxonomic units)和131,957个未知sOTU。据估计病毒的种类约为108-1012,这个数据只有预计的0.1%。

图:SRA中的RNA依赖RNA聚合酶|来源:Nature

考虑到新冠病毒在这两年的流行情况,研究人员尝试利用Serratus在已有的数据集中挖掘冠状病毒,发现了70个sOTU,其中44个已经被报道,17个含有部分RdRP,9个为新型冠状病毒。

综上所述,在新冠病毒流行的背景下,本研究利用将这几年互联网的热点概念“云计算”应用在序列比对上,通过对公共数据库进行挖掘,新发现了超过10万个新的RNA病毒,拓展了我们对于病毒世界的认识,有助于我们预测并防范未来的病毒大流行。

参考文献|Petabase-scale sequence alignment catalyses viral discovery 识别二维码可预览原文↘

随便看看别的百科