Nature子刊|中科院深圳先进技术研究院郑海荣等开发了一种开源框架,有可能以有效的方式和较低的成本来改善医学图像诊断工作流程

自动医学图像分割在科学研究和医疗护理中起着关键作用。现有的高性能深度学习方法通常依赖于具有高质量人工注释的大型训练数据集,这在许多临床应用中很难获得。这项研究开发了一个用于医学图像分割的注释高效的深度学习框架,称之为AIDE,以处理不同类型的不完美数据集。该框架有可能以有效的方式和较低的成本来改善医学图像诊断工作流程。

自动医学图像分割在科学研究和医疗护理中起着关键作用。现有的高性能深度学习方法通常依赖于具有高质量人工注释的大型训练数据集,这在许多临床应用中很难获得。

2021年10月8日,来自中科院深圳先进技术研究院郑海荣、王珊珊等研究团队在Nature Communications上在线发表了题为“Annotation-efficient deep learning for automatic medical image segmentation”的研究论文,开发了一种开源框架,Annotation-effIcient Deep lEarning(AIDE),利用expert labals的效率提高了10倍,有可能促进广泛的生物医学应用。

医学成像对科学发现和医学的进步做出了重大贡献。将原始图像数据分割成结构化和有意义的区域,从而实现进一步的图像分析和量化,这对各种应用至关重要,包括解剖研究、疾病诊断、治疗计划和预后监测。随着全球医学成像的扩展和成像技术的进步,获得的医学图像数据量的增长速度远远超过了现有人类专家的解释能力。因此,需要自动化的分割算法来协助医生实现准确和及时的基于成像的诊断。

在过去的十年中,深度学习在自动医学图像分割方面取得了相当大的进展,在各种突破性的研究中表现出良好的性能。然而,深度学习方法对临床实践的适用性是有限的,因为它严重依赖训练数据,特别是训练注释。大型策划的数据集是必要的,但注释医学图像是一个费时、费力和昂贵的过程。根据需要分割的感兴趣的区域和局部解剖结构的复杂性,可能需要几分钟到几小时来注释一张图像。

此外,在深度学习模型的实际应用中,标签噪音是不可避免的。这种噪音可能来自于注释者的系统错误,以及注释者之间的差异。通常需要三个以上的领域专家来产生可靠的注释。数据中的任何偏差都会转移到学习模型的结果中。因此,缺乏大型和高质量的标记数据集被认为是监督下的深度学习应用于医学成像任务的主要限制。利用不完善的数据集进行学习,其注释有限(半监督学习,SSL),缺乏目标领域注释(无监督领域适应,UDA),或包含噪声注释(噪声标签学习,NLL)是临床应用中最经常遇到的三个挑战。

协同训练是SSL最普遍的方法之一,其工作原理是使用标记数据为两个互补的观点训练两个分类器,通过强制分类器预测之间的一致,为未标记的数据生成伪标记,并结合标记和伪标记的数据进行进一步训练。协同训练主要用于半监督的分类任务。直到最近,联合训练才被扩展到半监督的图像分割和分割模型的UDA。尽管取得了令人鼓舞的性能,但直接将协同训练方法用于NLL是有问题的,因为它们不具备区分准确和嘈杂标签的能力26,27。协同训练是在协同训练的基础上发展起来的,专门解决NLL的挑战,在网络优化过程中放弃可疑的高噪声样本。然而,通过丢弃样本进行数据过滤是一种低效的方法,可能会导致模型从伪现实的数据分布中学习;因此,当有足够的大数据集来覆盖所有不同的情况时,即使在丢弃数据后,联合训练方法也更适用于自然图像分类任务。

这项研究开发了一个用于医学图像分割的注释高效的深度学习框架,称之为AIDE,以处理不同类型的不完美数据集。AIDE被设计用来解决SSL、UDA和NLL的所有三个挑战。通过AIDE,SSL和UDA被转化为NLL,利用在有限的注释数据(SSL)或注释的源域数据(UDA)上训练的模型,为未标记的训练数据生成低质量的噪声标签。提出了一种跨模型的自我修正方法,以实现有效的注释网络学习。具体来说,跨模型共同优化学习是通过平行训练两个网络并进行跨模型信息交换来实现的。有了交换的信息,自我标签过滤和廉价噪声标签的修正就会根据观察到的小损失标准,在一个精心设计的时间表中逐步进行级联的局部和整体步骤。该框架对于要利用的深度神经网络(DNN)模型来说是灵活的。

总之,结果表明,DNNs能够在适当的指导下探索大型数据集的图像内容,而不需要高质量的注释。该框架有可能以有效的方式和较低的成本来改善医学图像诊断工作流程。

参考文献:

https://www.nature.com/articles/s41467-021-26216-9#code-availability

随便看看别的百科