复旦类脑智能科学与技术研究院冯建峰团队产学研合作,模拟人脑联想感知机制提出三维目标检测通用框架

基于激光雷达的三维目标检测技术是机器人和自动驾驶领域最重要的模式识别任务之一。如何针对点云的稀疏性和不规则性设计鲁棒的特征表达,从而提升检测精度,是目前亟待解决的关键难题。复旦大学类脑智能科学与技术研究院冯建峰教授团队联合百度视觉技术团队和南京一汽自动驾驶团队,提出了一种基于人脑联想感知机制的三维目标检测通用框架。

基于激光雷达的三维目标检测技术是机器人和自动驾驶领域最重要的模式识别任务之一。如何针对点云的稀疏性和不规则性设计鲁棒的特征表达,从而提升检测精度,是目前亟待解决的关键难题。复旦大学类脑智能科学与技术研究院冯建峰教授团队联合百度视觉技术团队和南京一汽自动驾驶团队,提出了一种基于人脑联想感知机制的三维目标检测通用框架。8月11日,相关研究成果以《AGO-Net:基于关联引导的三维点云目标检测网络》(“AGO-Net: Association-Guided 3D Point Cloud Object Detection Network”)为题在线发表于全球人工智能领域顶尖期刊《IEEE模式分析与机器智能汇刊》(IEEE Transactions on Pattern Analysis and Machine Intelligence,简称TPAMI)。该成果为自动驾驶三维目标检测技术提供了全新的研究思路。

图1.IEEEExplore(Early Access)

人类在驾驶车辆行驶的过程中,无论前方的车辆是否被遮挡或者距离远近,都能够快速准确地判断车辆的位置姿态,这得益于大脑的“脑补”能力,只需要一些车辆大致的轮廓信息和特征,就可以根据记忆中车辆的概念模型,推理想象出完整的车辆及其位置姿态。这种“脑补”的能力就是人在感知目标过程中会进行的“联想感知”。

从认知心理学的角度,这一过程可以分为两个阶段:第一阶段是以“观察者为中心”的表征阶段,在这个阶段中,目标的特征是从观察者的视角呈现的,这一阶段又被称为2.5D的表征阶段,2D指图像,0.5D指双目视觉产生的深度信息;二阶段是以“目标自身为中心”的表征阶段,在这一过程中,观测到的目标特征会与存储在大脑中的3D概念模型进行关联,该3D指不受观测角度影响,可以自由旋转的完整模型。在人脑感知物体的过程中,这种关联是自发进行的。

受联想感知的启发,研究团队通过模拟人脑感知物体的方式,搭建了一种高效且鲁棒的通用3D目标检测框架,使得神经网络能够“脑补”出缺失的特征信息。具体而言,传统的算法通常直接对不完整点云进行编解码检测,而研究团队提出的算法基于特征域适配技术,将高维鸟瞰图视角下真实的不完整目标点云编码特征,与同类别的完整模型特征进行关联,从而使网络学习利用现有的点云上下文信息补全出完整点云,从本质上提升了网络提取特征的完整性以及检测的精度,同时不引入额外的计算资源。

图2.AGO-Net网络分为四个部分:(a)基于感知的不完整点云特征编码网络PerceptualFeatureEncoder(PFE);

(b)基于概念的完整点云特征生成网络ConceptualFeatureGenerator(CFG);

(c)特征域适配;(d)迁移加权模块SC-reweight。

研究团队给出了AGO-Net的网络结构以及其背后对应的生物模型(图2)。据介绍,红色框内的PFE是真实场景点云的特征编码网络;对于灰色框内的CFG,算法首先利用同源点云数据补全不完整的目标点云,生成概念场景,再提取特征,该特征提取模块将被预先训练好,最后在训练整体网络时固定权值,提供稳定的完整目标特征;黄色标出的部分是特征关联模块,通过域适配算法优化缩减两个高维编码的特征距离,实现特征关联;网络训练完成以后,只需使用PFE就可以进行网络的推理预测。

综上所述,AGO-Net将高维编码特征从真实场景提取的不完整点云特征域(Perceptual感知域),迁移至虚拟场景提取的完整点云特征域(Conceptual概念域),建立起了不完整和完整点云特征间的关联,模拟了人脑的联想感知机制,挖掘了神经网络对稀疏和被遮挡点云的信息补全能力。由于算法在推理阶段不需要引入额外的模块,因此在提升精度的同时不影响网络的推理速度,且易于集成到其他先进的三维目标检测算法中。本研究提出的算法在KITTI,nuScenes,Waymo等自动驾驶权威数据集上取得了目前最先进(state-of-the-art)的指标结果。

该研究工作的第一作者是复旦大学类脑智能科学与技术研究院博士研究生杜量,通讯作者为冯建峰教授。相关工作得到了上海市“脑与类脑智能基础转化应用研究”市级科技重大专项、国家自然科学基金和计算神经科学与类脑智能教育部重点实验室的支持。

近年来,复旦大学以冯建峰、薛向阳、张军平、付彦伟等为核心研发力量的自动驾驶产学研合作团队,围绕领域关键核心技术深耕细作、持续攻关,自2019年至今,已就零样本学习及开集图像分类识别、行人重识别、物体3D性状构建、步态识别算法先后发表了5篇IEEE TPAMI研究成果。未来,研发团队将继续与产业界聚焦“AI大数据”与“AI自动驾驶”两大主业,实现中国首个纯视觉L4级自动驾驶车队产业化落地,共同推进人工智能算法创新及应用在自动驾驶领域的应用。

论文链接:https://ieeexplore.ieee.org/document/9511841

本文版权归原作者所有,文章内容不代表平台观点或立场。如有关于文章内容、版权或其他问题请与我方联系,我方将在核实情况后对相关内容做删除或保留处理!

随便看看别的百科