清华大学深圳国际研究生院两篇论文入选国际表征学习大会(ICLR,2022)

通常强化学习方法需要大量的在线采样进行策略学习,然而在许多真实场景中,在线采样数据十分昂贵且危险,因此对于离线数据集的利用具有十分重要的意义。本文主要研究完全离线条件下的多目标强化学习问题,即利用固定的离线数据集学习一个可以泛化到整个目标空间的策略。

近日,国际表征学习大会(International Conference on Learning Representations,简称ICLR)公布论文录用名单,深圳国际研究生院信息学科李秀教授团队和江勇教授/夏树涛教授团队的两篇论文被录用,两篇论文分别在多目标强化学习和目标跟踪模型训练等方面作出创新研究。

WGCSL学习框架图

论文《基于加权监督学习的离线多目标强化学习方法(Rethinking Goal-Conditioned Supervised Learning and Its Connection to Offline RL)》的第一作者为控制工程专业2019级硕士研究生杨瑞,导师为李秀。

通常强化学习方法需要大量的在线采样进行策略学习,然而在许多真实场景中,在线采样数据十分昂贵且危险,因此对于离线数据集的利用具有十分重要的意义。本文主要研究完全离线条件下的多目标强化学习问题,即利用固定的离线数据集学习一个可以泛化到整个目标空间的策略。作者利用目标引导监督学习(GCSL)方法简单和稳定的性质,并将其推广到完全离线强化学习的设定下,提出了一种十分有效且具有理论基础的方法,即“重要性加权的目标引导监督学习”,简记作WGCSL。

本文通过考虑累计折扣奖励来重新审视GCSL的理论基础,推导出加权形式的监督学习优化目标。作者为了从离线数据集中学习更优的策略并提高学习效率,提出折扣重标签权重(Discounted Relabeling Weight)和目标引导指数优势权重(Goal-conditioned Exponential Advantage Weight),来得到更加通用的加权方案;为了应对离线多目标强化学习中的多模问题,引入了最佳优势权重(Best Advantage Weight)来提升策略的收敛性能;为了评估离线多目标强化学习算法的性能,本文开源了一个基准离线数据集,包括机械臂和仿真手操作等十个具有挑战性的多目标任务。实验结果表明,WGCSL在完全离线的多目标任务中明显优于当前的基线算法,尤其在困难的仿真手操作任务和在随机策略收集的数据集中学习时WGCSL优势最为显著。

WGCSL整体流程图

论文《针对目标跟踪的后门攻击 (Few-Shot Backdoor Attacks on Visual Object Tracking)》的第一作者为数据科学和信息技术专业2020级博士研究生李一鸣和计算机技术专业2019级硕士研究生钟昊翔,指导老师为江勇,研究工作同时获得了夏树涛的指导与支持。

现有的后门攻击大多数是针对图像分类任务设计的有目标攻击,顾名思义,后门攻击旨在训练过程中通过某种方式给被攻击模型植入后门(backdoor),攻击者可以通过预先设定的特定触发器(trigger)激活后门,在后门未被激活时,被攻击的模型具有和正常模型类似的表现,而当模型中埋藏的后门被攻击者指定的触发器激活时,模型的输出变为攻击者预先指定的标签(target label),以达到攻击者的恶意目的。后门攻击可以发生在训练过程非完全受控的很多场景中,例如使用第三方数据集、使用第三方平台进行训练、直接调用第三方模型,因此对模型的安全性造成了巨大威胁。本文揭示了目标跟踪 (visual object tracking, VOT)模型在训练过程中的后门威胁,并根据目标跟踪任务的特性,提出了一种简单而有效的攻击框架,即使后门触发器只出现在视频的少量帧甚至是单帧中,也可成功激活被攻击模型中存在的后门。研究团队在公开数据集和真实物理场景中均证实了方法的有效性和对潜在防御方法的抵御效果,并分析了所提方法生效的具体机制和具有代表性的被攻击模型行为。

国际表征学习大会是深度学习领域的顶级会议,聚焦有关深度学习各个方面的前沿研究,在人工智能、统计和数据科学领域以及机器视觉、语音识别、文本理解等重要应用领域中发布了众多极其有影响力的论文。

随便看看别的百科