清华深圳国际研究生院师生多篇论文被29届ACM国际多媒体会议接收

前者可以根据输入图像的模态信息选择性地强调不同的通道,使网络关注各模态图像的有效特征;后者约束同类样本表征间的最大距离小于异类样本表征间的最小距离,提升了样本表征的类别判别度。

近日,清华大学深圳国际研究生院信息科学与技术学部师生团队的八篇学术论文被第29届ACM国际多媒体会议(Proceedings of the 29th ACM International Conference on Multimedia,ACMMM 2021)接收。

图1:DASE网络先结合模态信息将输入图像映射到512维的欧几里得空间,然后再将表征向量压缩至低维二值空间,加速检索过程。

2021级人工智能项目硕士生卢鹏(指导教师:杨文明副教授)发表论文《面向草图检索的乘性欧氏裕量Softmax度量的域判别激励网络模型研究》(Domain-Aware SE Network for Sketch-based Image Retrieval with Multiplicative Euclidean Margin Softmax)。该论文主要针对跨模态图像检索任务提出了基于模态先验的压缩——激励网络和带乘性欧几里得间隔的归一化指数损失函数。前者可以根据输入图像的模态信息选择性地强调不同的通道,使网络关注各模态图像的有效特征;后者约束同类样本表征间的最大距离小于异类样本表征间的最小距离,提升了样本表征的类别判别度。

图2:用于图像复原的混合阶注意力网络的框架:混合阶通道注意(mix-order channel attention,MOCA)模块由特征门控模块(feature gating block)和特征池化模块(feature pooling block)组成,可以捕获中间层的语义信息和丰富的特征统计信息。

计算机科学与技术研究所博士后戴涛(现为深圳大学计算机学院教师)与2020级计算机技术项目硕士生吕亚蕾(指导教师:夏树涛教授)联合发表论文《用于图像复原的混合阶注意力网络》(Mix-order Attention Networks for Image Restoration)。该论文主要提出了混合阶注意力模块,采用门控机制自适应地选择不同的高阶统计量提取特征,从而使该模块可以有效地捕获更丰富的统计信息,以计算更准确的注意力权重并提高神经网络的特征学习能力。

图3:WeClick框架:(a)教师网络训练过程(仅点标注作为监督);(b)学生网络训练过程(点标注训练+传统蒸馏训练+MFD训练);(c)学生网络推理过程。

2019级计算机技术专业硕士生刘沛东(指导教师:江勇教授)发表论文《WeClick:一种针对视频语义分割的点标注弱监督方法》(WeClick: Weakly-Supervised Video Semantic Segmentation with Click Annotations)。该论文首次针对视频语义分割提出点标注弱监督训练方式,仅需对视频帧的每个语义物体标注一个点作为训练标签,从而大大减少人工标注的成本,同时,为了进一步提升语义分割的性能,提出记忆流蒸馏模块,充分利用相邻帧的时序信息。

图4:MBnet框架示意图:输入图像首先由NET flow子模块计算前后帧光流(flow)信息,并由NET SR子模块完成空间域超分,再引导NET re子模块进一步优化到中间帧光流(Flow)结果,经过NET FI子模块完成时间域插帧。如果将插帧所得到的结果重新反馈给NET SR子网络可以进一步优化超分结果。

2019级电子与通信工程专业硕士生周成成(指导教师:卢宗庆)发表论文《视频超分辨率与视频插帧如何相互促进》(How Video Super-Resolution and Frame Interpolation Mutually Benefit)。该论文主要提出了一种时空域联合超分的视频画质增强方案,探究了空间域的超分辨率技术和时间域的插帧技术之间的关联信息,通过特征复用和信息交互的方案,以较少的参数量很好地实现了对低分辨率低帧率视频的画质增强效果。

图5:嵌入隐式特征细化模块(IFR)的实例分割网络架构图:(a)图为使用显式特征细化策略的两阶段实例分割头部网络;(b)图为使用显式特征细化策略的单阶段实例分割头部网络;(c)图为使用隐式特征细化策略的实例分割头部网络。注意:IFR模块可被融合到单阶段和两阶段实例分割算法当中。

2019级互联网+创新设计项目硕士研究生马露凡(指导教师:李秀教授)与旷视研究院高级研究员汪天才联合发表论文《用于实例分割的隐式特征细化方法》(Implicit Feature Refinement for Instance Segmentation)。该论文主要提出了一种新颖的隐式特征细化方法。基于深度均衡模型,以单个残差块参数模拟一个无限深度网络。通过不动点迭代生成具有全局感受野的high-level均衡特征,作为一个即插即用模块,可轻松扩展到实例分割、目标检测等大多数目标识别框架。

图6:VQMG模型示意图:输入图像首先由层次矢量量化变分自动编码器进行特征编码,然后送入多跳图卷积网络以从潜在的层次结构中推理复杂关系,生成包含内容和复杂结构信息的强辨别力的特征表示用于多媒体领域的下游任务。

2018级计算机科学与技术专业博士生李磊(指导教师:袁春副研究员)发表论文《VQMG:用于显式表示学习的分层向量量化和多跳图推理》(VQMG: Hierarchical Vector Quantised and Multi-hops Graph Reasoning for Explicit Representation Learning)。本文主要提出了一种用于进行图数据结构中多跳关系推理和显式表示学习的端到端学习框架。通过引入多跳图卷积网络,其包含的内部图可以有效地捕获来自分层潜在空间的复杂关系,而外部图则连贯地执行自回归先验的拟合以提高下游任务的性能。

图7:模型整体结构示意图:图像修复过程分为两个步骤:一是上半部分所示的边缘修复,采用单次(one-shot)推理策略;二是下半部分所示的RGB图修复,采用自适应迭代推理(AIR)策略。训练过程结合多种类型的损失,以促进修复网络多类型语义信息的学习。

2017级控制科学与工程专业博士生陈胜杰(指导教师:李秀教授)与阿里巴巴高级算法专家郭振华博士联合发表论文《一种探索更多信息的自适应迭代图像修复方法》(An Adaptive Iterative Inpainting Method with More Information Exploration)。该论文主要提出了一种可以学习多隐空间语义信息的自适应迭代图像修复方法。采用根据输入图像缺失面积自适应调整迭代推理次数的策略,保证修复效果的同时降低计算量。提出多离散隐空间感知损失和高饱和度域损失,提升模型的语义学习能力。

图8:视频响应系统组件示意图:该视频响应系统用于处理基于DASH的视频请求,包括请求处理模块、MEC选择模块、缓存管理器(部署在MEC内)、基站切换模块(位于EPC/5GC内)以及无线网络信息服务(RNIS)模块。

2017级计算机科学与技术专业博士生石婉欣(指导教师:江勇教授)发表论文《5G MEC场景下针对自适应视频流的用户体验驱动的多接入边缘计算选择方案》(QoE Ready to Respond: A QoE-aware MEC Selection Scheme for DASH-based Adaptive VideoStreaming to Mobile Users)。该论文提出了一种新的多接入边缘计算(MEC)选择方案,它综合考虑了基站切换和边缘缓存状态,从而为自适应视频服务实现更好的用户体验。首先设计了基于命中率和延迟的方法来选择MEC,并验证命中率和延迟可能并不是最重要的指标。最终提出了一种用户体验感知的方法来选择合适的方案,从而优化自适应视频流的传输。

国际多媒体会议作为世界多媒体领域顶级会议,也是中国计算机学会推荐的该领域唯一的A类国际学术会议,涵盖了多个新兴领域,致力于推动众多媒体的研究和应用,包括但不限于图像、文本、音频、语音、音乐、传感器和社交数据。会议鼓励利用完整、集成的方法跨模态地交换、处理和利用信息,并强调在每种媒介上进行的所有前沿研究都可能对日常生活和技术突破产生积极影响。

随便看看别的百科