Sigma课题组六篇论文被CCF A类会议AAAI 2023录用

  • 2022年12月05日
  • Sigma课题组六篇论文被CCF A类会议AAAI 2023录用

    我组以2020级博士生兰猛、徐洋洋,2021级博士生王云柯,2020级硕士生王对,2021级硕士生叶茂源、黎洪宇为第一作者的六篇论文被人工智能顶级会议AAAI 2023录用!

    AAAI会议(AAAI Conference on Artificial Intelligence)是由The Association for Advancement of Artificial Intelligence(国际人工智能协会)每年举办的学术会议,是人工智能领域公认的权威性顶级会议。AAAI 2023是第37届AAAI大会,会议将于2月7日至2月14日在美国华盛顿举行。AAAI 2023共收到提交的论文8777篇,其中仅1721篇论文被接受,总体接收率为19.6%。

    论文题目:Learning to Learn Better for Video Object Segmentation

    作者:Meng Lan, Jing Zhang, Lefei Zhang, Dacheng Tao

    指导老师:张乐飞教授

    论文概述: 半监督视频目标分割(semi-supervised video object segmentation,SVOS)旨在通过给定视频第一帧中指定目标的mask信息,算法可以自动分割后续帧中的指定目标。最近,基于联合学习的框架整合了基于匹配的归纳推理和在线归纳学习,实现了准确和鲁棒性能。然而,在两个分支中使用掩码嵌入作为标签来指导目标特征的生成,可能会导致目标表征较弱且降低性能。此外,如何合理地融合两个不同分支中的目标特征,而不是简单地把它们加在一起以避免一个分支占据主导地位而造成不利影响,还没有被研究过。在本文中,我们提出了一个新颖的LLB框架,强调为SVOS学习更好的目标特征。具体地,我们设计了辨识性标签生成模块(DLGM)将背景过滤后的帧作为输入,并采用轻量级编码器生成目标特征作为在线少样本学习器的标签和Transformer decoder中的value值,从而引导两个分支学习更具辨识性目标表示。我们提出自适应融合模块为每个分支学习一个权重,使得每个分支中的目标信息自适应地流向融合后的目标特征,从而防止一个分支占主导地位,使目标特征对干扰物更加鲁棒。在公共基准上进行的大量实验表明我们提出的 LLB方法实现了最先进的性能。

                                 图1 算法的框架图

                           图2 LLB和对比方法在两个基准数据集上的定量比较

    论文题目:DeMT: Deformable Mixer Transformer for Multi-Task Learning of Dense Prediction

    作者:Yangyang Xu, Yibo Yang, Lefei Zhang

    指导老师:张乐飞教授

    论文概述: 人类的视觉能力非常强大,可以从一个视觉场景中完成不同的任务,如:分类、分割、深度估计等。因此,多任务学习(Multi-task Learning, MTL)的研究是计算机视觉领域的热点。卷积神经网络(CNN)和Transformer都有各自的优势,并且都被广泛用于多任务学习中的密集预测。目前大多数关于多任务学习的研究只依赖于CNN或Transformer。在多任务学习背景下,基于CNN的模型能更好地捕捉了局部特征,但却缺乏全局建模和多任务之间交互。基于Transformer的模型更好地关注不同任务的全局信息。然而,他们忽略了任务特性,并会引入了许多计算成本。在这项工作中,我们结合Deformable CNN和Query-based Transformer的优点,提出了一种新的多任务学习模型,用于密集预测的多任务学习。我们的方法被命名为Deformable Mixer Transformer(DeMT),是基于一个简单有效的encoder-decoder结构(即Deformable Mixer Encoder和Task-aware Transformer Decoder)。首先,Deformable Mixer Encoder包含两种类型的运算器:利用通道感知的混合运算器去执行不同通道之间的通信(即有效的通道位置混合),以及空间感知的可变形运算器,其可形变卷积应用于有效采样更多信息的空间位置(即形变特征)。第二,Task-aware Transformer Decoder有任务交互模块和任务查询模块。前者应用于通过自注意力来捕获任务交互特征,后者利用形变特征和任务交互特征来生成相应的特定任务特征,通过一个Query-based Transformer,生成相应的任务预测。大量实验和可视化结果显示了我们方法的有效性。DeMT在多任务学习上的强劲表现可以证明将Deformable CNN和Query-based Transformer结合起来的好处。

                                 图1:算法模型的框架图

                                 图2:算法的定量结果

                                 图3:算法的定性结果

    论文题目:Unlabeled Imperfect Demonstrations in Adversarial Imitation Learning

    作者:Yunke Wang, Bo Du, Chang Xu

    指导老师:杜博教授

    论文概述: 对抗模仿学习(Adversarial Imitation Learning)是一种被广泛应用的模仿学习框架。相比强化学习,对抗模仿学习能够在不定义精准环境反馈的情况下解决序列决策问题。在对抗模仿学习中,判别器的训练旨在将智能体演示和专家演示严格视为负类和正类。接着,策略模型在判别器的指导下被期望产生和那些专家演示相似的轨迹。但是在现实世界的任务中,收集到的专家演示一般是不完美的,也就是只有一部分的专家演示是最优的。因此,相比直接把不完美的专家演示当作绝对的正类和负类,我们将不完美专家演示看作未标注数据。在此基础上,我们动态地从未标注数据分布中采样一部分能够和不断优化的智能体演示相匹配的轨迹。初始智能体的轨迹可能和那些非最优的专家演示相近,但随着对抗模仿学习的进行,智能体将会朝着欺骗判别器、并产生最优专家演示相近的轨迹的方向优化。理论分析建立了边缘分类损失函数与分布之间f散度的联系,进而将不同的分类损失和基于f散度的对抗模仿学习联系起来,为算法适配不同的对抗模仿学习框架提供了支撑。算法的收敛性分析展示了提出的算法实际上是按照课程学习的方式从未标记的专家演示中学习。在MuJoCo和RoboSuite平台中的实验结果从不同的角度展示了提出算法的优势。

                                 图1 算法定量结果

                           图2 MuJoCo智能体步态可视化

    论文题目:FedABC: Targeting Fair Competition in Personalized Federated Learning

    作者: Dui Wang, Li Shen, Yong Luo, Han Hu, Kehua Su, Yonggang Wen, Dacheng Tao

    指导老师:罗勇教授

    论文概述: 在联邦学习(FL)中,其关键核心之一是解决数据异构(Non-iid)问题。在现有解决方法中,个性化联邦学习(PFL)是一种主流方法,该方法为每个客户端学习一个个性化的本地模型,而不是学习一个全局模型。但是现有的个性化方法仅仅是在本地学习中引入正则项,或者改进模型聚合策略,而忽略了客户端本地数据呈现不均衡(Imbalanced)分布和有些类别没有正样本这一独特的数据分布,此时,引入Softmax函数,使得占据主导类别的分数会挤压剩余类别分数,从而带来不公平竞争,使得模型获得次优解。基于上述观察和动机,我们提出了基于二分类的个性化联邦学习方法FedABC。为了缓解Softmax和本地Imbalanced 数据带来的不公平竞争,FedABC为每个类别单独学习一个分类器,即采用了“一对多(one-vs-all)”的训练方式,这样拥有较少样本的类别和没有正样本的类别就不会受到挤压,从而缓解了不公平竞争问题。由于FedABC采用了“一对多”的训练方式,类别内依然存在正负样本不均衡问题,为了缓解类别内的数据不均衡问题,我们还采用了降采样和难例挖掘的学习方式,设计了一种针对二分类联邦学习方法的损失函数。为了验证FedABC的有效性,我们在CIFAR-10和MNIST上针对四种联邦学习数据异构分布设置进行了相应实验,实验结果表明,我们的方法可以有效地应对个性化联邦学习数据异构问题,并取得了SOTA性能。

                                 图1 算法模型的框架图

                                 图2 算法的定量结果

    论文题目:Dual Mutual Information Constraints for Discriminative Clustering

    作者:Hongyu Li, Lefei Zhang, Kehua Su

    指导教师:张乐飞教授

    论文概述: 深度聚类是机器学习和数据挖掘中的一项基本任务,旨在学习面向聚类的特征表示。在以往的研究中,大多数深度聚类方法都遵循自监督表示学习的思想,通过最大化所有相似实例对的一致性来提升聚类性能,然而这些方法忽略了特征信息冗余对聚类性能的影响。在本文中,针对上述问题,我们设计了一种基于深度对比聚类体系结构的双重互信息约束聚类方法DMICC,其中特别采用了双重互信息约束,方法具有扎实的理论保证和实验验证。 具体来说,在特征层面,我们通过最小化所有维度的互信息来减少特征之间的冗余,以鼓励神经网络提取更具辨别力的特征。在实例级别,我们最大化相似实例对的互信息以求得到更无偏和更稳健的表示。双重互信息约束同时发生,互为补充,共同优化得到更适合聚类任务的特征。我们还证明了我们采用的互信息约束在特征提取方面具有优势,并且所提出的对偶互信息约束是明确有界的和可解的。我们的算法在五个基准数据集的实验表明,我们提出的方法优于大多数其他聚类算法。

                                 图1 算法模型示意图

                                 图2 算法的定量结果

    论文题目:DPText-DETR: Towards Better Scene Text Detection with Dynamic Points in Transformer

    作者:Maoyuan Ye, Jing Zhang, Shanshan Zhao, Juhua Liu, Bo Du, Dacheng Tao

    指导老师:刘菊华教授,杜博教授

    论文概述: 近期基于DETR框架预测多边形点或贝塞尔曲线控制点以定位文本的方法在场景文本检测中相当流行。位置查询 (positional query) 的建模对模型的训练效率以及性能等方面至关重要。在现有方法中,粗糙的位置查询建模方式导致了次优的训练效率和性能。此外,在之前的工作中使用的点标签形式影射了人的阅读顺序,我们观察到这实际上降低了检测器的鲁棒性。本文提出了一种简洁的动态点场景文本检测模型DPText-DETR。DPText-DETR根据文本形状的先验直接编码显式点坐标生成位置查询,并在解码器层间渐进式地动态更新。此外,为了改善非局部性自注意力的空间归纳偏置以更好地挖掘同一实例内控制点query之间的关系,我们提出了一个增强因子化自注意力模块,在每个文本实例中为多边形控制点query提供显式的环形引导。同时,我们设计了一个简单有效的位置性标签形式,以改善原形式的负面影响。为进一步评估不同标签形式在真实场景中对检测器鲁棒性的影响,我们建立了一个包含500张手动标注图像的反向文本测试集。实验证明了我们的方法显著改善了模型的训练效率、鲁棒性,并在三个最主要的任意形状场景文本数据集上达到SOTA性能。

                                 图1 算法模型的框架图

                                 图2 算法的定量结果

    发表论文列表:

    [1]Meng Lan, Jing Zhang, Lefei Zhang, Dacheng Tao. Learning to Learn Better for Video Object Segmentation, AAAI 2023.

    [2]Yangyang Xu, Yibo Yang, Lefei Zhang. DeMT: Deformable Mixer Transformer for Multi-Task Learning of Dense Prediction, AAAI 2023.

    [3]Yunke Wang, Bo Du, Chang Xu. Unlabeled Imperfect Demonstrations in Adversarial Imitation Learning, AAAI 2023.

    [4]Dui Wang, Li Shen, Yong Luo, Han Hu, Kehua Su, Yonggang Wen, Dacheng Tao. FedABC: Targeting Fair Competition in Personalized Federated Learning, AAAI 2023.

    [5]Hongyu Li, Lefei Zhang, Kehua Su. Dual Mutual Information Constraints for Discriminative Clustering, AAAI 2023.

    [6]Maoyuan Ye, Jing Zhang, Shanshan Zhao, Juhua Liu, Bo Du, Dacheng Tao. DPText-DETR: Towards Better Scene Text Detection with Dynamic Points in Transformer, AAAI 2023.