武汉大学智能感知与机器学习组

课题组一篇论文被CCF A类会议ICML 2021录用，两篇论文被CCF A类会议IJCAI 2021录用

2021年05月21日

我组以19级硕士生王云柯为第一作者的论文被机器学习顶级会议ICML 2021成功录用，以20级博士生汝理想，19级硕士生王云柯为第一作者的两篇论文被人工智能顶级会议IJCAI 2021成功录用！

国际机器学习大会（International Conference on Machine Learning ，简称ICML）是由国际机器学习学会（IMLS）主办的机器学习国际顶级会议。今年举办的ICML 2021共收到有效投稿论文5513篇，其中仅有1184篇被接收，接收率为21.5%。国际人工智能联合会议（International Joint Conference on Artificial Intelligence, 简称IJCAI）是人工智能领域中最主要的学术会议之一。今年举办的IJCAI 2021共收到投稿论文4204篇，其中仅有587篇被接收，论文接收率低至13.9%。

论文介绍

论文题目：Learning to Weight Imperfect Demonstrations （ICML 2021）

作者：Yunke Wang, Chang Xu, Bo Du, Honglak Lee

论文概述：这篇论文主要解决的问题是如何在生成对抗模仿学习（GAIL）中为不完美专家演示加权。模仿学习期望智能体通过模仿专家的行为来进行学习，然而在许多现实世界的任务中专家也会犯错，由此产生的不完美专家演示将会严重误导智能体的学习。目前，已有的一些基于加权和偏好学习的解决不完美专家演示的方法往往依赖额外的先验信息，无法在更普遍和通用的模仿学习设置下使用。因此，本文提出了一种在生成对抗模仿学习的框架下为专家演示自动生成权重的方法，通过严格的数学证明，我们发现专家演示的权重可以在训练中由GAIL中的判别器和智能体策略估算得到。理论分析显示，当我们使用该估算的权重，智能体事实上在学习一个比原始给定的专家策略更优的策略。在Mujoco和Atari上的实验结果显示了算法的优越性。

图1 Mujoco中可视化权重，第一行是非最优演示权重，第二行是最优演示权重

论文题目：Robust Adversarial Imitation Learning via Adaptively-Selected Demonstrations ( IJCAI 2021 )

作者：Yunke Wang, Chang Xu, Bo Du

论文概述：模仿学习是一种智能体策略学习的方式。相比于强化学习中复杂的奖励设计环节，模仿学习直接通过给定的专家演示进行学习，因此能够更好地被应用到现实世界的任务中来。生成对抗模仿学习（GAIL）是目前表现最好的模仿学习算法，然而，其对于专家演示是最优的假设在现实世界中往往无法满足，这个问题很大程度上制约了GAIL在现实世界中的应用。本文提出了一种基于生成对抗模仿学习的新算法，新的算法能够自适应选择好的专家演示加入训练，同时去掉不好的专家演示。具体而言，每个专家演示都被赋予二分类权重，权重由Wasserstein GAIL中的回报函数决定。除了二分类权重，我们还进一步提出了soft加权机制。目前已有的加权方法往往需要关于该权重的先验信息，而我们的方法建立了权重和Wasserstein GAIL的联系，因此权重和GAIL模型可以作为一个整体来联合优化。理论分析证明了我们的方法可以收敛到鞍点，在Mujoco上的实验结果从多个角度证明了提出算法的优越性。

图2 算法对比表格说明了提出算法（SAIL）的优越性

图3 模型优化轨迹图说明了提出算法（SAIL）有Sample Efficiency的特性

论文题目：Learning Visual Words for Weakly-Supervised Semantic Segmentation ( IJCAI 2021 )

作者：Lixiang Ru, Chen Wu, Bo Du

论文概述：监督语义分割常用的类别激活图（CAMs）往往只关注物体最具有判别性的部分，这是因为分类网络在训练的过程中目的是区分不同的类别，而关注局部物体可以提高网络的判别性。本文提出在网络训练的过程中同时生成细粒度的视觉词汇信息，通过学习视觉词汇信息，使网络发现更多的物体区域。同时，CAMs中的激活区域还包括一些错误的邻域背景，为解决该问题，本文提出了一种基于混合池化的特征聚合方法，通过聚合局部判别性信息从而较少考虑图像中的背景信息。实验证明了所提方法的有效性，并在PASCAL VOC数据集的弱监督语义分割任务上超过了当前方法。

图4 类别激活图可视化结果，最后一行是提出的方法

Yunke Wang, Chang Xu, Bo Du, Honglak Lee, Learning to Weight Imperfect Demonstrations. ICML 2021

Yunke Wang, Chang Xu, Bo Du, Robust Adversarial Imitation Learning via Adaptively-Selected Demonstrations. IJCAI 2021

Lixiang Ru, Bo Du, Chen Wu, Learning Visual Words for Weakly-Supervised Semantic Segmentation. IJCAI 2021