武汉大学智能感知与机器学习组

多特征学习

2017 年 7 月 2 日

近年来，在计算机视觉与模式识别领域，大量的研究聚焦于如何面向具有多特征属性的数据集建立机器学习模型。在这种数据集中，多特征 (或称为多视图)指的是通过不同的传感器或数据采集设备获取的不同的特征子集。例如，我们可以通过人脸、指纹、签名、虹膜等特征进行不同人的判别分析与识别，同样的，我们也可以通过图像的颜色、纹理等特征对其进行表示与检索。再如下图所示，a) 人物的重识别和基于稀疏网络摄像头的全球经济活动的理解，用到的视图有：颜色描述符、局部二元模式、局部形状描述、慢特征和基于多摄像头获取的时空背景；b) 科学文献管理用到的视图有：文档中的词语、描述信息文件 (如标题，作者和期刊)和共引网络图。多特征学习算法已经大量应用于3D重建、视频跟踪、人脸识别、场景分类等计算机视觉与模式识别领域。

传统的机器学习算法，如支持向量机、成分分析、判别分析、核方法和谱聚类等，将所有的视图连接成一个单一视图，以适应这些传统的算法。然而，在少量训练样本的情况下，这种连接会导致过拟合现象，而且这种做法是没有物理意义的，因为每个视图都有其特定的统计属性。不同于单视图学习，多视图学习作为一种新的学习模式，对于每个视图都用一个函数来描述，然后联合优化所有的函数，以利用输入数据的丰富信息并提高学习性能。因此，多视图学习已受到越来越多的关注。目前已有的多视图学习的研究主要集中在以下三个方面：(1) 协同训练；(2) 多核学习；(3) 子空间学习。其中，协同训练方法希望最大化数据集在不同特征上模型的一致性；多核学习对每个特征找到一个核表达，进而通过线性或非线性的方法找到最优的核组合方式；子空间学习方法希望找到原始多特征的一个共享的潜在特征子空间。