CVPR 2022丨清华大学提出：无监督域泛化 (UDG)

发布人：计算机视觉工坊时间：2022-07-23 来源：工程师发布文章

导读

近日，清华大学崔鹏团队在CVPR 2022上发表了一篇工作，针对传统域泛化 (DG) 问题需要大量有标签数据的问题，提出了无监督域泛化 (UDG) 问题，旨在通过利用无标签数据进行预训练提升模型在未知域上的泛化能力，并为 UDG 提出了 DARLING 算法。该算法仅使用ImageNet 数据量 1/10 的无标签数据进行预训练即可在DomainNet上超过ImageNet预训练的效果。

1DG简介&现有DG的问题

目前深度学习在很多研究领域特别是计算机视觉领域取得了前所未有的进展，而大部分深度学习算法假设训练数据（应用前可获取的数据）和测试数据（实际应用中遇到的实例）是独立同分布的。当训练数据与测试数据分布不同时，传统深度模型对训练数据的充分拟合会造成其在测试数据上的预测失败，进而导致模型应用于不同环境时的可信度降低。

图1. 传统DG

越来越多的研究者开始研究模型迁移到未知分布数据的域泛化问题 (Domain Generalization, DG)，如图1所示。域泛化问题旨在通过模型对多个源域数据的学习来提高在未知目标域上的预测表现。

许多现有DG方法都依赖于充分的训练数据学习跨域不变的表征，但人工标注大量跨域数据开销极大或难以实现（比如医疗图片等特殊领域标注难度大，成本高）。并且现有DG算法均默认使用ImageNet上预训练的参数作为模型的初始化，而ImageNet作为若干个域的混合体，用作预训练可能会给模型引入偏差。例如对于DG的一个benchmark PACS数据集来说，ImageNet相当于其中的”photo”域，对于DomainNet数据集来说ImageNet相当于其中的”real”域，所以这个有类别标注的预训练过程相当于在DG数据中的一个域上进行，会引入在域上的偏差 (比如几乎所有的方法在”photo”和”real”域上的表现都是最好的)。

2无监督预泛化 (UDG) 问题

为了减少提升模型泛化能力对有标注的跨域数据的依赖，本文提出无监督域泛化问题，旨在使用无类别标注的数据提高模型在未知域上的泛化能力。实验证明使用异质性数据进行合适地无监督预训练在DG上的表现优于ImageNet 预训练策略。

无监督域泛化 (UDG) 问题如图2所示。在UDG中，为了避免ImageNet等预训练数据对DG问题带来的偏置，模型均采用随机初始化。模型使用用来自不同源域的无标签数据进行预训练，学到表征空间。然后模型在有类别标签的源域数据上进行训练，微调表征空间和学习分类器，最终在未见过的目标域上进行测试。预训练和训练数据的域之间可以有重叠，而所有训练数据 (包括有标签和无标签数据) 和测试数据之间没有域重叠。用于finetuning的有标签数据与测试数据共享相同的类别空间以支持模型学习表征到被别的映射。

图2. 无监督域泛化 (UDG) 问题3方法设计

近年来，自监督学习 (self-supervised learning) 取得了长足发展，以SimCLR v2、MoCo v2为代表的自监督学习算法利用大量互联网中易获取的无标签数据学习表征空间，消除了模型预训练对有标签数据的依赖，并在很多下游任务中超过了ImageNet预训练的效果。

一个直接的思路是将自监督学习的算法应用到无监督域泛化 (UDG) 问题中，从而利用大量易获取的无标签数据提高模型在未知领域上的泛化能力。而在UDG中，用以预训练的数据中存在强异质性，所以直接使用对比学习的方法会导致模型学习到域相关的特征而非物体类别相关的特征，所以在未见过的目标域上测试时无法准确识别物体类别。具体来说，对比学习的关键在于区分负样本对中的不同图片，如果负样本对中的图片来自不同的域，且这两种域非常容易区分 (如简笔画域与照片域)，则模型很容易根据域相关的特征来区分负样本对中的图片而不需学到真正对下游任务有效的信息 (如物体类别的特征)，所以这样学出来的特征空间在下游任务上表现较差。

基于以上的观察，本文提出了Domain-Aware Representation LearnING (DARLING) 算法来解决UDG预训练数据中显著且误导性的跨域异质性，学习与域无关而与物体相关的特征。DARLING的结构图3所示。

图3. DARLING 结构图

如前所述，现有对比学习方法采用的contrastive loss并未考虑数据中异质性的影响，即其计算方式为

其中为负样本队列,与为同一张图片经过两种预处理和编码得到的特征向量。而 DARLING考虑了负样本对中域差异的影响, 所以图片伪标签 (pseudo label) 的产生机制可建模为

其中为域d中的样本索引的集合。进而每张图片域的产生机制可建模为

其中函数h可以由一个参数为的卷积神经网络代表。故给定每个输入样本后, 其伪标签的预测概率可表示为

故DARLING的对比损失函数可表示为

从直觉上讲，一个负样本对中的两个样本的“域相关”的特征越接近，网络学习区分它们就会利用更多“域无关”的特征，所以由这种负样本对产生的训练损失权重应该较高；而反之当一个负样本对中的两个样本“域相关”的特征区别足够显著，则网络更倾向于利用“域相关”的特征进一步推远它们在表征空间中的距离，而这不利于下游任务，所以这种负样本对的损失权重应该降低。

DARLING利用一个子网络学习负样本对的域相似程度，并以之为其训练损失加权。极端情况下，如果每个负样本对中的两个样本都来自于同一个域，那么网络只能使用“域无关”的特征将其区分，所以学到的特征就关注于物体类别相关的特征。

另外，作为一个无监督预训练方法，DARLING学到的参数可以作为模型初始化与现有所有DG算法融合而进一步提升模型的泛化能力。

4实验结果

本文在PACS，DomainNet和CIFAR-C等数据集上验证了UDG问题的意义以及DARLING方法的有效性。

如表1所示，在DomainNet上，DARLING的表现优于所有现有SOTA无监督/自监督学习算法，且当预训练数据的类别数量越高时，DARLING相对于其他方法的提升越明显。

表1. DomainNet数据集结果

表2为DARLING与各SOTA算法在CIFAR-C上的结果，由于CIFAR-C中的域个数更多，所以我们可以使得预训练数据，训练数据和测试数据三者间不存在域重合且预训练数据与测试数据不存在类别重合，以完全避免预训练中任何情况的域信息或类别信息泄漏。DARLING在所有测试域上均超过了现有SOTA算法。

表2. CIFAR-C数据集结果

表3为DARLING与现有DG算法结合后在DomainNet上的结果，DARLING作为预训练模型初始化可以显著提高现有DG算法的泛化能力。

表3. DARLING与现有DG方法结合

图4为DARLING与ImageNet预训练的对比，当参与预训练的数据中物体类别超过100时DARLING的表现优于ImageNet预训练。请注意当物体类别数量为100时用于DARLING预训练的数据量和类别数量只有ImageNet的1/10，且这些数据是没有类别标签的。这充分说明了使用ImageNet预训练作为DG算法的初始化并非最好选择，使用远小于ImageNet数据量的UDG算法即可超越ImageNet预训练的效果，这也为未来的UDG算法提供了基础与展望的空间。