博客专栏

EEPW首页>博客> ICLR2023 | 2D Transformer 可以帮助3D表示学习吗?(3)

ICLR2023 | 2D Transformer 可以帮助3D表示学习吗?(3)

发布人:计算机视觉工坊 时间:2023-07-04 来源:工程师 发布文章
三、预备知识3.1 基于Transformer的3D点云表示

与规则网格上的图像不同,点云被认为是不规则和结构较弱的。许多工作致力于为点云数据设计深度学习架构,利用点集的排列和平移不变性进行特征学习。

  • 不仅仅依赖于这样的专门主干,还利用Transformer主干,这样更容易与其他模态(如图像和语言)统一,并促进跨模态的知识传递。

  • 使用专门的点网络计算局部几何块嵌入,并将其馈送给Transformer以输出更有效的几何表示。


局部几何块嵌入

假设有一个点云,其中N个坐标编码在笛卡尔空间中,

  • 按照Yu等人(2022)的方法,首先使用最远点采样(FPS)选择个种子点。
  • 然后将点云 P 分组为个邻域,其中种子点集的中心作为组的中心。每个邻域包含 K 个点,这些点是通过搜索对应种子点的K个最近邻点生成的。
  • 在每个种子点周围计算局部几何特征,通过在邻域内对每个点的特征进行最大池化得到:

其中:

  • 是一个具有参数θ的点特征提取器,例如中的逐点MLP,是邻域中第 j 个邻点的特征。
  • 将邻域特征作为标记特征,用于输入接下来的Transformer块。
Transformer点特征编码

使用标准的Transformer块作为编码器,进一步转换局部块嵌入,其中C是嵌入大小。

按照Yu等人的方法,使用一个具有可学习参数ρ的两层MLP作为位置嵌入,应用于每个块以实现稳定的训练。

式中,MSA表示多头自注意的交替层,LN表示分层范数,MLP为两层,其中GELU为非线性。是一种可学习的全局表示嵌入,以作为其可学习的位置嵌入。

3.2 知识蒸馏:掩码建模的统一视角

掩码建模可以看作是经典自编码器(DAE)的扩展,其中采用了掩码损失,最近已经在语言模型和视觉领域进行了探索。

  • 形式上,给定一个由个 token 组成的序列,例如RGB图像或点云数据的标记嵌入。
  • 目标是训练一个学生编码器来预测/重建来自教师编码器的输出,其中教师可以是离散变分自编码器(dVAE)或简单的恒等映射。

通过这种方式,学生在教师的指导下学习数据中的深层知识。

  • 为了损坏输入数据,为每个位置生成一组掩码,指示标记是否被掩码。

  • 使用可学习的损坏嵌入来替换被掩码的位置,将损坏的表示输入到编码器或****。这里,表示Hadamard乘积,是指示函数。

在某个度量空间中定义了距离函数作为****,目标是最小化以下距离:

****随着建模目标的不同而变化,例如,它是BERT的非线性投影,带有softmax ,其中度量函数变成交叉熵。可以看作是掩模建模的统一公式。

因此,考虑如何在掩码3D建模中建立一个知识渊博的老师是很自然的。作者的想法是利用2D或语言基础模型中的跨模式教师。



四、ACT: 自编码器作为跨模态教师

目标是通过预训练的2D图像或语言Transformer来促进3D表示学习,该模型具备从大规模数据中吸收的深层知识。

然而,3D点云与2D图像或语言具有不同的结构,这使得细粒度知识的关联变得困难。

为了解决这个问题,采用了一个两阶段的训练过程。ACT框架的概述如图1所示。

  • 阶段I:调整预训练的2D或语言Transformer作为3D自编码器,通过自监督的提示调整来学习理解3D几何。
  • 阶段II:使用预训练的3D自编码器作为跨模态教师,通过掩码建模将潜在特征蒸馏到3D点云Transformer学生中。
4.1 3D自编码与预训练基础Transformer

Transformer是最近在各个领域中主导的架构,可以以统一的方式对任何模态的序列数据进行建模。

  • 因此,可以直接使用预训练的Transformer块,将顺序标记与输入点云的3D位置嵌入一起进行输入。
  • 本文使用轻量级的DGCNN对点云进行处理,其中的边缘卷积层通过参数θ表示。
跨模态嵌入与提示
  • 首先,使用DGCNN风格的补丁嵌入网络对点云进行编码,产生一组标记嵌入:
  • 然后,通过提示这些标记嵌入,并将其输入到预训练且冻结的Transformer块的D层中,例如2D Transformer:。在这里,使用来表示 2DTransformer 的第层。

使用个可学习的提示嵌入,应用于Transformer 的每一层。具体来说,Transformer的第将隐含表示从第层转换为,如下所示:

使用这种参数高效的快速调整策略,能够调整预训练的基础Transformer,同时保留尽可能多的预训练知识

点云自编码

另一个DGCNN网络用于从基础Transformer嵌入的隐藏表示中提取局部几何特征。然后,利用FoldingNet对输入点云进行重构。

将以上3D自编码器作为离散变分自编码器(dVAE)进行训练,以最大化对数似然。这里表示原始和重构的点云。

整体优化目标是最大化证据下界(ELBO),当时成立:

其中:

  1. 表示离散的3D dVAE tokenizer;
  2. 是给定离散点标记的dVAE****;
  3. 以自编码方式重构输入点云。
4.2 掩码点建模作为跨模态的知识蒸馏

通过训练3D自编码器,预训练Transformer的强表示被转化为3D特征空间,使自编码器自动成为一个跨模态教师。

将在4.1节中介绍的预训练点云编码器作为教师,将3D Transformer作为学生。

通过掩码建模作为跨模态知识蒸馏,最小化编码后的教师特征与学生特征之间的负余弦相似度:



五、实验5.1下游任务迁移学习迁移学习设置

在分类任务中使用迁移学习的三种变体:

(a) FULL: 通过更新所有骨干和分类头来微调预训练模型。

(b) MLP- linear: 分类头是单层线性MLP,只在微调时更新该分类头参数。

(c) MLP-3: 分类头是一个三层非线性MLP(与FULL中使用的相同),只在微调时更新这个头的参数。

3D真实数据集分类

首先展示了在具有挑战性的现实数据集ScanObjectNN上对3D形状识别的评估。结果如表2所示,其中可以观察到:

(i) 与FULL调优协议下从头开始的Transformer基线相比,ACT在三个不同的ScanObjectNN基准测试上平均获得了+10.4%的显着改进。此外,通过简单的点云旋转,ACT实现了+11.9%的平均改进;

(ii) 与明确以三维几何理解为目的设计的方法相比,ACT`始终取得更好的结果。

(iii) 与其他自监督学习(SSL)方法相比,在ScanObjectNN上,ACT在所有方法中实现了最好的泛化。此外,在ScanObjectNN上使用纯3D Transformer架构的方法中,ACT成功地达到了最先进(SOTA)的性能,例如,在最具挑战性的PB_T50_RS基准测试中,ACT比Point-MAE的准确率高出+3.0%。

表2:ScanObjectNN上的分类结果。our1:没有数据增强的训练结果。

Ours2:简单点云旋转训练的结果。DA:在微调训练期间使用数据增强。报告总体精度,即OA(%)。

图片

3D场景分割

大规模3D场景的语义分割具有挑战性,需要对上下文语义和局部几何关系的理解。在表4中,报告了S3DIS数据集的结果。可以看到:

(i) ACT显著提高了从零开始的基线,mAcc和mIoU分别提高了+2.5%和+1.2%。

(ii) ACT比SSL对应的Point-MAE分别高出+1.2%和+0.4%的mAcc和mIoU,在大场景数据集上显示出优越的传输能力。

(iii) 仅使用几何输入xyz, ACT可以实现与使用xyz+rgb数据进行细致设计的架构相当或更好的性能,包括3d特定的Transformer架构。

表4:S3DIS区域5上的语义分割结果。报告了所有类别的平均准确性和平均IoU,即mAcc(%)和mIoU(%)。使用Xyz:点云坐标。xyz+rgb:同时使用坐标和rgb颜色。

图片

3D合成数据集分类

展示了在合成数据集ModelNet40上对三维形状分类的评估。为了证明在有限的训练样例下ACT的数据效率特性,首先遵循Sharma & Kaul(2020)来评估 few-shot 学习。

从表5中,可以看到:

(i) 与从头开始的FULL转移基线相比,ACT在四种设置下分别带来了+9.0%,+4.7%,+8.7%,+6.2%的显着改进。

(ii) 与其他SSL方法相比,ACT始终实现最佳性能。

然后,在表3中展示了完整数据集上的结果,在表3中我们观察到,与FULL协议下的从头基线相比,ACT实现了+2.5%的准确率提高,并且结果与所有协议中的其他自监督学习方法相当或更好。

表3:ModelNet40数据集上的分类结果。报告总体精度,即OA(%)。[ST]:标准Transformer架构。

图片

表5:在ModelNet40上的Few-shot分类,报告了总体准确率(%)。

图片

5.2 消融研究****深度

表6展示了使用不同****深度的ACT在ScanObjectNN上的平均微调准确率。可以看出,性能对****深度不敏感,我们发现具有2个块的****取得了最高的结果。

  • 需要注意的是,当****深度为0时,我们采用了类似BERT的掩码建模架构,其中没有****,编码器可以看到所有的标记,包括被掩码的标记。

  • 我们发现这导致了较差的结果,与在2D上观察到的数据的低语义性需要一个非平凡****的观察一致。

表6: 预训练****深度的消融研究。

图片

图2: 掩码比 消融研究和跨模 Transformer 教师选择。

图片


*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。



关键词:AI

相关推荐

技术专区

关闭