博客专栏

EEPW首页>博客> ICLR2023 | 2D Transformer 可以帮助3D表示学习吗?(4)

ICLR2023 | 2D Transformer 可以帮助3D表示学习吗?(4)

发布人:计算机视觉工坊 时间:2023-07-04 来源:工程师 发布文章
掩码策略和教师选择

图2(a)展示了使用不同掩码策略在ScanObjectNN上的平均微调准确率。

  • 可以观察到,使用随机掩码的较高掩码比例会产生更好的结果,而块掩码则对较低掩码比例更为适用。
  • 需要注意的是,当掩码比例为零时,对所有标记使用基准知识蒸馏,并且导致性能较差。
  • 图2(b)展示了使用不同教师Transformer的ACT在ScanObjectNN上的平均微调准确率,包括Vision Transformers、全MLP架构、语言模型和视觉语言模型。观察到较大的教师模型始终能够获得更好的性能。

此外,令人惊讶的是,ACT使用语言模型BERTB(即BERTbase)作为跨模态教师,可以达到平均准确率85.12±0.54%(最高可达85.88%),这表明ACT可以推广到任何模态。

表7: dVAE标记器不同训练策略的消融研究。

  • 报告了F-Score,使用l1范数和l2范数的倒角距离,即CD- l1和CD- l2

图片

3D自编码器训练

表7展示了使用预训练的2D图像Transformer进行不同训练配置的3D自编码器的重构结果。观察到:

(i)带有预训练图像Transformer的3D dVAE模型在重构结果上明显优于Point-BERT。这表明预训练的2D图像Transformer具有强大的对3D的表示能力。

(ii) 提示调整或冻结模型可以获得比完全调整更好的结果,我们认为这是因为某些预训练的2D知识被遗忘了,而提示调整有效地解决了这个问题。重构可视化结果可以在附录D中找到。

图片



六、讨论6.1 是所需要更强大的标记器吗?

为了了解预训练的2D图像Transformer在3D dVAE模型中的必要性,我们用不同的dVAE教师和掩模建模配置进行了实验。

从表8中,可以看到:

(i) 当使用没有预训练的2D图像变压器的Point-BERT dVAE模型时,通过提取潜在特征而不是离散令牌,可以实现+0.62%的改进。分析认为,离散令牌识别学习起来更具挑战性3D数据。

(ii) 当使用Point-BERT离散标记作为掩码建模目标时,通过应用带有预训练2D图像Transformer的dVAE模型,得到了最差的性能。这表明,无论标记器有多强大,离散标记都不适用于语义稀疏的点云数据。

(iii) 当使用ACT时,性能显著提高。这表明,带有预训练2D图像Transformer`的3D dVAE能够编码具有丰富语义的特征,更适合于掩码点建模。

表10: 二维图像转换器在dVAE模型中不同位置嵌入的研究。

(a)无:不使用位置嵌入。(b) 2D/z:仅使用2D xy平面坐标的位置嵌入。

(c) 3D:所有3D xyz坐标的位置嵌入。

报告了F-Score,使用l1范数和l2范数的倒角距离,即CD- l1和CD-l2,以及ScanObjectNN上的OA。

图片

6.2 ACT是否可以用作辅助知识蒸馏方法?

由于ACT使用编码特征作为掩码建模目标,它具有将我们的方法作为辅助特征蒸馏的潜力。

表9显示了在Point-MAE模型中,使用ACT作为中间特征的辅助深度监督训练的结果,其中ACT编码的潜在特征被蒸馏到Point-MAE的编码器特征中。

可以观察到,ACT能够显著提高Point-MAE在ScanObjectNN上的准确率,提高了0.87%,表明ACT作为一种知识蒸馏方法具有可扩展性和有效性。

6.3 2D Vision Transformer如何理解3D点云?

为了更好地理解2D图像Transformer如何通过自编码器训练理解3D输入,研究了ViT-B在我们的ACT dVAE模型中使用的位置嵌入的效果。从表10可以看出:

(i) 在没有任何位置嵌入的情况下,预训练的ViT仍然可以学习可迁移的3D特征(准确率为84.21±0.45%)。我们认为这是因为位置几何信息已经包含在输入的3D坐标中,预训练的2D Transformer可以通过几何特征纯粹处理3D数据,而不需要显式的位置提示。

(ii) 当仅使用2D xy平面坐标的位置嵌入时,准确率显著提高了0.89%。我们认为2D位置嵌入是为了适应冻结的图像Transformer而学习的,使图像Transformer能够将3D输入编码为具有高语义的预训练2D特征空间。

(iii) 当使用所有3D坐标进行位置嵌入时,2D图像Transformer成功利用了附加坐标信息来进行更好的特征编码。



七、总结

本文提出了一种自监督学习框架ACT,通过预训练的基础Transformer进行掩码建模,将特征蒸馏传递给3D Transformer学生模型。ACT首先通过自监督的3D自编码将预训练的基础Transformer转化为跨模态的3D教师模型。

然后,来自调整后的3D自编码器的语义丰富的潜在特征被用作3D Transformer学生模型的掩码建模目标,展现了在各种下游3D任务上卓越的泛化性能。作为一种通用的自监督学习框架,相信ACT可以轻松扩展到除3D数据之外的其他模态。

这种自监督方式展示了跨模态知识转移的巨大潜力,这可能在数据驱动的深度学习时代极大地促进了基础建模的发展。


附录:可视化

图3比较了基于2D图像Transformer的3D dVAE和Point-BERT 3D dVAE模型的重建结果。

  • 实验结果表明,所设计的三维自编码器能够高质量地重建物体细节。
  • 对于一些相对简单的物体,如第二行矩形表,我们的方法和Point-BERT都可以很好地重建它们。然而,对于细节相对复杂的点集,如第三排的薄架子和扶手椅,我们的方法仍然可以用详细的局部几何信息重建物体。
  • 这些定性观察结果与表7中的定量结果一致。

图片


图4显示了t-SNE在ShapeNet上进行预训练并在ModelNet40和ScanObjectNN PB_T50_RS数据集上进行微调后的模型特征可视化。

可以观察到:

(i) 在ShapeNet上进行预训练后,由于相对较小的域间隙,模型已经可以在ModelNet上产生判别特征。

(ii) 在对下游数据集进行微调后,在ModelNet40和具有挑战性的ScanObjectNN数据集上都获得了判别特征。

(iii) Shapenet预训练ACT在ScanObjectNN上提取的特征分布看起来不那么判别性。我们认为有两个原因导致它: (i)合成的ShapeNet和真实的ScanObjectNN数据集之间的大域差距,以及(ii) ACT使用的不是对比损失,例如区分(例如,Point-BERT使用的MoCo损失)。有趣的是,这在ScanObjectNN上产生了更好的泛化性能(ACT的OA为88.21%,而Point-BERT为83.07%)。

图片


*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。



关键词:AI

相关推荐

技术专区

关闭