博客专栏

EEPW首页>博客> ICLR2023 | 2D Transformer 可以帮助3D表示学习吗?(2)

ICLR2023 | 2D Transformer 可以帮助3D表示学习吗?(2)

发布人:计算机视觉工坊 时间:2023-07-04 来源:工程师 发布文章
一、引言

近年来,数据驱动的深度学习在人工智能系统中得到广泛应用。计算硬件的进步极大地推动了机器智能的发展,并促进了一种新兴的范式,即基于广泛数据训练的模型的知识转移。

  • 自然语言处理 (NLP) 取得了巨大的成功,其中的模型旨在通过对极大规模数据进行自监督学习来获取通用表示。
  • 自从Transformer在视觉领域取得成功后,人们已经做出了许多努力,将这种趋势从NLP领域扩展到基于2D视觉理解的基础模型中。

与2D视觉和NLP相比,基于基础的视觉计算在3D社区中发展滞后。提出以下问题:是什么使得3D表示学习比2D视觉或NLP更具挑战性?

从以下三个角度提供一些分析性答案:

i.架构不统一。先驱性架构如PointNet只能对3D坐标进行编码,而无法应用于在NLP和2D视觉中取得成功的掩码去噪自编码(DAE)。然而,Transformer架构现在已经弥补了这种架构上的差距,实现了跨所有模态格式的统一表示,并为扩展3D中的DAE带来了巨大潜力。

ii.数据稀缺。与图像和自由形式语言相比,收集和标注3D或4D数据更加困难,通常需要更昂贵且密集的工作。此外,考虑到数据规模,3D数据严重匮乏。这促使了跨模态知识转移的使用。最近的研究要么与其他模态一起进行联合训练以实现更有效的对比,要么直接对在图像数据上预训练的2D Transformers进行微调。

iii.模式差异。表1显示了语言、2D图像和3D点云的数据模式比较。可以观察到:

  • (i)3D点云通常是非结构化的,包含稀疏语义,不同于语言。这导致在点云上进行掩码去噪自编码更加困难;
  • (ii)2D图像在网格上均匀分布,而3D点云则是从对象表面不规则采样。这种结构上的差异导致了单模态增强和跨模态对应的对比目标构建的困难;
  • (iii)如何设计具有丰富语义的更好表示成为自监督3D理解的主要目标。

在上述分析的推动下,作者提出了将Autoencoders作为跨模态教师进行训练。

  • ACT利用基于2D图像或自然语言预训练的基础Transformers作为跨模态教师,具有丰富的知识和强大的表示能力。通过这种方式,3D中的数据稀缺问题得到缓解。
  • Transformer被用作通用的3D学习器,弥补了掩码建模表示学习方面的架构差距。通过以自监督的方式在3D数据上微调预训练的Transformers作为自编码器,Transformers可以将3D点云转化为具有丰富语义的表示形式。为了保留和继承预训练的基础知识,使用了提示微调。

因此,ACT使预训练的Transformers成为自发的跨模态教师,为3D点云提供了语义丰富的掩码建模目标。

  • 由于预训练的Transformers被微调为3D自编码器,在这种跨模态Transformer转移过程中不需要任何图像、语言数据或3D下游标注。
  • 此外,由于调整后的Transformers仅用作3D Transformer学生的教师,该方法在下游特征转移过程中不会引入额外的计算或存储成本。

此外,进行了各种任务的大量实验证明了ACT预训练3D Transformers具有出色的泛化性能。

  • 例如,在ScanObjectNN数据集上实现了平均准确率提高%。

据知,本文首次证明了预训练的基础Transformer可以帮助3D表示学习,而无需访问任何2D、语言数据或3D下游标注。ACT是一个自监督的框架,可以推广到其他模态和任务,期望这能够推动更多类似ACT风格的表示学习的探索。



表1: 数据模式比较

图片

二、相关背景自监督的3D几何处理表示学习

自监督的3D几何处理表示学习目前在学术界引起了极大的兴趣。

  • 传统方法是基于重建的几何理解预任务构建的,例如点云部分重排序,方向估计,局部和全局重建,流一致性,变形和遮挡。

  • 与此同时,Xie等人在PointContrast中提出了学习增强点云之间的区分性视角一致性的方法。在这个方向上,还提出了许多相关工作。

最近,许多工作提出了应用点云Transformer的自编码器(DAE)预训练的方法,并取得了显着的成功。

  • Yu等人通过扩展BERT-style预训练的思想,结合全局对比目标,开创了这个方向。
  • Liu等人提出了添加一些噪声点,并对每个掩码位置的掩码标记进行真假分类的方法,这与Selfie的模式相似,后者对掩码图像块进行真假分类。
  • Pang等人提出了通过对3D点云坐标进行掩码建模,在点云上探索MAE的方法。

作者遵循这种DAE-style表示学习范式,但与之前的方法不同,工作旨在使用由预训练基础Transformer编码的潜在特征作为掩码建模目标。

跨模态的3D表示学习

跨模态的3D表示学习旨在利用除了3D点云之外的更多模态内在的学习信号,例如,2D图像被认为具有丰富的上下文和纹理知识,而自由形式的语言则具有密集的语义信息。主流方法基于全局特征匹配的对比学习进行开发。

  • 例如,Jing等人提出了一种判别性中心损失函数,用于点云、网格和图像的特征对齐。
  • Afham等人提出了一种在增强的点云和相应渲染的2D图像之间进行的模态内和模态间对比学习框架。

通过利用几何先验信息进行密集关联,另一项工作探索了细粒度的局部特征匹配

  • Liu等人提出了一种对比知识蒸馏方法,用于对齐细粒度的2D和3D特征。
  • Li等人提出了一个简单的对比学习框架,用于模态内和模态间的密集特征对比,并使用匈牙利算法进行更好的对应。

最近,通过直接使用经过监督微调的预训练2D图像编码器取得了很大的进展。

  • Image2Point 提出了通过卷积层膨胀来传递预训练权重的方法。
  • P2P 提出了将3D点云投影到2D图像,并通过可学习的上色模块将其作为图像主干网络的输入。

一些工作也探索了预训练基础模型是否可以帮助3D学习。然而,本文作者的方法:

(1)不使用预训练的2D或语言模型作为推断的主干模型;

(2)在无下游3D标注的自监督预训练过程中探索使用来自其他模态的预训练基础模型;

(3)不需要成对的点-图像或点-语言数据。

除了2D图像之外,还有一些工作提出利用自然语言进行对比的3D表示学习,零样本学习,以及场景理解。


*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。



关键词:AI

相关推荐

技术专区

关闭