博客专栏

EEPW首页>博客> ICLR2023 | 2D Transformer 可以帮助3D表示学习吗?(1)

ICLR2023 | 2D Transformer 可以帮助3D表示学习吗?(1)

发布人:计算机视觉工坊 时间:2023-07-04 来源:工程师 发布文章
笔者个人体会

这篇论文的动机是解决3D数据表示学习中存在的挑战,即3D数据与2D图像或语言具有不同的结构,使得在细粒度知识的关联方面存在困难。作者希望通过自监督学习的方式,将来自图像领域的丰富知识应用于3D数据的表示学习中,从而提高3D任务的性能。作者提出一种自监督学习框架,用于跨模态的知识传递和特征蒸馏,以改善3D数据的表示学习和下游任务性能。

核心创新点是框架中的ACT(Autoencoding Cross-Transformers),它将预训练的基础Transformer模型转化为跨模态的3D教师模型,并通过自编码和掩码建模将教师模型的特征蒸馏到3D Transformer学生模型中。

作者通过以下方式设计和实现ACT框架:

  1. 首先,使用3D自编码器将预训练的基础Transformer转化为3D教师模型。这个自编码器通过自监督训练从3D数据中学习特征表示,并生成语义丰富的潜在特征。
  2. 接着,设计了掩码建模方法,其中教师模型的潜在特征被用作3D Transformer学生模型的掩码建模目标。学生模型通过优化掩码建模任务来学习表示,以捕捉3D数据中的重要特征。
  3. 使用预训练的2D图像Transformer作为教师模型,因为它们在2D图像领域表现出色,并且作者认为它们可以学习迁移的3D特征。

ACT框架包括以下主要部分:

  1. 预训练的2D图像或语言Transformer:作为基础Transformer模型,具有丰富的特征表示能力。作者选择了先进的2D Transformer模型作为基础模型,例如Vision Transformers (ViTs) 或者语言模型(如BERT)。

    训练:使用大规模的2D图像或语言数据集进行预训练,通过自监督学习任务(如自编码器或掩码建模)来学习模型的特征表示能力。

  2. 3D自动编码器:通过自监督学习,将2D图像或语言Transformer调整为3D自动编码器,用于学习3D几何特征。作者将预训练的2D图像或语言Transformer模型转换为3D自动编码器。通过将2D模型的参数复制到3D模型中,并添加适当的层或模块来处理3D数据。

    使用3D数据集进行自监督学习,例如预测点云数据的遮挡部分、点云重建或其他3D任务。通过自监督学习任务,3D自动编码器可以学习到3D数据的几何特征。

  3. 跨模态教师模型:将预训练的3D自动编码器作为跨模态教师模型,通过掩码建模的方式将潜在特征传递给3D Transformer学生模型。

    特征传递:通过掩码建模的方式,将3D自动编码器的潜在特征传递给3D Transformer学生模型。教师模型生成的潜在特征被用作学生模型的蒸馏目标,以引导学生模型学习更好的3D表示。

  4. 3D Transformer学生模型:接收来自教师模型的潜在特征,并用于学习3D数据的表示。

    特征蒸馏:学生模型通过特征蒸馏的方式,利用教师模型的潜在特征作为监督信号,从而学习到更准确和具有丰富语义的3D表示。

这种设计和实现带来了多个好处:

  1. ACT框架能够实现跨模态的知识传递,将来自图像领域的知识应用于3D数据中的表示学习,提高了3D任务的性能。
  2. 通过使用预训练的2D图像Transformer作为教师模型,ACT能够利用图像领域已有的丰富特征表示,提供更有语义的特征编码。
  3. 自编码和掩码建模任务使得学生模型能够通过无监督学习捕捉3D数据中的重要特征,从而更好地泛化到不同的下游任务。

总的来说,ACT框架的核心创新在于将自监督学习和特征蒸馏方法应用于3D数据中,实现了知识传递和表示学习的改进,为跨模态学习和深度学习模型的发展提供了新的思路和方法。



摘要

深度学习的成功在很大程度上依赖于具有全面标签的大规模数据,在获取3D数据方面比2D图像或自然语言更昂贵且耗时。这促使我们有可能利用用于不同模态知识转移的以3D数据为基础的预训练模型作为教师。

本文以统一的知识蒸馏方式重新考虑了掩码建模,并且展示了基于2D图像或自然语言预训练的基础Transformer模型如何通过训练作为跨模态教师的自编码器(ACT)来帮助无监督学习的3D表示学习

  • 预训练的Transformer模型通过使用离散变分自编码的自监督来作为跨模态的3D教师进行转移,在此过程中,Transformer模型被冻结并进行提示调整,以实现更好的知识传承。
  • 由3D教师编码的潜在特征被用作掩码点建模的目标,其中暗知识被提炼到作为基础几何理解的3D Transformer学生中。

预训练的ACT 3D学习者在各种下游基准测试中实现了最先进的泛化能力,例如在ScanObjectNN上的%整体准确率。

图片

图1 ACT框架的概述。

  • (a)ACT利用在大规模数据上预训练的Transformer模型,例如使用2D图像预训练的ViT或使用语言预训练的BERT。
  • (b)ACT的第一阶段(第4.1节),预训练的Transformer模型通过带提示的自监督3D自编码进行微调。
  • (c)ACT的第二阶段(第4.2节),3D自编码器编码器被用作跨模态教师,将潜在特征编码为掩码点建模目标,用于3D Transformer学生的表示学习。


*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。



关键词:AI

相关推荐

技术专区

关闭