精度提升方法：自适应Tokens的高效视觉Transformer框架

发布人：CV研究院时间：2022-07-23 来源：工程师发布文章

YOLOv7相同体量下比YOLOv5精度更高，速度快120%(FPS)，比YOLOX快180%(FPS)，比Dual-Swin-T快1200%(FPS)，比ConvNext快550%(FPS)，比SWIN-L快500%(FPS)。

概述

今天介绍的，是研究者新提出了A-ViT，一种针对不同复杂度的图像自适应调整vision transformers (ViT) 的推理成本的方法。A-ViT通过在推理进行时自动减少在网络中处理的视觉转换器中的tokens数量来实现这一点。

研究者为这项任务重新制定了自适应计算时间（ACT[Adaptive computation time for recurrent neural networks]），扩展了停止以丢弃冗余空间标记。vision transformers吸引人的架构特性使我们的自适应tokens减少机制能够在不修改网络架构或推理硬件的情况下加速推理。A-ViT不需要额外的参数或子网络来停止，因为将自适应停止的学习建立在原始网络参数的基础上。与之前的ACT方法相比，进一步引入了分布式先验正则化，可以稳定训练。在图像分类任务(ImageNet1K)中，展示了提出的A-ViT在过滤信息空间特征和减少整体计算方面的高效性。所提出的方法将DeiT-Tiny的吞吐量提高了62%，将DeiT-Small的吞吐量提高了38%，准确率仅下降了0.3%，大大优于现有技术。

背景

Transformers已经成为一类流行的神经网络架构，它使用高度表达的注意力机制来计算网络输出。它们起源于自然语言处理(NLP)社区，已被证明可有效解决NLP中的广泛问题，例如机器翻译、表示学习和问答。最近，vision transformers在视觉社区中越来越受欢迎，它们已成功应用于广泛的视觉应用，例如图像分类、目标检测、图像生成和语义分割。最流行的范式仍然是vision transformers通过将图像拆分为一系列有序的补丁来形成tokens并在tokens之间执行inter-/intra-calculations以解决基础任务。使用vision transformers处理图像在计算上仍然很昂贵，这主要是由于tokens之间的交互次数的平方数。因此，在大量计算和内存资源的情况下，在数据处理集群或边缘设备上部署vision transformers具有挑战性。

新框架分析

首先看下图：

上图是一种为vision transformers启用自适应tokens计算的方法。使用自适应停止模块来增加vision transformers块，该模块计算每个tokens的停止概率。该模块重用现有块的参数，并从每个块的最后一个密集层借用单个神经元来计算停止概率，不施加额外的参数或计算。一旦达到停止条件，tokens就会被丢弃。通过自适应停止tokens，我们仅对被认为对任务有用的活动tokens执行密集计算。结果，vision transformers中的连续块逐渐接收到更少的tokens，从而导致更快的推理。学习到的tokens停止因图像而异，但与图像语义非常吻合（参见上面的示例）。这会在现成的计算平台上立即实现开箱即用的推理加速。

A-ViT的一个例子：在可视化中，为了简单起见，省略了(i)其他补丁标记，(ii)类和补丁标记之间的注意力以及(iii)残差连接。每个标记的第一个元素保留用于停止分数计算，不增加计算开销。我们用下标c表示类标记，因为它有特殊处理。由k索引的每个token都有一个单独的Nk累加器，并停在不同的深度。与标准ACT不同，平均场公式仅适用于分类标记，而其他标记通过注意力对类别标记做出贡献。这允许在不聚合图像/补丁token的情况下进行自适应tokens计算。

实验分析及可视化

Original image (left) and the dynamic token depth (right) of A-ViT-T on the ImageNet-1K validation set. Distribution of token computation highly aligns with visual features. Tokens associated with informative regions are adaptively processed deeper, robust to repeating objects with complex backgrounds. Best viewed in color.