纯干货：Box Size置信度偏差会损害目标检测器

发布人：CV研究院时间：2022-07-23 来源：工程师发布文章

检测器的置信度预测在目标大小和位置方面存在偏差，但目前尚不清楚这种偏差与受影响的目标检测器的性能有何关系。

一、前言

无数应用依赖于目标检测器的可靠置信度估计的准确预测。然而，众所周知，包括目标检测器在内的神经网络会产生错误校准的置信估计。最近的工作甚至表明，检测器的置信度预测在目标大小和位置方面存在偏差，但目前尚不清楚这种偏差与受影响的目标检测器的性能有何关系。

研究者正式证明条件置信偏差（conditional confidence bias）正在损害目标检测器的预期性能，并凭经验验证这些发现。具体来说，研究者们演示了如何修改直方图分箱校准，不仅可以避免性能受损，还可以通过条件置信校准来提高性能。

研究者进一步发现，在检测器的训练数据上生成的检测器中也存在置信偏差，利用这些偏差在不使用额外数据的情况下执行提出的去偏差。此外，Test Time Augmentation会放大这种偏差，从而从我们的校准方法中获得更大的性能提升。最后，研究者在一组不同的目标检测架构上验证了他们的发现，并在没有额外数据或训练的情况下显示了高达0.6 mAP和0.8 mAP50的改进。

二、背景

Accurate probability estimates对于自动化决策过程至关重要。它们对于准确可靠的性能以及正确评估风险至关重要。对于目标检测器来说尤其如此，它们经常部署在自动驾驶、医学成像和安全应用等独特的关键领域，这些领域可能危及人的生命。尽管存在这些高风险，目标检测器的置信度校准受到的关注相对较少。目标检测器设计中的大部分注意力都集中在追求性能基准上的最新结果，而忽略了其预测置信度方面的问题。此外，最近已经证明目标检测器在其位置回归预测方面也容易受到条件置信偏差的影响，但目前尚不清楚这种偏差与受影响目标检测器的性能有何关系？

为了强调置信校准的重要性，研究者表明条件置信偏差正在损害目标检测性能。该现象的简化说明如下图所示。

三、新方法分析

Evaluating Object Detectors

Confidence Calibration

置信度校准背后的想法是，每个预测的ci应该等于经验目标检测器的TP预测概率P(τ i=1| d=di)。从这里开始，我们将其简称为Pi。对于置信度校准，将目标检测器视为一个随机过程。预测di的标签现在由随机变量Ti∼Bernoulli(Pi)表示，从中抽取tIoU=0.50的τi作为样本。Pi也可以看作是目标检测器对于具有相同置信度ci的一组检测的精度；将Pi称为“successful”或TP检测的概率P(τ i=1| d=di)以避免与上等式中定义的度量混淆。

Bias in Confidence of Object Detector

研究者假设条件置信偏差正在损害目标检测器的性能。如第一张图，基于具有不同校准曲线的两组检测的夸大示例来形象化这个想法。每个组只有一个各自的置信值的检测，在这个例子中很明显，置信阈值为0.55的检测器对于未校准检测(0,1)的精度为50%；如果检测器被完美校准 (2,3)，精度为70%。在精确召回曲线中可以观察到相关的改进。该曲线下的面积与AP指标密切相关。简单示例和假设表明，目标检测器相对于边界框大小和位置的置信估计偏差正在损害检测器的性能。

接下来都是算式证明

Maximizing Average Precisio

为了证明提出的假设，即置信偏差正在损害目标检测器的性能，我们看一下AP与P的关系以及如何在一组检测D中最大化它。目标检测器可以被视为一个随机过程，所以我们需要分析预期的AP：

代入Prec和Rec：

如果我们假设每个Pi和Pj独立，i≠j：

通过一些简单的算术，我们可以将其重新表述为：

因此，我们可以通过根据P从大到小对预测进行排序来最大化AP计算中的总和。由于检测在评估AP之前根据其置信度进行排序，因此在以下条件下最大化：

Confidence Calibration

不同边界框大小的置信度校准的变化降低了检测器的预期性能。现在已经证明了这个假设，研究者希望在证明的基础上通过校正校准曲线之间的变化来提高检测器的性能，看看它是否会提高性能指标。如果找到消除条件偏差的检测置信度映射，则消除了变化，从而产生了相等的校准曲线。这可以通过将置信度映射为每个边界框大小的成功概率来实现。当然，概率通常是未知的，但置信度校准正好解决了找到将置信度分数映射到他们的经验成功概率的函数的问题。根据以上的推理，条件置信校准应该减少目标检测器的框大小置信偏差。减少这种偏差应该会增加检测器的AP。我们尝试使用公开可用的目标检测器CenterNet来验证这一点，它带有Hourglass的主干网络，并在COCO上进行了训练。我们以60:40的比例分割2017 COCO验证集，在第一个分割上进行校准，并在较小的第二个分割上评估校准检测。我们对80个类别中的每一个类别进行类别校准以考虑不同类别的变化，然后将每个类别的检测分为三个大小相同的边界框大小的子组。每个子组都使用具有7个置信区间的直方图分箱进行校准。校准检测的性能显着差于未校准检测的，35.7 mAP和40.1mAP。这个结果与我们最初的推理和形式证明相矛盾，发生了什么？

Modifying Histogram Binning

研究者仔细研究histogram binning，以了解为什么它会大大降低测试检测器的性能。发现它违反了我们先前的一些假设，我们修改了标准直方图分箱校准以实际验证我们的原始假设，即我们可以使用校准来提高预测性能。为此，我们在直方图分箱中加入以下假设：第一个假设是校准提高了我们根据预测成为TP的概率对预测进行排序的能力。直方图合并将置信范围映射到单个估计的精度值，丢弃细粒度的置信差异，如下图：

由于我们已经根据它们的大小将检测分为子组，我们可以假设检测器在这些子组中产生有意义的置信度排序：毕竟，这是它的训练目标。由于我们希望保持每个子组内的排序，我们在直方图bin的中心之间添加linear splines。

我们还将对splines的supports设置为每个bin中检测的平均置信度，以最大限度地减少每个bin内不均匀分布的置信度造成的错误。在上图右中可以看到supports处减少的方差以及所有修改。我们像以前一样在同一个目标检测器上测试每个修改和最终修改的校准函数。结果见之前的表格验证个别修改和我们最初的假设，即框大小置信偏差降低了目标检测器的性能，而我们的校准可以减少这种偏差并提高性能。

还有较多的证明推理，感兴趣的同学可以在论文中继续详读了解：

https://arxiv.org/pdf/2112.01901.pdf

四、实验