NeurIPS 2022 | 一窥人工智能大一统与理论研究的最新进展（2）

发布人：MSRAsia 时间：2022-11-21 来源：工程师发布文章

人工智能理论

Theory

组合多臂老虎机在随机触发臂或独立臂场景下与最大触发臂数量无关的损失分析

论文链接：

https://www.microsoft.com/en-us/research/publication/batch-size-independent-regret-bounds-for-combinatorial-semi-bandits-with-probabilistically-triggered-arms-or-independent-arms/

组合多臂老虎机（combinatorial multi-armed bandit）将传统的组合优化和在线学习相结合，通过在线反馈机制不断改进模型的优化效果。其应用涵盖推荐系统、在线广告、社交网络、无线网络等多个领域。在本文中，研究员们通过方差分析的方法降低了每个时刻可能被激活的臂数 K 对算法所承受损失的影响。

值得注意的是，研究员们找到了一种全新的光滑条件，称为概率激活方差调节（TPVM）条件。首先，TPVM 被证明和既有的光滑条件在多数实际应用场景下（如在线广告、社交网络等）同样成立。其次，通过 TPVM 条件，研究员们得以对带概率和无概率激活臂的模型分别设计基于方差分析的新型算法，即 BCUCB-T 和 SESCB。在带概率激活臂的模型下，BCUCB-T 算法可以将 K 对损失的影响从此前的 O(K) 降低为 O(log^2 K)或 O(log K)。而在无概率激活臂的模型下，SESCB 则将损失上界由此前的 O(log K)降低至 O(1)。最后，仿真实验结果表明，研究员们所提出的算法在很多实际应用场景中都能超越现有算法的效果。

图5：带概率激活臂的 CMAB 模型下本文结果与此前结果对比图

动量会改变优化器在可分数据上的隐式正则吗？

论文链接：

https://www.microsoft.com/en-us/research/publication/does-momentum-change-the-implicit-regularization-on-separable-data/

为提升训练速度，深度学习中的优化器广泛采用动量加速技术。然而，目前学界仍未能厘清动量是如何影响深度学习模型的泛化能力的。本文从动量加速技术的隐式正则效应切入，探究了其对泛化能力的影响。尤其是，本文证明了在对线性可分数据上，带动量的梯度下降法收敛到的点是 L^2 最大间隔问题的解 (L^2 max-margin solution)，与不使用动量的梯度下降法相同。这意味着带动量的梯度下降法将收敛到一个低复杂度的模型，从而保证了模型的泛化性质。

本文更进一步分析了动量梯度下降法带随机性和带自适应学习率的变种(即随机动量梯度下降法和确定性 Adam 算法)，证明了它们也会收敛到 L^2 最大间隔问题的解。这首次证明了随机动量梯度下降法在仿射噪声假设下，将收敛到驻点。这一假设相比现有研究中有界方差噪声的假设，适用范围更为广泛。与此同时，多个场景的数值实验验证了该理论结果，请查看论文原文了解更多细节。

图6：论文《动量会改变优化器在可分数据上的隐式正则吗？》的结果展示图

稳定的神经元响应会提升模型泛化性能

论文链接：

https://www.microsoft.com/en-us/research/publication/neuron-with-steady-response-leads-to-better-generalization/

如何提高模型的泛化性能，一直是机器学习和深度学习的核心问题之一。随着深度学习的不断发展，各种各样的网络结构被应用在多种不同的任务中。能否探寻到统摄不同任务和网格结构的本质共性来提高多种网络的泛化性能，是本文的研究切入点。

研究员们从神经元级别的细粒度出发，仔细分析了单个神经元在神经网络训练和测试中的响应特性，发现提升神经元对同类输入样本响应的稳定性能够有效地提高神经网络的泛化性能。据此，研究员们设计出了一种通用的正则项，用于控制神经元在激活状态下响应的类内方差，并进一步分析了将此正则项应用在不同层神经元所带来的效果差异。该正则项简单高效，能在不同领域的多个数据集（ImageNet, CIFAR10, PubMed, WikiCS)以及多种网络结构 (MLP, CNN, GNN)上普遍地提升模型的泛化性能。

图7：MLP 模型在 MNIST 数据集上的训练过程图。其中，红线表示原始模型的训练曲线，蓝线是加入全新正则化技术后的新模型训练曲线。最右的图片显示，在原始模型中，神经元对同类样本响应的方差会随着训练不断增大，而研究员们所提出的正则化技术能够大幅降低神经元响应的类内方差。相应地，原始模型的训练损失虽然比新模型要低（见第二幅图），但新模型在测试集上的识别准确率却比原始模型有显著提高（见第一幅图），因此研究员们所提出的正则化技术有效地提高了模型的泛化性能。

等级强化学习：悲观面对不确定性与“常数regret”

论文链接：

https://www.microsoft.com/en-us/research/publication/tiered-reinforcement-learning-pessimism-in-the-face-of-uncertainty-and-constant-regret/

强化学习（RL）在许多用户交互型应用中都取得了成功，比如医疗领域、推荐系统等。其中，病人/客户扮演的是环境的角色，治疗方案/推荐算法则是强化学习中的决策，其具体做法就是部署决策、收集数据、并用强化学习算法提升直到接近最优。

由于训练过程中算法不可避免地会给用户提供错误的决策，但不同的用户对于承担或接收决策错误所造成的损失的能力也不同，故需具体情况具体分析。然而，现有框架忽略了决策错误对个体用户影响的特殊性。因此，研究员们提出了“等级强化学习（Tiered RL）”的新框架，其根据风险的承受能力对用户进行等级区分，承受能力越弱等级越高。

在对 gap 不做假设的情况下，研究员们证明了与 online setting 相同的 O(√(SAH^3 K)) 的极小化极大下界（minimax-lower bound），揭示了一般情形下这个问题的困难度。在引入最小 gap 假设的 gap-dependent setting 中，研究员们设计了新的算法，在保证低等级用户的“regret”仍然是最优的前提下，高等级用户承担的“regret 与交互次数 K 无关，打破了普通 online learning 的 O(log K) 下界，从而证明了新框架和算法的优越性。