引入鲁棒性：为什么神经网络规模越大越好

demi 在周一, 02/14/2022 - 17:18 提交

虽然生活里，人们倾向于认为“越多越大=越好”，但在科学的世界里，任何观点都需要经过论证。

神经网络，是执行类人任务的人工智能系统。随着它们变得更大，他们的效率就变得越高。但这很奇怪。基本的数学结果表明，网络应该存在规模限制，超出之后效率不会变得更大，但现代神经网络的规模通常远远超出理论数字——这种情况被称为过度参数化。

在12月在前沿会议 NeurIPS 上发表的一篇论文中，微软研究院的 Sébastien Bubeck 和斯坦福大学的 Mark Sellke提供了新的解释。他们表明，神经网络必须比传统预期的要大得多，才能避免某些基本问题。这一发现为一个持续了几十年的问题提供了一般性的见解。

“这是一个非常有趣的数学和理论结果，”瑞士洛桑联邦理工学院的Lenka Zdeborová 说。，“他们以这种非常通用的方式证明了这一点。所以从这个意义上说，它触及了计算机科学的核心。”

对神经网络规模的标准预期来自对它们如何记忆数据的分析。但要了解记忆，我们必须首先了解网络的作用。

神经网络的一项常见任务是识别图像。为了创建一个可以做到这一点的网络，研究人员首先为其提供许多图像和对象标签，对其进行训练以学习它们之间的相关性。之后，网络将正确识别它已经看到的图像中的对象。换句话说，训练使网络记住数据。更值得注意的是，一旦网络记住了足够多的训练数据，它还能够以不同程度的准确度预测它从未见过的物体的标签。后一个过程称为泛化。

网络的大小决定了它可以记住多少。这可以通过图形来理解。想象一下，将两个数据点放在 xy 平面上。您可以将这些点与由两个参数描述的线连接起来：线的斜率和穿过垂直轴时的高度。如果其他人得到了这条线，以及一个原始数据点的 x 坐标，他们只需查看这条线(或使用参数)就可以计算出相应的 y 坐标。

神经网络做类似的事。例如，图像由成百上千个值描述——每个像素一个值。这组许多自由值在数学上等价于高维空间中一个点的坐标。坐标的数量称为维度。

一个古老的数学结果表明，要将n个数据点与曲线拟合，您需要一个具有n个参数的函数。 (在前面的例子中，这两个点由一条带有两个参数的曲线来描述。)当神经网络在1980 年代首次出现时，我们认为事情就该如此。它们应该只需要 n 个参数来拟合n个数据点——无论数据的维度如何。

“这不再是正在发生的事情。”德克萨斯大学奥斯汀分校的 Alex Dimakis 说。 “现在，我们经常创建参数数量超过训练样本数量的神经网络。这意味着必须重写教材。”

Bubeck 和 Sellke 并没有打算重写任何东西。他们正在研究神经网络通常缺乏的另一种属性——鲁棒性，这是网络处理微小变化的能力。例如，一个不健壮的网络可能已经学会了识别长颈鹿，但它会将一个几乎没有修改过的版本错误地标记为沙鼠。 2019 年，当Bubeck和同事意识到该问题与网络规模有关时，他们正在寻求证明有关该问题的定理。

Bubeck 说：“我们正在研究对抗性的例子——然后规模就强加给了我们。我们认识到这是一个难以置信的机会，因为需要了解规模本身。”

在他们的新证明中，表明过度参数化对于网络的鲁棒性是必要的。他们通过计算将数据点与曲线拟合所需的参数来做到这一点，该曲线具有与鲁棒性等效的数学属性：平滑度。

稍微修改像素的颜色，沿着曲线移动一小段距离，对应的预测只会有很小的变化。另一方面，对于极度锯齿状的曲线，x 坐标(颜色)的微小变化会导致 y 坐标(图像标签)的剧烈变化。长颈鹿可以变成沙鼠。

Bubeck 和 Sellke 表明，平滑拟合高维数据点不仅需要n个参数，还需要n × d个参数，其中d是输入的维度(例如，784 表示 784 像素的图像)。换句话说，如果你想让网络健壮地记住它的训练数据，过度参数化不仅有帮助——它还是强制性的。证明依赖于一个关于高维几何的奇怪事实，即放置在球体表面上的随机分布的点，彼此的距离几乎都是完整的直径。点之间的大间隔意味着用一条平滑曲线拟合它们需要许多额外的参数。

耶鲁大学的 Amin Karbasi 说：“证明是非常初级的——没有繁重的数学，它指出了一些非常一般性的东西。”

结果提供了一种新方法来理解为什么扩大神经网络的简单策略如此有效。

其他研究揭示了过度参数化有帮助的其他原因。例如，它可以提高训练过程的效率，以及网络的泛化能力。虽然我们现在知道过度参数化对于鲁棒性是必要的，但尚不清楚鲁棒性对于其他事物的必要性。但是通过将其与过度参数化联系起来，新的证明暗示鲁棒性可能比想象的更重要，一个可以释放许多好处的单一密钥。

“鲁棒性似乎是泛化的先决条件，如果你有一个系统，你只是稍微扰乱它，然后它就失控了，那是什么样的系统？这是不合理的。我确实认为这是一个非常基础和基本的要求。”

本文直接来源：煎蛋，https://jandan.net/p/110274
https://www.quantamagazine.org/computer-scientists-prove-why-bigger-neur...

神经网络

人工神经元的其他模型(tanh、ReLU)	一文简述提升神经网络性能方法	PyTorch \| 优化神经网络训练的17种方法
深度学习 - 对神经网络本质的理解（层结构和行为角度）	BN和Dropout在训练和测试时有哪些差别？	神经网络中的参数解读

引入鲁棒性：为什么神经网络规模越大越好

最新文章

最新文章