向最优秀的人学习:大自然如何激发人工智能研究

作者:Dilay Ercelik

为什么当今的人工智能研究人员应该研究生物学和大脑?我们在最新的人工智能研究博客文章中进行了讨论。

人工神经网络 (ANN) 构成了机器学习和深度学习的重要组成部分,从仅由少数神经元组成的简单早期网络,到具有数千亿参数(例如 GPT-3)的较新网络。尽管 ANN 取得了明显成功,但我们显然仍然可以从生物系统中学习,这些系统已经发展出各种惊人的解决方案,以解决人工智能工程师面临的相同挑战。

在早期,ANN受到了生物学和人脑的启发。第一个ANN,称为逻辑阈值单元,甚至被认为是"大脑网络"的一个简单模型。1958年,心理学家弗兰克·罗森布拉特(Frank Rosenblatt)提出了感知器,这是监督学习的早期算法,也是生物神经元的简化模型。尽管受到一些挫折,如由Minsky和Papert(1968年)的争议性著作《感知机》(Perceptrons)一书引发的争议,但自那以后,感知器一直保持着惊人的稳定,并支撑了现代人工智能的惊人进步。

然而,尽管它们有着共同的起点,但人工智能和生物研究界却存在分歧,对神经网络的理解也变得特定于社区。虽然一些ANN 比其他ANN更直接地从生物学中获得了灵感,例如尖峰神经网络,但人工智能社区为ANN开发的基本工具,如通过误差反向传播进行学习,似乎在生物神经网络中没有直接的类似物。

现代人工智能的成功, 特别是深度学习,是过去60年神经网络研究所开发工具的实用性的一个惊人的证明。然而,鉴于生物学以不同的方式做研究,我们必须问,是否还有一些东西可以从大自然中学习,以进一步扩展人工智能的能力。

文献中经常看到的一种模式是,构建更具生物学上更合理的 AN 的副产品是效率的提高(内存、执行时间、超参数调整等),同时达到最先进的性能,例如Crafton 等人,2019年:韩等人,2021年:拉加尼等人,2021年。这在多个数据集、指标、网络架构和任务中都可以观察到,这暗示了开发受生物启发的 ANN的主要益处。

为了保持我们的文献综述范围可控,我们已经确定了三个主题(但这并非详尽无遗):

  • 梯度下降反向传播的替代算法
  • 网络架构的替代方案
  • 激活函数和注意力机制的替代方案

我们已将文献搜索收缩到图1所示的范围。

图1:关于ANN生物合理性的三个研究主题的思维图

焦点:反向传播的替代方案

自从反向传播(backpropagation,20世纪80年代)普及以来,研究人员已经多次尝试寻找学习的替代方法,通常是从生物学中寻找灵感。

在讨论这些受生物启发的替代方案之前,让我们简要地谈谈反向传播在生物神经网络中被认为不可信的两个主要原因:

  • 权重传输问题:我们需要将前向传递的权重"传输"给后向传递,以便进行权重更新计算,其中我们使用了前馈权重矩阵的转置 W。生物神经网络中没有已知的机制允许权重从前向反馈传递到后向传递。
  • 更新锁定问题:在反向传播中,权重更新仅在完全前向馈传递后发生。大脑中反馈信号的时间与反向传播训练的ANN不同,它们因生物神经网络而异,例如参见锥体神经元及其顶端树突。在整个大脑中,学习的反馈是什么样子的,目前尚无一个通用而精确的定义。

1) 赫布学习

赫布学习的直接灵感来自早期关于人类学习和大脑神经可塑性的生物实验。如今,它有许多变体,在神经科学界接受程度不同,但这个规则的第一个表述可以追溯到20世纪50年代的"赫布规则"(赫布,1949年)。它是一种无监督的学习规则,被认为是生物学习的基础或最简单的叙述。

图2:两个相连神经元的简化图(由Dana Scarinci Zabaleta绘制)

赫布规则实现的一个局限是无限增长的问题。根据这一规则,在整个训练过程中,权重会无限期地呈指数级增长。加强神经元之间的连接,会增加放电频率,进而加强联系,形成失控的正反馈回路。

最近一篇基于赫布规则的简单表述的论文是Gupt等人的工作(2021年),名为"赫布网络(HebbNet)",试图解决这一无限增长的问题。

HebbNet 是一个浅层全连接神经网络,有一个2000单元的隐藏层。输出层的权重使用梯度下降法更新,而隐藏层训练训练是通过三个类似赫布学习规则之一实现的:最简单的版本(赫布规则):带阈值的赫布规则;或带阈值和梯度稀疏性的赫布规则(并非所有权重矩阵元素都在每次后向传递时更新)。

还有其他方法可以解决赫布规则中无限增长的问题,如奥贾规则(Oja,1982年)和尖峰时间依赖可塑性(马克拉姆等人,1997年;主要用于尖峰神经网络)。奥贾规则是一个数学公式,通过引入一个"遗忘"术语来解决无限增长的问题。在图3中,我们在赫布网络论文的设置中将赫布规则替换为奥贾规则时输出了结果。

我们试图重现赫布网络论文的结果,并与奥贾规则进行比较。图 3显示了 MNIST 和 CIFAR-10 上的测试精度。请注意,我们使用的超参数配置与论文中相同,但学习率(避免权重增长失控导致的浮点溢出)和梯度稀疏性(我们将其固定为 p=0.3,即每次向后传递时仅更新 30% 的权重矩阵,而论文提到使用最佳值)。

图3:赫布网络实验中MNIST和CIFAR-10的测试精度

(HL = 赫布学习;T:阈值;GS:梯度稀疏)

不出所料,"Vanilla"(即原始配方)无论使用何种规则,HL在MNIST分类中的表现都很差。令人惊讶的是,对于CIFAR-10分类,赫布学习规则的三个不同版本的表现都相似。我们注意到,我们的结果远远低于论文中报告的结果。此外,在我们的实验中,奥贾规则通常优于赫布规则。

在 HebbNet 论文中,赫布学习和带梯度下降的反向传播分别用于不同层的训练:前者用于隐藏层,后者用于输出层。这使得在监督训练期间很难提倡使用赫布学习,因为相比之下,反向传播适合网络中所有层的训练。一个网络采用两种学习方法的复杂性增加是不利的。

有鉴于此,我们研究了如何用相同学习算法/规则训练浅层、完全连接的神经网络的所有层。首先,为了用一个隐藏的层来训练同一个网络,我们通过添加无监督的赫布学习规则,修改了反向传播中传统梯度的定义。即梯度成为以下简单的"求和规则":

梯度 = 反向传播梯度+ β * 赫布学习规则 (赫布或奥贾规则)

其中β为比例因子 (例如, β = 10e - 2)

图4:MNIST 和 CIFAR-10 的测试精度(求和规则)

我们用赫布或奥贾规则在简单梯度下降和赫布学习更新中训练网络。

图4显示了赫布学习比例因子β的测试精度,其中使用的规则是赫布规则。

对于 MNIST 来说,奥贾规则导致测试精度降低(约 30%);对于 CIFAR-10, 使用奥贾规则的结果与图4中报告的赫布规则的结果类似。

在这两种分类任务中,赫布学习的贡献越小,测试精度越高。在比例因子越小的情况下,使用此求和规则获得的测试精度与在两个数据集上使用反向传播获得的性能相匹配。这些结果表明,以这种方式添加赫布学习组件不会降低测试精度相对于反向传播的任何好处。

文献中也记录了提出单一学习规则的尝试。2019年,Melchior和Wiskott提出了“赫布下降”,这是一种受生物学启发的学习规则,可用于监督和无监督的学习。

我们特别关注监督学习场景,在该场景中,我们研究了MNIST 和 CIFAR-10 上浅层全连接网络(与 HebbNet 相同)的分类性能。

从本文不同的是,我们还研究了将更新规则中的核心输入因子(监督学习版本:等式(6),参见第 6 页)替换为奥贾规则。图5显示了MNIST和CIFAR-10的测试精度,其中BP指的是反向传播。有三个训练版本:完全(隐藏层和输出层权重均已更新),第1部分(隐藏层权重已冻结),第2部分(输出层权重已冻结)。

图5:赫布后裔实验中MNIST和CIFAR-10的测试精度

尽管赫布下降在 MNIST 上的表现非常相似,但反向传播在两个数据集上的表现都优于赫布下降 。此外,在 MNIST 上,在所有层上执行赫布下降似乎没有什么优势,而仅在某些层上执行(部分在CIFAR-10 上未观察到的结果:这可能是因为MNIST比CIFAR-10更容易,因为在CIFAR-10中,冻结权重不会妨碍分类。在这两个数据集上,使用奥贾规则的修改规则都落在了后面。

综上所述,赫布学习(赫比规则,奥贾规则)的简单变体似乎与传统反向传播网络的精度不匹配。最有希望的结果(接近反向传播水平)是在与梯度下降(例如,来自梅尔基奥尔和威斯科特的赫布-下降,2019年)相结合时获得的。我们怀疑,赫布学习的较新变种可能表现更好(例如尖峰时间依赖可塑性;还有多种其他学习规则源自赫布规则)。在所有情况下,简单的赫布学习变种似乎是全部;它们可能更好地作为更复杂的学习规则和/或用于具有特定配置的训练网络(例如用于尖峰神经网络的 STDP 规则)的一部分。

2) 反馈校准方法

2016 年,社区推出了一组名为反馈校准 (FA) 方法的学习算法,用于处理权重传输问题。最初的反馈校准算法由Lillicrap 等人于 2016年记录,同年晚些时候,Nükland提出了一项名为"直接反馈校准"(DFA)的扩展。

这个想法很简单。两种算法都使用固定随机矩阵作为反馈权重矩阵。本质上,前馈权重矩阵 W (WT)的转置变为 B,其中 B 是训练前定义的固定随机矩阵。这样,我们不需要存储和使用前馈权重的转置。DFA 比 FA 更进一步,使用输出层的梯度而不是来自更高级别隐藏层的梯度更新网络的早期隐藏层。参考以下图,取自 Nükland (2016),以可视化这些算法(BP:反向传播)。

图6:两个隐藏层、完全连接的神经网络上的训练算法(2016年,Nøkland)

下面,我们报告使用 FA (图 7)或 DFA (图 8) 进行训练的网络的分类结果,为 300 个周期:这些网络有一个隐藏层(2000 个单位:ReLU)或两个隐藏层(每个 800 个单位;ReLU/Tanh层;带有偏差)

我们尝试了四种方法来定义反馈矩阵 B:

  • 固定随机:如2016 年关于FA和 DFA的论文中所述
  • 固定随机(符号):与固定随机矩阵类似,但此处符号在每次传递时与前馈矩阵W一致(类似于另一种称为 "符号对称"的算法)

    固定二进制:B 是随机选择-1和1的固定矩阵

    二进制(符号):B 是1的矩阵,在每次传递时,该符号与前馈矩阵W全等。

图7:FA实验中MNIST和CIFAR-10的测试精度

图8:DFA实验中MNIST和CIFAR-10的测试精度

FA和DFA的结果不如赫布学习结果清晰。事实上,在某些情况下,他们的表现优于反向传播,但提取清晰模式可能很复杂:学习方法和反馈矩阵B对测试精度的影响高度依赖于所使用的网络(隐藏层的数量;激活)和数据集。

关于上述反向传播结果,我们经验上注意到缺乏过度拟合。此外,在运行了五次训练后,我们检查了训练精度和测试精度样本内的标准偏差是否为零(在 MNIST 1 隐藏层场景中)。

3) 赫布学习x反馈校准

最后,我们结合了FA方法和赫布学习进行实验,因此我们有:

  • 反向传播/FA,其中其中使用赫布学习(赫布或奥贾规则)训练反馈权重矩阵B:HL x FA
  • DFA,其中使用赫布学习(赫布或奥贾规则)训练反馈权重矩阵B:HL x DFA

鉴于我们利用两个受生物学启发的概念来学习单个网络,这种结合尤其有趣。文献中也报告了这一点,作为未来研究的建议(例如Song等人,2021年),以及其他将赫布学习变体和反馈一致性联系起来的尝试也已发表(例如Detorakis等人,2019年)。

对于基于 1 的实验,请参阅图 9 和图 10:

图9:Hl x Fa 实验中对 MNIST的测试精度(左:赫布规则; 右:奥贾规则)

图10: Hl x Fa 实验中CIFAR- 10 的测试精度(左:赫布规则; 右:奥贾规则)

图11显示了使用DFA训练时的结果,并带有可训练的B矩阵(2.)。在这种情况下,我们无法直接使用奥贾规则:其实施依赖于与前馈权重W形状相同的张量,而在 DFA 中,早期隐藏层的反馈权重矩阵的形状不同(以适应正在使用的输出层梯度)。

图11:HL x FA实验中MNIST和CIFAR-10的测试精度(赫布规则)

结论

我们对具有不同程度生物学灵感的人工神经网络进行了文献综述。鉴于已发表的大量工作,特别是在过去十年中,人工智能中的生物合理性主题肯定会继续受到研究界的关注。重要的是,除了理论、学术界对连接人工智能和神经科学的兴趣之外,在人工智能行业环境中反思生物学灵感也有很大的潜力。首先,越来越多的研究出版物调查在专业硬件上训练的生物启迪的人工神经网络,这可能会引起行业的兴趣。其次,几篇论文指出了在训练中的提高(存储、执行时间),即使测试精度接近或处于反向传播训练网络的水平。

从我们的赫布学习和反馈校准结果中,我们可以注意到,大多数情况下,反向传播是赢家。然而,也有一些情况下,其他算法接近反向传播的性能水平,尤其是FA方法。

这不应阻止我们对生物学启迪的人工神经网络进行进一步研究。在这里,我们只研究了一个参数,即学习方法。很可能是使用的网络的所有其他参数/特征都有反向传播偏差,在这种情况下,我们可能低估了生物学习的真正潜力。因此,采取多维和详尽的方法进行进一步的工作是必要的(例如,通过查看卷积层等)最后,我们注意到,最近的论文越来越多地从多个层面研究生物合理性:例如,在具有生物启发功能的网络架构上使用生物学习规则。我们怀疑这说明了未来生物学研究对AI的影响。

原文链接:https://www.imaginationtech.com/blog/learning-from-the-best-how-nature-c...

声明:本文为原创文章,转载需注明作者、出处及原文链接。

最新文章