在过去十年中,人工智能视觉模型取得了显著进步。然而,这些进步催生出的神经网络尽管效果显著,却与人类视觉的诸多特征相去甚远。例如,卷积神经网络(CNN)往往更擅长识别纹理,而人类则对形状的反应更为强烈。
最近发表在《自然・人类行为》杂志上的一篇论文在一定程度上填补了这一差距。该论文介绍了一种新型的全拓扑神经网络(All-TNN),这种网络在接受自然图像训练后,形成了一种更接近人类视觉的有序、专门化结构。全拓扑神经网络能更好地模拟人类的空间偏好 —— 比如会认为飞机更可能出现在图像的上方而非底部,并且与其他用于机器视觉的神经网络相比,其能耗显著更低。
“当你观察大脑中知识的组织方式时,会发现它与卷积神经网络等深度神经网络中的知识组织方式有着本质区别,” 德国奥斯纳布吕克认知科学研究所教授、该论文的联合指导者Tim C. Kietzmann说道。
全拓扑神经网络(All-TNN)能习得类人的空间偏好
如今大多数机器视觉系统,包括谷歌相册、Snapchat等应用中使用的那些,都采用了某种形式的卷积神经网络。卷积神经网络会在多个空间位置重复使用相同的特征检测器(这一机制被称为 “权重共享”)。其结果是,当对网络进行映射时,会呈现出紧密重复的分形图案。
而全拓扑神经网络的结构则大不相同。它的结构显得更为平滑,相关神经元会聚集形成簇群,但从不进行复制。映射全拓扑神经网络空间关系的图像,看起来就像丘陵地区的地形图,或是显微镜下观察到的一组微生物。
这种视觉上的差异绝非只是精美图片之间的比较。Kietzmann表示,卷积神经网络所采用的权重共享机制与生物大脑存在根本性偏差。“大脑在某个位置学到信息后,无法将这些知识复制到其他位置,” 他解释道,“但卷积神经网络却能做到这一点。这是一种工程上的权宜之计,目的是让学习过程效率稍高一些。”
全拓扑神经网络(All-TNN)通过一种截然不同的架构和训练方法,避开了这一特性。
研究人员没有采用权重共享机制,而是为网络中的每个空间位置配备了独立的可学习参数集。之后,为防止由此产生混乱无序的特征,他们在训练过程中加入了 “平滑约束”,以此鼓励相邻神经元学习相似(但绝不完全相同)的特征。
为了测试这种(结构上的差异)是否能转化为更接近人类行为的机器视觉,研究人员让30名人类参与者识别在屏幕不同位置短暂闪现的物体。结果显示,尽管全拓扑神经网络(All-TNN)仍不能完美模拟人类视觉,但它与人类视觉的相关性是卷积神经网络的三倍。
该论文的合著者Zejin Lu表示,全拓扑神经网络与人类视觉的相关性之所以更高,源于它学习空间关系的方式。“对人类来说,当你识别某些物体时,它们都有典型的位置。你知道鞋子通常在底部,在地面上;飞机则在顶部,” 他解释道。
类人行为不代表性能更优,但确实能降低能耗
全拓扑神经网络(All-TNN)与人类视觉更强的相关性,展示了机器可以被训练得更接近人类的视物方式,但这并不一定意味着它在图像分类任务上表现更出色。
卷积神经网络在图像分类领域依旧占据优势,准确率达到43.2%。而全拓扑神经网络的分类准确率在34.5%到36%之间,具体数值取决于网络的配置。
不过,它在准确率上的不足,在效率上得到了弥补。全拓扑神经网络(All-TNN)的能耗显著低于接受测试的卷积神经网络,后者在运行过程中的能耗是它的十倍以上。值得注意的是,尽管全拓扑神经网络的规模约为测试所用卷积神经网络的13倍(全拓扑神经网络约有1.07亿个参数,而卷积神经网络约有800万个参数),但仍实现了这一能耗优势。
全拓扑神经网络的高效得益于其新颖的结构。虽然整体规模更大,但该网络能够聚焦于图像的最重要部分,而非对所有内容进行统一处理。“存在大量可能做出反应的不同神经元,但只有一部分会产生反应,” Kietzmann说道。
全拓扑神经网络(All-TNN)的高效性可能会对低功耗设备上的机器视觉产生影响。然而,Kietzmann和Zejin Lu强调,能效并非他们的主要目标,也不是他们在论文结果中觉得更有意思的部分。相反,他们希望像全拓扑神经网络这样的新型网络架构,能为理解智能(无论是人工智能还是人类智能)提供一个更完整的框架。
Kietzmann指出,追求规模似乎与已知的真实大脑(其可获取的数据少得多,能耗也低得多)的发育方式不一致。那些试图模拟类人行为的网络,或许能为不惜一切代价追求规模(通过使用更多训练数据、训练参数更多的更大模型)提供一种替代方案。
“现在有一种趋势,但人们觉得,对于‘认知是如何产生的’这一根本问题,‘规模’只是一个太过乏味的答案,” Kietzmann说。
本文转自:IEEE电气电子工程师学会,转载此文目的在于传递更多信息,版权归原作者所有。如不支持转载,请联系小编demi@eetrend.com删除。