人工智能大牛盖瑞·马库斯的11条建议

(本文来自湛庐文化策划出版新书《如何创造可信的AI》,作者盖瑞·马库斯(Gary Marcus ) 欧内斯特·戴维斯(Ernest Davis))

人工智能大牛盖瑞·马库斯的11条建议

在人工智能领域中,深度学习掀起了最近一次大的浪潮,也是目前最受关注、获得投资最多的一类。但要知道,深度学习并非机器学习唯一的方法,更非AI唯一的方法(人工智能>机器学习>深度学习)。

在发展的过程中,深度学习也暴露出了3个核心问题——贪婪性、不透明性和脆弱性。迄今为止,深度学习还只能在控制良好、很少出现意外的环境中进行。围棋就是一个完美的环境,其规则和棋盘两千年来都未发生变化,但在现实世界的许多负责场景中,我们不会想要依赖这项技术,因为它不可信。

当AI的应用场景从2C走向2B时,意味着AI的应用要离开内容推荐、语言识别等用户对错误容忍度较高的领域,走入自动驾驶、医疗诊断、金融决策等涉及人类切身利益的“深水区”中。那么,理想的AI与现实的AI之间为什么会有这么大的差距?我们现在能信任机器人医生吗?或者说人类和人工智能会有信任吗?如何才能补救和克服这些呢?

人工智能大牛盖瑞·马库斯的11条建议
从认知科学中获得的 11 个启示

刘慈欣在《三体》中提到,即使北宋床弩的射程和机关枪差不多,但两者在基本原理上的差距决定了它们之间的不同。

《如何创造可信的AI》作者盖瑞·马库斯指出,只有建立一个全新的航道,才可能达到“可信的AI”这一目标。马库斯系统性地阐述了对当前AI研究界的批判,从认识科学领域中针对性地给出了11条可执行的建议。

马库斯以认知科学、心理学、语言学和哲学为基础提取出11条关键线索,共同核心是用内在更丰富的结构来表达信息、建立认知、建立起其他智能体系的核心要素,比如因果推理能力等。

第一,没有银弹——破除对“终极算法”的迷信

深度学习落入了“寻找银弹”(银弹在欧洲民间传说中是吸血鬼和狼人克星,引申义为致命武器、杀手锏)的陷阱,用充满“残差项”和“损失函数”等术语的全新数学方法来分析世界,依然局限于“奖励最大化”的角度,而不去思考,若想获得对世界的“深度理解”,整个体系中还需要引入哪些东西。

神经科学告诉我们大脑是极为复杂的。真正拥有智慧和复杂性的系统,很有可能像大脑一样充满复杂性。任何一个提出将智慧凝练成为单一原则的理论,或是简化成为单一“终极算法”的理论,都将误入歧途。

第二,认知大量利用内部表征——人类的认知不是从出生后的学习才开始,而是依赖于进化留下的先天表征

从严格的技术意义上讲,神经网络也具有表征,比如表示输入、输出和隐藏单元的向量,但几乎完全不具备更加丰富的内容。在经典人工智能中,知识完全是由这类表征的积累所组成的,而推理则是建立在此基础之上的。如果事实本身模糊不清,得到正确的推理就会难于上青天。外显表征的缺失,也在DeepMind的雅达利游戏系统中造成了类似的问题。DeepMind的雅达利游戏系统之所以在《打砖块》这类游戏的场景发生稍许变化时便会崩溃,原因就在于它实际上根本不表征挡板、球和墙壁等抽象概念。

没有这样的表征,就不可能有认知模型。没有丰富的认知模型,就不可能有鲁棒性。你所能拥有的只是大量的数据,然后指望着新事物不会与之前的事物有太大的出入。当这个希望破灭时,整个体系便崩溃了。

在为复杂问题构建有效系统时,丰富的表征通常是必不可少的。DeepMind在开发以人类(或超人)水平下围棋的AlphaGo系统时,就放弃了先前雅达利游戏系统所采用的“仅从像素学习”的方法,以围棋棋盘和围棋规则的详细表征为起步,一直用手工的机制来寻找走棋策略的树形图和各种对抗手段。

第三,抽象和概括在认知中发挥着至关重要的作用

我们的认知大部分是相当抽象的。例如,“X是Y的姐妹”可用来形容许多不同的人之间的关系:玛利亚·奥巴马是萨沙·奥巴马的姐妹,安妮公主是查尔斯王子的姐妹,等等。我们不仅知道哪些具体的人是姐妹,还知道姐妹的一般意义,并能把这种知识用在个体身上。比如,我们知道,如果两个人有相同的父母,他们就是兄弟姐妹的关系。如果我们知道劳拉·英格斯·怀德是查尔斯·英格斯和卡罗琳·英格斯的女儿,还发现玛丽·英格斯也是他们的女儿,那么我们就可以推断,玛丽和劳拉是姐妹,我们也可以推断:玛丽和劳拉很可能非常熟识,因为绝大多数人都和他们的兄弟姐妹一起生活过;两人之间还可能有些相像,还有一些共同的基因特征;等等。

认知模型和常识的基础表征都建立在这些抽象关系的丰富集合之上,以复杂的结构组合在一起。人类可以对任何东西进行抽象,时间(“晚上10:35”)、空间(“北极”)、特殊事件(“亚伯拉罕·林肯被暗杀”)、社会政治组织(“美国国务院”“暗网”)、特征(“美”“疲劳”)、关系(“姐妹”“棋局上击败”)、理论(“马克思主义”)、理论构造(“重力”“语法”)等,并将这些东西用在句子、解释、比较或故事叙述之中,对极其复杂的情况剥丝抽茧,得到最基础的要素,从而令人类心智获得对世界进行一般性推理的能力。

第四,认知系统是高度结构化的

我们可以预期,真正的人工智能很可能也是高度结构化的,在应对给定的认知挑战时,其大部分能力也将源自在正确的时间以正确的方式对这种结构进行利用。具有讽刺意味的是,当前的趋势与这样的愿景几乎完全相反。现在的机器学习界偏向于利用尽可能少的内部结构形成单一同质机制的端到端模型。

在某种程度上,这样的系统从概念上来看更简单,用不着为感知、预测等分别设计单独的算法。而且,初看起来,该模型大体上效果还算理想,有一部令人印象深刻的视频似乎也证明了这一点。那么,既然用一个庞大的网络和正确的训练集就能简单易行地达到目标,为什么还要将感知、决策和预测视为其中的独立模块,然后费心费力地建立混合系统呢?

问题就在于,这样的系统几乎不具备所需的灵活性。

在关键的应用场景中,最优秀的AI研究人员致力于解决复杂问题时,常常会使用混合系统,我们预期,这样的情况在未来会越来越多。AI和大脑一样,必须要有结构,利用不同的工具来解决复杂问题的不同方面。

第五,即便是看似简单的认知,有时也需要多种工具

大脑也利用几种不同的模式来处理概念,利用定义,利用典型特征,或利用关键示例。我们经常会同时关注某个类别的特征是什么,以及为了令其满足某种形式的标准,必须符合什么条件。

AI面临的一个关键挑战,就是在捕捉抽象事实的机制(绝大多数哺乳动物是胎生)和处理这个世界不可避免的异常情况的机制(鸭嘴兽这种哺乳动物会产卵)之间,寻求相对的平衡。通用人工智能既需要能识别图像的深度学习机制,也需要能进行推理和概括的机制,这种机制更接近于经典人工智能的机制以及规则和抽象的世界。

要获得适用范围更广的AI,我们必须将许多不同的工具组织在一起,有些是老旧的,有些是崭新的,还有一些是我们尚未发现的。

第六,人类思想和语言是由成分组成的

在乔姆斯基看来,语言的本质,用更早期的一位语言学家威廉·冯·洪堡的话来说,就是“有限方法的无限使用”。借有限的大脑和有限的语言数据,我们创造出了一种语法,能让我们说出并理解无限的句子,在许多情况下,我们可以用更小的成分构造出更大的句子,比如用单词和短语组成上面这句话。如果我们说,“水手爱上了那个女孩”,那么我们就可以将这句话作为组成要素,用在更大的句子之中,“玛丽亚想象水手爱上了那个女孩”,而这个更大的句子还可以作为组成要素,用在还要大的句子之中“克里斯写了一篇关于玛丽亚想象水手爱上了那个女孩的文章”,以这样的方式接着类推,每一句话我们都可以轻松理解。

在深度学习中,每个输入和输出都可以被描述为一个向量,网络中的每个“神经元”都为相关向量贡献一个数字。由此,许多年以来,机器学习领域的研究人员一直试图将单词以向量的形式进行编码,认为任何两个在意义上相似的单词都应该使用相似的向量编码。

类似的技术被谷歌所采用,并体现在了谷歌最近在机器翻译方面取得的进展之中。那么,为什么不以这种方式来表征所有的思想呢?

因为句子和单词不同。我们不能通过单词在各类情况下的用法来推测其意思。例如猫的意思,至少与我们听说过的所有“猫”的用法的平均情况有些许相似,或(从技术角度讲)像是深度学习系统用于表征的矢量空间中的一堆点。但每一个句子都是不同的:John is easy to please(约翰很好哄)和John is eager to please(约翰迫不及待的想要取悦别人)并不是完全相似的,虽然两句话中的字母乍看去并没有多大区别。John is easy to please和John is not easy to please的意思则完全不同。在句子中多加一个单词,就能将句子的整个意思全部改变。深度学习在没有高度结构化句子表征的情况下工作,往往会在处理细微差别时遇到问题。

这个例子告诉我们:统计数字经常能近似地表示意义,但永远不可能抓住真正的意思。如果不能精准地捕捉单个单词的意义,就更不能准确地捕捉复杂的思想或描述它们的句子。

第七,对世界的鲁棒理解,既需要自上向下的知识,也需要自下而上的信

看一看这幅图片。这是个字母,还是个数字?

很明显,这幅图片既可以是字母,也可以是数字,具体取决于它所在的上下文。

认知心理学家将知识分为两类:自下而上的信息,是直接来自我们感官的信息;还有自上而下的知识,是我们对世界的先验知识,例如,字母和数字是两个不同的类别,单词和数字是由来自这些类别之中的元素所组成的,等等。这种模棱两可的B/13图像,在不同的上下文中会呈现出不同的面貌,因为我们会尝试着将落在视网膜上的光线与合乎逻辑的世界相结合。

找到一种方法将自下而上和自上而下两者整合为一体,是人工智能的当务之急,却常常被人忽视。

人类对任何一个概念的认知,都取决于概念出现的上下文和其所属的理论框架。识别出不同的应用场景,不仅可以显著减少所需数据,还能够让AI变得更加可信任。如果AI可以区分画中的一把刀和真实场景下的刀,就可以做出不同的反应。

同时,人类会对每个事物和人的个体分别进行持续的观察和跟踪,以此来将不同时间点的数据进行统一的分析。这也是AI需要向人类学习的方式。

第八,概念嵌于理论之中

嵌入在理论中的概念对有效学习至关重要。假设一位学龄前儿童第一次看到鬣蜥的照片。从此之后,孩子们就能认出其他照片上的、视频中的和现实生活中的鬣蜥,而且准确率相当高,很容易就能将鬣蜥与袋鼠甚至其他蜥蜴区分开来。同样,孩子能够从关于动物的一般知识中推断出,鬣蜥会吃东西,会呼吸,它们生下来很小,会长大,繁殖,然后死去,并意识到可能有一群鬣蜥,它们看起来或多或少都有些相似,行为方式也相似。

没有哪个事实是一座孤岛。通用人工智能若想获得成功,就需要将获取到的事实嵌入到更加丰富的、能帮助将这些事实组织起来的高层级理论之中。

第九,因果关系是理解世界的基础

深度学习能否成功,在尝试之前是无法确证的,AlphaGo的设计者在设计之初也不确定能否取得如今的成绩,毕竟深度学习能够找到的规律只是相关性,而非因果性。

围棋的棋盘形式和游戏规则构成了一个相对简单的因果模型,只有胜负的结果和单一的时间颗粒度,影响胜负的因素只有自己如何下棋。因此,和赢棋相关的走法,就等同于导致AI更强的算法改进。

但现实中,尤其是在2B的应用场景下,AI需要在多维度和长时间尺度下,做出同时满足多种评价标准的决策,此时相关性就不等同于因果性。

第十,我们针对逐个的人和事件进行跟进

你的另一半以前当过记者,喜欢喝白兰地,不那么喜欢威士忌。你的女儿以前特别害怕暴风雨,喜欢吃冰激凌,没那么喜欢吃曲奇饼。你车子的右后门被撞了个小坑,一年前你更换了车子的变速器。街角那家小商店,以前卖的东西质量特别好,后来转手给新老板之后,东西的质量就一天不如一天。我们对世界的体验,是由许多持续存在、不断变化的个体组成的,而我们的许多知识,也是围绕着这些个体事物而建立起来的。不仅包括汽车、人物和商店,还包括特定的实体,及其特定的历史和特征。

奇怪的是,这并非深度学习与生俱来的观点。深度学习以类别为重点,而不以个体为重点。通常情况下,深度学习善于归纳和概括:孩子都喜欢吃甜食,不那么喜欢吃蔬菜,汽车有四个轮子。这些事实,是深度学习系统善于发现和总结的,而对关于你的女儿和你的车子的特定事实,则没什么感觉。

第十一,复杂的认知生物体并非白板一块

人工智能要获得真正的进步,首先要搞清楚应该内置何种知识和表征,并以此为起点来启动其他的能力。

我们整个行业,都需要学习如何利用对实体对象的核心理解来进一步了解世界,在此基础之上构建起系统,而不是单纯凭借像素和行为之间的相关性来学习一切,以此为系统的核心。我们所谓的“常识”,大部分是后天习得的,比如钱包是用来装钱的、奶酪可以打成碎屑,但几乎所有这些常识,都始于对时间、空间和因果关系的确定感知。所有这一切的基础,可能就是表征抽象、组合性,以及持续存在一段时间(可以是几分钟,也可以是数十年)的对象和人等个体实体的属性的内在机制。如果机器想要学习尚无法掌握的东西,那么从一开始就需要拥有这样的基础。

本文转自:数据派THU(DatapiTHU),转载此文目的在于传递更多信息,版权归原作者所有。

推荐阅读