本文转自:学术头条
翻译:王言心
本文作者 Sangbae Kim 是麻省理工学院仿生机器人实验室(Biomimetic Robotics Laboratory)主任。此前,他们研发了一种特技机器人,希望通过一些步态探索和简单的四条腿特技,让未来机器人的肢体运动更加精细化。
如今,在他看来,人类对人工智能和机器人是存在认知偏见的,如果人类不清楚地了解这个认知偏见,就无法为人工智能这项技术的研究、应用和政策制定合适的方向,因此人工智能也很容易被误解,因为它在本质上就不同于人类智能。
以下内容为 Sangbae Kim 此前发表在 Naver Labs 的博客,学术头条在不改变原意的前提下,做了精心的编辑:
大多数人会将人工智能与机器人联系在一起,认为他们就是一回事。事实上,“人工智能”一词在研究实验室中很少使用。相反,针对某些特定类型的人工智能和其他智能技术的术语更贴切一些。每当有人问我“这个机器人是由人工智能操作的吗?”,我都会犹豫不决——我其实想知道将我们开发的算法称为“ 人工智能 ”到底是否合适。
20 世纪 50 年代,John McCarthy 和 Marvin Minsky 等科学家首次使用了“人工智能”这个术语,此后几十年它经常出现在科幻小说或电影中。现如今,人工智能也已经用于智能手机的虚拟助手和自动驾驶汽车的算法中。由此可见,长时间以来,人工智能都涵盖许多不同的内容,而这些内容总是造成混淆。
然而,人们往往会有一种偏见,认为人工智能是人类智能的人工实现形式。而这种成见可能来自于我们作为人类的认知偏见。
不要用人类标准看待机器人或人工智能的任务
如果你在 2017 年看到 DeepMind 开发的人工智能 AlphaGo 击败九段围棋选手李世石(Lee Sedol)时,你会有什么感受?你可能会感到惊讶或害怕,认为人工智能的能力已经超越了人类天才。可尽管如此,赢得像围棋这样具有指数级可能走法的游戏只意味着人工智能已经超越了人类智力的一个非常有限的部分。
我相信很多人都对麻省理工学院仿生机器人实验室开发的 Mini Cheetah 表演的后空翻印象深刻。虽然向后跳跃并降落在地面上对人类来说也很困难,但与需要更复杂的反馈环才能实现稳定行走的算法相比,特定动作的算法已经非常简单了。由此可见,完成对我们来说看似容易的机器人任务,往往极其困难和复杂。而之所以出现这样的情况,是因为我们总是倾向于根据人类的标准来考虑任务的难度。
我们往往在观看一个机器人演示后就急于概括出人工智能的所有功能。例如,当我们在街上看到有人在做后空翻时,我们往往会认为这个人擅长走路和跑步,而且还具有足够的灵活性和运动能力,肯定也擅长其他运动。一般来说,我们对这个人的判断并不会出错。
然而,我们是否也可以将这种判断方法应用到机器人上呢?我们很容易根据对特定机器人运动或功能的观察来概括和确定人工智能的性能,就像我们对人类所做的一样。通过观看人工智能研究实验室 OpenAI 的机器人手解魔方的视频,我们认为,既然人工智能可以执行如此复杂的任务,那么它一定可以完成一切比这更简单的任务。但是,我们忽略了这样一个事实:人工智能的神经网络仅针对有限类型的任务(比如解魔法)进行过训练。如果情况发生变化,例如,在操作魔方时将其倒置,那么算法的效果就无法像预期那样好了。
与人工智能不同,人类可以将单个技能结合起来,并将其应用于多项复杂的任务中。一旦我们学会了如何解魔方,即使我们将其倒置,尽管一开始可能会觉得很奇怪,但我们仍然可以快速手解魔方。而对于大多数机器人算法来说,它们需要新的数据或重新编程才能做到这点。此外,自动驾驶汽车需要每种情况的真实数据,而人类司机可以根据预先学习的概念做出理性决定,以应对无数种情况。这些例子让人类智能和机器人算法形成了鲜明的对比:机器人算法无法在数据不足的情况下执行任务。
从古至今,哺乳动物已经连续进化了 6500 多万年。而人类花在学习数学、使用语言和玩游戏上的全部时间加起来也只有 10000 年。换句话说,人类花费了大量时间开发与生存直接相关的能力,例如行走、跑步和使用双手。因此,计算机的计算速度比人类快得多也就不足为奇了,因为它们最初就是为此目的而开发的。同样,计算机自然也不能像人类那样轻易获得自由使用手脚的能力。因为这些技能是通过 1000 多万年的进化获得的。
这也就是说为什么将机器人或人工智能的性能与动物或人类的能力进行比较是不合理的。如果在观看麻省理工学院的 Cheetah 机器人在田野上奔跑并跳过障碍物的视频之后,就认为像动物一样行走和奔跑的机器人技术已经成熟,那可太过于草率了。许多机器人演示仍然依赖于为有限情况下的特殊任务设置的算法。事实上,研究人员倾向于选择看似困难的演示,因为它可以让观众印象深刻。但是,这种难度的级别是从人类角度来看的,可能与实际算法性能无关。
在进行任何逻辑思考之前,人类很容易受到瞬时和反思性感知的影响。当研究对象非常复杂且难以对其进行逻辑分析时,这种认知偏差就会加强,例如,一个使用机器学习的机器人。
那么,我们人类的认知偏见从何而来呢?在我看来,它来自我们潜意识地将我们看到的对象拟人化的心理倾向。人类已经进化为社会性动物,可能在这个进化过程中发展出了相互理解和共情的能力。而我们将主体拟人化的倾向可能来自相同的进化过程,如人们在提到编程算法时倾向于使用“教学机器人”这个词。可尽管如此,我们还是习惯于使用拟人化的表达方式。正如 18 世纪的哲学家 David Hume 所说,“人类有一种普遍的倾向,认为所有的生命都和他们一样。”
当然,我们不仅将研究主体的外表拟人化,而且将它们的心态也拟人化。例如,当波士顿动力公司发布其工程师脚踢机器人的视频时,许多观众的反应是,“这太残忍了”“同情这个机器人”“总有一天,机器人会报复那个工程师”。实际上,工程师只是在测试机器人的平衡算法。然而,在理解这种情况的任何思维运转之前,粗暴的踢人动作加上像动物一般机器人的挣扎动作瞬间传递到我们的大脑,给我们留下了强烈的印象。如此一来,这种瞬时的拟人化对我们的认知过程产生了深远的影响。
人类定性处理信息,而计算机定量处理信息
环顾四周,我们的日常生活充满了算法。由于所有算法都是基于数字,于是我们使用诸如“目标函数”这样的术语,它是一个表示特定目标的数值函数。许多算法的唯一目的是达到该函数的最大值或最小值,并且算法的特性因实现方式而异。
赢得诸如围棋或国际象棋等任务的目标相对容易量化。量化越容易,算法的效果就越好。相反,人类往往在没有量化思考的情况下做出决定。
举个“打扫房间”的例子,我们打扫房间的方式每天都有细微的不同,这取决于具体情况,取决于房间的主人,也取决于我们的感觉。在这个过程中,我们是否试图使某种功能最大化?事实上,我们没有做这样的事情。“打扫”这个行为一直是以“足够干净”这个抽象目标进行的。此外,多少是“足够”的标准很容易改变,这个标准在人与人之间可能是不同的。
我们习惯将已知信息放在一起来做出足够好的决定。但是,我们通常不会检查每个决定是否是最优的。而且大多数时候都是如此,因为我们必须用有限的数据满足众多相互矛盾的指标。
但是,在设计我们期望机器人执行的工作或服务时,人和算法之间的这种操作差异可能会造成麻烦。这是因为,当算法根据量化值执行任务时,人类的满意度,也就是任务的结果,很难被完全量化。量化一项必须适应个人喜好或不断变化环境的任务的目标(如上述打扫房间)并不是一件容易的事。也就是说,为了与人类共存,机器人的进化也许不是为了优化特定功能,而是为了实现“足够好”的结果。当然,后者想要在现实生活中稳健地实现要困难很多,因为你需要应付这么多相互冲突的目标和定性约束。
实际上,我们并不知道自己在做什么
试着回忆一下你在阅读这篇文章之前吃过的最后一顿饭。你还记得你吃了什么吗?除此之外,你还记得咀嚼和吞咽食物的过程吗?你知道那一刻你的舌头到底在做什么吗?事实上,我们的舌头为我们做了很多事情:它帮助我们将食物放入嘴里,在牙齿之间分配食物,吞下嚼碎的食物,甚至在需要时将大块食物送回到牙齿。我们可以自然而然地完成所有这些,甚至在与朋友交谈时,也会使用舌头负责发音。我们有意识的决定对同时完成这么多复杂任务的舌头运动有多大贡献呢?我们看起来像是在随心所欲地移动自己的舌头,但实际上更多时候,舌头在自动移动,并且它从我们的意识中获取高级命令。这就是为什么我们无法记住进餐时舌头的详细动作,因为首先我们对它们的运动就知之甚少。
我们可能会认为手是最有意识的可控器官,但其实许多手部运动也是自动和无意识发生的,或者最多是下意识发生。不信的话,试着把钥匙之类的东西放进你的口袋里,然后再拿出来。在那短短的一瞬间,无数的微操作瞬间无缝地协同完成这项任务。
我们常常无法分别感知每个动作。我们甚至不知道应该把它们分成哪些单位,所以我们把它们统统表达为抽象的词语,如整理、洗涤、涂抹、揉搓、擦拭等。事实上,这些动词是定性定义的。它们通常是指精细动作和操作的总和,其组成随情况而变化。当然,即使是孩子们也很容易理解和思考这个概念,但从算法发展的角度来看,这些词是无限模糊和抽象的。
比如,我们通过在面包上涂抹花生酱来展示如何制作三明治,并用几个简单的词对此稍作解释。假设有一个外星人和我们使用相同的语言,但对人类文明或文化一无所知。(我知道这个假设已经自相矛盾了……,但请耐心往下看。)我们可以通过电话向他解释清楚如何制作花生酱三明治吗?在这种情况下,我们可能在解释如何从罐子里舀出花生酱时就陷入困境。甚至让他拿住一片面包也变得没那么容易了:我们必须把面包用力拿住,才能涂抹花生酱,但与此同时又不能太过用力,以免破坏软面包的形状。其实想要做到这一点并不是很困难,但是通过语言或文字来表达这一点并不容易,更不用说通过函数了。即便是人类在学习一项任务,我们能通过电话学会木匠的工作吗?我们能通过电话精确地纠正网球或高尔夫姿势吗?真实情况是,我们很难辨别我们看到的细节在多大程度上是有意识或无意识地完成的。
总而言之,我们用手脚所做的一切并非都是可以直接用语言表达的。发生在连续动作之间的事情通常会无意识地自动发生,因此我们常常以一种比实际情况更简单的方式来解释我们的行为。这就是为什么我们的行为看起来很简单,但实际上却很不可思议。表达的局限性往往会让我们低估实际的复杂性。我们应该认识到,语言描述的困难会阻碍词汇发展不完善领域的研究进展。
直到最近,人工智能已经应用于与数据处理相关的信息服务,比较突出的例子如语音识别和面部识别。现如今,我们即将进入一个人工智能的新时代,它可以高效地为我们提供物理服务。也就是说,复杂物理任务的自动化时代即将到来。
尤其值得关注的是,日益老龄化的社会给我们带来了巨大的挑战。劳动力短缺变成了明显的社会问题。因此,我们迫切需要讨论如何开发增强人类能力的技术,从而让我们能够专注于更有价值的工作,追求人类特有的生活。这就是为什么工程师以及来自各个领域的社会成员都应该提高他们对人工智能和无意识认知偏见的理解。如上所述,人工智能很容易被误解,因为它在本质上就不同于人类智能。
总而言之,人类对人工智能和机器人存在认知偏见是件很自然的事。但是,如果我们不清楚地了解这个认知偏见,我们就无法为这项技术的研究、应用和政策制定合适的方向。作为一个科学共同体,为了使科学的发展富有成效,我们需要在促进技术适当开发和应用的过程中密切关注我们的认知。
参考资料:
https://spectrum.ieee.org/automaton/robotics/robotics-software/humans-co...