视觉图灵：从人机对抗看计算机视觉下一步发展

demi 在周四, 07/15/2021 - 11:48 提交

摘要：计算机视觉一直是人工智能研究的热点方向，经过近 60 年的发展，已经在算法、技术和应用等方面取得了巨大的进步。近十年来，以大数据、大算力为基础的深度学习进一步推动计算机视觉走向大模型时代，但其算法适应能力仍然和人类存在较大差距。本文从视觉任务评估评测(评测数据集、评测指标、评估方式)出发，对计算机视觉的发展进行了总结，对现存的依赖大数据学习的计算机视觉发展问题进行了梳理和分析，从人机对抗智能评测提出了计算机视觉下一步发展方向：视觉图灵。最后对视觉图灵发展方向进行了思考和讨论，探讨了未来研究可能的方向。

http://www.txxb.com.cn/CN/10.11996/JG.j.2095-302X.2021030339

计算机视觉旨在通过对人类视觉系统进行建模，让机器具备感知视觉信息的能力。作为人工智能技术的研究热点，计算机视觉技术经过近 60 年的发展，已经在理论方法、关键技术和实际应用等方面取得巨大进步[1-2]，并广泛应用于智慧城市、自动驾驶、智能医疗等领域。作为引领计算机视觉发展的风向标和催化剂，评估评测所采用的数据集、评测指标、评估方式的演变给整个计算机视觉研究的发展带来了多次大的变革。其中，随着大规模图像数据集 ImageNet[3]发布，以大数据、大算力为基础的深度学习方法在人脸识别、物体检测、图像分割、目标跟踪等领域大幅度超越了传统方法的性能，引领计算机视觉发展到了依赖大规模计算方法的时代。

以无人驾驶为例，深度模型需要通过对周围环境的感知，完成对车辆运动的决策。以特斯拉为代表的科技公司已将具备自主泊车、自主变道、主动避障等功能的车辆进行量产，并完成在城市街道上的自动驾驶(autosteer on city streets)系统测试。该系统以 30 亿英里驾驶数据为基础完成算法的搭建[4]，然而当面对恶劣天气、复杂车流、障碍物干扰时，依赖于视觉传感器的自动驾驶系统仍然无法实现精准的感知和决策。2020 年 6 月，特斯拉 Model 3 因未正确识别横向侧翻的白色大货车，在高速公路上以 110 公里的时速与货车发生碰撞。这与人类在复杂场景甚至在对抗环境下的感知能力存在巨大的鸿沟。这类问题让人们对当前依赖大数据、大算力的计算机视觉发展模式产生思考和质疑，是什么原因导致这些方法在实验室环境下性能优异，但对真实应用场景的适应能力仍和人类的能力存在较大差距？计算机视觉发展可能的方向在哪里？针对以上问题，多位学者和专家从计算机视觉理论、方法、研究内容等开展了探讨，提出了许多有建设性的观点[5-7]。与此不同，本文从计算机视觉算法和技术应用出发，探讨以计算机视觉算法评估评测(评测数据集、评测指标、评估方式)为主要视角，对计算机视觉的发展历程进行梳理，并对各个阶段存在的问题进行分析，，从而提出计算机视觉发展的下一步思考和建议。

算法验证是计算机视觉算法实验的重要组成，算法的评估评测是计算机视觉理论之外的另一个重要部分。本文按照算法评估评测将计算机视觉发展划分为简单评测、开放评测、竞赛评测和图灵评测 4 个阶段(图 1)。早期，计算机视觉理论处于逐步完善阶段，相关实验在简单环境下依托少量数据完成对理论的验证。随着视觉理论和框架的逐步完善，其研究重点逐步细化到相关具体任务的研究，如物体检测、字符识别、人脸识别等，产生了包括数字手写识别数据集 MNIST[8]、图像分类数据集 CIFAR-10[9]与 CIFAR-100[10]等在内的系列数据集。

为了更加公开公平地评测算法性能，不仅开放数据集，对评测指标也逐步统一，诞生了依托于竞赛的评测方式，如针对目标分类、检测和分割的 PASCAL VOC[11] 竞赛、 ImageNet[3](ImageNet large Scale Visual Recognition Challenge，ILSVRC)大规模视觉识别挑战赛等，对于推动计算机视觉发展取得了巨大效果。然而，简单评测、开放评测和竞赛评测数据集所代表的环境过于简单，未充分涵盖真实环境下的对抗因素，导致模型在面对真实应用中光照变化、快速运动、相似物体干扰等挑战性因素时适应性较差。此外，评估评测方式均只针对模型进行设计，无法实现机器和人类视觉能力的比较。值得一提的是，由于将人引入到评估过程中，图灵测试逐渐得到相关学者的关注。2015 年布朗大学学者提出视觉图灵测试(visual Turing test，VTT)方案[12]，旨在通过一系列没有歧义的二值问题评估机器是否具有和人类一样的视觉理解能力。虽然尝试通过问答的形式对比机器和人类的能力，但这种评测方式侧重于评估机器对时间、空间和因果关系的综合理解，无法有效度量机器在传统视觉任务上的智能程度与人类的差距(图 2)。

综上所述，本文从人机对抗评测的角度提出了计算机视觉下一步发展方向：视觉图灵。首先，评估对象实现“从物到人”的转变，不是以大数据、大算力等“外物”为评测标准，而是真正关注在评价“类人”视觉能力，以人类视觉为基准度量机器的智能程度。其次，评测内容实现“从粗到细”的具化，在任务层面将视觉图灵从视觉问答拓展至计算机视觉所研究的具体任务，在指标层面从回答二值问题拓展为对人类视觉能力的量化。最后，评估环境实现“从演到用”的转变，从针对常规环境的“表演性” 数据集拓展至包含挑战因素的对抗性数据集。依托于以上 3 点的突破，计算机视觉技术的发展将不再局限于对大数据和大算力的强烈依赖，而是以人类感知能力为引导，使得计算机视觉研究迈向下一个新的发展阶段，进而为探索实现近似或超越人类的视觉信息感知提供重要的研究基础。

本文转自：专知(微信号：Quan_Zhuanzhi)，转载此文目的在于传递更多信息，版权归原作者所有。如不支持转载，请联系小编demi@eetrend.com删除。

计算机视觉

计算机视觉的优点和局限性	在机器学习项目中该如何选择优化器？	什么是视觉目标跟踪？视觉目标跟踪的存在哪些挑战？
扩散模型的极简介绍	10个图像处理的Python库	计算机视觉、计算机图形学、图像处理的区别和联系

视觉图灵：从人机对抗看计算机视觉下一步发展

最新文章

最新文章