详说卷积神经网络前世今生

作者: Benny Har-Even
目前,人们对性能强大且结构复杂的计算机已是司空见惯。通过与手机和蓝牙音响对话,我们可以收到环境敏感信息的反馈;驾驶某些汽车时,我们可以双手脱离方向盘,让电子设备带我们上路;只要触摸某个按钮,我们便可以与世界任何地方的任何人分享信息和图片。

但目前有一个领域仍处于初步阶段:计算机“视觉”。虽然我们的口袋里装着性能极佳的相机,但要真正了解这个世界,这些设备相对来说便黯然失色了。因为设备虽然可以清晰地捕捉到世界的画面,却不能理解画面的内涵。

例如,如果您给一个三岁小孩展示一张人与大象同框的照片,他可以清楚地告知照片的内容,但若要计算机做同样的事情,则相当具有挑战。

只有当使用图像数据集对计算机进行训练后,其方可识别对象
只有当使用图像数据集对计算机进行训练后,其方可识别对象

不过,情况正发生变化。近年来,一个称之为“深度学习”的领域大幅提升了计算机理解所见事物的能力。深度学习,尤其是卷积神经网络的使用,并没有依赖传统的图像处理技术,而是赋予计算机理解世界的能力,且这方面已取得重大进展。

卷积神经网络最早可以追溯到20世纪80年代末,其创建是基于20世纪60年代早期的人工神经网络(ANN)和多层感知器(MLP)。它们最初的设计旨在模拟人脑的工作方式。当然,为了像人脑一样做好工作,需要使用大量的数据来进行训练。

2005年,随着GPU的崛起,CNN开始变得广为人知,并大量投入使用。这是因为,GPU处理重复性任务的速度使得CNN的使用变成现实。

2012年,计算机视觉智能领域的工作取得了重大的飞跃,Alex Krizhevsky使用神经网络赢得了ImageNet挑战赛。这是一个巨大的图像数据库,含有数百万图像数据,由普林斯顿大学李凯教授于2007年创建。该数据库为计算机提供了充足的训练数据,使之能以如孩童学习的方式进行学习。通常,ImageNet挑战赛被看作计算机视觉领域一年一度的奥林匹克盛会,其基于筛选的图像,测试计算机学会理解所见对象的速度有多快。失误越少,比分则越高。

2012年,AlexNet CNN迅速提升了图像识别性能,产生了重大的影响

2012年,AlexNet CNN迅速提升了图像识别性能,产生了重大的影响

当时,Krizhevsky能够将错误率从26%降到15%——这是一个重大的改进,且是通过使用卷积神经网络而实现的。每年,随着创立团队创建了更好的系统来加速和提高设备理解图像的能力,故而这一进程也得到了持续的改进。

ImageNet CNN的性能近年来持续优化
ImageNet CNN的性能近年来持续优化

但CNN如何在现实世界使用,它们又将产生怎样的影响?

辅助技术

在《2001:太空漫游》中有一个著名的场景,宇航员大卫·保曼和富兰克·保尔躲在一个舱里,在这个舱里,飞船计算机HAL无法听到他们对它古怪行为的谈话。然而,HAL却能读懂他们的唇语。按现阶段,我们知道,HAL将使用CNN来破译他们说的话。唇读计算机还有更多的使用案例,如从音频不可用的视频内容中获取副本、记者获取政客或名人更真实的言论等。

1968年拍摄的电影《2001:太空漫游》中的HAL9000展示读唇术
1968年拍摄的电影《2001:太空漫游》中的HAL9000展示读唇术

来自牛津大学的一组研究人员已提出使用CNN进行唇读,另一篇提交给IEEE的论文则指出如何使用CNN“减少物体摇晃及面部特征提取模糊造成的负面影响”。这里,便生成了一个词,识别率高达71.76%,这要远优于传统的方法。

不过,目前,你仍可以以手中的设备感受CNN的强大。有一款名为AIPoly的APP,其设计可以帮助视力有缺陷人士在使用了Imagination PowerVR GPU的智能手机上,通过摄像机识别物体并语音反馈信息。

全自动驾驶汽车

CNN与全自动驾驶汽车也密切相关,但使用CNN驱动全自动驾驶汽车仍在开发中。来自康奈尔大学的论文探讨了如何有效使用CNN来识别汽车牌照,其相比传统的方式效果更佳。当然,车牌并不像移动的物体那样不可预测,但有一篇讨论CNN的论文指出,使用CNN相比传统的方法效率更高。

谈及移动物体,人们自然地认为,CNN作为ADAS和汽车全自动视觉系统中使用的最重要的算法,将在全自动驾驶汽车领域发挥重大的作用。CNN在分析场景方面十分高效,它将场景分解为可识别的对象,直至场景中的物体、行人、汽车、卡车、路肩、路标在摄像机系统中可以被识别。通过使用大量的训练数据,卷积网络可以“学习”在实时驾驶时如何从场景中进行信息识别和提取。举例来说,通过CNN的各个层,可以发现拐角/弯道,随后是环路、路标,最后是路标的含义。这些信息随后传递给传感器,并与其他传感器如激光雷达或雷达中的数据进行融合,这样便可以理解更大的图景,并通过多媒体交互系统发出闪光警告或控制刹车或转向,以此对场景做出反应。

详说卷积神经网络前世今生

CNN可以在CPU或使用GPU计算的设备上使用,这将更加有效(效率至少提升10倍),或者通过硬件加速,最终以最低的功耗和硅占用面积来获得最高的性能。

医疗应用

从本质上来说,CNN非常善于发现,这个特性使之非常适合医疗环境。正如在Nature.com发表的论文所讨论的一样,CNN可以有效地提高癌症识别的准确性,并已被应用于检测“原发性乳腺癌、神经胶质瘤及上皮与基质分割”。高效率则意味着它们可以减少医学专家的工作量。论文总结道,“深度学习”在“提高前列腺癌和乳腺癌分期诊断疗效方面将具有巨大的潜力”。

详说卷积神经网络前世今生

同样,康奈尔大学发表的论文指出,使用CNN协助乳腺癌筛查,当采样训练数据时可以影响图像保真度,因此建议要保持图像的分辨率,以确保性能最佳。

工业领域

如果您对计算机自我构建有忧虑,那您的担忧不无道理。半导体行业一直着眼于利用深度学习来辅助设计和制造先进的集成电路。通常认为,CNN解决某些制造问题十分适合。与识别癌症相似的是,在光刻工艺过程中,CNN的识别模式可以得到充分的利用,极大地降低了制造缺陷,提高了生产产量。

CNN还被广泛应用于食品识别。有论文讨论了利用CNN进行自动饮食识别,使专家能够发现不健康的饮食模式。还有几篇论文也对CNN的这种功能进行过描述。它们指出,计算机“深度饮食”可以辅助饮食评估,改善人们的健康状况、延长寿命。

社交媒体领域

让数字图像的显示效果达到最佳,这是一项技能。许多人通过使用图像修复工具并花费了大量的精力以期达到这一理想的效果。来自Adobe和康奈尔大学的一项名为“深度照片风格转移”的实验正试图通过应用人工智能来达到这一效果。这款应用可以以某种风格拍摄一张照片,并自动将此风格应用到另一张照片上,效果显著。

详说卷积神经网络前世今生

CNN已被Facebook等网站广泛应用。Facebook描述了他们如何在深度文本中使用CNN,“深度文本”即“基于深度学习的文本理解引擎,可以以接近人类的准确性,每秒理解几千个帖子的文本内容,并横跨超过20种语言。”

总结

Imagination一直密切关注加速推理引擎使用的方法。它们一旦在数据集上进行了全面的训练,就可以在设备上运行CNN。正如我们去年发布的PowerVR Rogue GPU,相比CPU,其运行效率已提升3倍,性能提升12倍。新发布的PowerVR Furian架构的性能和功效将更强大。

在最近的博文中,我们突出呈现了这一领域的工作,以及我们如何率先使用OpenVX CNN扩展,即计算机视觉的开源标准API。

我们将继续从事该领域的工作。Imagination的保罗·布莱斯莱特最近在嵌入式视觉峰会发表了题为“训练CNN用于高效推理”的演讲。在他的演讲中,阐述了Imagination在硬件上运行CNN以提升效率的方法。硬件功率和面积的限制是主要的关注点,如移动设备或全自动驾驶汽车的硬件等。

对于计算机视觉来说,这是一个激动人心的时刻,而Imagination将发挥最核心的作用。更多关于新产品的信息,敬请期待。这些产品将在未来几个月里取得更加突破性的进展。

原文链接:
https://www.imgtec.com/blog/convolutional-neural-networks-in-action/

声明:
本文为原创文章,转载需注明作者、出处及原文链接,否则,本网站将保留追究其法律责任的权利

--电子创新网--
粤ICP备12070055号