深度学习:使用PowerVR实现计算机视觉(节选1)

嵌入式视觉产品的市场需求量大,且呈不断发展壮大之势,其范围包括消费产品如手机、笔记本电脑、电视、可穿戴设备、汽车安全、安全与数据分析等。来自ABI、Gartner和TSR的最新数据表明,智能相机产品的总市场(TAM)量在2019年时将超过30亿台。

计算机视觉的用户案例包括计算摄影、扩增实境、挥手感控及场景感知。当下,很多手机能通过人脸检测自动调整相机对焦和曝光,而像美图手机这样的产品还能实时美化人脸。在近期召开的嵌入式视觉联盟会议上,百度公司发布了一款深度神经网络应用程序(DNN)。该程序允许用户直接从相机实时输入流中识别成千上万的对象。百度在移动应用程序处理器上实现了他们的神经网络,其使用PowerVR GPU来匹配图像实时数据库的对象。

百度离线移动应用款

百度离线移动应用款

对于汽车市场而言,在车辆上添加计算机视觉可以减少事故的发生。例如,美国人民每年的驾驶里程为两万亿英里,而每年大约有六百万辆机动车发生事故。而相比之下,谷歌的无人驾驶汽车原型已经在公路上完成了超过一百万英里的驾驶里程,却没有发生任何一起因计算机故障引起的事故,这充分说明了计算机视觉在推动这个市场转型时的巨大潜力。如今,很多制造商会提供高级驾驶员辅助系统(ADAS)。该系统在使用传统的雷达和激光雷达技术时,也使用了可视化数据来实现安全功能,如盲点检测、行人检测和自动紧急制动。

对于监测市场而言,将计算机视觉添加到安全摄像头可降低闭路电视运营商的成本,同时又可提高可靠性。例如,使用先进的人群分析算法,则可通过检测步行模式的细微变化来识别对象(如隐藏的武器)的存在。在消费市场中,Nest等公司的安防产品可通过智能手机提醒用户其家中发生的异动,并过滤掉不重要的异动行为如影子在墙上的移动或树木的迎风摆动。

超市等零售环境传统上主要依靠支付和商店忠诚度来跟踪消费者的行为,而使用计算机视觉则为新客户的开发带来了契机。Vadaro等公司生产的零售相机可以通过评估顾客的年龄、性别、停留时间及关注的产品来识别顾客是新顾客还是老顾客。这些相机还能给零售商和广告商反馈有价值的信息,并通过自动化任务如计算排队等候人数等来改善服务质量。

Vadaro Eagle零售分析传感器

Vadaro Eagle零售分析传感器

计算机视觉算法

计算机视觉算法涉及到许多不同类型的任务,通常呈流水线形式,如下所示:

 典型的计算机视觉处理流水线

典型的计算机视觉处理流水线

• 图像预处理任务包括降噪、色彩标准化、伽马校正和去翘曲。
• 特征提取和描述即标识图像中可精确测量的点和区。后续阶段的处理则可在已简化的特征上操作,这样可避免全尺寸图像操作,也因此降低了计算难度。
• 图像配准即对准多重图像以简化像素级的对比工作。例如,使图像作为全景或HDR图像缝合在一起。
• 对于需要了解三维空间如三维模型重建的视觉算法,深度计算改善了其性能和稳固性。
• 对象识别用于标识代表对象类别的像素或特征。由于此任务极其复杂,许多算法都基于机器学习和人工智能技术。
• 运动分析是从多个视频帧中提取信息,如辅助预测车辆或行人等对象在一段时间内的运动轨迹。
• 启发法可促进瞬间决策,如允许快速移动的车辆进行纠正操纵。

特征提取和描述

特征提取将含有大量像素的图像转换成已缩减的特征点集,即特征向量(或描述符号)。一个好的算法从输入数据中提取相关信息是为了以缩减的图像代替全尺寸图像来完成后续的视觉任务。其共同的特征包括边缘、角落及具有共享属性如亮度或色彩(即斑点)的区域。比较知名的特征探测器有Sobel和Canny边缘探测器、Harris和FAST的角点探测器及高斯差分 (DoG)斑点探测器。示例如下。

边缘、角落和高斯差分

边缘、角落和高斯差分

尺度不变特征变换算法

SIFT(尺度不变特征变换算法)是最早期的特征探测器,精准度高。SIFT从DoG尺度空间极值点中检测斑点,融入Harris检测的变体,丢弃了类似边缘的特征值。正如下图所示,SIFT算法为多尺度图像(或octave)计算尺度空间金字塔。在每个多尺度图像中,通过高斯核卷积图像获得多个模糊图像,这可抑制高频空间信息。DoG操作从另一个低模糊版的相同图像中减去一个模糊图像,从而保留频率范围之间的空间信息。通过将其中一个模糊图像缩减2倍像素采样及重复计算,可连续对octave进行计算。最终的输出是产生一个迷你图。迷你图包括octave的多个DoG尺度空间图像在内,还包含了代表特征点的高变体区域。

高斯差分金字塔

高斯差分金字塔

欢迎继续关注,未完待续!

--电子创新网--
粤ICP备12070055号