图像识别

除了看和听之外,AI能拥有触觉吗?

AI近几年的快速发展离不开深度学习方法的深入研究,而深度学习提升AI能力的最显著表现,目前来看主要集中在两个方面:图像识别和语音识别。

通过对图像的语义分割,图像识别技术已经应用得特别广泛。在手机摄影、拍照购物、刷脸支付等各种领域,图像识别给我们带来了极大的便利。同时,基于语音识别的各种语音助手比如智能音箱等,也在悄然描画智能家居的未来。可以说,单单是在视觉和听觉这两个方面的技术突破,AI就已经给世界带来了巨大改变。

但是,人有五感,除了视觉和听觉之外,还有非常重要的触觉。曾经有个人做实验,看看蒙上眼睛堵上耳朵再绑手脚这人会怎样,结果差点儿整出精神病。

那么具体到AI这件事上,仅仅发展其视觉和听觉技术已经逐步呈现了“瘸腿走路”的特征。如今,或许是时候讨论一下给它加上触觉这件事了。

视觉和听觉长板下的触觉短板

视觉和听觉技术发展的优点是显而易见的,其最重要的作用也集中在两个字上:识别。

为什么视觉的识别和听觉的识别技术这么重要,而且被首先开发出来呢?笔者认为主要有以下几个方面的原因。

第一,视觉和听觉是判断某一个物体特性的基本方法。

图像识别基本理论

图像识别,是指利用计算机对图像进行处理、分析和理解,以识别各种不同模式的目标和对像的技术。

1、图像识别基本流程

图像识别基本理论

2、数字图像处理

一幅图像可以用一个二维函数来表示

I = f(x,y)  x,y代表图像平面的坐标,I代表亮度值,当x,y,I连续时为模拟图像,反之为数字图像;

现代信息理论将图像看做二维信号,按照数字信号理论,数字图像处理可以分为空域处理和频域处理;

空域处理的对象是信号本身f(x,y),比如几何变换、卷积、形态学等处理;

频域处理是对信号f(x,y)变换到频域函数F(u,v),或称信号的频谱函数,再对F(u,v)进行处理;常见的有傅里叶变换、沃尔什变换、K-L变换、小波变换等。

依照功能和目的不同,数字图像处理可分为以下几类:

基于深度学习的目标检测技术演进:R-CNN、Fast R-CNN、Faster R-CNN

object detection我的理解,就是在给定的图片中精确找到物体所在位置,并标注出物体的类别。object detection要解决的问题就是物体在哪里,是什么这整个流程的问题。然而,这个问题可不是那么容易解决的,物体的尺寸变化范围很大,摆放物体的角度,姿态不定,而且可以出现在图片的任何地方,更何况物体还可以是多个类别。

object detection技术的演进:
RCNN->SppNET->Fast-RCNN->Faster-RCNN

从图像识别的任务说起
这里有一个图像任务:
既要把图中的物体识别出来,又要用方框框出它的位置。

基于深度学习的目标检测技术演进:R-CNN、Fast R-CNN、Faster R-CNN

上面的任务用专业的说法就是:图像识别+定位
图像识别(classification):
输入:图片
输出:物体的类别
评估方法:准确率

基于神经网络的实体识别和关系抽取联合学习

联合学习(Joint Learning)一词并不是一个最近才出现的术语,在自然语言处理领域,很早就有研究者使用基于传统机器学习的联合模型(Joint Model)来对一些有着密切联系的自然语言处理任务进行联合学习。例如实体识别和实体标准化联合学习,分词和词性标注联合学习等等。最近,研究者们在基于神经网络方法上进行实体识别和关系抽取联合学习,我阅读了一些相关工作,在此和大家一起分享学习。(本文中引用了一些论文作者Suncong Zheng的PPT报告)

1、引言

本文关注的任务是从无结构的文本中抽取实体以及实体之间的关系(实体1-关系-实体2,三元组),这里的关系是我们预定义好的关系类型。例如下图,

基于神经网络的实体识别和关系抽取联合学习

目标检测的图像特征提取之HOG特征

1、HOG特征:

方向梯度直方图(Histogram of Oriented Gradient, HOG)特征是一种在计算机视觉和图像处理中用来进行物体检测的特征描述子。它通过计算和统计图像局部区域的梯度方向直方图来构成特征。Hog特征结合SVM分类器已经被广泛应用于图像识别中,尤其在行人检测中获得了极大的成功。需要提醒的是,HOG+SVM进行行人检测的方法是法国研究人员Dalal在2005的CVPR上提出的,而如今虽然有很多行人检测算法不断提出,但基本都是以HOG+SVM的思路为主。

(1)主要思想:

在一副图像中,局部目标的表象和形状(appearance and shape)能够被梯度或边缘的方向密度分布很好地描述。(本质:梯度的统计信息,而梯度主要存在于边缘的地方)。

(2)具体的实现方法是:

首先将图像分成小的连通区域,我们把它叫细胞单元。然后采集细胞单元中各像素点的梯度的或边缘的方向直方图。最后把这些直方图组合起来就可以构成特征描述器。

(3)提高性能:

论图像识别的预处理技术

图像识别中,图像质量的好坏直接影响识别算法的设计与效果精度,那么除了能在算法上的优化外,预处理技术在整个项目中占有很重要的因素,然而人们往往忽略这一点。

图像预处理,将每一个文字图像分检出来交给识别模块识别,这一过程称为图像预处理。

图像预处理的主要目的是消除图像中无关的信息恢复有用的真实信息增强有关信息的可检测性和最大限度地简化数据从而改进特征抽取、图像分割、匹配和识别的可靠性。预处理过程一般有数字化、几何变换、归一化、平滑、复原和增强等步骤。

1.滤波:滤波(Wave filtering)是将信号中特定波段频率滤除的操作,是抑制和防止干扰的一项重要措施。 ps:均值、中值、高斯滤波在一定程度上会影响图像的清晰度,清晰图像无需进行滤波,一般都是有明显的噪点时才进行滤波处理。

2.图像的归一化和直方图有相似性,在一定程度上可以将诡异哈理解为0-255的像素值变为0-1之间,缩小了其分配距离。ps:在目标与背景灰度差别较大时,用较好,否则会出现粘连导致无法分割。

从图像到知识:深度神经网络实现图像理解的原理解析

摘要:本文将详细解析深度神经网络识别图形图像的基本原理。针对卷积神经网络,本文将详细探讨网络中每一层在图像识别中的原理和作用,例如卷积层(convolutional layer),采样层(pooling layer),全连接层(hidden layer),输出层(softmax output layer)。针对递归神经网络,本文将解释它在在序列数据上表现出的强大能力。针对通用的深度神经网络模型,本文也将详细探讨网络的前馈和学习过程。卷积神经网络和递归神经网络的结合形成的深度学习模型甚至可以自动生成针对图片的文字描述。作为近年来重新兴起的技术,深度学习已经在诸多人工智能领域取得了令人瞩目的进展,但是神经网络模型的可解释性仍然是一个难题,本文从原理的角度探讨了用深度学习实现图像识别的基本原理,详细解析了从图像到知识的转换过程。

1 引言

传统的机器学习技术往往使用原始形式来处理自然数据,模型的学习能力受到很大的局限,构成一个模式识别或机器学习系统往往需要相当的专业知识来从原始数据中(如图像的像素值)提取特征,并转换成一个适当的内部表示。而深度学习则具有自动提取特征的能力,它是一种针对表示的学习。

图像识别的原理、过程、应用前景,精华篇!

图像识别技术是信息时代的一门重要的技术,其产生目的是为了让计算机代替人类去处理大量的物理信息。随着计算机技术的发展,人类对图像识别技术的认识越来越深刻。图像识别技术的过程分为信息的获取、预处理、特征抽取和选择、分类器设计和分类决策。简单分析了图像识别技术的引入、其技术原理以及模式识别等,之后介绍了神经网络的图像识别技术和非线性降维的图像识别技术及图像识别技术的应用。从中可以总结出图像处理技术的应用广泛,人类的生活将无法离开图像识别技术,研究图像识别技术具有重大意义。

1 图像识别技术的引入

如何才能实现“通用”型 AI?科学家:从人脑寻找灵感

深度学习在单个领域已经取得了可喜的突破。但是若论综合实力,现在的AI根本无法跟人相比。人是通用学习机器,但AI不是。脑科学家Jeff Hawkins 称科学家需要不断从人脑那里寻找灵感来开发一般人工智能。为此,他认为自己团队的最近发现也许为AGI的实现描绘了一幅清晰的路线图。

诸如“深度学习”和“卷积神经网络”等人工智能技术在图像识别、自动驾驶汽车等其他困难任务方面已经取得了惊人的进步。随着融资和收购行为的加速,众多的人工智能公司看上去已经站在了风口的位置。

【视频】在PowerVR Series2NX NNA平台上运行的实时推理Demo

训练一个神经网络,“离线的”和可以实时识别新对象的训练模型(称为“推理”)之间是有区别的,例如,如果一个神经网络设计成用来识别过往的图片,例如一只猫,那么就需要从数千张猫的图像数据库中了解到猫是什么样的。 经过适当的训练,当你给一个有神经网络的设备展示猫先生的图片时,它就能够认出猫,即使它以前没有见过猫,这就是推理。
文章链接:如何让人工智能推理、训练更高效?

前往Imagination官方优酷观看: http://v.youku.com/v_show/id_XMzE3MDQwODE5Ng==.html

同步内容
--电子创新网--
粤ICP备12070055号