图像识别

如何基于深度学习实现图像的智能审核?

背景

美团每天有百万级的图片产生量,运营人员负责相关图片的内容审核,对涉及法律风险及不符合平台规定的图片进行删除操作。由于图片数量巨大,人工审核耗时耗力且审核能力有限。另外对于不同审核人员来讲,审核标准难以统一且实时变化。所以有必要借助机器实现智能审核。

图像智能审核一般是指利用图像处理与机器学习相关技术识别图像内容,进而甄别图像是否违规。图像智能审核旨在建立图片自动审核服务,由机器自动禁止不符合规定(负例)的图片类型,自动通过符合规定(正例)的图片类型,机器不确定的图片交由人工审核。因此,衡量智能审核系统性能的指标主要是准确率和自动化率。

盘点一下那些不知不觉中已经渗入生活的AI技术...

人工智能正越来越多的渗透入人们的生活,改变人们的生活,从自然语言生成到语音识别、从医疗诊断到商业决策,AI逐渐开始显露出巨大的优势,并且它的脚步不会停止。

1. 自然语言生成(NLG)

自然语言生成是人工智能的一个子学科,它可以将海量的数据转换成人类可读的文本,通过这样的方式实现与人类的交流。目前主要的应用是为客户提供报告生成和市场摘要等服务。通过对数据的分析、挖掘理解,从数据中抽取出有效的信息并总结成文本输出。优秀的AI还能实现自动排版和美化,做到可读性与优良的可视化效果。

盘点一下那些不知不觉中已经渗入生活的AI技术...

目前该技术主要由Attivio, Automated Insights, Cambridge Semantics, Digital Reasoning, Lucidworks, Narrative Science, SAS, and Yseop等公司提供。

图像语义分割的前世今生

1998年以来,人工神经网络识别技术已经引起了广泛的关注,并且应用于图像分割。基于神经网络的分割方法的基本思想是通过训练多层感知机来得到线性决策函数,然后用决策函数对像素进行分类来达到分割的目的。这种方法需要大量的训练数据。神经网络存在巨量的连接,容易引入空间信息,能较好地解决图像中的噪声和不均匀问题。选择何种网络结构是这种方法要解决的主要问题。

图像分割是图像识别和计算机视觉至关重要的预处理。没有正确的分割就不可能有正确的识别。

  •   普通分割
将不同分属不同物体的像素区域分开。
如前景与后景分割开,狗的区域与猫的区域与背景分割开。

  •   语义分割
在普通分割的基础上,分类出每一块区域的语义(即这块区域是什么物体)。
如把画面中的所有物体都指出它们各自的类别。

  •   实例分割
在语义分割的基础上,给每个物体编号。
如这个是该画面中的狗A,那个是画面中的狗B。

这里先说一下图像语义分割和普通的图像分割的关系:

在走进深度学习的过程中,最吸引作者的是一些用于给对象分类的模型。最新的科研结果表示,这类模型已经可以在实时视频中对多个对象进行检测。而这就要归功于计算机视觉领域最新的技术革新。

众所周知,在过去的几年里,卷积神经网络(CNN或ConvNet)在深度学习领域取得了许多重大突破,但对于大多数人而言,这个描述是相当不直观的。因此,要了解模型取得了怎样大的突破,我们应该先了解卷积神经网络是怎样工作的。

卷积神经网络可以做些什么?

卷积神经网络用于在图像中寻找特征。在CNN的前几层中,神经网络可以进行简单的"线条"和"角"的识别。我们也可以通过神经网络向下传递进而识别更复杂的特征。这个属性使得CNN能够很好地识别图像中的对象。

卷积神经网络

CNN是一个包含各种层的神经网络,其中一些层是卷积层、池化层、激活函数。

卷积层是如何工作的?

要了解CNN如何工作,你需要了解卷积。卷积涉及浏览图像和应用滤波器等具体内容。

深度学习的目标检测技术演进:R-CNN、Fast R-CNN、Faster R-CNN

object detection我的理解,就是在给定的图片中精确找到物体所在位置,并标注出物体的类别。object detection要解决的问题就是物体在哪里,是什么这整个流程的问题。然而,这个问题可不是那么容易解决的,物体的尺寸变化范围很大,摆放物体的角度,姿态不定,而且可以出现在图片的任何地方,更何况物体还可以是多个类别。

object detection技术的演进:
RCNN->SppNET->Fast-RCNN->Faster-RCNN

从图像识别的任务说起
这里有一个图像任务:
既要把图中的物体识别出来,又要用方框框出它的位置。

基于深度学习的目标检测技术演进:R-CNN、Fast R-CNN、Faster R-CNN

上面的任务用专业的说法就是:图像识别+定位
图像识别(classification):
输入:图片
输出:物体的类别
评估方法:准确率

19个AI热门应用领域,你知道多少?

1. 自然语言生成(Natural Language Generation)

自然语言生成是人工智能的分支,研究如何将数据转化为文本,用于客户服务、报告生成以及市场概述。

2. 语音识别(Speech Recognition)

Siri就是一个典型的例子。
目前,通过语音应答交互系统和移动应用程序对人类语言进行转录的系统已多达数十万。

3. 虚拟助理(Virtual Agents)

虚拟助理是一种能与人类进行交互的计算机代理或程序,其中以聊天机器人最为著名。虚拟助理多用于客户服务和支持,并可以作为智能家居的管理者。

4. 机器学习平台(Machine Learning Platforms)

机器学习是计算机科学和人工智能技术的分支,它能提升计算机的学习能力。

除了看和听之外,AI能拥有触觉吗?

AI近几年的快速发展离不开深度学习方法的深入研究,而深度学习提升AI能力的最显著表现,目前来看主要集中在两个方面:图像识别和语音识别。

通过对图像的语义分割,图像识别技术已经应用得特别广泛。在手机摄影、拍照购物、刷脸支付等各种领域,图像识别给我们带来了极大的便利。同时,基于语音识别的各种语音助手比如智能音箱等,也在悄然描画智能家居的未来。可以说,单单是在视觉和听觉这两个方面的技术突破,AI就已经给世界带来了巨大改变。

但是,人有五感,除了视觉和听觉之外,还有非常重要的触觉。曾经有个人做实验,看看蒙上眼睛堵上耳朵再绑手脚这人会怎样,结果差点儿整出精神病。

那么具体到AI这件事上,仅仅发展其视觉和听觉技术已经逐步呈现了“瘸腿走路”的特征。如今,或许是时候讨论一下给它加上触觉这件事了。

视觉和听觉长板下的触觉短板

视觉和听觉技术发展的优点是显而易见的,其最重要的作用也集中在两个字上:识别。

为什么视觉的识别和听觉的识别技术这么重要,而且被首先开发出来呢?笔者认为主要有以下几个方面的原因。

第一,视觉和听觉是判断某一个物体特性的基本方法。

图像识别基本理论

图像识别,是指利用计算机对图像进行处理、分析和理解,以识别各种不同模式的目标和对像的技术。

1、图像识别基本流程

图像识别基本理论

2、数字图像处理

一幅图像可以用一个二维函数来表示

I = f(x,y)  x,y代表图像平面的坐标,I代表亮度值,当x,y,I连续时为模拟图像,反之为数字图像;

现代信息理论将图像看做二维信号,按照数字信号理论,数字图像处理可以分为空域处理和频域处理;

空域处理的对象是信号本身f(x,y),比如几何变换、卷积、形态学等处理;

频域处理是对信号f(x,y)变换到频域函数F(u,v),或称信号的频谱函数,再对F(u,v)进行处理;常见的有傅里叶变换、沃尔什变换、K-L变换、小波变换等。

依照功能和目的不同,数字图像处理可分为以下几类:

基于深度学习的目标检测技术演进:R-CNN、Fast R-CNN、Faster R-CNN

object detection我的理解,就是在给定的图片中精确找到物体所在位置,并标注出物体的类别。object detection要解决的问题就是物体在哪里,是什么这整个流程的问题。然而,这个问题可不是那么容易解决的,物体的尺寸变化范围很大,摆放物体的角度,姿态不定,而且可以出现在图片的任何地方,更何况物体还可以是多个类别。

object detection技术的演进:
RCNN->SppNET->Fast-RCNN->Faster-RCNN

从图像识别的任务说起
这里有一个图像任务:
既要把图中的物体识别出来,又要用方框框出它的位置。

基于深度学习的目标检测技术演进:R-CNN、Fast R-CNN、Faster R-CNN

上面的任务用专业的说法就是:图像识别+定位
图像识别(classification):
输入:图片
输出:物体的类别
评估方法:准确率

基于神经网络的实体识别和关系抽取联合学习

联合学习(Joint Learning)一词并不是一个最近才出现的术语,在自然语言处理领域,很早就有研究者使用基于传统机器学习的联合模型(Joint Model)来对一些有着密切联系的自然语言处理任务进行联合学习。例如实体识别和实体标准化联合学习,分词和词性标注联合学习等等。最近,研究者们在基于神经网络方法上进行实体识别和关系抽取联合学习,我阅读了一些相关工作,在此和大家一起分享学习。(本文中引用了一些论文作者Suncong Zheng的PPT报告)

1、引言

本文关注的任务是从无结构的文本中抽取实体以及实体之间的关系(实体1-关系-实体2,三元组),这里的关系是我们预定义好的关系类型。例如下图,

基于神经网络的实体识别和关系抽取联合学习

同步内容
--电子创新网--
粤ICP备12070055号