图像识别

图像识别的未来:机遇与挑战并存

编者按:自1998年成立以来,微软亚洲研究院一直致力于推动计算机科学领域的前沿技术发展。在建院20周年之际,我们特别邀请微软亚洲研究院不同领域的专家共同撰写“预见未来”系列文章,以各自领域的前瞻视角,从机器学习、计算机视觉、系统架构、图形学、自然语言处理等多个方向出发,试图描绘一幅未来科技蓝图。

在计算机视觉领域,图像识别这几年的发展突飞猛进,但在进一步广泛应用之前,仍然有很多挑战需要我们去解决。本文中,微软亚洲研究院视觉计算组的研究员们为我们梳理目前深度学习在图像识别方面所面临的挑战以及具有未来价值的研究方向。

识别图像对人类来说是件极容易的事情,但是对机器而言,这也经历了漫长岁月。

在计算机视觉领域,图像识别这几年的发展突飞猛进。例如,在PASCAL VOC物体检测基准测试中,检测器的性能从平均准确率30%飙升到了今天的超过90%。对于图像分类,在极具挑战性的ImageNet数据集上,目前先进算法的表现甚至超过了人类。

图像识别技术的高价值应用就发生在你我身边,例如视频监控、自动驾驶和智能医疗等,而这些图像识别最新进展的背后推动力是深度学习。深度学习的成功主要得益于三个方面:大规模数据集的产生、强有力的模型的发展以及可用的大量计算资源。对于各种各样的图像识别任务,精心设计的深度神经网络已经远远超越了以前那些基于人工设计的图像特征的方法。

图像识别过程(概念)

图像处理(imageProcessing)利用计算机对图像进行分析,以达到所需的结果。图像处理可分为模拟图像处理和数字图像处理,而图像处理一般指数字图像处理。这种处理大多数是依赖于软件实现的。其目的是去除干扰、噪声,将原始图像编程适于计算机进行特征提取的形式,主要包括图像采样、图像增强、图像复原、图像编码与压缩和图像分割。

(1)图像采样

图像采集是数字图像数据提取的主要方式。数字图像主要借助于数字摄像机、扫描仪、数码相机等设备经过采样数字化得到的图像,也包括一些动态图像,并可以将其转为数字图像,和文字、图形、声音一起存储在计算机内,显示在计算机的屏幕上。图像的提取是将一个图像变换为适合计算机处理的形式的第一步。

(2)图像增强

如今领占主导地位的19种AI技术!

深度学习的突破将人工智能带进全新阶段。 2006 年-2015 年是人工智能崛起的黄金十年。 2006 年 Hinton 提出“深度学习” 神经网络,使得人工智能的性能获得了突破性进展, 2006 年成为人工智能发展史上一个重要的分界点。

如今领占主导地位的19种AI技术!

近年来,随着深度学习算法的逐步成熟,AI技术分支越发增多,现在让我们细数AI技术,看看领占主导地位的19种AI技术都有哪些!

1、 自然语言生成(Natural Language Generation)

自然语言生成是AI的子学科,可将数据转换成文本,使计算机能够像人一样的拥有表达和写作的能力,它能够帮助客户快速的生成商业报告和市场概要。

2、 语音识别(Speech Recognition)

图像局部特征点检测算法综述

研究图像特征检测已经有一段时间了,图像特征检测的方法很多,又加上各种算法的变形,所以难以在短时间内全面的了解,只是对主流的特征检测算法的原理进行了学习。总体来说,图像特征可以包括颜色特征、纹理特等、形状特征以及局部特征点等。其中局部特点具有很好的稳定性,不容易受外界环境的干扰,本篇文章也是对这方面知识的一个总结。

本篇文章现在(2015/1/30)只是以初稿的形式,列出了主体的框架,后面还有许多地方需要增加与修改,例如2013年新出现的基于非线性尺度空间的KAZE特征提取方法以及它的改进AKATE等。在应用方面,后面会增一些具有实际代码的例子,尤其是基于特征点的搜索与运动目标跟踪方面。

1. 局部特征点

图像特征提取是图像分析与图像识别的前提,它是将高维的图像数据进行简化表达最有效的方式,从一幅图像的 M × N × 3 的数据矩阵中,我们看不出任何信息,所以我们必须根据这些数据提取出图像中的关键信息,一些基本元件以及它们的关系。

机器学习不断接近人脑水平,AI图像识别未来发展如何?

文/张康康

过去十几年,人类可以说是在机器智能面前节节退败,屡败屡战,而多任务处理(multi-tasking)几乎是为数不多可以让人类骄傲的事情了。人们可以同时打开8个网站、数份文档和一个交友软件,即使正在专心处理其中一件事,只要突然收到一条回复或更新提醒,也能够快速安排。对机器而言,要在同一时间完成这样的任务显然有点困难,因此,多任务处理一直被视为人类独有的技能点。

然而,这个优势也将失去了。

近几年,Alphago、视频识别、指纹解锁、图片识别、语音转文字、机器人看病等一系列事件,使我们深刻的感受到人工智能在改变我们的工作方式和认知。国内人工智能产业中,就算集视觉与图像领域公司的数量已达数百家,仅次于自然语言处理类公司,位居第二。其中该领域最为出名的创业公司包括旷世科技Face++、商汤科技、极链科技Video++等。

一百多年前,电改变了生产、交通和农业等产业,而今天,人工智能也像电一样将改变传统产业。人脸识别和图片识别是人工智能视觉与图像领域中的两大热门应用。但将人工智能技术单纯用于图片识别分析的应用企业数量并不如预想的多,可能有以下几个方面的原因:目前视频监控方面的盈利空间大,众多企业的注意力都放在了视频监控领域,人脸识别属于图片识别的一个应用场景,做人脸识别的大多数企业同时也在提供图片识别服务,但是销售效果不佳,主要赢利点还在于人脸识别等。

如何基于深度学习实现图像的智能审核?

背景

美团每天有百万级的图片产生量,运营人员负责相关图片的内容审核,对涉及法律风险及不符合平台规定的图片进行删除操作。由于图片数量巨大,人工审核耗时耗力且审核能力有限。另外对于不同审核人员来讲,审核标准难以统一且实时变化。所以有必要借助机器实现智能审核。

图像智能审核一般是指利用图像处理与机器学习相关技术识别图像内容,进而甄别图像是否违规。图像智能审核旨在建立图片自动审核服务,由机器自动禁止不符合规定(负例)的图片类型,自动通过符合规定(正例)的图片类型,机器不确定的图片交由人工审核。因此,衡量智能审核系统性能的指标主要是准确率和自动化率。

盘点一下那些不知不觉中已经渗入生活的AI技术...

人工智能正越来越多的渗透入人们的生活,改变人们的生活,从自然语言生成到语音识别、从医疗诊断到商业决策,AI逐渐开始显露出巨大的优势,并且它的脚步不会停止。

1. 自然语言生成(NLG)

自然语言生成是人工智能的一个子学科,它可以将海量的数据转换成人类可读的文本,通过这样的方式实现与人类的交流。目前主要的应用是为客户提供报告生成和市场摘要等服务。通过对数据的分析、挖掘理解,从数据中抽取出有效的信息并总结成文本输出。优秀的AI还能实现自动排版和美化,做到可读性与优良的可视化效果。

盘点一下那些不知不觉中已经渗入生活的AI技术...

目前该技术主要由Attivio, Automated Insights, Cambridge Semantics, Digital Reasoning, Lucidworks, Narrative Science, SAS, and Yseop等公司提供。

图像语义分割的前世今生

1998年以来,人工神经网络识别技术已经引起了广泛的关注,并且应用于图像分割。基于神经网络的分割方法的基本思想是通过训练多层感知机来得到线性决策函数,然后用决策函数对像素进行分类来达到分割的目的。这种方法需要大量的训练数据。神经网络存在巨量的连接,容易引入空间信息,能较好地解决图像中的噪声和不均匀问题。选择何种网络结构是这种方法要解决的主要问题。

图像分割是图像识别和计算机视觉至关重要的预处理。没有正确的分割就不可能有正确的识别。

  •   普通分割
将不同分属不同物体的像素区域分开。
如前景与后景分割开,狗的区域与猫的区域与背景分割开。

  •   语义分割
在普通分割的基础上,分类出每一块区域的语义(即这块区域是什么物体)。
如把画面中的所有物体都指出它们各自的类别。

  •   实例分割
在语义分割的基础上,给每个物体编号。
如这个是该画面中的狗A,那个是画面中的狗B。

这里先说一下图像语义分割和普通的图像分割的关系:

在走进深度学习的过程中,最吸引作者的是一些用于给对象分类的模型。最新的科研结果表示,这类模型已经可以在实时视频中对多个对象进行检测。而这就要归功于计算机视觉领域最新的技术革新。

众所周知,在过去的几年里,卷积神经网络(CNN或ConvNet)在深度学习领域取得了许多重大突破,但对于大多数人而言,这个描述是相当不直观的。因此,要了解模型取得了怎样大的突破,我们应该先了解卷积神经网络是怎样工作的。

卷积神经网络可以做些什么?

卷积神经网络用于在图像中寻找特征。在CNN的前几层中,神经网络可以进行简单的"线条"和"角"的识别。我们也可以通过神经网络向下传递进而识别更复杂的特征。这个属性使得CNN能够很好地识别图像中的对象。

卷积神经网络

CNN是一个包含各种层的神经网络,其中一些层是卷积层、池化层、激活函数。

卷积层是如何工作的?

要了解CNN如何工作,你需要了解卷积。卷积涉及浏览图像和应用滤波器等具体内容。

深度学习的目标检测技术演进:R-CNN、Fast R-CNN、Faster R-CNN

object detection我的理解,就是在给定的图片中精确找到物体所在位置,并标注出物体的类别。object detection要解决的问题就是物体在哪里,是什么这整个流程的问题。然而,这个问题可不是那么容易解决的,物体的尺寸变化范围很大,摆放物体的角度,姿态不定,而且可以出现在图片的任何地方,更何况物体还可以是多个类别。

object detection技术的演进:
RCNN->SppNET->Fast-RCNN->Faster-RCNN

从图像识别的任务说起
这里有一个图像任务:
既要把图中的物体识别出来,又要用方框框出它的位置。

基于深度学习的目标检测技术演进:R-CNN、Fast R-CNN、Faster R-CNN

上面的任务用专业的说法就是:图像识别+定位
图像识别(classification):
输入:图片
输出:物体的类别
评估方法:准确率

同步内容
--电子创新网--
粤ICP备12070055号