mengqiqi 的blog

卷积神经网络CNN在自然语言处理中的应用

作者: Yelbosh

卷积神经网络(Convolution Neural Network, CNN)在数字图像处理领域取得了巨大的成功,从而掀起了深度学习在自然语言处理领域(Natural Language Processing, NLP)的狂潮。2015年以来,有关深度学习在NLP领域的论文层出不穷。尽管其中必定有很多附庸风雅的水文,但是也存在很多经典的应用型文章。笔者在2016年也发表过一篇关于CNN在文本分类方面的论文,今天写这篇博客的目的,是希望能对CNN的结构做一个比较清晰的阐述,同时就目前的研究现状做一个简单的总结,并对未来的发展方向做一个小小的期望。由于笔者在深度学习方面的资历尚浅,因此如文中出现错误,请不吝赐教。

一. CNN的结构阐述(以LeNet-5为例)

上一篇:计算机视觉必读(一):网络压缩、看图说话、视觉问答、风格迁移...

人脸验证/识别(face verification/recognition)

人脸验证/识别可以认为是一种更加精细的细粒度图像识别任务。人脸验证是给定两张图像、判断其是否属于同一个人,而人脸识别是回答图像中的人是谁。一个人脸验证/识别系统通常包括三大步:检测图像中的人脸,特征点定位、及对人脸进行验证/识别。人脸验证/识别的难题在于需要进行小样本学习。通常情况下,数据集中每人只有对应的一张图像,这称为一次学习(one-shot learning)。

两种基本思路 当作分类问题(需要面对非常多的类别数),或者当作度量学习问题。如果两张图像属于同一个人,我们希望它们的深度特征比较接近,否则,我们希望它们不接近。之后,根据深度特征之间的距离进行验证(对特征距离设定阈值以判断是否属于同一个人),或识别(k近邻分类)。

作者:张皓(南京大学)

深度学习目前已成为发展最快、最令人兴奋的机器学习领域之一。本文以计算机视觉的重要概念为线索,介绍深度学习在计算机视觉任务中的应用,包括网络压缩、细粒度图像分类、看图说话、视觉问答、图像理解、纹理生成和风格迁移、人脸识别、图像检索、目标跟踪等。

网络压缩(network compression)

尽管深度神经网络取得了优异的性能,但巨大的计算和存储开销成为其部署在实际应用中的挑战。有研究表明,神经网络中的参数存在大量的冗余。因此,有许多工作致力于在保证准确率的同时降低网路复杂度。

低秩近似 用低秩矩阵近似原有权重矩阵。例如,可以用SVD得到原矩阵的最优低秩近似,或用Toeplitz矩阵配合Krylov分解近似原矩阵。

机器视觉之光源

光源

机器视觉系统主要由三部分组成:图像的获取、图像的处理和分析、输出或显示。而图像的获取是机器视觉的核心,图像的获取系统则是由光源、镜头、相机三部分组成。光源的选取与打光合理与否可直接影响至少30%的成像质量。所以光源是机器视觉系统中非常重要的一部分。

作用

通过适当的光源照明设计,使图像中的目标信息与背景信息得到最佳分离,可以大大降低图像处理算法分割、识别的难度,同时提高系统的定位、测量精度,使系统的可靠性和综合性能得到提高。反之,如果光源设计不当,会导致在图像处理算法设计和成像系统设计中事倍功半。因此,光源及光学系统设计的成败是决定系统成败的首要因素。

• 照亮目标,提高目标亮度;
• 突出测量特征,简化图像处理算法;
• 克服环境光的干扰,保证图像的稳定性,提高图像信噪比;
• 提高视觉系统的定位、测量、识别精度,以及系统的运行速度;
• 降低系统设计的复杂度,形成最有利于图像处理的成像效果;

解密:“无中生有”的计算机视觉

计算机视觉(Computer Vision,CV)是一门研究如何使机器“会看”的科学。1963 年来自 MIT 的 Larry Roberts 发表了该领域第一篇博士论文《Machine Perception of Three-Dimensional Solids》,标志着 CV 作为一门新兴人工智能方向研究的开始。在发展了 50 多年后的今天,我们就来聊聊最近让计算机视觉拥有“无中生有”能力的几个有趣尝试:

• 超分辨率重建;
• 图像着色;
• 看图说话;
• 人像复原;
• 图像自动生成。

可以看出,这五个尝试层层递进,难度和趣味程度也逐步提升。由于篇幅有限,本文在此只谈视觉问题,不提太过具体的技术细节。

超分辨率重建(Image Super-Resolution)

光栅化三维场景的基本流程

数学上的规定:

由于习惯的不同,每个人对同一个事物的标准也不同。

应事先规定好整个项目的一些“习惯”,并坚决贯彻它们,上下统一。

世界坐标系:

场景中所有物体处于世界坐标系下,且所有的坐标系均为左手坐标系,左手坐标系三个轴的指向如图:

光栅化三维场景的基本流程

以屏幕为基准,该坐标系X轴指向右,Y轴指向上,Z轴指向屏幕里面。

以此坐标系我们可以创建一个世界空间。当然并没有真正创建出来,只是一个约定,便于日后的使用。就像地球的经纬度一样,有了这个我们就能描述什么东西在什么地方了。

物体坐标系:

而世界中有很多物体,比如游戏中的模型,玩家等等。

该世界里的每个物体都含有三个数据:

1)该物体中心处于世界的位置(x,y,z)

人机对话的特点,主要有哪几点?

纵观传统互联网时代,如果用一个词来总结和概括的话,“连接”这词再合适不过了,传统互联网时代,我认为主要建立了三种连接:
第一,人和信息的连接;
第二,人和人的连接;
第三,人与商品服务的连接。
第一种连接成就了Google和百度这样的互联网巨头;人和人的连接成就了Facebook和腾讯这样的互联网公司,人和商品服务的连接,成就了Amazon、阿里巴巴、京东这样的巨头。所以,从这个意义上看,传统互联网最典型的特征就是连接。

过去几年,我们可以看到,连接互联网的设备发生了很大变化,设备已经从PC和智能手机延伸到更广泛的智能设备,比如智能音箱、智能电视、机器人、智能汽车等设备。智能设备的快速发展正在改变着人和设备之间的交互方式。

我们梳理一下智能设备,大致可以分成三类:

第一,可穿戴设备,比如说智能眼镜、智能手表。
第二,智能家居,比如我们熟知的智能电视、智能音箱、智能机器人、智能玩具。
第三,智能出行,比如智能汽车、智能后视镜、智能行车记录仪等。

我们从以下的一些数据来看智能设备的发展,这是美国市场做的调查:2015年的时候,美国市场上语音设备的出货量是170万台,到2016年的时候这个数据上升到了650万台,大概是3-4倍的增速。专家预估,在2017年,这个数据将会上升到2450万台。

人脸识别算法中的一些重要的算法

人脸识别经过近 40 年的发展,取得了很大的发展,涌现出了大量的识别算法。这些算法的涉及面非常广泛,包括模式识别、图像处理、计算机视觉、人工智能、统计学习、神经网络、小波分析、子空间理论和流形学习等众多学科。所以很难用一个统一的标准对这些算法进行分类。根据输入数据形式的不同可分为基于静态图像的人脸识别和基于视频图像的人脸识别。因为基于静态图像的人脸识别算法同样适用于基于视频图像的人脸识别,所以只有那些使用了时间信息的识别算法才属于基于视频图像的人脸识别算法。接下来分别介绍两类人脸识别算法中的一些重要的算法。

特征脸

特征脸方法利用主分量分析进行降维和提取特征。主分量分析是一种应用十分广泛的数据降维技术,该方法选择与原数据协方差矩阵前几个最大特征值对应的特征向量构成一组基,以达到最佳表征原数据的目的。因为由主分量分析提取的特征向量返回成图像时,看上去仍像人脸,所以这些特征向量被称为“特征脸”。

在人脸识别中,由一组特征脸基图象张成一个特征脸子空间,任何一幅人脸图象(减去平均人脸后)都可投影到该子空间,得到一个权值向量。计算此向量和训练集中每个人的权值向量之间的欧式距离,取最小距离所对应的人脸图像的身份作为测试人脸图像的身份。

深思 | AI黑箱:我们要用AI解释AI?

AI算法对人类生活的影响越来越大,但它们内部的运作往往是不透明的,人们对这种技术的工作方式也愈加感到担忧。MIT科技评论曾经发表一篇题为“人工智能中的黑暗秘密”的文章,警告说:“没有人真正知道先进的机器学习算法是怎样工作的,而这恐将成为一大隐忧。”由于这种不确定性和缺乏问责制,纽约大学AI Now Institute的一份报告建议负责刑事司法、医疗保健、社会福利和教育的公共机构不应该使用AI技术。

输入的数据和答案之间的不可观察的空间通常被称为“黑箱”(black box)——名称来自飞机上强制使用的飞行记录仪“黑匣子”(实际上是橙色的,而非黑色),并且经常在空难事故后用于向调查人员提供有关飞机当时运作情况的数据。在人工智能领域,这个术语描述了AI技术如何在“暗处”运作的景象:我们提供数据、模型和架构,然后计算机给出答案,同时以一种看似不可能的方式继续学习——显然对于我们人类来说,这太难理解了。

黑箱没有什么可怕的

干货丨你需要了解这些AI 语音对话技术

机器学习以及自然语言处理技术的进步,开启了人与人工智能进行语音交互的可能,人们透过对话的方式获取信息、与机器进行交互,将不再只是存在科幻情结当中。语音交互是未来的方向,而智能音箱则是语音交互落地的第一代产品。

一、语音交互流程简介

AI 对话所需要的技术模块有 4 个部分,分别为:

自动语音识别(Automatic Speech Recognition, ASR)
自然语言理解(Natural Language Understanding, NLU)
自然语言生成(Natural Language Generation, NLG)
文字转语音(Text to Speech, TTS)

干货丨你需要了解这些AI 语音对话技术

以叮咚开发文档中的语音交互流程图来看Ai 对话技术的主要路径:

同步内容
--电子创新网--
粤ICP备12070055号