mengqiqi 的blog

人脸识别技术的真相

人脸识别是机器学习的直接应用,这项技术已经被消费者、行业和执法机关广泛采用,它可能为我们的日常生活带来了便利,但也有严重的隐私问题。人脸识别已经超过了人类的工作效率,但是,在某些应用中实际实现时还存在问题。

立足于九十年代MIT的Eigenfaces方法,人脸识别第一次成功的大规模实现是2014年Facebook的DeepFace项目,准确性在实验室条件下达到了人类水平。从2014年开始,更大的训练数据集、GPU以及神经网络架构的快速发展进一步提高了人脸识别在通向现实世界可靠应用的更为丰富的上下文中的效率。

人脸识别的应用可以分类两类:身份验证和识别。这两种场景起初都会把一组已知的主体注册到系统中(图库),在测试期间,提供一个新的主体(测试图像)。人脸验证会计算图库和测试图像之间一对一的相似性,从而确定两副图像是否是相同的主体。例如,iPhone X基于人脸的登录功能或者机场的边境检查就是使用了这样的生物特征身份认证解决方案。目前,HSBC和Ticketmaster都考虑在他们的移动应用程序中使用人脸验证。另一方面,人脸识别计算一对多的相似性,从而在预先做好识别的人物图库中正确地识别出测试图像。它的主要应用是把未标记的照片和已知的资料进行匹配。其中,执法机关会使用这项技术从人群中识别出他们感兴趣的人。

六张图看懂新一代人工智能知识体系

关于人工智能的前世今生、内涵意义,下图可以说是相当清楚全面了。人工智能是未来一大热点,连腾讯、阿里、百度这些科技公司都各自成立了人工智能实验室,如果你也看好这一趋势,不妨把下面六张图收藏起来慢慢看。

六张图看懂新一代人工智能知识体系

六张图看懂新一代人工智能知识体系

六张图看懂新一代人工智能知识体系

知识总结:三维重建方法

三维重建技术

三维重建技术就是要在计算机中真实地重建出该物体表面的三维虚拟模型,构建一个物体完整的三维模型,大致可以分为三步:

  •   利用摄像机等图像采集设备对物体的点云数据从各个角度釆集,单个摄像机只能对物体的一个角度进行拍摄,要获得物体表面完整信息,需要从多个角度对物体拍摄;

  •   将第一步获得的各视角点云数据变换到同一个坐标系下,完成多视角点云数据的配准;

  •   根据配准好的点云数据构建出模型的网格表面。

三维重建方法

目前根据重建方式的不同,主要有以下几种重建方法:

双目立体视觉方法

双目立体视觉测量方法主要是模拟人类双眼的立体成像原理,左右两个有合适角度的摄像机在同一时间拍摄场景中某一物体,通过三角几何关系和视差原理,获取左右摄像机相同视角下物体表面点的坐标信息,进而构建出物体的位置和形状。

双足机器人的平衡控制

在最开始,双足机器人使用的平衡控制策略是「静态步行」(static walking)。这种策略的特点是:机器人步行的过程中,重心(COG,Center of Gravity)的投影始终位于多边形支撑区域(support region)内,这种控制策略的好处在于:机器人可以在行走动作中停止而不摔倒,但代价是行动速度非常迟缓(每一步需要花费10 秒甚至更长,因为需要保持重心的投影始终位于支撑区域,否则将不稳定)。

双足机器人的平衡控制

语音识别现在发展到什么阶段了?

人工智能快速发展的今天,语音识别开始成为很多设备的标配,语音识别开始被越来越多的人关注,国外微软、谷歌、Facebook,国内的科大讯飞、思必驰等厂商都在研发语音识别新策略新算法,今天小编就将为你做语音识别技术的简单介绍,并谈谈它的发展历程和未来可能的发展方向。

在电影《钢铁侠》中,智能助理贾维斯的出色表现让大家充满了对智能语音助手的期待。语音识别技术就是为了让机器人听明白你在说什么,它就好比“机器的听觉系统”,该技术让机器通过识别和理解,把语音信号转变为相应的文本或命令。

语音识别现在发展到什么阶段了?

语音识别系统本质上是一种模式识别系统,包括特征提取、模式匹配、参考模式库等三个基本单元,它的基本结构如下图所示:
语音识别现在发展到什么阶段了?

自然语言处理中CNN模型几种常见的Max Pooling操作

作者:张俊林

CNN是目前自然语言处理中和RNN并驾齐驱的两种最常见的深度学习模型。图1展示了在NLP任务中使用CNN模型的典型网络结构。一般而言,输入的字或者词用Word Embedding的方式表达,这样本来一维的文本信息输入就转换成了二维的输入结构,假设输入X包含m个字符,而每个字符的Word Embedding的长度为d,那么输入就是m*d的二维向量。

自然语言处理中CNN模型几种常见的Max Pooling操作
图1 自然语言处理中CNN模型典型网络结构

移动机器人常用的导航定位技术及原理

不管什么类型的机器人,只要自主移动,就需要在家庭或其他环境中进行导航定位。自主导航作为一项核心技术,是赋予机器人感知和行动能力的关键。

人工智能与机器学习的不同之处

人工智能早已不是一个新名词,它的发展历史已经有几十年。从80年代早期开始,当时计算机科学家设计出可以学习和模仿人类行为的算法。在学习方面,最重要的算法是神经网络,但由于模型过于强大,没有足够的数据支持,导致不是很成功。然而,在一些更具体的任务中,使用数据来适应函数的想法获得了巨大的成功,这也构成了机器学习的基础。在模仿方面,人工智能在图像识别、语音识别和自然语言处理方面有着广泛的应用。专家们花费了大量时间去创建边缘计算,彩色型材,N-gram语言模型,语法树等,不料所获成绩平平。

传统的机器学习

机器学习(ML)技术在预测中发挥了重要作用,机器学习已经经历了多代,有一套完备的模型结构,如:

 • 线性回归
 • Logistic回归
 • 决策树
 • 支持向量机
 • 贝叶斯模型
 • 正则化模型
 • 集成模型
 • 神经网络

每一个预测模型都基于一定的算法结构,参数可进行调整。训练预测模型涉及以下步骤:

1.选择模型结构(例如,逻辑回归、随机森林等)。

2.用训练数据(输入和输出)对模型进行反馈。

3.学习算法将输出最优模型(即具有特定参数的模型,使训练误差最小化)。

卷积神经网络CNN在自然语言处理中的应用

作者: Yelbosh

卷积神经网络(Convolution Neural Network, CNN)在数字图像处理领域取得了巨大的成功,从而掀起了深度学习在自然语言处理领域(Natural Language Processing, NLP)的狂潮。2015年以来,有关深度学习在NLP领域的论文层出不穷。尽管其中必定有很多附庸风雅的水文,但是也存在很多经典的应用型文章。笔者在2016年也发表过一篇关于CNN在文本分类方面的论文,今天写这篇博客的目的,是希望能对CNN的结构做一个比较清晰的阐述,同时就目前的研究现状做一个简单的总结,并对未来的发展方向做一个小小的期望。由于笔者在深度学习方面的资历尚浅,因此如文中出现错误,请不吝赐教。

一. CNN的结构阐述(以LeNet-5为例)

上一篇:计算机视觉必读(一):网络压缩、看图说话、视觉问答、风格迁移...

人脸验证/识别(face verification/recognition)

人脸验证/识别可以认为是一种更加精细的细粒度图像识别任务。人脸验证是给定两张图像、判断其是否属于同一个人,而人脸识别是回答图像中的人是谁。一个人脸验证/识别系统通常包括三大步:检测图像中的人脸,特征点定位、及对人脸进行验证/识别。人脸验证/识别的难题在于需要进行小样本学习。通常情况下,数据集中每人只有对应的一张图像,这称为一次学习(one-shot learning)。

两种基本思路 当作分类问题(需要面对非常多的类别数),或者当作度量学习问题。如果两张图像属于同一个人,我们希望它们的深度特征比较接近,否则,我们希望它们不接近。之后,根据深度特征之间的距离进行验证(对特征距离设定阈值以判断是否属于同一个人),或识别(k近邻分类)。

同步内容
--电子创新网--
粤ICP备12070055号