demi的博客 | 电子创新网 Imgtec 社区

远场语音识别面临的瓶颈与挑战

demi 在周一, 09/10/2018 - 10:27 提交

语音交互正在被视为用户在未来很多场景下的主要流量入口之一。因此，寻求可靠有效的远场语音技术突破变成了当下工业界和学术界的迫切需求。一个经典的语音识别系统包含麦克风信号采集模块、信号处理模块以及语音识别模块。每个模块的处理方法都会影响最终的识别效果。

具体来说，目前远场语音识别的技术难点主要集中在以下4个部分：
第一个是多通道同步采集硬件研发；
第二个是前端麦克风阵列信号处理算法研发；
第三个是后端语音识别与前端信号处理的匹配；
第四个是前端和后端联合优化。

首先，多通道麦克风阵列技术已经被证明可以显著提升语音识别质量。当信号采集通道数足够多时，需要额外研发多通道同步技术。并且，目前消费电子上很少有集成多个麦克风的情况，相关研究成果很少，这也增加了该硬件方案的研发难度。

图像处理基础(6)：锐化空间滤波器

demi 在周一, 09/10/2018 - 09:25 提交

前面介绍的几种滤波器都属于平滑滤波器（低通滤波器），用来平滑图像和抑制噪声的；而锐化空间滤波器恰恰相反，主要用来增强图像的突变信息，图像的细节和边缘信息。平滑滤波器主要是使用邻域的均值（或者中值）来代替模板中心的像素，消弱和邻域间的差别，以达到平滑图像和抑制噪声的目的；相反，锐化滤波器则使用邻域的微分作为算子，增大邻域间像素的差值，使图像的突变部分变的更加明显。

本位主要介绍了一下几点内容：
• 图像的一阶微分和二阶微分的性质
• 几种常见的一阶微分算子
• 二阶微分算子 - Laplace 拉普拉斯算子
• 一阶微分算子和二阶微分算子得到边缘的对比

一阶微分和二阶微分的性质

既然是基于一阶微分和二阶微分的锐化空间滤波器，那么首先就要了解下一阶和二阶微分的性质。

“无人驾驶”的技术路线

demi 在周五, 09/07/2018 - 16:17 提交

作者：郭喨唐兴华
来源：中国社会科学网-中国社会科学报

无人驾驶车辆真要跑起来，需要解决感知、决策和执行等层面的技术问题。感知系统也称为“中层控制系统”，负责感知周围的环境，并进行识别和分析；决策系统也称为“上层控制系统”，负责路径规划和导航；执行系统又称为“底层控制系统”，负责汽车的加速、刹车和转向。本文以“感知—决策—执行”的顺序呈现，是因为这样更加符合人类的驾驶模式。如，先看看前面——绿灯、周围无行人——收集信息；然后做出决策——可以通行；最后执行决策——开过十字路口。

自动驾驶的感知系统

感知系统的输入设备具体包括光学摄像头、光学雷达（LiDAR）、微波雷达、导航系统等。这些传感器收集周围的信息，为感知系统提供全面的环境数据。

光学摄像头是目前最便宜也是最常用的车载传感器，它的一大优点就是可以分辨颜色，因此也成为场景解读的绝佳工具。但其缺点也很明显：
1.缺乏“深度”这一维度，没有立体视觉就无法判断物体和相机（可以换算为车辆）间的距离；
2.对光线过于敏感，过暗或过强的光线以及二者之间的快速切变，比如驶入和驶出隧道都足以影响它的成像。

[机器学习]推荐系统之协同过滤算法

demi 在周五, 09/07/2018 - 14:18 提交

在现今的推荐技术和算法中，最被大家广泛认可和采用的就是基于协同过滤的推荐方法。本文将带你深入了解协同过滤的秘密。下面直接进入正题.

1、什么是推荐算法

推荐算法最早在1992年就提出来了，但是火起来实际上是最近这些年的事情，因为互联网的爆发，有了更大的数据量可以供我们使用，推荐算法才有了很大的用武之地。

最开始，所以我们在网上找资料，都是进yahoo，然后分门别类的点进去，找到你想要的东西，这是一个人工过程，到后来，我们用google，直接搜索自己需要的内容，这些都可以比较精准的找到你想要的东西，但是，如果我自己都不知道自己要找什么肿么办？最典型的例子就是，如果我打开豆瓣找电影，或者我去买说，我实际上不知道我想要买什么或者看什么，这时候推荐系统就可以派上用场了。

2、推荐算法的条件

物联网十大应用领域未来如何发展？

demi 在周五, 09/07/2018 - 11:44 提交

物联网( Internet of Things，简称 IoT )，是新一代信息科技的重要组成部分，是继计算机、互联网之后世界信息发展的第三次浪潮。据统计，2017年中国物联网产业规模已达万亿，我国早已将物联网上升为战略性新兴产业。基于此，发布了一份新的报告《2018中国物联网应用研究报告》，报告根据实际情况，对物联网产业的发展进行了梳理，并总结出了十大应用领域，分别为物流、交通、安防、能源、医疗、建筑、制造、家居、零售和农业。本文根据各行业应用物联网情况，说明了依托物联网技术，十大应用领域未来如何发展。

智慧物流

智慧物流是新技术应用于物流行业的统称，通过物联网、大数据、人工智能等信息技术，实现物流各个环节内的系统感知、全面分析及处理等功能。报告中将物联网技术应用于物流领域分为三个方面，即仓储管理、运输监测以及智能快递柜。目前，该行业的几大应用已全部实现了物联网数字化，未来应加强物流数字化水平，利用大数据、人工智能等算法实现物流数据化，满足客户的个性化需求。

智能交通

从线性分类器到卷积神经网络

demi 在周五, 09/07/2018 - 10:15 提交

本文来自于网络，本文大致分成两大部分，第一部分尝试将本文涉及的分类器统一到神经元类模型中，第二部分阐述卷积神经网络（CNN）的发展简述和目前的相关工作。

前言

本文涉及的分类器（分类方法）有：
• 线性回归
• 逻辑回归（即神经元模型）
神经网络（NN）
• 支持向量机（SVM）
• 卷积神经网络（CNN）

从神经元的角度来看，上述分类器都可以看成神经元的一部分或者神经元组成的网络结构。

各分类器简述

逻辑回归

说逻辑回归之前需要简述一下线性回归。

深度学习优化函数详解（4）——momentum 动量法

demi 在周五, 09/07/2018 - 09:27 提交

本文延续该系列的上一篇深度学习优化函数详解（3）– mini-batch SGD 小批量随机梯度下降

如果把梯度下降法想象成一个小球从山坡到山谷的过程，那么前面几篇文章的小球是这样移动的：从A点开始，计算当前A点的坡度，沿着坡度最大的方向走一段路，停下到B。在B点再看一看周围坡度最大的地方，沿着这个坡度方向走一段路，再停下。确切的来说，这并不像一个球，更像是一个正在下山的盲人，每走一步都要停下来，用拐杖来来探探四周的路，再走一步停下来，周而复始，直到走到山谷。而一个真正的小球要比这聪明多了，从A点滚动到B点的时候，小球带有一定的初速度，在当前初速度下继续加速下降，小球会越滚越快，更快的奔向谷底。momentum 动量法就是模拟这一过程来加速神经网络的优化的。

后文的公式推导不加特别说明都是基于 mini-batch SGD 的，请注意。

公式推导

更多实验数据背景及模型定义请参看该系列的前几篇文章。

Javascript如何实现GPU加速？

demi 在周四, 09/06/2018 - 16:10 提交

一、什么是Javascript实现GPU加速？

CPU与GPU设计目标不同，导致它们之间内部结构差异很大。
CPU需要应对通用场景，内部结构非常复杂。
而GPU往往面向数据类型统一，且相互无依赖的计算。
所以，我们在Web上实现3D场景时，通常使用WebGL利用GPU运算（大量顶点）。
但是，如果只是通用的计算场景呢？比如处理图片中大量像素信息，我们有办法使用GPU资源吗？这正是本文要讲的，GPU通用计算，简称GPGPU。

二、实例演示：色块识别。

如下图所示，我们识别图片中彩虹糖色块，给糖果添加表情。

人脸识别介绍

demi 在周四, 09/06/2018 - 14:33 提交

人脸识别

人脸识别技术是基于人的脸部特征信息进行身份识别的一种生物识别技术。用摄像机或摄像头采集含有人脸的图像或视频流，
并自动在图像中检测和跟踪人脸，进而对检测到的人脸进行脸部的一系列相关技术，通常也叫做人像识别、面部识别

1、人脸识别流程

人脸识别技术流程主要包括四个组成部分，分别为：人脸图像采集及检测、人脸图像预处理、人脸图像特征提取以及匹配与识别

人脸图像采集

人脸图像采集方式分为两种，分别为批量人脸图像导入及现场视频人脸采集。

批量导入是指系统在用户指定的目录下面自动寻找图像文件进行人脸图像批量导入。现场视频人脸图像采集是指客户端的采集功能被打开后，会调用本地的摄像头并打开。当客户在采集设备的拍摄有效范围内，采集设备会自动搜索客户的人脸图像，当采集域上出现红色矩形时，采集设备已经搜索到客户的人脸图像，然后客户端进行自动采集图像。

人脸图像质量择优