demi的博客

循环神经网络中Dropout的应用

循环神经网络(RNNs)是基于序列的模型,对自然语言理解、语言生成、视频处理和其他许多任务至关重要。模型的输入是一个符号序列,在每个时间点一个简单的神经网络(RNN单元)应用于一个符号,以及此前时间点的网络输出。RNNs是强大的模型,在许多任务中表现出色,但会快速过拟合。RNN模型中缺少正则化使他难以处理小规模数据,为避免这种情况研究者经常使用提早停止,或者小规模的或未充分定义的模型。

Dropout是深度网络中常见的一种正则化技巧,在训练过程中网络单元随机的被隐藏/丢弃。但这种技巧在RNNs中一直未被成功应用。实证结果使很多人相信循环层(RNN单元之间的连接)中加入的噪音在长序列中会被放大,并淹没了信号。因此现存的研究认为这种技巧应仅用于RNN的输入和输出。但这种方式在研究中发现依然会导致过拟合。

最近贝叶斯和深度学习研究的交叉提供了一个从贝叶斯理解常见深度学习技巧的角度。这种深度学习中的贝叶斯观点也引入了一些新的技巧,例如从深度学习网络中获得主要非确定估计。例如Gal和Ghahramani展现了dropout可以被解释为一个贝叶斯神经网络后验的变体近似。它们的变体近似分布是两个小方差高斯的混合,平均数是一个高斯被固定在0。这种近似贝叶斯推论的dropout基础认为理论结果的延伸可为在RNN模型中使用该技巧提供见解。

浅聊卷积神经网络的发展

卷积神经网络的发展主要是为了解决人类视觉问题,不过现在其它方向也都会使用。发展历程主要从Lenet5->Alexnet->VGG->GooLenet->ResNet等。

Lenet5

上世界80年代发明了卷积层,但由于硬件限制无法构建复杂网络,直到后面90年代才开始有实践。

1998年LeCun提出卷积层、池化层和完全连接层组合,以此来解决手写数字的识别问题。此时的效果已经很不错了,能与其它经典的机器学习模型相比。架构如下,一个32 x 32的输入,通过卷积提取特征,然后进行下采样,再一次卷积和下采样,后面进行全连接和高斯连接。

浅聊卷积神经网络的发展

Alexnet

无人驾驶汽车真的指日可待了吗?

无人驾驶是百年汽车工业的一个崭新高度,也是人们对智慧出行梦寐以求的目标。

今年以来,从拉斯维加斯电子商品展上各种无人驾驶技术的高调亮相,到许多汽车和科技公司陆续对无人驾驶商业计划的激进宣示,一些媒体开始大肆宣称无人驾驶会比人们想象的时间更早到来。

当前社会上和业界弥漫着一种浮躁,似乎无人驾驶就在眼前,谁不抓住它就会被淘汰,造成了资本市场的压力和业界的普遍焦虑。

无人驾驶真的指日可待了吗?

我的回答非常简单:否。不仅否,还非常遥远。

主观能动性是无人驾驶的必要条件

要问为什么,首先要了解什么是无人驾驶和我们需要怎么样的无人驾驶。

无人驾驶位于汽车自动驾驶技术的顶端。按照美国自动车工程学会(SAE)对自动驾驶的五级分类,第一级至第三级为有人的自动驾驶,或称为辅助自动驾驶,即人仍然要为驾驶的最后决策负责。在这些阶段,所有自动驾驶技术的应用只是为了提高人们的驾驶体验,尤其是安全体验。

第四级和第五级为无人自动驾驶,即可以将人完全排除在驾驶决策之外,其中第四级为有限场景、第五级为无限场景下的无人驾驶。显然,第四级和第五级是真正意义上的无人驾驶。

2018年中国新型智慧城市应用领域分析

新型智慧城市,是指运用信息和通信技术手段,感测、分析、整台城市运行核心系统的各项关键信息,从而对包括民生、环保、公共安全、城市服务、工商业活动在内的各种需求做出智能响应。它不单是仅仅基于某一种技术,而是包括云,人工智能等等技术的综合应用解决方案,旨在帮助城市更好运转,为人们创造更美好的生活。

新型智慧城市主要应用领域包括:智慧政务、智慧交通、智慧安防、智慧教育、智慧医疗。

智慧政务:政务云建设加速,云计算、大数据以及AI等新技术不断落地

智慧政务是运用云计算、大数据、物联网、人工智能等技术,通过监测、整合、分析、智能响应,实现各职能部门的各种资源的高度整合,提高政府的业务办理和管理效率。通过智慧政务体系,可以加强职能监管,使政府更加廉洁、勤政、务实,提高政府的透明度,并形成高效、敏捷、便民的新型政府,保证城市可持续发展,为企业和公众建立一个良好的城市生活环境。

云计算、大数据、人工智能以及区块链技术快速发展,智慧政务开始进入“架构优化”阶段,存储和计算环节新技术应用显着增加,为政务、企业以及民生服务应用提供支撑。通过架构的优化,打破了原有的应用竖井和数据孤岛,真正实现了数据共享、智慧决策和管理。

神经网络从被人忽悠到忽悠人(一)

很早的时候就想写几篇关于人工智能的东西,把人工智能的东西写的通俗易懂点,但是毕竟人工智能的东西涉及的领域太广了,特别是对数学和概率有比较深的理解,如果只是想简单的了解,可以跳过文章的公式。

很难想象有什么事物会像廉价、强大、无处不在的人工智能那样拥有“改变一切”的力量。《必然》

前段时间的AlphaGo再次的把人工智能炒的火热,关于人工智能的讨论又再次进入讨论的风口浪尖上。各个方面对AlphaGo技术的猜测,神经网络也再次成为了技术的焦点。

一个看似简单的问题

给你一堆的图片,从图片中分出是猫,狗。归结成一个大问题:分类。本身来说,分类对计算机来说本该是最擅长的,本身0和1,就是很好的分类,编程语言的if else,swich,可以做到很好的分类。

像if else这种做法,似乎我们可以编写一套复杂的规则,这个规则覆盖所有的情况,就能够进行准确的分类了。但是这条路是走不通的,之前的自然语言处理就走过这条路。需要另外的选择一条出路。对,建模。通过模型来进行分类。

机器学习中的损失函数

作者: 张俊红

在机器学习中,同一个数据集可能训练出多个模型即多个函数(如下图所示,同样的数据集训练出三种不同的函数),那么我们在众多函数中该选择哪个函数呢?首选肯定是那个预测能力较好的模型,那么什么样的函数/模型就是预测好的呢?有没有什么评判标准?

机器学习中的损失函数

损失函数和风险函数

前面说过我们应该首选那个预测能力较好的模型,那么该怎么判断预测能力的好坏呢?模型是用来做预测的,那么好的模型肯定是准确率较高的,也就是预测值和实际值之间的误差较小。

图像处理之image stitching

背景介绍

图像拼接是一项应用广泛的图像处理技术。根据特征点的相互匹配,可以将多张小视角的图像拼接成为一张大视角的图像,在广角照片合成、卫星照片处理、医学图像处理等领域都有应用。早期的图像拼接主要是运用像素值匹配的方法。后来,人们分别在两幅图像中寻找拐点、边缘等稳定的特征,用特征匹配的方法拼接图像。本实验根据Matthew Brown (2005) 描述的方法,实现多张生活照的拼接。

特征点捕捉 (Interest Point Detection)

首先,拍摄两张场景有重合的照片。为了保证有足够多的公共特征点,照片的重合度应该保证在30%以上。将两张照片转换为灰度图像,对图像做σ=1的高斯模糊。在Matthew的文章中,他建立了一个图像金字塔,在不同尺度寻找Harris关键点。考虑到将要拼接的照片视野尺寸接近,故简化此步骤,仅在原图提取特征点。

人脸检测中几种框框大小的选择~

人脸检测应用极为广泛,内部细节也偏多,尤其是涉及到几种类型的框,这几种框的大小之前有着千丝万缕的联系,对检测性能的好坏影响程度大小不一。本篇文章基于自己在人脸检测方面的经验,说说对这些框之间关系的一些理解。

现在大部分人脸检测效果都已adaboost+LBP(各种改进)的方式实现,adaboost由N个强分类器组成,每个强分类器由M个弱分类器组成,而每个弱分类器其实就是一个特征。

本文以LBP特征为例,人脸检测共涉及到如下几类框:

1. LBP特征矩形框大小(极为重要)
2. 检测框大小(重要)
3. 检测目标大小(次要)
4. 原始训练样本大小(重要)
5. 图像大小(不重要)

其中,LBP特征矩形框大小一般由四个量组成,它们是:矩形框相对于模板的位置(x, y),矩形框的大小(w, h)。这四个变量均可以自由改变,只是有一个约束,那就是原始训练样本的大小(这也是我说的联系1)。

联系1:假设原始训练样本大小为28*28,那么LBP特征矩形框四个变量的取值均在[0-28]之内。

卷积神经网络CNN—— BN(Batch Normalization) 原理与使用过程详解

前言

Batch Normalization是由google提出的一种训练优化方法。参考论文:Batch Normalization Accelerating Deep Network Training by Reducing Internal Covariate Shift

个人觉得BN层的作用是加快网络学习速率,论文中提及其它的优点都是这个优点的副产品。

网上对BN解释详细的不多,大多从原理上解释,没有说出实际使用的过程,这里从what, why, how三个角度去解释BN。

What is BN

Normalization是数据标准化(归一化,规范化),Batch 可以理解为批量,加起来就是批量标准化。
先说Batch是怎么确定的。在CNN中,Batch就是训练网络所设定的图片数量batch_size。

Normalization过程,引用论文中的解释:

LSTM(Long Short-Term Memory)长短期记忆网络

1. 摘要

对于RNN解决了之前信息保存的问题,例如,对于阅读一篇文章,RNN网络可以借助前面提到的信息对当前的词进行判断和理解,这是传统的网络是不能做到的。但是,对于RNN网络存在长期依赖问题,比如看电影的时候,某些细节需要依赖很久以前的一些信息,而RNN网络并不能很好的保存很久之前的信息,随着时间间隔不断增大,RNN网络会丧失学习到很远的信息能力,也就是说记忆容量是有限的。例如,对于阅读一本书,从头到尾一字不漏的阅读,肯定是越远的东西忘得越多。所以引入了LSTM网络,对于LSTM来解决梯度消失梯度爆炸问题。

LSTM其实也是RNN的一种变体,大体结构几乎是一样的,但他们又有区别他的“记忆细胞”被改造过,该记忆的信息会一直传递下去,而不该记忆的东西会被“门”截断。

2. LSTM网络

对于RNN网络都是具有重复神经网络模块的链式形式,在一个标准RNN中这个重复的模块只要一个非常简单的结构,例如一个tanh层。