demi的博客

掌握可视化卷积神经网络模型,带你畅游图像识别技术领域

在走进深度学习的过程中,最吸引作者的是一些用于给对象分类的模型。最新的科研结果表示,这类模型已经可以在实时视频中对多个对象进行检测。而这就要归功于计算机视觉领域最新的技术革新。

众所周知,在过去的几年里,卷积神经网络(CNN或ConvNet)在深度学习领域取得了许多重大突破,但对于大多数人而言,这个描述是相当不直观的。因此,要了解模型取得了怎样大的突破,我们应该先了解卷积神经网络是怎样工作的。

卷积神经网络可以做些什么?

卷积神经网络用于在图像中寻找特征。在CNN的前几层中,神经网络可以进行简单的"线条"和"角"的识别。我们也可以通过神经网络向下传递进而识别更复杂的特征。这个属性使得CNN能够很好地识别图像中的对象。

卷积神经网络

CNN是一个包含各种层的神经网络,其中一些层是卷积层、池化层、激活函数。

卷积层是如何工作的?

要了解CNN如何工作,你需要了解卷积。卷积涉及浏览图像和应用滤波器等具体内容。

计算机视觉如何入门

目前,人工智能,机器学习,深度学习,计算机视觉等已经成为新时代的风向标。

这篇文章主要介绍了下面几点:

第一点,如果说你要入门计算机视觉,需要了解哪一些基础知识?

第二点,既然你要往这方面学习,你要了解的参考书籍,可以学习的一些公开课有哪些?

第三点,可能是大家都比较感兴趣的,就是计算机视觉作为人工智能的一个分支,它不可避免的要跟深度学习做结合,而深度学习也可以说是融合到了计算机视觉、图像处理,包括我们说的自然语言处理,所以本文也会简单介绍一下计算机视觉与深度学习的结合。

第四点,身处计算机领域,我们不可避免的会去做开源的工作,所以本文会给大家介绍一些开源的软件。

第五点,要学习或者研究计算机视觉,肯定是需要去阅读一些文献的,那么我们如何开始阅读文献,以及慢慢的找到自己在这个领域的方向,这些都会在本文理进行简单的介绍。

1. 基础知识

接下来要介绍的,第一点是计算机视觉是什么意思,其次是图像、视频的一些基础知识。包括摄像机的硬件,以及 CPU 和 GPU 的运算。

详解卷积神经网络(CNN)在语音识别中的应用

作者:侯艺馨

前言

总结目前语音识别的发展现状,dnn、rnn/lstm和cnn算是语音识别中几个比较主流的方向。2012年,微软邓力和俞栋老师将前馈神经网络FFDNN(Feed Forward Deep Neural Network)引入到声学模型建模中,将FFDNN的输出层概率用于替换之前GMM-HMM中使用GMM计算的输出概率,引领了DNN-HMM混合系统的风潮。长短时记忆网络(LSTM,LongShort Term Memory)可以说是目前语音识别应用最广泛的一种结构,这种网络能够对语音的长时相关性进行建模,从而提高识别正确率。双向LSTM网络可以获得更好的性能,但同时也存在训练复杂度高、解码时延高的问题,尤其在工业界的实时识别系统中很难应用。

如何在学习机器学习时学习数学?

到目前为止,我们都还不完全清楚开始机器学习需要什么样的数学水平,特别是那些没有在学校学习数学或统计学的人。

在这篇文章中,我的目标是提出建立产品或进行机器学习学术研究所需的数学背景。这些建议源于与机器学习工程师、研究人员和教育工作者的对话以及我在机器学习研究和行业角色方面的经验。

首先,我会提出不同的思维模式和策略,以便在传统课堂之外接近真正的数学教育。然后,我将概述不同类型的机器学习工作所需的具体背景,这些学科的范围涉及到高中统计和微积分到概率图形模型(PGM)。

关于数学焦虑的一个解释

事实证明,很多人包括工程师都害怕数学。首先,我想谈谈“善于数学”的神话。

事实是,擅长数学的人有很多练习数学的习惯。并不是他们先天就是擅长数学,你可能在看他们做数学时发现他们得心应手。要清楚,要达到这种舒适状态需要时间和精力,但这肯定不是你生就有的。本文的其余部分将帮助你确定所需的数学基础水平,并概述构建它的策略。

入门

别再误读了!一文读懂人工智能与人类智能的差异化

随着人工智能变得越来越聪明,关于AI将消灭人类的说法也不断涌现出来。事实上,很多大人物都在呼吁人们提起警惕。到现在,似乎AI支持者谷歌首席工程师雷·库兹韦尔对未来的乐观态度似乎已经不敌比尔·盖茨、伊隆·马斯克和史蒂芬·霍金提出的担忧。

诚然,我们确实有理由表示担忧,但未来并不一定会是一个黑暗的未来,因为我们可以有利用AI的更好方式,关键是认识到人类与机器智能之间的互补关系。说到底,人工智能与人类智能有着天壤之别,所以以后可以停止对二者的比较了。

如今,人们很容易相信人工智能已经变得像人类智慧一样聪明了——如果不是更聪明的话。比如,前一段时间,谷歌发布了Duplex AI,能够帮助用户完成外呼预定美发沙龙和餐馆等操作。由于它的声音几乎与人类一模一样,所以在整个过程中可以瞒过其对话伙伴,使之认为自己是人类。

此外,谷歌子公司DeepMind开发了一款人工智能,在最复杂的棋盘游戏中击败了世界冠军。而最近,人工智能又被证明它可以像训练有素的医生一样准确诊断眼疾......还有很多的事件可以表明,在不久的将来,机器人有可能会让人类身处失业的状态。

深度学习优化函数详解(0)——线性回归问题

在做一些深度学习的算法的时候,都会用到优化函数,在各种成熟的框架中,基本就是一行代码的事,甚至连默认参数都给你设置好了,基本不用动什么东西,最后也会有比较好的优化结果。但是对于优化函数这么核心,这么基本的东西总是模棱两可实在不应该。于是想自己把一些常用的优化函数从原理上搞清楚,所以才有了这个系列的文章。每一篇文章都有配套的python代码,文末会给出地址。

线性回归问题(Linear Regression)

假设我们有一组数据,是一些房子的面积和价格。如下

8个经过证实的方法:提高机器学习模型的准确率

我从实践中学习了到这些方法。相对于理论,我一向更热衷于实践。这种学习方式也一直在激励我。本文将分享 8 个经过证实的方法,使用这些方法可以建立稳健的机器学习模型。希望我的知识可以帮助大家获得更高的职业成就。

导语

提升一个模型的表现有时很困难。如果你们曾经纠结于相似的问题,那我相信你们中很多人会同意我的看法。你会尝试所有曾学习过的策略和算法,但模型正确率并没有改善。你会觉得无助和困顿,这是 90% 的数据科学家开始放弃的时候。

不过,这才是考验真本领的时候!这也是普通的数据科学家跟大师级数据科学家的差距所在。你是否曾经梦想过成为大师级的数据科学家呢?

如果是的话,你需要这 8 个经过证实的方法来重构你的模型。建立预测模型的方法不止一种。这里没有金科玉律。但是,如果你遵循我的方法(见下文),(在提供的数据足以用来做预测的前提下)你的模型会拥有较高的准确率。

我从实践中学习了到这些方法。相对于理论,我一向更热衷于实践。这种学习方式也一直在激励我。本文将分享 8 个经过证实的方法,使用这些方法可以建立稳健的机器学习模型。希望我的知识可以帮助大家获得更高的职业成就。

基于“视频图像”的人脸识别算法

一个典型的基于视频图像的人脸识别系统一般都是自动检测人脸区域,从视频中提取特征,最后如果人脸存在则识别出人脸的身份。在视频监控、信息安全和出入控制等应用中,基于视频的人脸识别是一个非常重要的问题,也是目前人脸识别的一个热点和难点。基于视频比基于静态图像更具优越性,因为 Bruce 等人和 Knight 等人已证明,当人脸被求反或倒转时,运动信息有助于(熟悉的)人脸的识别。虽然视频人脸识别是基于静态图像的人脸识别的直接扩展,但一般认为视频人脸识别算法需要同时用到空间和时间信息,这类方法直到近几年才开始受到重视并需要进一步的研究和发展。

视频人脸识别遇到的困难和挑战,具体来说有以下几种:

1、视频图像质量比较差:视频图像一般是在户外(或室内,但是采集条件比较差)获取的,通常没有用户的配合,所以视频人脸图像经常会有很大的光照和姿态变化。另外还可能会有遮挡和伪装。

2、人脸图像比较小:同样,由于采集条件比较差,视频人脸图像一般会比基于静态图像的人脸识别系统的预设尺寸小。小尺寸的图像不但会影响识别算法的性能,而且还会影响人脸检测,分割和关键点定位的精度,这必然会导致整个人脸识别系统性能的下降。

【盘点】掌握机器学习的5条必由之路

作者:Jason Brownlee
译者:刘小芹

【导读】作者在本文提出一种5步入门并应用机器学习的方法。它不是传统的方法。传统的机器学习方法提倡从下往上学,先从理论和数学开始,然后是算法实现,最后让你去解决现实世界的问题。

【盘点】掌握机器学习的5条必由之路

作者提倡的掌握机器学习的方法与传统方法相反,是从最有价值的成果部分开始。

目标是得到有商业价值的成果:怎样得出结果。

这个结果以一系列预测或能进行可靠预测的模型的方式呈现。

这是一种从上往下的、结果优先的方法。

在商业社会,开始时就有要得到结果的目标是最重要的,那么,怎样才能得到结果?

我们总结了5个步骤: