demi的博客 | 电子创新网 Imgtec 社区

机器学习萌新必学的Top10算法

demi 在周三, 08/22/2018 - 17:18 提交

在机器学习中，有一种叫做「没有免费的午餐」的定理。简而言之，它指出没有任何一种算法对所有问题都有效，在监督学习(即预测建模)中尤其如此。

例如，你不能说神经网络总是比决策树好，反之亦然。有很多因素在起作用，例如数据集的大小和结构。

因此，你应该针对具体问题尝试多种不同算法，并留出一个数据「测试集」来评估性能、选出优胜者。

当然，你尝试的算法必须适合你的问题，也就是选择正确的机器学习任务。打个比方，如果你需要打扫房子，你可能会用吸尘器、扫帚或拖把，但是你不会拿出铲子开始挖土。

大原则

不过也有一个普遍原则，即所有监督机器学习算法预测建模的基础。

机器学习算法被描述为学习一个目标函数 f，该函数将输入变量 X 最好地映射到输出变量 Y：Y = f(X)

这是一个普遍的学习任务，我们可以根据输入变量 X 的新样本对 Y 进行预测。我们不知道函数 f 的样子或形式。如果我们知道的话，我们将会直接使用它，不需要用机器学习算法从数据中学习。

最常见的机器学习算法是学习映射 Y = f(X) 来预测新 X 的 Y。这叫做预测建模或预测分析，我们的目标是尽可能作出最准确的预测。

19个AI热门应用领域，你知道多少？

demi 在周三, 08/22/2018 - 15:41 提交

1. 自然语言生成(Natural Language Generation)

自然语言生成是人工智能的分支，研究如何将数据转化为文本，用于客户服务、报告生成以及市场概述。

2. 语音识别(Speech Recognition)

Siri就是一个典型的例子。
目前，通过语音应答交互系统和移动应用程序对人类语言进行转录的系统已多达数十万。

3. 虚拟助理(Virtual Agents)

虚拟助理是一种能与人类进行交互的计算机代理或程序，其中以聊天机器人最为著名。虚拟助理多用于客户服务和支持，并可以作为智能家居的管理者。

4. 机器学习平台(Machine Learning Platforms)

机器学习是计算机科学和人工智能技术的分支，它能提升计算机的学习能力。

补完安全系统，或许是无人驾驶技术的关键一环

demi 在周三, 08/22/2018 - 13:43 提交

在这篇文章开始之前，我们先提出一个问题：如果未来你以为的无人驾驶，在某个浑然不觉的时间段里实际上是有人驾驶，你会不会觉得毛骨悚然？

这并不是危言耸听。汽车从原始的纯机械工业产品变得越来越电子化、网络化，正如手机从原始的大哥大功能机接入网络、App，迈入智能机时代。手机包括一切网络接入设备所面临的安全问题，也将毫无疑问地出现在汽车身上。

如你所想，我们在这里要说的安全，是系统安全。

但与手机、电脑不同的是，无人驾驶汽车的系统一旦被黑客入侵甚至控制起来，涉及的就不仅仅是勒索钱财的问题，极有可能是要了人命。

或许，当我们一边要力争无人驾驶汽车在2020年能上路，另一边却到目前为止仍然把上路的安全问题集中在各种传感器、激光雷达、芯片或者算法的技术层面，系统安全的问题似乎就相对显得迫在眉睫了。

与传统汽车相比，无人驾驶危险在哪儿？

传统汽车的安全事故，最多也就是老司机一不留神翻个车；要全神贯注地开车，基本上没啥出问题的可能。但无人驾驶汽车要想翻车，老司机都没办法。毕竟在无人驾驶阶段，老司机都变成了乘客，你总不能指望着乘客上车之前还要学学代码什么的吧？

深度学习中的数学，高效计算基础与线性分类器

demi 在周三, 08/22/2018 - 10:39 提交

深度学习说到底就是要调节网络中得权重，使网络的分类结果更接近于训练值。这个重复迭代的过程又是一个线性回归的问题。在这种可能会用到高数，线性代数，概率论中的知识。

一、数学基础提一提

1. 高数中得知识。

高数中最重要的就是微积分了，那在深度学习中出现最多的一个概念就是梯度。什么是梯度呢?要说导数，学过高数的肯定都知道。其实梯度就是当把标量x变成向量X时，对X求导就是梯度。那为什么要用梯度呢？因为梯度等于0在凸函数中往往代表着一个极小值点。我们要求得就是损失函数的极小值，这正是我们需要的。梯度是指向函数最大增加的方向，下面来解释为什么。

五种常用的图片格式及其是否有数据压缩的总结

demi 在周三, 08/22/2018 - 09:31 提交

本文主要介绍五种最常见和最常用的图像格式：BMP，PNG，JPEG，JPEG200，以及GIF。在进行图像处理相关应用之前第一步首先是能够读取这些图像文件，虽然很多开发工具支持库比如OpenCV等已经帮助节省了这些工作的麻烦，便利的同时也使得开发人员不再熟悉这些基本的图像格式。本文的作用就在于将这五种常用的图像格式进行分条叙述，方便查阅。

BMP图像文件格式：无压缩

BMP是一种与硬件设备无关的图像文件格式，使用非常广。它采用位映射存储格式，除了图像深度可选以外，不采用其他任何压缩，因此，BMP文件所占用的空间很大。BMP文件的图像深度可选lbit、4bit、8bit及24bit。BMP文件存储数据时，图像的扫描方式是按从左到右、从下到上的顺序。

人工智能，你到底是天使or魔鬼？

demi 在周二, 08/21/2018 - 17:15 提交

人工智能的概念早在60多年前就被提出，但又一度沉寂。随着谷歌人工智能程序AlphaGo（阿尔法狗）战胜围棋世界冠军李世石，再次为世人瞩目。然而，与无限风光一起相伴而来的，还有关于人工智能的种种争议！

“在我的一生中，见证了社会深刻的变化。其中最深刻的，同时也是对人类影响与日俱增的变化，是人工智能的崛起。简单来说，我认为强大的人工智能的崛起，要么是人类历史上最好的事，要么是最糟的。”著名物理学家霍金生前反复告诫。

在互联网和大数据风起云涌的今天，人工智能究竟会成为造福人类的天使，还是控制人类的魔鬼？面对类似疑虑，请听中国科学院院士、中国人工智能学会副理事长谭铁牛怎么说。

崛起

经过60多年的不断发展，人工智能迎来发展的春天，成为推动新一轮科技和产业革命的重要驱动力

1956年，在达特茅斯学院暑期研讨班上，一位名叫约翰·麦卡锡的年轻人首次提出了人工智能的概念，那时研讨的主题是怎样用机器模拟人的智能。事实上，与人工智能相关的研究，在此之前早已开展。

梯度下降（Gradient Descent）小结

demi 在周二, 08/21/2018 - 15:21 提交

在求解机器学习算法的模型参数，即无约束优化问题时，梯度下降（Gradient Descent）是最常采用的方法之一，另一种常用的方法是最小二乘法。这里就对梯度下降法做一个完整的总结。

1. 梯度

在微积分里面，对多元函数的参数求∂偏导数，把求得的各个参数的偏导数以向量的形式写出来，就是梯度。比如函数f(x,y), 分别对x,y求偏导数，求得的梯度向量就是(∂f/∂x, ∂f/∂y)^T,简称grad f(x,y)或者▽f(x,y)。对于在点(x0,y0)的具体梯度向量就是(∂f/∂x0, ∂f/∂y0)^T.或者▽f(x0,y0)，如果是3个参数的向量梯度，就是(∂f/∂x, ∂f/∂y，∂f/∂z)^T,以此类推。

2019年：人工智能和机器学习的一些预测

demi 在周二, 08/21/2018 - 11:38 提交

作者 | Daniel Newman
译者 | Sambodhi
编辑 | Vincent

人工智能是企业和国家争夺控制权的前沿技术，2018 年我们已经看到了人工智能出现一些重大进步，那么 2019 年会怎么样呢？让我们看看 Daniel Newman 的预测！

在过去的几年里，机器学习和人工智能一直是人们茶余饭后的谈资，而且这些炒作看上去近期并没有放缓的迹象。但我相信，2019 年将是那些企业等待上船，并见证其行业发展“挖出金矿”的一年。那么，明年我们可能会看到什么呢？会是机器学习的革命性新用途吗？人机交互会不会进一步发展呢？还是人工智能助理全面崛起？让我们深入研究未来几个月的人工智能和机器学习的预测吧！

跨行业机器学习的新用途

在面对像机器学习这样的先进技术时，没有哪个行业不会从中受益。我的意思是说，企业要怎么才能利用能够使他们更成功的技术呢？在接下来的一年里，机器学习在所有这些行业中，将会涌现许多新的用途，我并不是仅仅指营销和销售方面。

一文简述循环神经网络（RNN）

demi 在周二, 08/21/2018 - 10:29 提交

本文简要介绍了什么是循环神经网络及其运行原理，并给出了一个 RNN 实现示例。

什么是循环神经网络（RNN）？它们如何运行？可以用在哪里呢？本文试图回答上述这些问题，还展示了一个 RNN 实现 demo，你可以根据自己的需要进行扩展。

循环神经网络架构

基础知识。Python、CNN 知识是必备的。了解 CNN 的相关知识，是为了与 RNN 进行对比：RNN 为什么以及在哪些地方比 CNN 更好。

我们首先从「循环」（Recurrent）这个词说起。为什么将其称为循环？循环的意思是：

经常或重复出现

将这类神经网络称为循环神经网络是因为它对一组序列输入重复进行同样的操作。本文后续部分将讨论这种操作的意义。

神经网络是如何给出预测结果的？

demi 在周二, 08/21/2018 - 09:25 提交

本章给大家介绍一种用于预测的算法——逻辑回归（logistic regression）

给定一个输入特征向量x（例如你想要识别的图像——是否有猫），你需要一个算法进行计算之后进行结果输出（在这里我们用的是逻辑回归算法）。这个被输出的预测结果我们称为y^y^，假设y是1，如果预测得很准的话y^y^可能会是0.99）。

上图第一个公式中的x是个(n,1)维的矩阵，表示一个训练样本，里面的n表示一个训练样本中的特征数量，例如一张图片就是一个训练样本，图片中每个颜色强度值就是一个特征；w也是一个(n,1)维的矩阵，它表示权重（weight），它一一对应于每个输入的特征，也可以说它指示了某个特征的重要程度；b是一个实数，在这里可以将其看作为一个阀值。