demi的博客 | 电子创新网 Imgtec 社区

机器学习（五）——集成学习

demi 在周五, 10/26/2018 - 15:02 提交

1、boosting与bagging的概念：

（1）bagging：从原始数据中随机抽样得到S个同样大小的数据集，来训练S个基学习器，各学习器之间互不依赖。是一种并行的方法。

各分类器的权重都是相等的。分类结果是用这S个分类器进行分类，选择分类器投票结果中最多的类别作为最后的分类结果。
（抽样方法为有放回的抽样：允许每个小数据集中可以有重复的值。）

bagging对于弱学习器没有限制，这和Adaboost一样。但是最常用的一般也是决策树和神经网络。

bagging的集合策略也比较简单，对于分类问题，通常使用简单投票法，得到最多票数的类别或者类别之一为最终的模型输出。对于回归问题，通常使用简单平均法，对T个弱学习器得到的回归结果进行算术平均得到最终的模型输出。

优点：

a. 算法每次都进行采样来训练模型，泛化能力很强，对于降低模型的方差很有作用，当然对于训练集的拟合程度就会差一些，也就是模型的偏倚会大一些；

进军人工智能行业，必读的九本书籍！

demi 在周五, 10/26/2018 - 13:33 提交

2017年7月国务院印发《新一代人工智能发展规划的通知》，如今人工智能已上升为“国家战略”。

2018年4月教育部印发《高等学校人工智能创新行动计划》，工智能毋庸置疑是新时代的热词之一，在普通高中课程方案和课程标准（2017年版）中也有看到：在信息技术、通用技术、数学等课标中，要求学生学习了解物联网、人工智能（AI）、大数据处理等内容，特别强调创新精神、逻辑思维能力、实践能力的培养。

如果你想进军人工智能行业，小编推荐几本必读书籍。

《未来简史》+《人类简史》作者：尤瓦尔.赫拉利

人类简史内容简介

无人驾驶入门的基本流程了解一下！

demi 在周五, 10/26/2018 - 11:26 提交

无人驾驶的操作流程，没有大家想的那么复杂。大家完全可以根据自己开车的实践，推断出自动驾驶应该包括那些内容。传统意义上，很多论文或者教材都喜欢把自动驾驶分成感知、预测、规划和控制四个部分，但是我个人喜欢再添加两个部分，即导航和停车，这样会构成一个更完整的整体。

1、导航

当车辆开始启动的时候，我们会输入起始地址和目的地址。有了这两个地址，软件就可以帮助我们规划合理的行驶路线。目前导航这一块已经很成熟了，百度导航和高德导航也做的很好。

2、感知

所谓感知，就是车辆需要定位自身的位置，同时它还需要了解周围的环境。为了做到这些，一般自动驾驶车辆需要安装1-n个激光雷达、1-2个长距离毫米波雷达，4个左右短距离毫米波雷达，8-12个摄像头雷达，8-12个超声波雷达，gps＋imu定位系统，同时还要安装高清地图。有了这些传感器和软件，车辆才能进行数据分析、信息融合，获取周围的环境信息。

3、预测

机器学习+天体物理：星辰图像的更高效处理方法

demi 在周五, 10/26/2018 - 09:42 提交

大数据文摘出品 / 编译：罗然、云舟

为了应对宇宙数据即将出现的指数级增长趋势，天体物理学家也开始将目光投向机器学习。

Kevin Schawinski的问题

2007年，他在牛津大学担任天体物理学家，努力回顾了斯隆数字巡天计划中超过900,000个星系七年中有价值的照片。他花了几天时间翻来覆去观察这些图像，并记录下了一个星系是螺旋形还是椭圆形的，以及它的旋转方式。

技术的进步加快了科学家收集信息的能力，但科学家们处理信息的速度却没有相应提升。 Schawinski和同事Chris Lintott花费了大量的时间来处理这个任务(即是上面提到处理星辰图像的任务)，但并没有得到良好的效果，因此，他们决定必须找到更好的方法来解决这个问题。

Schawinski和Lintott通过一个名为Galaxy Zoo的公民科学项目从公众中招募志愿者来帮助他们分类网上的星辰图像，并向多名志愿者展示相同的图像以便让他们能够检查彼此的工作。最终，超过10万人参与并完成了这一项任务，如果靠他们自己的话，这项任务可能需要数年时间才能完成，但通过这种方式不到6个月就完成了。

公民科学家继续为图像分类任务做出贡献。但技术也在不断发展。

图像处理池化层pooling和卷积核

demi 在周四, 10/25/2018 - 17:25 提交

1、池化层的作用

在卷积神经网络中，卷积层之间往往会加上一个池化层。池化层可以非常有效地缩小参数矩阵的尺寸，从而减少最后全连层中的参数数量。使用池化层即可以加快计算速度也有防止过拟合的作用。

2、为什么max pooling要更常用？

使用深度学习的三维点云分类的介绍

demi 在周四, 10/25/2018 - 13:38 提交

在过去的这些年里，对二维图像已经有了大量深入的研究，并且有着长足的发展。它在分类任务上取得了极好的结果主要得益于一下两个关键因素：

1. 卷积神经网络。

2. 数据 - 大量图像数据可用。

但是对于3D点云，数据正在迅速增长。大有从2D向3D发展的趋势，比如在opencv中就已经慢慢包含了3D点云的处理的相关模块，在数据方面点云的获取也是有多种渠道，无论是源于CAD模型还是来自LiDAR传感器或RGBD相机的扫描点云，无处不在。另外，大多数系统直接获取3D点云而不是拍摄图像并进行处理。因此，在深度学习大火的年代，应该如何应用这些令人惊叹的深度学习工具，在3D点云上的处理上达到对二维图像那样起到很好的作用呢？

3D点云应用深度学习面临的挑战。首先在神经网络上面临的挑战：

（1）非结构化数据（无网格）：点云是分布在空间中的XYZ点。没有结构化的网格来帮助CNN滤波器。

（2）不变性排列：点云本质上是一长串点（nx3矩阵，其中n是点数）。在几何上，点的顺序不影响它在底层矩阵结构中的表示方式，例如，相同的点云可以由两个完全不同的矩阵表示。如下图所示：

物联网的这些认知误区，你都中招了吗？

demi 在周四, 10/25/2018 - 11:41 提交

误区之一

把传感网或RFID网等同于物联网。事实上传感技术也好、RFID技术也好，都仅仅是信息采集技术之一。除传感技术和RFID技术外，GPS、视频识别、红外、激光、扫描等所有能够实现自动识别与物物通信的技术都可以成为物联网的信息采集技术。传感网或者RFID网只是物联网的一种应用，但绝不是物联网的全部。

误区之二

把物联网当成互联网的无边无际的无限延伸，把物联网当成所有物的完全开放、全部互连、全部共享的互联网平台。实际上物联网绝不是简单的全球共享互联网的无限延伸。即使互联网也不仅仅指我们通常认为的国际共享的计算机网络，互联网也有广域网和局域网之分。

物联网既可以是我们平常意义上的互联网向物的延伸;也可以根据现实需要及产业应用组成局域网、专业网。现实中没必要也不可能使全部物品联网；也没必要使专业网、局域网都必须连接到全球互联网共享平台。今后的物联网与互联网会有很大不同，类似智能物流、智能交通、智能电网等专业网;智能小区等局域网才是最大的应用空间。

误区之三

机器学习（三）——线性回归、逻辑回归、Softmax回归的区别

demi 在周四, 10/25/2018 - 09:49 提交

1、什么是回归？

是一种监督学习方式，用于预测输入变量和输出变量之间的关系，等价于函数拟合，选择一条函数曲线使其更好的拟合已知数据且更好的预测未知数据。

2、线性回归

于一个一般的线性模型而言，其目标就是要建立输入变量和输出变量之间的回归模型。该模型是既是参数的线性组合，同时也是输入变量的线性组合。

最小二乘法，代价函数（平方误差代价函数，加1/2是为了方便求导）：

深度学习中常见的过拟合方法

demi 在周三, 10/24/2018 - 14:31 提交

前言

机器学习的主要挑战在于在未见过的数据输入上表现良好，这就是泛化（generalization）能力。由于我们的机器学习模型都是从训练集中学习参数得到的，如何确保其在测试集上表现良好呢？

量化模型在训练集和测试集上的表现，分别成为训练误差（training error）和测试误差（test error），后者也称为泛华误差（generalization error）。理想的模型就是在最小化训练误差的同时，最小化泛化误差。

如果我们的训练集和测试集都是随机生成的，不服从任何分布，那么这个模型将会注定在测试集上表现糟糕，事实上，将不会有任何模型可能在其上表现地明显优于随机猜测。因此，训练集和测试集通常都假设为独立同分布。

我们能观察到的训练误差和泛化误差之间的直接关系就是，训练误差的期望等于测试误差的期望。举个例子：假设我们从p(x, y)中重复采样生成训练集和测试集，对于固定的模型参数W，训练误差的期望等于泛化误差的期望，因为此时测试集和训练集只是名字不同而已，其实其还都是满足数据生成分布的。

深度学习之卷积神经网络

demi 在周三, 10/24/2018 - 11:45 提交

由于在看这类文章时专业名词较多，所以在正式开始前，我先介绍一些同义专业名词，各名词具体含义以及之间的关系在文中介绍。

卷积层 = C层

采样层 = 池化层（pooling层），S层

平面 = 特征图（feature map），通道，map

卷积核 = 权向量，滤波器

神经元 = 特征，结点，单元，像素点，patch

局部感受野的大小 = 滤波器的大小

1、引入

在人工神经网络中，当网络层数增多时，网络中的权值以成倍的速度在增长。比如当输入为一个1000*1000图片时（假如网络总共有6层，每层100个节点）则需要的权值数为：1000*1000*100+100*100*4，这么多的权值数目严重影响了网络的训练速度，为了训练好模型同时也需要更多的训练样例，同时过于复杂的模型也易导致过拟合的发生。

在上例中，主要是前面的输入层到第一层的权重参数太多，那么如何解决呢？传统的方法就是人工从图像中抽取较少特征，然后再放入全连接的神经网络中，但这种方法存在两个问题，一个问题是人工抽取特征效率较低，其次是抽取的特征不一定准确。