demi的博客 | 电子创新网 Imgtec 社区

机器学习（七）——Adaboost和梯度提升树GBDT

demi 在周四, 11/01/2018 - 16:12 提交

1、Adaboost算法原理，优缺点：

理论上任何学习器都可以用于Adaboost.但一般来说，使用最广泛的Adaboost弱学习器是决策树和神经网络。对于决策树，Adaboost分类用了CART分类树，而Adaboost回归用了CART回归树。

Adaboost算法可以简述为三个步骤：

（1）首先，是初始化训练数据的权值分布D1。假设有N个训练样本数据，则每一个训练样本最开始时，都被赋予相同的权值：w1=1/N。

（2）然后，训练弱分类器hi。具体训练过程中是：如果某个训练样本点，被弱分类器hi准确地分类，那么在构造下一个训练集中，它对应的权值要减小；相反，如果某个训练样本点被错误分类，那么它的权值就应该增大。权值更新过的样本集被用于训练下一个分类器，整个训练过程如此迭代地进行下去。

（3）最后，将各个训练得到的弱分类器组合成一个强分类器。各个弱分类器的训练过程结束后，加大分类误差率小的弱分类器的权重，使其在最终的分类函数中起着较大的决定作用，而降低分类误差率大的弱分类器的权重，使其在最终的分类函数中起着较小的决定作用。

换而言之，误差率低的弱分类器在最终分类器中占的权重较大，否则较小。

人工智能力助量子误差矫正

demi 在周四, 11/01/2018 - 14:21 提交

德国马克斯·普朗克光学研究所所长弗洛里安·马夸特（Florian Marquardt）及其团队在物理期刊physical review X上发表论文《增强学习神经网络在量子反馈中的应用》，提出了一种基于人工智能算法的量子误差校正系统。

量子计算机可以解决传统计算机不能处理的复杂任务，但由于量子态对环境的恒定干扰极其敏感，使得量子计算机难以实际应用。而基于量子误差校正的主动防护措施可解决量子态的抗干扰问题。该研究受2016年围棋计算机系统AlphaGo的启发，尝试利用神经网络算法进行量子误差校正。围棋游戏中的生成对抗网络在训练过程总可以自动产生同分布的样本，且具有人类难以达到的计算能力，因此这种人工神经网络算法能够满足量子误差校正的计算需求。马夸特解释称，该项研究利用的人工神经网络算法是计算机科学领域的最新研究，该算法模拟了人类大脑相互连接的神经元结构，用于此次研究的神经网络算法中，每个人工神经元就与另外多达两千个神经元相连接。

研究主要内容可概括为如下几点：

（1）人工神经网络优于其他纠错策略

全网IPv6部署带来的现实问题

demi 在周四, 11/01/2018 - 11:33 提交

2018年以来，国内掀起了IPv6网络改造的热潮，从运营商到互联网，从企业到个人，都要将IPv6的网络改造付诸于行动，不少企业都立了军令状，必须要在2018年完成IPv6网络初步改造，让IPv6跑起来。不过，IPv6的口号喊了这么多年，一直没有什么声响，大家都没有改造的意愿，因为从眼前看IPv6就是一个费钱费力又得不到更多好处的事情，IPv4地址是不够用，但也有一些延缓的变通技术。5G、物联网兴起来后，对IPv6的需求迫切了，IPv4再怎么节省也无法满足物联网的未来部署，这推动着所有的网络运营商必须要进行IPv6改造。改造意愿是一方面，技术部署也存在不少阻力，IPv4网络运行多年，各种网络联接和应用盘根错节，极其复杂，这时再将IPv6纳入进来，网络就更复杂了，部署IPv6面临着很多现实问题。

首先，就是转发表项容量的问题

简单易懂的讲解深度学习（入门系列之二）

demi 在周四, 11/01/2018 - 10:37 提交

在前面的小节中，我们仅仅泛泛而谈了机器学习、深度学习等概念，在这一小节，我们将给出它的更加准确的形式化描述。

我们经常听到人工智能如何如何？深度学习怎样怎样？那么它们之间有什么关系呢？在本小节，我们首先从宏观上谈谈人工智能的“江湖定位”和深度学习的归属。然后再在微观上聊聊机器学习的数学本质是什么？以及我们为什么要用神经网络？

2.1 人工智能的“江湖定位”

宏观上来看，人类科学和技术的发展，大致都遵循着这样的规律：现象观察、理论提取和人工模拟（或重现）。人类“观察大脑”的历史由来已久，但由于对大脑缺乏“深入认识”，常常“绞尽脑汁”，也难以“重现大脑”。

直到上个世纪40年代以后，脑科学、神经科学、心理学及计算机科学等众多学科，取得了一系列重要进展，使得人们对大脑的认识相对“深入”，从而为科研人员从“观察大脑”到“重现大脑”搭起了桥梁，哪怕这个桥梁到现在还仅仅是个并不坚固的浮桥。

七种常用特征工程技术

demi 在周三, 10/31/2018 - 17:25 提交

当在做数据挖掘和数据分析时，数据是所有问题的基础，并且会影响整个工程的流程。相比一些复杂的算法，如何灵活的处理好数据经常会取到意想不到的效益。而处理数据不可或缺的需要使用到特征工程。简单的说，特征工程是能够将数据像艺术一样展现的技术。为什么这么说呢？因为好的特征工程很好的混合了专业领域知识、直觉和基本的数学能力。但是最有效的数据呈现其实并不涉及任何的数据运算。

5G与物联网的强强联合，会带来哪些新的机遇？

demi 在周三, 10/31/2018 - 16:04 提交

谈到5G网络，相信很多人都没有很清晰的认知，因为目前5G网络在中国市场还没有真正应用，那么它和4G、2/3G网络有什么区别？最明显的区别就是速率，当4G网络在2010年左右开始占领市场的时候，我们会觉得速度变得很快，下载一部电影，传送一个视频、文件或者照片等，终于不用像2/3G网络那样苦苦等待了，不过，这些在5G网络面前都不算什么，那么，我们即将面世的5G网络到底有多快呢？据悉，它的峰值理论传输速度可达每秒数10Gb，可以说一部超高清画质电影可在1秒之内下载完成，5G作为第五代移动通信技术，将把移动市场推到一个全新的高度。

那5G什么时候能真正到来呢？目前，日本、韩国、美国和中国等国家以及欧洲都在积极研究5G技术，寻找关键技术的突破点。5G技术的关键技术多达6项，其中包括大规模天线阵列技术或新型多天线技术、超密集组网技术、新型多址技术、D2D通信技术、更加扁平化的新型网络架构和C-RAN研究、高频段需求潜在候选频段研究。如此艰巨的任务给各个国家都带来了挑战，而一些5G技术已经开始测试，如AT&T和Verizon正在测试家庭和企业5G宽带固定网络。

GPU流水线

demi 在周三, 10/31/2018 - 14:13 提交

当GPU从CPU那里得到渲染命令后，就会进行一系列流水操作，最终把图元渲染到屏幕上。

从图中可以看出，GPU的渲染流水线接收顶点数据作为输入。这些顶点数据是由应用阶段加载到显存中，再由Draw Call指定的。这些数据随后被传递给顶点着色器。

顶点着色器（Vertex Shader）是完全可编程的，它通常用于实现顶点的空间变换、顶点着色等功能。

曲面细分着色器（Tessellation Shader）是一个可选的着色器，它用于细分图元。

几何着色器（Geometry Shader）同样是一个可选的着色器，它可以被用于执行逐图元（Per-Primitive）的着色操作，或者被用于产生更多的图元。

自动驾驶汽车环境感知需要哪些传感器？

demi 在周三, 10/31/2018 - 11:43 提交

自动驾驶汽车是依靠人工智能、视觉计算、激光雷达、监控装置和全球定位系统协同合作，让电脑可以在没有人类主动的操作下，自动、安全地操作机动车辆，其主要由环境感知系统、定位导航系统、路径规划系统、速度控制系统、运动控制系统、中央处理单元、数据传输总线等组成。

自动驾驶汽车在传统汽车的基础上扩展了视觉感知功能、实时相对地图功能、高速规划与控制功能，增加了全球定位系统天线、工业级计算机、GPS 接收机、雷达等核心软硬件。感知环节通过各种传感器采集周围环境基本信息，是自动驾驶的基础，主要包括毫米波雷达、激光雷达、超声波传感器、图像传感器等。

4种传感器感知范围示意图

4种传感器及其产业链介绍

1、毫米波雷达

LoRa覆盖性能评估及定位技术研究

demi 在周三, 10/31/2018 - 10:22 提交

0、引言

无线传感器网络（Wireless Sensor Networks，WSN）是通过无线通信方式组成的一个多跳自组织网络系统，由微型传感器控制节点组成。它能够协作地感知、采集和处理网络覆盖区域中被观察对象的信息，并发送给采集者[1]。物联网的快速发展对无线通信提出了更高要求，使得低功耗、远距离、广覆盖、多连接的LPWAN（Low Power Wide Area Network，低功耗广域物联网）技术应运而生[2]。以GSM和GPRS为代表的广域无线通信技术，具有通信速率高的特点。但是，接入LPWAN的终端设备能耗仅为GPRS的1/10，且覆盖能力更强，比GPRS提升了20 dB增益。以ZigBee和Wi-Fi为主的局域无线通信技术，具有低延迟的特点，但信号覆盖范围小、功耗高[3]。

机器学习（六）—随机森林Random Forest

demi 在周三, 10/31/2018 - 09:27 提交

1、什么是随机采样？

Bagging可以简单的理解为：放回抽样，多数表决（分类）或简单平均（回归）；

Bagging的弱学习器之间没有boosting那样的联系，不存在强依赖关系，基学习器之间属于并列生成。它的特点在“随机采样”。

随机采样(bootsrap)就是从我们的训练集里面采集固定个数的样本，但是每采集一个样本后，都将样本放回。也就是说，之前采集到的样本在放回后有可能继续被采集到。对于我们的Bagging算法，一般会随机采集和训练集样本数m一样个数的样本。这样得到的采样集和训练集样本的个数相同，但是样本内容不同。如果我们对有m个样本训练集做T次的随机采样，则由于随机性，T个采样集各不相同。

注意到这和GBDT的子采样是不同的。GBDT的子采样是无放回采样，而Bagging的子采样是放回采样。

2、什么是袋外数据(Out Of Bag, 简称OOB)？