warning: Creating default object from empty value in /mydata/wwwroot/xilinx.eetrend.com/modules/taxonomy/taxonomy.pages.inc on line 33.

机器学习

机器学习难吗?这12大经验总结,让你瞬间理解机器学习

机器学习难吗?有些小伙伴们会说,难!真的难!不知道怎么去应用实践?弯路陷阱太多不知如何避免?不知道如何更好的学习机器学习?这些问题相信大部分人都有过疑虑。

今天,小编整理了下,关于机器学习研究者和从业者的 12 个宝贵经验,包括需要避免的陷阱、需要关注的重点问题、常见问题的答案。

希望这些经验对机器学习爱好者有一些帮助。

01“表征+评估+优化”构成机器的主要内容

构成机器学习算法的 3 部分:

  •  表征(Representation):分类器必须用计算机可以处理的形式化语言来表示。相反地,为训练模型选择一个表征就等同于选择可训练分类器的集合。这个集合称为训练模型的「假设空间」。如果分类器不在「假设空间」中,那么它就不能由训练所得到。一个相关的问题是如何表征输入,即使用哪些特征。

  •  评估(Evaluation):需要一个评估函数来区分分类器的好坏。算法内部使用的评估函数可能与分类器优化的外部评估函数不同,这是为了便于优化,并且是由我们下一节所要讨论的问题导致的。

预见未来丨机器学习:未来十年研究热点

本文中,微软亚洲研究院机器学习组的研究员们为我们盘点最热门的机器学习技术,梳理机器学习面临的挑战以及未来十年的发展趋势。

人工智能正热。

技术创新是经济增长的根本动力。这些技术中,最重要的就是经济学家提到的“通用技术”,比如蒸汽机、内燃机、电力等。如今这个时代,人工智能就是最重要的“通用技术”。特别是行业与人工智能的结合,释放了行业的潜力,重塑了我们的生活。

人工智能备受关注、取得革命性进步背后的推手,其实是“机器学习”。

机器学习其实是一门多领域交叉学科,它涉及到计算机科学、概率统计、函数逼近论、最优化理论、控制论、决策论、算法复杂度理论、实验科学等多个学科。机器学习的具体定义也因此有许多不同的说法,分别以某个相关学科的视角切入。但总体上讲,其关注的核心问题是如何用计算的方法模拟类人的学习行为:从历史经验中获取规律(或模型),并将其应用到新的类似场景中。

那么,当我们谈机器学习时,到底在谈些什么?从业者需要掌握哪些前沿技术?未来,又有什么技术趋势值得期待?

看前沿:你需要掌握的机器学习技术

物联网中机器学习的挑战和机遇

据研究报告到2020年,将有超过200亿台互联网连接设备投入使用,这些设备每年将产生超过500个zettabytes的数据,随着更多的技术进步,这个数字预计将继续大幅增加。对于已经投资物联网的70%以上的组织而言,所有这些数据自然代表了独特的竞争优势,并且获得了用于开发创新AI应用程序的宝贵信息和见解的巨大机会。

事实证明,对于数据科学家和机器学习工程师而言,物联网数据与商业领袖一样令人兴奋。从医疗保健和农业到教育和运输,物联网蓬勃发展的领域与其应用程序一样多样化,从发现新信息到决策控制。物联网数据科学为创建令人兴奋的新数据产品打开了大门。但是,我们将在本文中研究物联网数据科学的一些特殊性。

数据注意事项

正如我们所看到的,物联网构成了新数据的最大来源之一。物联网数据实际上可能被视为大数据的缩影。如果我们查看通过一个设备生成的数据,我们通常会处理相当少量的数据(即使这也正在改变)。然而,随着无数分布式设备生成连续的数据流,物联网产生了大量的数据。它的多样性同样令人印象深刻:物联网设备收集各种类型的信息,从音频到传感器数据,并且总体上负责数据格式多样性的奇妙爆发。因为这些设备靠近用户并不断收集信息,这个生成的数据通常是高速的; 这使得物联网数据特别适合时间序列建模。

机器学习项目的完整工作流程是怎样的?

作者:七月在线寒小阳、龙心尘

1 抽象成数学问题

明确问题是进行机器学习的第一步。机器学习的训练过程通常都是一件非常耗时的事情,胡乱尝试时间成本是非常高的。

这里的抽象成数学问题,指的我们明确我们可以获得什么样的数据,目标是一个分类还是回归或者是聚类的问题,如果都不是的话,如果划归为其中的某类问题。

2 获取数据

数据决定了机器学习结果的上限,而算法只是尽可能逼近这个上限。

数据要有代表性,否则必然会过拟合。

而且对于分类问题,数据偏斜不能过于严重,不同类别的数据数量不要有数个数量级的差距。
而且还要对数据的量级有一个评估,多少个样本,多少个特征,可以估算出其对内存的消耗程度,判断训练过程中内存是否能够放得下。如果放不下就得考虑改进算法或者使用一些降维的技巧了。如果数据量实在太大,那就要考虑分布式了。

3 特征预处理与特征选择

良好的数据要能够提取出良好的特征才能真正发挥效力。

特征预处理、数据清洗是很关键的步骤,往往能够使得算法的效果和性能得到显著提高。归一化、离散化、因子化、缺失值处理、去除共线性等,数据挖掘过程中很多时间就花在它们上面。这些工作简单可复制,收益稳定可预期,是机器学习的基础必备步骤。

机器学习—— L0、L1、L2正则化区别

1、概念

L0正则化的值是模型参数中非零参数的个数。

L1正则化表示各个参数绝对值之和。

L2正则化标识各个参数的平方的和的开方值。

2、问题

1)实现参数的稀疏有什么好处吗?

一个好处是可以简化模型,避免过拟合。因为一个模型中真正重要的参数可能并不多,如果考虑所有的参数起作用,那么对训练数据可以预测的很好,但是对测试数据就只能呵呵了。另一个好处是参数变少可以使整个模型获得更好的可解释性。

2)参数值越小代表模型越简单吗?

是的。为什么参数越小,说明模型越简单呢,这是因为越复杂的模型,越是会尝试对所有的样本进行拟合,甚至包括一些异常样本点,这就容易造成在较小的区间里预测值产生较大的波动,这种较大的波动也反映了在这个区间里的导数很大,而只有较大的参数值才能产生较大的导数。因此复杂的模型,其参数值会比较大,但如果参数足够小,数据偏移得多一点也不会对结果造成什么影响,专业一点的说法是『抗扰动能力强』。

3、L0正则化

根据上面的讨论,稀疏的参数可以防止过拟合,因此用L0范数(非零参数的个数)来做正则化项是可以防止过拟合的。

黑客入侵与机器学习沙箱逃逸

0x00、简介

对于攻击者来说,在收集目标数据的过程当中(基础设施扫描、踩点、传递恶意软件),很容易被安全分析师发现。机器学习在防御领域的应用不仅增加了攻击者的成本,而且极大地限制了技术的使用寿命。其实攻击者已经发现了这种趋势,

  •   防御软件以及安全分析人员可以访问大量数据收集和分析

  •   机器学习无处不在,以加速防守成熟度。

攻击者总是处于不利地位,因为我们作为人类试图打败自动学习系统,这些系统利用每一次绕过尝试来更多的了解我们,并预测未来的绕过尝试。然而,正如我们在这里所说的,机器学习不仅仅是在防守方使用。这篇文章将探讨攻击者如何利用收集的很少的数据,使用机器学习技术击溃入侵检测系统。

0x01、传统沙箱逃逸介绍

在讨论机器学习之前,我们需要更仔细的看看我们作为攻击者是如何处理信息的。攻击者在任何给定的主机或网络上收集不到1%的可用信息,并使用少于3%的所收集信息来做出明智的决定(不要太在意百分比),攻击者需要提高他们的数据利用率

线性回归、梯度下降(Linear Regression、Gradient Descent)

首先要明白什么是回归。回归的目的是通过几个已知数据来预测另一个数值型数据的目标值。假设特征和结果满足线性关系,即满足一个计算公式h(x),这个公式的自变量就是已知的数据x,函数值h(x)就是要预测的目标值。这一计算公式称为回归方程,得到这个方程的过程就称为回归。

机器学习之特征工程、特征选择、归一化方法

1、特征选择

特征选择也被称为变量选择和属性选择,它能够自动地选择数据中目标问题最为相关的属性。是在模型构建时中选择相关特征子集的过程。

特征选择与降维不同。虽说这两种方法都是要减少数据集中的特征数量,但降维相当于对所有特征进行了重新组合,而特征选择仅仅是保留或丢弃某些特征,而不改变特征本身。
降维常见的方法有PCA,SVD,萨蒙映射等,特征选择是丢弃作用小的特征。

为什么要做特征选择?

在有限的样本数目下,用大量的特征来设计分类器计算开销太大而且分类性能差。通过特征选取,删选掉冗余重复的和不相关的特征来进一步降维,获取尽可能小的特征子集,模型仅需少量的样本就可以得到较高的预测准确率。特征选择可以移除那些重复冗余、无关的特征,利于构建复杂度更低、解释性更强的模型。  

1、去除冗余和不相关的特征,减少了特征维度,有利于提高模型的预测能力,构建效率更高的模型。
2、更好地理解数据生成的过程,模型的解释性更强。

特征选择方法有很多,一般分为三类:

自动驾驶中常用的四类机器学习算法

机器学习算法已经被广泛应用于自动驾驶各种解决方案,电控单元中的传感器数据处理大大提高了机器学习的利用率,也有一些潜在的应用,比如利用不同外部和内部的传感器的数据融合(如激光雷达、雷达、摄像头或物联网),评估驾驶员状况或为驾驶场景分类等。在KDnuggets网站发表的一篇文章中,作者Savaram Ravindra将自动驾驶中机器学习算法主要分为四类,即决策矩阵算法、聚类算法、模式识别算法和回归算法。我们跟他一起看看,这些算法都是怎样应用的。

算法概览

我们先设想这样一个自动驾驶场景——汽车的信息娱乐系统接收传感器数据融合系统的信息,如果系统发现司机身体有恙,会指导无人车开往附近的医院。

这项应用以机器学习为基础,能识别司机的语音、行为,进行语言翻译等。所有这些算法可以分为两类:监督学习和无监督学习,二者的区别在它们学习的方法。

监督学习算法利用训练数据集学习,并会坚持学到达到所要求的置信度(误差的最小概率)。监督学习算法可分为回归、分类和异常检测或维度缩减问题。

无监督学习算法会在可用数据中获取价值。这意味着算法能找到数据的内部联系、找到模式,或者根据数据间的相似程度将数据集划分出子集。无监督算法可以被粗略分类为关联规则学习和聚类。

机器学习中数据不平衡问题

可以把问题根据难度从小到大排个序:大数据+分布均衡<大数据+分布不均衡<小数据+数据均衡<小数据+数据不均衡。

说明:对于小数据集,机器学习的方法是比较棘手的。对于需要解决的问题,拿到数据后,首先统计可用训练数据有多大,然后再观察数据分布情况。经验表明,训练数据中每个类别有5000个以上样本,其实也要相对于特征而言,来判断样本数目是不是足够,数据量是足够的,正负样本差一个数量级以内是可以接受的,不太需要考虑数据不平衡问题(完全是经验,没有理论依据,仅供参考)。

0、搜集更多的数据

然而实际上,当搜集数据的代价不大时,这种方法是最有效的。

但是需要注意,当搜集数据的场景本来产生数据的比例就是不平衡时,这种方法并不能解决数据比例不平衡问题。

1、采样

采样分为上采样(Oversampling)和下采样(Undersampling),上采样是把小众类复制多份,下采样是从大众类中剔除一些样本,或者说只从大众类中选取部分样本。

同步内容
--电子创新网--
粤ICP备12070055号