机器学习

机器学习中的相似性度量

在做分类时常常需要估算不同样本之间的相似性度量(Similarity Measurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否。

本文的目的就是对常用的相似性度量作一个总结。

1. 欧氏距离(Euclidean Distance)

欧氏距离是最易于理解的一种距离计算方法,源自欧氏空间中两点间的距离公式。

(1)二维平面上两点a(x1,y1)与b(x2,y2)间的欧氏距离:

机器学习中的相似性度量

(2)三维空间两点a(x1,y1,z1)与b(x2,y2,z2)间的欧氏距离:

【深度学习】L1正则化和L2正则化

在机器学习中,我们非常关心模型的预测能力,即模型在新数据上的表现,而不希望过拟合现象的的发生,我们通常使用正则化(regularization)技术来防止过拟合情况。正则化是机器学习中通过显式的控制模型复杂度来避免模型过拟合、确保泛化能力的一种有效方式。如果将模型原始的假设空间比作“天空”,那么天空飞翔的“鸟”就是模型可能收敛到的一个个最优解。在施加了模型正则化后,就好比将原假设空间(“天空”)缩小到一定的空间范围(“笼子”),这样一来,可能得到的最优解能搜索的假设空间也变得相对有限。有限空间自然对应复杂度不太高的模型,也自然对应了有限的模型表达能力。这就是“正则化有效防止模型过拟合的”一种直观解析。

【深度学习】L1正则化和L2正则化

L2正则化

机器学习优化算法:梯度下降、牛顿法、拟牛顿法

1、梯度下降法

梯度下降法实现简单,当目标函数是凸函数时,梯度下降法的解是全局解。一般情况下,其解不保证是全局最优解,梯度下降法的速度也未必是最快的。

梯度下降法的优化思想:用当前位置负梯度方向作为搜索方向,因为该方向为当前位置的最快下降方向,所以也被称为是”最速下降法“。最速下降法越接近目标值,步长越小,前进越慢。

缺点:
(1)靠近极小值时收敛速度减慢,求解需要很多次的迭代;
(2)直线搜索时可能会产生一些问题;
(3)可能会“之字形”地下降。

2、牛顿法

牛顿法最大的特点就在于它的收敛速度很快。

优点:二阶收敛,收敛速度快;

缺点:
  •   牛顿法是一种迭代算法,每一步都需要求解目标函数的Hessian矩阵的逆矩阵,计算比较复杂。
  •   牛顿法收敛速度为二阶,对于正定二次函数一步迭代即达最优解。
  •   牛顿法是局部收敛的,当初始点选择不当时,往往导致不收敛;
  •   二阶海塞矩阵必须可逆,否则算法进行困难。

关于牛顿法和梯度下降法的效率对比:

机器学习中的优化算法

本文主要分机器学习和深度学习两部分介绍,介绍常用的优化算法。优化算法的重要性是不言而喻的,优化算法决定了损失函数的收敛速度,甚至是损失函数是否容易收敛,是否会收敛在最小值处(全局优化)。

1、梯度下降法  

梯度下降法可以说是机器学习中最常用的算法,当然在深度学习中也会使用。不过一般使用的都是梯度下降法的变体—小批量梯度下降法,因为在样本较大时使用全样本进行梯度下降时需要计算的梯度太多,导致计算量会非常大。考虑无约束优化问题minxf(x),其中f(x)是在RD上具有一阶连续偏导的函数。梯度下降法是一种迭代算法,选取合适的初值x(0),不断的迭代更新x的值,进行目标函数f(x) 的极小化,直至目标函数收敛。由于负梯度方向是使得函数值下降最快的方向,因此在迭代的每一步,以负梯度方向更新x 的值,从而达到减小函数值的目的。

假设第k次迭代值为x(k),则根据目标函数的性质,我们可以将f(x) 在x(k)的领域内进行一阶泰勒展开:

人工智能之机器学习——模型评估与选择

机器学习方法在大型数据库中的应用称为数据挖掘(data mining)。在数据挖掘中,需要处理大量的数据以构建有使用价值的简单模型,例如具有高准确率的预测模型。数据挖掘的应用领域非常广泛:在金融业、银行分析历史数据,构建用于信用分析、诈骗检测、股票市场等方面的应用模型;在制造业,学习模型可以用于优化、控制以及故障检测等;在医学领域,学习程序可以用于医疗诊断等;在电信领域,通话模式的分析可用于网络优化和提高服务质量;在科学研究领域,比如物理学、天文学以及生物学的大量数据只有使用计算机才可能得到足够快的分析。万维网是巨大的,并且在不断增长,因此在万维网上检索相关信息不可能依靠人工完成。

机器学习还可以帮助我们解决视觉、语音识别以及机器人方面的许多问题。如人脸识别,通过分析一个人的脸部图像的多个样本,学习程序可以捕捉到那个人特有的模式,例如眼睛、鼻子和嘴巴的特定组合模式,然后再所给的图像中检测这种模式,从而进行辨认,这就是模式识别(pattern recognition)的一个例子。

一. 绪论

五个最热门的开源机器学习 JavaScript 框架

如果你是一位想要深入机器学习的 JavaScript 程序员或想成为一位使用 JavaScript 的机器学习专家,那么这些开源框架也许会吸引你。

帮你读懂人工智能+机器学习+深度学习的包含关系

大数据人工智能技术,在应用层面包括机器学习、神经网络、深度学习等,它们都是现代人工智能的核心技术。在大数据背景下,这些技术均得到了质的提升,人工智能、机器学习和深度学习的包含关系如下图。

帮你读懂人工智能+机器学习+深度学习的包含关系

基本概念理解

1.机器学习

机器学习(Machine Learning)也被称为统计学习理论,是人工智能的重要分支。它通过数据分析获得数据规律,并将这些规律应用于预测或判定其他未知数据。机器学习目前已经广泛应用于数据挖掘、自然语言处理、语音识别等,尤其是在搜索引擎领域。

GDPR到底是如何影响机器学习的?

一般数据保护条例(GDPR)对数据科学产生了很大的影响。现在GDPR有99条正文条款和173篇声明(Recital),长而复杂,但是随着时间的推移以及条款的执行,它可能会变得更加复杂。同时,由于GDPR的存在,律师和隐私工程师将成为未来大型数据科学项目的核心组成部分。

本文主要讨论GDPR与机器学习(ML)之间三个最常见的问题。

1.GDPR是否禁止机器学习?

总的来说,在GDPR生效后,ML不会在欧盟被禁止。

但是,从技术的角度来看,这个问题的答案是肯定的。GDPR作为法律条文,确实做出了对使用自动化决策的全面禁止的规定。当GDPR使用“自动化决策”这个术语时,该法规指的是任何模型都可以在没有人直接参与决策的情况下做出决定。这可能包括数据主体的自动“概要分析”,例如将其分类为“潜在客户”或“40-50岁男性”等特定组,以确定贷款申请人是否有资格获得贷款。

因此,GDPR对ML模型的产生的影响是在没有人直接参与决策制定的情况下,它们是否可以自动部署。如果可以自动部署,那么在大量的ML模型中这种自动部署的设置将会被默认禁止。尽管有许多律师或数据科学家确实反对过,但参与起草和解释GDPR的欧盟官方工作组还是坚持该项规定。

2018年AI的五大发展趋势和带来了哪些益处

人类一直对于与自己相仿的机器人、以及人工智能(AI)的概念饶有兴致。好莱坞电影和科幻小说也一直启发着科学家们向着此方向不断努力。虽然AI的泡沫曾经破灭了多次,但是近年来,一些重大的发展与突破又一次将该领域带回到了公众面前。在 2017年,Gartner将通用AI放在了“技术成熟度曲线”的早期采用阶段。同时,它将深度学习和机器学习技术置于该曲线的顶峰。

我们需要理解的是:AI是几个相互关联的技术的总称术语。它包括:自然语言处理(Natural Language Processing,NLP)、机器学习、认知计算、神经网络、计算机视觉、机器人科学及其相关技术。在本文中,我们将解释所有这些技术的五大发展趋势,并了解它们所带来的益处。

1. 机器学习模式的大众化

机器学习的目的是使得计算机能够从数据中学习、在不依赖程序命令的情况下进行改进。这种学习最终可以帮助计算机建立模型,例如被用于预测天气的模型。在这里,我们来介绍一些利用机器学习的常用应用程序:

财务应用

机器学习之于IOT浅见

为了更好地服务于目标客户, 嵌入式设计团队也在研究新技术, 如机器学习和深度学习。 深度学习允许这些设计师以有限的资源更快地开发和部署复杂的系统和设备。 通过这些技术, 设计团队可以使用数据驱动的方法建立系统或复杂的系统模型。

机器学习和深度学习不是用基于物理的模型来描述系统的行为, 而是从数据推导出系统的模型。当需要处理的数据量相对较小, 而且问题的复杂性较低时, 传统的机器学习算法是有用的。但是, 如果有更多的数据, 比如无人机, 那么更大的问题又如何呢? 这个挑战需要深度学习技术。 这种技术将把我们推向下一个控制设计和物联网应用的时代。

机器学习在工业资产中的应用

首先, 考虑机器学习技术在工业资产状态监测中的应用。机器学习将基于条件的监测应用从被动和预防性维护的时代过渡到预测性维护。 这些技术用来检测异常行为, 诊断问题, 并在某种程度上预测了工业资产的剩余使用寿命, 比如马达, 水泵和涡轮机等等。

基于机器学习开发和部署模型的工作流程如图1所示:

同步内容
--电子创新网--
粤ICP备12070055号