机器学习项目必经十大磨难,看看自己渡过几劫了?
demi 在 周一, 03/16/2020 - 14:47 提交
随着机器学习领域和技术本身的发展,项目中涉及的阶段和工作流程也在不断发展。支持GPU的移动设备的出现为传统机器学习项目的工作流程引入了一个新阶段。新阶段的出现又造就了新的角色和职位。
机器学习(Machine Learning,简称ML)是一种人工智能(AI)的分支,致力于研究让计算机系统能够从数据中学习并自动改进性能的算法和技术。机器学习使计算机系统能够从经验中学习,而不需要明确地进行编程。

随着机器学习领域和技术本身的发展,项目中涉及的阶段和工作流程也在不断发展。支持GPU的移动设备的出现为传统机器学习项目的工作流程引入了一个新阶段。新阶段的出现又造就了新的角色和职位。

随着机器学习问题不断深入人心,人们也将现实中遇到不同的问题分为不同的学习方式,其中,最基础的应属监督学习,无监督学习和强化学习了。

Bagging和Boosting都是将已有的分类或回归算法通过一定方式组合起来,形成一个性能更加强大的分类器,更准确的说这是一种分类算法的组装方法。即将弱分类器组装成强分类器的方法。

现在机器学习应用非常流行,了解机器学习项目的流程,能帮助我们更好的使用机器学习工具来处理实际问题。

R-B Tree,全称是Red-Black Tree,又称为“红黑树”,它一种特殊的二叉查找树。红黑树的每个节点上都有存储位表示节点的颜色,可以是红(Red)或黑(Black)。

机器学习分为:监督学习,无监督学习,半监督学习(也可以用hinton所说的强化学习)等。本文主要理解一下监督学习和无监督学习。

判别模型和生成模型总结:判别方法:由数据直接学习决策函数 Y = f(X),或者由条件分布概率 P(Y|X)作为预测模型,即判别模型。生成方法:由数据学习联合概率密度分布函数 P(X,Y),然后求出条件概率分布P(Y|X)作为预测的模型,即生成模型。由生成模型可以得到判别模型,但由判别模型得不到生成模型。

Error = Bias + Variance ,Error反映的是整个模型的准确度, Bias反映的是模型在样本上的输出与真实值之间的误差,即模型本身的精准度, Variance反映的是模型每一次输出结果与模型输出期望之间的误差,即模型的稳定性。

数据清理中,处理缺失值的方法有两种:删除法;查补法。常用的处理方法有:估算,整例删除,变量删除和成对删除。

在学习机器学习算法的过程中,我们经常需要数据来验证算法,调试参数。但是找到一组十分合适某种特定算法类型的数据样本却不那么容易。还好numpy, scikit-learn都提供了随机数据生成的功能,我们可以自己生成适合某一种模型的数据,用随机数据来做清洗,归一化,转换,然后选择模型与算法做拟合和预测。