机器学习算法诊断及调优经验
demi 在 周四, 08/22/2019 - 10:45 提交
既然选了ML这个方向,毕业入职后的工作也无外乎模型训练和调优,大多数的时间将会用来解决上面的问题。于是,写下这篇文章,作为以后解决问题的参考手册,也算是为正式工作做一点点准备。
机器学习(Machine Learning,简称ML)是一种人工智能(AI)的分支,致力于研究让计算机系统能够从数据中学习并自动改进性能的算法和技术。机器学习使计算机系统能够从经验中学习,而不需要明确地进行编程。
既然选了ML这个方向,毕业入职后的工作也无外乎模型训练和调优,大多数的时间将会用来解决上面的问题。于是,写下这篇文章,作为以后解决问题的参考手册,也算是为正式工作做一点点准备。
机器学习中经典假设中往往假定训练样本各类别是同等数量即各类样本数目是均衡的,但是真实场景中遇到的实际问题却常常不符合这个假设。一般来说,不平衡样本会导致训练模型侧重样本数目较多的类别,而“轻视”样本数目较少类别,这样模型在测试数据上的泛化能力就会受到影响。
最近人工智能方面最重要的发展之一就是机器学习了。它主要着眼于智能,而不是传统计算机程序意义上指定机器做什么东西,也就是说机器自己可以学习,这样它就可以直接从经验(或者数据)中学会如何处理复杂的任务。
现实中常遇到多分类学习任务。有些二分类学习方法可直接推广到多分类,如LR。但在更多情形下,我们是基于一些基本策略,利用二分类学习器来解决多分类问题。所以多分类问题的根本方法依然是二分类问题。
在这篇文章中,你将了解在机器学习模型开发生命周期(MDLC)中应用的一些缓解偏差的策略,以实现偏差感知机器学习模型,我们主要目标是实现更高精度的模型,同时确保模型与敏感/受保护属性相比具有较小的判别性。简单来说,分类器的输出不应与受保护或敏感属性相关联。
机器学习跟统计学有很多联系,的确这两个专业有很多共性,但本文尝试列举一些差异,供大家参考和对比,也欢迎大家补充。
主要的想法是:一个全新的模型框架,探索使用模型融合的方式将神经网络可解释同时化整为零将模型更加小巧化,训练更加迅速。
人工智能的引入将为制造行业带来巨大的经济效益。对此,不同的调研机构给出了相关的数据参考:IDC数据显示,到2021年,20%的领先制造企业将通过嵌入式智能、人工智能、物联网和区块链等技术实现流程自动化,并将执行时间缩短25%;德勤表示,机器学习可以让离散制造业的产品质量提高35%.......
偏差是指预测结果与真实值之间的差异,排除噪声的影响,偏差更多的是针对某个模型输出的样本误差,偏差是模型无法准确表达数据关系导致,比如模型过于简单,非线性的数据关系采用线性模型建模,偏差较大的模型是错的模型。
机器学习中参数更新的方法有三种:① Batch Gradient Descent,批梯度下降;② Stochastic Gradient Descent,随机梯度下降;③ Mini-batch Gradient Decent,小批梯度下降。