机器学习算法诊断及调优经验

demi 在周四, 08/22/2019 - 10:45 提交

作者：西二旗男孩

问题：当我们训练出数据后，发现模型有太大误差，怎么办？

既然选了ML这个方向，毕业入职后的工作也无外乎模型训练和调优，大多数的时间将会用来解决上面的问题。于是，写下这篇文章，作为以后解决问题的参考手册，也算是为正式工作做一点点准备。

1）鉴别是过拟合还是欠拟合的问题

当发现训练出来的模型误差太大的时候，首先考虑的就应该是是否存在过拟合或者欠拟合的问题。但是，如何对二者进行有效鉴别呢？最简单的方法就是分别计算crossvalidationerror(Jcv) 跟trainingerror(Jtrain)：当Jcv跟Jtrain差不多且Jtrain较大时，当前模型更可能存在欠拟合；当Jcv远远大于Jtrain且Jtrain较小时，当前模型更可能存在过拟合。
我们将整个数据集按照一定比例分为训练集和交叉验证集，假设训练集量为m，交叉验证集量为mcv。首先，我们利用m条训练集训练模型参数，并得到Jtrain；然后，将训练出的模型应用于交叉验证集，得到Jcv。这里附上Jcv和Jtrain的计算方法：

a）Jtrain的计算方法：

b）Jcv的计算方法：

当然，我们可以对数据集进行多次划分，看看Jcv和Jtrain是否在统计上满足同一大小规律，确认我们的判断结果。

值得提醒的是，很多时候，我们在发现模型结果不理想时，并没有静下心来认真思考究竟是过拟合还是欠拟合，而是胡乱试用各种方法，缺乏针对性，导致调优过程花费了大量的时间。另外，在判断过拟合和欠拟合上有很多其它看似更完美、更理论的方式，但是我觉得没有太大的必要，简单地计算Jcv和Jtrain通常已经能准确定位问题了，性价比显然最高。

2）如果存在欠拟合，怎么办？

我相信，大多数时候，一开始，我们的算法会是欠拟合的。所以，如果你发现你的算法欠拟合后，恭喜你，你的调优工作才刚刚开始，也就是说，你的模型还差得远呢。正是因为如此，每次我的模型出现过拟合后，我都会开心一阵子，说明问题不大了。

解决欠拟合问题有以下几种方法。

a）添加其他特征

一直以来觉有有句话说得很有道理：“在机器学习里，特征决定了准确率的上限，而算法决定了结果趋近于上限的程度”。这句话也可以翻译成：“巧妇难为无米之炊”。特征是米，每个不同的机器学习算法就是做饭的巧妇。很多人在公司（特别是大公司）待一段时间后，不免都会有一点点失望。因为他们发现，公司里的很多“机器学习/数据挖掘工程师”或者“算法工程师”每天的工作，不过都是在不停地发现和调研新的特征来添加进原有的算法框架里，以提升算法的准确率，而不是发明一些更牛逼、高大上的算法来替换掉原有的算法框架。当然，研究高大上的算法的人有，但并不是那么多。我这里只是想说明特征很重要，而且，调研新的更有效的特征是机器学习里永无止境的有效工作。
不同的应用环境有不同的特征，下面是做搜索排序可能用到的一些特征类别，并不全，只是举个例子提供思路参考。

在这里，特别说明一下，“组合”、“泛化”、“相关性”三类特征是特征添加的重要手段，无论在什么场景，都可以照葫芦画瓢，总会得到意想不到的效果。除上面的特征之外，“上下文特征”、“平台特征”等等，都可以作为特征添加的首选项。
b）添加多项式特征
这句话的意思其实就是提高模型的复杂度，增加模型的表达空间。例如，将原来的线性模型，通过特征添加，变为二次或三次模型。当然，这里并不需要改变本身的训练算法，只需要在原有的特征空间里添加相应的高次项特征即可。例如，原来有个特征x，可以将x^2或者x^3作为一个新的特征放到原来的线性系统里进行训练。
c）减小正则化参数
正则化的目的就是防止模型过拟合，现在模型出现了欠拟合，当然可以通过减小正则化参数的方法来避免欠拟合，不需要多解释。

3）如果存在过拟合，怎么办？
学术界关于过拟合的研究很多，这是因为这个主题会更理论一些，看起来更有技术含量一些。
解决过拟合问题有一下几种方法：
a）训练集选用更多样本
虽然我不同意“对于机器学习，样本数量越大训练出来的分类器正确率越高”这句话，但是如果样本量不足是肯定会有问题的。举个极端的例子，如果我们只有三个训练样本，很容易得到一个训练误差为0的模型，但是实际误差却很大，也就是过拟合问题。所以，选择更多的样本有可能在一定程度上解决过拟合的问题。但是，这种方法不一定每次都会奏效。首先，更多的样本并不一定那么容易得到，很多时候样本的获得是需要很大成本的；其次，即使能够得到，也得考虑时间、空间复杂度的问题，我们的算法平台是否允许这么大的样本量；最后，即使前面两个条件都允许，也不一定增加训练样本就能提高模型准确率，这也是为什么一开始我说我不同意“对于机器学习，样本数量越大训练出来的分类器正确率越高”这句话的原因。一开始，随着样本量的增加，模型准确率肯定会相应增加，但是，当样本量达到一定程度（饱和）后，样本量的增加是没有意义的，这个时候就需要用其他方法实现准确率的提升。
b）采用更小的特征集
不仅特征的次数彰显了模型的复杂度，特征集的维数也一样彰显了模型的复杂度。所以，采用更小的特征集，可以解决过拟合的问题。一般，减小特征集的方法有：特征选择和特征抽取。二者的区别是：特征选择是指在原有的特征中选择一部分特征来用，抛弃不重要的特征，新的特征集是原特征集的子集。详细的特征选择方法介绍可以参考这里：http://www.cnblogs.com/heaad/archive/2011/01/02/1924088.html；特征抽取是指通过原有的高维特征构建新的特征，新的特征维度远远低于原有特征的维度，新的每一维特征都是原有所有特征的加权组合。最常见的特征抽取方法有主成分分析（PCA）和因子分析。
c）增大正则化参数
正则化的目的就是防止模型过拟合，这里不解释。
d）减小模型复杂度，降低模型阶次（不推荐）

来源：程序人生，转载此文目的在于传递更多信息，版权归原作者所有。

机器学习

更好地理解正则化：可视化模型权重分布	机器学习总结之——标准化与归一化的区别	人工智能和机器学习如何彻底改变车牌识别
你绝对能懂的“机器学习”（二）	用于网络安全的 8 大机器学习工具	解决人工智能偏见问题的重要步骤

最新文章

最新文章