深度学习中常见的过拟合方法
demi 在 周三, 10/24/2018 - 14:31 提交
前言
机器学习的主要挑战在于在未见过的数据输入上表现良好,这就是泛化(generalization)能力。由于我们的机器学习模型都是从训练集中学习参数得到的,如何确保其在测试集上表现良好呢?
量化模型在训练集和测试集上的表现,分别成为训练误差(training error)和测试误差(test error),后者也称为泛华误差(generalization error)。理想的模型就是在最小化训练误差的同时,最小化泛化误差。
如果我们的训练集和测试集都是随机生成的,不服从任何分布,那么这个模型将会注定在测试集上表现糟糕,事实上,将不会有任何模型可能在其上表现地明显优于随机猜测。因此,训练集和测试集通常都假设为独立同分布。
我们能观察到的训练误差和泛化误差之间的直接关系就是,训练误差的期望等于测试误差的期望。举个例子:假设我们从p(x, y)中重复采样生成训练集和测试集,对于固定的模型参数W,训练误差的期望等于泛化误差的期望,因为此时测试集和训练集只是名字不同而已,其实其还都是满足数据生成分布的。