机器学习

机器学习 | 特征工程(三)- 特征降维

当特征选择完成后,可以直接训练模型了,但是可能由于特征矩阵过大,导致计算量大,训练时间长的问题,因此降低特征矩阵维度也是必不可少的。降维(dimensionality reduction)是指通过对原有的feature进行重新组合,形成新的feature,选取其中的principal components。

机器学习 | 特征工程(二)- 特征选择

当数据预处理完成后,我们需要选择有意义的特征输入机器学习的算法和模型进行训练。通常来说,从两个方面考虑来选择特征:特征是否发散——如果一个特征不发散,例如方差接近于0,也就是说样本在这个特征上基本上没有差异,这个特征对于样本的区分并没有什么用;特征与目标的相关性——这点比较显见,与目标相关性高的特征,应当优选选择。

机器学习十二大经验准则

机器学习算法可以通过概括示例来确定如何执行重要任务。手动编程很难完成这样的目标,所以机器学习通常是可行且成本有效的。随着更多数据的出现,可以解决更加雄心勃勃的问题。因此,机器学习被广泛应用于计算机真诚等领域。然而,开发成功的机器学习应用程序需要大量的“黑色艺术”,这在教科书中很难找到。

评估机器学习模型的几种方法(验证集的重要性)

机器学习的目的是得到可以泛化(generalize)的模型,即在前所未见的数据上表现很好的模型,而过拟合则是核心难点。你只能控制可以观察的事情,所以能够可靠地衡量模型的泛化能力非常重要。

所有学机器学习的人必须要懂的5个回归损失函数

机器学习中的所有算法都依赖于函数的最小化或最大化,我们称之为“目标函数”。一组最小化的函数称为“损失函数”。损失函数是衡量预测模型在预测预期结果方面做得有多好。求函数最小值的一种常用方法是“梯度下降法”。把损失函数想象成起伏的山,而梯度下降就像从山上滑下来到达最低点。

机器学习贝叶斯超参数优化

机器学习中超参数优化的目的是找到给定机器学习算法的超参数,该算法返回在验证集上测量的最佳性能。与模型参数相比,超参数是由机器学习工程师在训练之前设置的。随机森林中的树数量是超参数,而神经网络中的权重是训练期间学习的模型参数。