机器学习之特征工程、特征选择、归一化方法
demi 在 周三, 11/21/2018 - 10:21 提交
1、特征选择
特征选择也被称为变量选择和属性选择,它能够自动地选择数据中目标问题最为相关的属性。是在模型构建时中选择相关特征子集的过程。
特征选择与降维不同。虽说这两种方法都是要减少数据集中的特征数量,但降维相当于对所有特征进行了重新组合,而特征选择仅仅是保留或丢弃某些特征,而不改变特征本身。
降维常见的方法有PCA,SVD,萨蒙映射等,特征选择是丢弃作用小的特征。
为什么要做特征选择?
在有限的样本数目下,用大量的特征来设计分类器计算开销太大而且分类性能差。通过特征选取,删选掉冗余重复的和不相关的特征来进一步降维,获取尽可能小的特征子集,模型仅需少量的样本就可以得到较高的预测准确率。特征选择可以移除那些重复冗余、无关的特征,利于构建复杂度更低、解释性更强的模型。
1、去除冗余和不相关的特征,减少了特征维度,有利于提高模型的预测能力,构建效率更高的模型。
2、更好地理解数据生成的过程,模型的解释性更强。
特征选择方法有很多,一般分为三类: