Kaggle知识点:使用大模型进行特征筛选
demi 在 周一, 12/02/2024 - 10:33 提交
随着大模型的发展,本文将探讨如何利用大模型进行特征筛选。
随着大模型的发展,本文将探讨如何利用大模型进行特征筛选。
在现代机器学习应用中,我们经常面临着处理大量数据和特征的挑战。但并非所有特征都对模型构建有用。
包装方法是一系列特征选择技术,依赖于搜索算法,该搜索算法探索可能的特征组合空间,并根据训练模型的质量评估每个特征子集。
在本文中,我们将讨论如何利用特征选择提高深度学习模型的性能。
约简冗余,不相关,噪声和无信息数据,减少存储空间,降低时间复杂度,同时维度降低有助于缓解过拟合问题……
特征选择:我们可以选出原始特征的一个子集。特征提取:通过现有信息进行推演,构造出一个新的特征子空间。
特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型、算法都有着重要作用。
特征提取和特征选择是DimensionalityReduction(降维)的两种方法,针对于the curse of dimensionality(维灾难),都可以达到降维的目的。但是这两个有所不同。
对当前学习任务有价值的属性称为是“相关特征”,没有价值的属性称为是“无关特征”,从给定的特征集中选择出相关特征子集的过程,就称为是“特征选择”。其中还有一种特征称为是“冗余特征”,这些特征指的是可以从其他特征中推演出来的特征。
特征的分类:1. 相关特征:对当前学习任务有用的属性。2. 无关特征:对当前学习任务没有用的属性。