Kaggle知识点:特征工程实施步骤
demi 在 周一, 09/04/2023 - 09:45 提交
对于不同的数据科学家,特征工程可能呈现不同的意义。对于一些数据科学家,特征工程是我们如何缩减用于监督模型的特征。

对于不同的数据科学家,特征工程可能呈现不同的意义。对于一些数据科学家,特征工程是我们如何缩减用于监督模型的特征。

XGBoost如何选择最佳分裂点?XGBoost如何评价特征的重要性?GBDT与Xgboost的区别是什么?XGBoost和LightGBM的区别又是是什么?XGBoost模型如果过拟合了怎么解决?

本文我将从竞赛选手 + 从业者的角度讨论的这个问题。

机器学习模型的生命周期可以分为以下步骤:
数据采集;
数据预处理;
特征工程;
特征选择;
建筑模型;
超参数调整;
模型部署。

特征工程的目的是最大限度地从原始数据中提取特征以供算法和模型使用;特征工程的核心部分是特征处理,包括数据标准化,数据归一化,特征筛选,降维等。

特征认识(Feature understanding)——结构化数据:可分解为观测记录和属性的数据,如表格数据,行为观测,列为属性;非结构化数据:数据形式随意,不遵循特定规则,如一堆数据(log文件),博客信息,或者只有一个特征的数据;定量数据:有明确数值的数据;定性数据:类别数据。

在之前学习机器学习技术中,很少关注特征工程(Feature Engineering),然而,单纯学习机器学习的算法流程,可能仍然不会使用这些算法,尤其是应用到实际问题的时候,常常不知道怎么提取特征来建模。 特征是机器学习系统的原材料,对最终模型的影响是毋庸置疑的。

特征工程是机器学习中不可或缺的一部分,在机器学习领域中占有非常重要的地位。

连续特征离散化的基本假设,是默认连续特征不同区间的取值对结果的贡献是不一样的。特征的连续值在不同的区间的重要性是不一样的,所以希望连续特征在不同的区间有不同的权重,实现的方法就是对特征进行划分区间,每个区间为一个新的特征。常用做法,就是先对特征进行排序,然后再按照等频离散化为N个区间。

在经典的机器学习领域,特征工程始终占据着核心位置,特征工程的质量高低往往直接决定了机器学习效果的成败。本文概述我们在加密恶意流量检测实践中的特征工程方法流程并分析最终使用的流量特征集合。