特征基础编码方法

demi 在周三, 10/23/2024 - 14:33 提交

在之前的文章中我们讲解了特征工程的实操的范式，但有读者留言说文章太过深奥。小编想表达的是特征工程有很多种方式，特征范式是创建特征的方法。

本文将介绍的更加基础，包括基础的特征编码方法，建议与之前的文章结合一起阅读。

缺失值填充

缺失值是数据分析中常见的问题，指的是数据集中某些变量的取值缺失或未知。缺失值可能由于多种原因产生，包括数据收集过程中的错误、设备故障、被调查者拒绝提供信息等。

处理缺失值的主要目标是尽量保留数据的完整性和可用性，同时不引入过多的偏差。常见的填充逻辑包括：

不是所有模型都能处理缺失值，但有些模型能够在训练过程中直接处理缺失值，包括：

类别编码

类别编码是将分类变量转换为模型可接受的数值形式的过程，以便机器学习算法能够有效地处理它们。在进行类别编码之前，首先需要识别数据中的分类变量类型，然后选择合适的编码方法进行转换。需要注意的是，不同的类别编码方法可能会重复信息，甚至可能导致维度爆炸，因此选择合适的编码方法至关重要。

在识别类别类型时，主要有两种情况：

名义型（Nominal）变量：名义型变量是没有顺序或等级关系的分类变量，例如颜色、城市等。对于名义型变量，通常使用独热编码（One-Hot Encoding）等方法进行转换。

有序型（Ordinal）变量：有序型变量是具有顺序或等级关系的分类变量，例如教育程度（小学、初中、高中等）。对于有序型变量，可以使用序数编码（Ordinal Encoding）等方法进行转换。

方法	单调编码	适用回归	适用二元分类	适用多类分类	描述
OneHotEncoder	√	√	√	√	从每个类别创建虚拟/二元变量
CountFrequencyEncoder	×	√	√	√	用观测次数或频率替换类别
OrdinalEncoder	若按目标排序，则为√；否则为×	√	√	若数字被任意分配，则为√；否则为×	将类别按顺序替换为整数，可以是任意的顺序或按目标平均值排序
MeanEncoder	√	√	√	数字将被返回，但不同类别的平均值没有数学意义	按类别的目标平均值替换类别
WoEEncoder	√	×	√	×	将类别替换为权重值
PRatioEncoder	√	×	√	×	用概率比率替换类别
DecisionTreeEncoder	√	√	√	√	用决策树的预测替换类别
RareLabelEncoder		√	√	√	将不常见的类别分组到一个新类别中

在进行类别编码时，需要注意以下几点：

离散化

离散化是数据预处理中常用的一种技术，可以将连续变量转换为离散的分箱，以便更好地与一些模型进行配合，或者使得数据更符合实际问题的特性。

方法	介绍
EqualFrequencyDiscretiser()	将值分为具有相似观测数的区间。
EqualWidthDiscretiser()	将值分为相等大小的区间。
ArbitraryDiscretiser()	将值分为用户预定义的区间。
DecisionTreeDiscretiser()	用决策树的预测值替换值，这些值是离散的。
GeometricWidthDiscretiser()	将变量分为几何区间。
KBinsDiscretizer	使用K均值对变量进行离散化。

异常值处理

异常值处理能够提高模型的稳定性和预测能力，提高模型的鲁棒性。

缩放

缩放方法可以帮助调整数据的分布，使其更符合模型的假设，从而提高模型的性能和鲁棒性。缩放方法比较适合用于线性模型、KNN和神经网络中。

转换器	描述
LogTransformer	对数转换器
LogCpTransformer	对数截断转换器
ReciprocalTransformer	倒数转换器
ArcsinTransformer	反正弦转换器
PowerTransformer	幂次转换器
BoxCoxTransformer	Box-Cox转换器
YeoJohnsonTransformer	Yeo-Johnson转换器
FunctionTransformer	允许自定义的函数应用于数据的转换器
PowerTransformer	将数据进行幂次转换，可选择是Yeo-Johnson转换还是Box-Cox转换

新的特征

创造新的特征需要一定的想象力，但通常遵循一些基本模式。在创造新的特征时，需要根据数据的特点和问题的需求灵活运用不同的特征创建方法。

特征筛选

特征选择是指从原始特征集中选择出最具预测能力的特征子集的过程。有很多类型的方法，如下是一些基础方法：

方法	描述
DropFeatures()	根据用户确定的特征名删除任意特征
DropConstantFeatures()	删除常量和准常量特征
DropDuplicateFeatures()	删除重复的特征
DropCorrelatedFeatures()	删除相关的特征
SmartCorrelatedSelection()	从相关特征组中删除不太有用的特征
SelectBySingleFeaturePerformance()	根据单个特征模型性能选择特征
RecursiveFeatureElimination()	通过评估模型性能递归地移除特征
RecursiveFeatureAddition()	通过评估模型性能递归地添加特征
DropHighPSIFeatures()	删除具有高Population Stability Index的特征
SelectByInformationValue()	删除信息值较低的特征
SelectByShuffling()	如果对特征值进行洗牌会导致模型性能下降，则选择该特征
SelectByTargetMeanPerformance()	使用目标均值作为性能代理，选择性能良好的特征
ProbeFeatureSelection()	选择重要性大于随机变量的特征

本文转自： Coggle数据科学，转载此文目的在于传递更多信息，版权归原作者所有。如不支持转载，请联系小编demi@eetrend.com删除。

特征工程实操的三个阶段	特征工程之加密流量安全检测	Kaggle知识点：表格数据特征工程范式
特征怎么离散化？为什么需要离散化？	Kaggle知识点：特征降维方法（线性和非线性）	机器学习中不可或缺的一部分：特征工程

最新文章