机器学习中的120个特征工程方法

demi 在周二, 10/24/2023 - 12:17 提交

标准化 (Normalization)：通过将特征缩放到一定范围，如0到1或-1到1，以便模型更好地处理不同尺度的特征。

标准化 (Standardization)：通过减去均值并除以标准差，将特征转换为均值为0，方差为1的分布，有助于加速模型收敛。

独热编码 (One-Hot Encoding)：将类别型特征转换成二进制向量，每个类别对应一个维度，从而消除分类之间的大小关系。

特征交叉 (Feature Crosses)：将不同特征进行组合，创建新的特征，有时可以捕获到原始特征之间的交互作用。

多项式特征 (Polynomial Features)：通过对特征进行多项式扩展，引入高阶项，以更好地拟合非线性关系。

频率编码 (Frequency Encoding)：用特征出现的频率代替原始值，适用于高基数的类别特征。

目标编码 (Target Encoding)：用目标变量的统计信息（如均值、标准差等）替换类别特征，有助于传递目标变量的信息。

时间特征 (Time Features)：从时间戳中提取出年、月、日、小时等信息，可用于捕捉时间相关的模式。

文本特征处理 (Text Feature Processing)：包括词袋模型、TF-IDF、词嵌入等，将文本转换为机器学习可用的数值特征。

缺失值处理 (Handling Missing Values)：通过填充、删除或创建新特征来处理缺失值，以避免模型在缺失值上出现问题。

聚类特征 (Cluster-based Features)：基于数据聚类结果，为每个数据点分配所属簇的标签，作为新的特征。

频域特征 (Frequency Domain Features)：从时域数据中提取频域信息，例如傅里叶变换，用于处理周期性数据。

统计特征 (Statistical Features)：包括均值、标准差、中位数等统计量，可以为模型提供关于数据分布的信息。

傅里叶变换 (Fourier Transform)：将信号分解为不同频率的成分，适用于处理信号处理领域的数据。

降维技术 (Dimensionality Reduction)：如主成分分析（PCA）和线性判别分析（LDA），用于减少特征维度并保留主要信息。

特征选择 (Feature Selection)：通过评估特征与目标变量之间的相关性，选择最具预测能力的特征子集。

时序特征 (Temporal Features)：针对时间序列数据，包括滞后特征、移动平均等，用于捕捉时间依赖性。

域知识特征 (Domain Knowledge Features)：利用专业知识，从原始数据中提取有意义的特征。

图像特征提取 (Image Feature Extraction)：对图像数据应用卷积神经网络（CNN）等方法，提取视觉特征。

降噪 (Noise Reduction)：通过滤波等方法，去除数据中的噪声，以提高模型的稳定性和泛化能力。

文本预处理 (Text Preprocessing)：包括分词、去除停用词、词干提取等，将原始文本数据转换为可供模型处理的结构化形式。

TF-IDF (Term Frequency-Inverse Document Frequency)：用于衡量词在文本语料库中的重要性，将文本转换为稀疏向量表示。

词嵌入 (Word Embeddings)：通过训练词向量模型（如Word2Vec、GloVe）将单词映射到连续向量空间，捕捉词义关系。

词袋模型 (Bag of Words)：将文本表示为词汇表中单词的计数向量，忽略了单词的顺序，但保留了出现信息。

N-gram特征：考虑连续的N个词作为一个特征，有助于捕捉局部上下文信息。

Word2Vec特征：利用预训练的Word2Vec模型，将文本中的单词映射到向量空间，作为新的特征。

GloVe特征：使用全局向量表示法（GloVe）来获得单词的向量表示，适用于文本分类和聚类任务。

词频特征 (Word Frequency Features)：计算单词在文本中出现的频率，作为特征输入模型。

字符级特征 (Character-level Features)：将文本拆分为字符，提取字符级别的特征，适用于短文本或拼写错误纠正。

时间序列特征 (Time Series Features)：基于时间戳数据，提取滞后值、趋势、季节性等特征，用于时间序列预测任务。

空间特征 (Spatial Features)：对于地理数据，可以提取经纬度、距离、区域等空间特征，用于地理信息系统分析。

音频特征 (Audio Features)：从音频数据中提取梅尔频谱、音高、节奏等特征，适用于语音识别和音乐分析。

图像颜色特征 (Color Features)：提取图像的颜色直方图、色彩通道信息等，用于图像分类和检索。

图像纹理特征 (Texture Features)：分析图像的纹理信息，如灰度共生矩阵、小波变换，用于纹理分类。

图像形状特征 (Shape Features)：提取图像中物体的形状信息，如轮廓、边缘，用于物体识别和分割。

图像卷积特征 (Convolutional Features)：通过卷积神经网络（CNN）的中间层特征提取，获得图像的高级表示。

图像数据增强 (Image Data Augmentation)：在训练过程中，通过旋转、翻转、缩放等变换增加训练数据，提高模型的泛化能力。

组合特征 (Composite Features)：通过对多个特征进行运算（加法、减法、乘法等），创建新的复合特征。

时间窗口特征 (Time Window Features)：对时间序列数据进行滑动窗口操作，提取窗口内的统计信息，用于序列预测。

人工合成特征 (Synthetic Features)：通过领域知识或创造性的方法，合成新的特征，有助于提高模型表现。

离散化 (Discretization)：将连续特征转换为离散值，有助于处理异常值和噪声，以及适应某些模型的需求。

聚合特征 (Aggregation Features)：基于某个群组或类别，计算特征的统计指标，例如平均值、中位数，用于建立群组间的对比。

变换特征 (Transformed Features)：通过数学变换如对数、指数，调整数据分布，使其更符合模型的假设。

阶段性特征 (Phase Features)：对周期性数据（如天气、经济）提取时间内的特定阶段，以捕捉周期性模式。

分段特征 (Binned Features)：将连续数据分段，创建区间特征，可用于捕捉阶跃或非线性关系。

滑动窗口统计 (Rolling Window Statistics)：在时间序列中，利用滑动窗口计算统计信息，以捕捉数据的动态模式。

累积特征 (Cumulative Features)：通过对时间序列数据进行累积或求和，捕捉随时间变化的积累效应。

对数化 (Logarithmization)：将数据取对数，适用于数据具有指数增长或大范围变化的情况。

比率特征 (Ratio Features)：基于两个特征的比率创建新的特征，有时可以捕捉到更有意义的关系。

计数特征 (Count Features)：统计数据集中某个条件的出现次数，可以揭示隐藏在数据中的模式。

时间差特征 (Time Diff Features)：计算连续时间戳之间的差异，用于衡量事件之间的时间间隔。

偏移特征 (Shift Features)：将特征在时间序列上向前或向后移动，用于构建滞后特征。

周期性特征 (Cyclical Features)：将周期性特征（如小时、星期几）转换为正弦和余弦分量，以保留周期性信息。

稀疏特征编码 (Sparse Feature Encoding)：对稀疏特征（如类别特征）使用哈希编码或嵌入编码，以降低维度。

距离特征 (Distance Features)：计算样本与特定点、簇中心或地理位置之间的距离，用于相似性分析。

复合特征 (Composite Features)：通过组合多个特征创建新的复合特征，以增强模型的预测能力。

噪声注入 (Noise Injection)：向数据中注入随机噪声，有助于提高模型对噪声的鲁棒性。

数据分段 (Segmentation)：将数据分成不同的段落或区域，提取每个段落的统计或特征信息。

分解特征 (Decomposition Features)：将数据分解成不同的成分，如主成分分析（PCA）、奇异值分解（SVD），用于减少冗余。

自动编码器特征 (Autoencoder Features)：使用自动编码器学习数据的低维表示，用于降维和去噪。

频率编码 (Frequency Encoding)：用类别出现的频率替代原始值，有助于模型学习类别的稀有程度。

目标编码 (Target Encoding)：用目标变量的统计信息（如平均值、标准差）替换类别特征，从而传递目标变量的信息。

时间特征 (Time Features)：从时间戳中提取年、月、日、小时等信息，帮助模型捕捉时间相关的模式。

季节性特征 (Seasonality Features)：对时间序列数据进行季节性分解，提取季节性模式和趋势。

文本特征处理 (Text Feature Processing)：包括词袋模型、TF-IDF、词嵌入等方法，将文本数据转换为可供模型处理的向量。

特征交叉 (Feature Crosses)：将不同特征进行组合，创建新的特征，以捕捉原始特征之间的交互作用。

特征缩放 (Feature Scaling)：通过标准化或归一化，将特征值缩放到相似的尺度，以提高模型的收敛速度和性能。

缺失值处理 (Handling Missing Values)：通过填充、删除或使用特定值来处理缺失值，确保模型在训练过程中能正常工作。

多项式特征 (Polynomial Features)：通过增加特征的高次项，捕捉数据中的非线性关系。

主成分分析 (PCA)：通过线性变换将原始特征投影到低维空间，以降低维度并保留主要信息。

降维技术 (Dimensionality Reduction)：使用降维方法如t-SNE、UMAP等，将高维数据映射到二维或三维空间以进行可视化或建模。

类别特征嵌入 (Category Embeddings)：利用嵌入技术将类别特征映射到低维连续空间，提高模型对类别信息的理解。

样本抽样 (Sampling Techniques)：包括欠采样和过采样方法，用于处理类别不平衡问题，平衡训练数据。

傅里叶变换 (Fourier Transform)：用于处理信号数据，将时域数据转换为频域数据，以揭示周期性模式。

滑动窗口特征 (Rolling Window Features)：基于滑动窗口，计算时间序列数据在不同时间范围内的统计特征。

时间差特征 (Time Difference Features)：计算时间戳之间的差异，用于捕捉事件之间的时间间隔。

累计特征 (Cumulative Features)：通过对时间序列数据进行累计操作，捕捉随时间积累的信息。

图像颜色特征 (Color Features)：提取图像的颜色直方图、色彩通道信息，用于图像分类和检索。

图像纹理特征 (Texture Features)：分析图像的纹理信息，如灰度共生矩阵、小波变换，用于纹理分类。

图像形状特征 (Shape Features)：提取图像中物体的形状信息，如轮廓、边缘，用于物体识别和分割。

周期性特征 (Cyclical Features)：将周期性特征如月份、星期数表示为两个正弦和余弦分量，以保留时间的循环性信息。

序号特征 (Ordinal Features)：对有序类别特征进行编码，将类别值映射到整数，以捕捉类别之间的顺序关系。

哈希编码 (Hash Encoding)：将类别特征的值通过哈希函数映射为固定大小的整数，用于处理高基数类别特征。

时间间隔特征 (Time Interval Features)：计算时间戳之间的时间间隔，用于捕捉事件发生之间的持续时间。

傅里叶变换 (Fourier Transform)：用于处理信号数据，将时域数据转换为频域数据，揭示周期性和振荡模式。

编码统计特征 (Aggregated Encoding)：对类别特征进行编码（如均值、标准差），以反映该类别在目标变量上的统计信息。

周期滚动特征 (Cyclic Rolling Features)：在时间序列数据上执行滚动窗口操作，提取滚动窗口内的周期性统计信息。

时间衍生特征 (Time Lag Features)：通过向后或向前平移时间序列，构建滞后特征，用于捕捉时序数据的趋势。

局部统计特征 (Local Statistics)：在滑动窗口内计算统计信息，用于时间序列平滑和异常检测。

滑动窗口百分位数 (Percentile in Rolling Window)：在滑动窗口内计算百分位数，用于捕捉时间序列的分布变化。

滑动窗口差分特征 (Difference in Rolling Window)：在滑动窗口内计算差分特征，用于捕捉时间序列的趋势变化。

卡方分箱 (Chi-Square Binning)：将连续特征分成不同区间，以保留数据分布的重要信息。

时间序列聚类特征 (Time Series Clustering)：将相似的时间序列数据聚类，以提取聚类标签作为新的特征。

季节性分解 (Seasonal Decomposition)：分解时间序列数据为趋势、季节性和残差分量，用于分析周期性模式。

深度特征合成 (Deep Feature Synthesis)：利用自动化方法生成特征，基于原始数据中的关系创建新特征。

特征分组 (Feature Grouping)：将相关特征分组，基于不同的数据维度进行聚合和处理。

特征权重衍生 (Derived Feature Weights)：通过模型训练或特征重要性排序，为特征赋予权重，强调重要特征。

领域知识特征 (Domain Knowledge Features)：利用领域专业知识，从原始数据中提取有意义的特征，增强模型解释性。

分布变换 (Distribution Transformation)：应用数学变换如Box-Cox变换，使数据更符合正态分布，有助于某些模型的表现。

自动特征选择 (Automated Feature Selection)：使用算法自动选择最具预测能力的特征子集，减少冗余和噪声。

词嵌入 (Word Embeddings)：将文本数据中的单词映射到连续向量空间，用于捕捉语义关系和上下文信息。

图像卷积特征 (Image Convolution Features)：通过卷积神经网络（CNN）的中间层，提取图像的高级特征表示。

时间差特征 (Time Difference Features)：计算时间戳之间的时间差，用于衡量事件之间的间隔。

缺失值处理 (Handling Missing Values)：通过填充、删除或模型预测等方式，处理数据中的缺失值，以确保模型的准确性。

多样性特征 (Diversity Features)：基于不同数据源或特征的差异性，创建表示数据多样性的特征。

距离特征 (Distance Features)：计算样本之间的距离或相似度，用于聚类、相似性分析等任务。

交叉特征 (Cross-Validation Features)：通过交叉验证过程中的模型预测值，构建特征以捕捉数据分布。

独热编码 (One-Hot Encoding)：将类别特征转换为二进制向量，以便模型能够处理类别信息。

统计特征 (Statistical Features)：计算数据的统计指标如均值、标准差，用于描述数据分布。

主题建模特征 (Topic Modeling Features)：使用主题模型如LDA，将文本数据映射到主题空间，作为新的特征。

核函数特征 (Kernel Function Features)：通过核函数映射将数据映射到高维空间，以更好地捕捉数据间的关系。

周期性特征 (Cyclical Features)：将周期性特征如时间、季节性编码为正弦和余弦分量，以保留周期性信息。

分位数特征 (Quantile Features)：计算数据的分位数，用于衡量数据分布的倾斜性和异常值。

二值化 (Binarization)：将数值特征转换为二进制值，根据阈值划分为0和1。

特征分组 (Feature Grouping)：将相关联的特征组合在一起，以便模型更好地理解它们的关系。

时间序列聚合特征 (Time Series Aggregated Features)：在时间序列上计算滑动窗口内的统计信息，捕捉序列的趋势。

分布变换 (Distribution Transformation)：应用数学变换如对数、平方根，改变数据分布以适应模型的需求。

人工生成特征 (Artificially Generated Features)：通过领域知识和创造性思维，构建新的特征以增强模型性能。

数据增强 (Data Augmentation)：通过旋转、翻转、裁剪等方法，扩充图像数据集，提高模型的泛化能力。

时间窗口特征 (Time Window Features)：对时间序列数据应用滑动窗口操作，提取窗口内的统计特征。

本文转自：迎难学字，转载此文目的在于传递更多信息，版权归原作者所有。如不支持转载，请联系小编demi@eetrend.com删除。

机器学习

这有一份机器学习上手攻略，请收下！	小白学大模型：什么是生成式人工智能？	比较：生成式模型 VS 判别式模型
机器学习理论基础到底有多可靠？	隐马尔科夫模型HMM（二）前向后向算法评估观察序列概率	机器学习在材料方面的应用

最新文章

最新文章