聊聊机器学习的套路

demi 在周三, 02/27/2019 - 09:50 提交

这里说说机器学习问题分析的一般性过程，尽管存在各种各样的机器学习问题，但大体上的步骤及最佳实践都有一定的套路。

理解问题

首先得理解要解决的是什么问题，比如

以上等等等等。

ETL处理

待收集的数据可能是表格数据、一串实时数据，N维矩阵或其他类型数据，同时也可能是多种存储介质，通过ETL处理将混合的数据源转成我们需要的格式，生成结构化数据类型。

数据预处理

对于收集的数据，可能存在缺陷，比如空值、异常值或数据产生器本身引起的偏差。这些缺陷可能导致模型效果不佳，同时为了优化更快收敛，需要做数据标准化处理，所以需要进行数据预处理。

比如缺失值可以简单设为0、列平均值、中值、最高频率值、甚至是稳健算法和knn等等。

比如标准化数据集，使数据集正态分布，平均值为0标准差为1。而且还达到了特征缩放效果。

模型定义

机器学习主要就是模型问题，我们通过机器学习来对现实进行抽象建模，以解决现实问题。所以机器学习主要工作就是使用哪种模型来建模，尽管各种大大小小模型一大堆，但大体上也有些套路。

损失函数

损失函数用于衡量模型质量，它可以度量模型预测值与实际期望之间的差距，选择不合适的函数可能会影响模型的准确性，甚至影响收敛速度。

模型训练

数据准备好了，模型定义好了，就可以开始训练模型。训练中涉及几个关键术语：迭代，表示模型计算和调整的一次过程；批，数据集每次以一批为单位输入到模型中；epoch，每当整个数据集被处理完称为一个epoch。

另外，训练模型前先调整模型的初始权重，以便能更快更好地收敛。不能初始化为0，否则将导致学习失败。一般可以使用标准化技术将权重初始化。

数据集分割

一般将整个数据集分成三组，比例是7:2:1，第一组为训练集，用于调整模型参数；第二种为验证集，用于比较多个模型直接的表现；第三组为测试集，用于测试训练得到的模型准确性。

模型效果

模型训练完后要看效果如何，要看看泛化的能力。

对于回归问题，可以通过下面几个指标来了解拟合效果。

对于分类问题，可以通过下面几个指标来了解分类效果。

对于聚类问题，可以通过下面几个指标来了解聚类效果。

本文转自：微信号 - 远洋号（seaboat-top），转载此文目的在于传递更多信息，版权归原作者所有。

机器学习——偏差Bias 与方差Variance	XGBoost算法原理小结	机器学习中在线学习、批量学习、迁移学习、主动学习的区别
优化预测速度部署ML模型的7个要点	机器学习的通俗讲解！	机器学习之超参数调优

最新文章