7大分类,40多个关键概念,入门机器学习要掌握的概念都在这里了

来源:为AI呐喊

不知道大家有没有这样的感觉:在我们学习的时候,经常学了就忘,忘了再学,彷佛进入了死循环。明明都学了,结果就是记不住。有时候都想往自己的脑袋里植入一个储存器,想学什么就往脑子里复制,这样多好。

机器学习就是这样一个例子。很多时候,我们在学习过程中迷失了方向,从而失去了继续学习的动力。许多概念需要系统化。但是今天,我想为大家介绍机器学习的所有概念,这些概念将有助于你更快地了解这个领域。这篇文章将适合那些刚刚入门并且已经在实践中开始使用机器学习的人。

概述:
① 动机
② 分类
③ 问题类型
④ 类
⑤ 性能分析
⑥ 算法
⑦调试

废话不多说,让我们直接开始吧!

机器学习概念

这些概念中的每一个都会引出其他更小的衍生概念。在这里,我会为每一个术语给出最短和最简单的定义:

1、动机

动机对于机器学习来说很重要,因为它形成了模型与数据进行比较的过程。机器学习的动机有两种方法:

① 预测。
非线性模型认为,海带的预测变量可以作为判别结果的输入,但不是每种方式的输入都会影响预测。例如,以预测为导向的观点最适合回答这样一个问题:我的车是被高估还是低估了?如果对此应用推论,模型的可解释性将大大降低。

② 推断。
线性模型来区分影响预测的每个输入的方式。例如,它会给你一个精确的答案:如果我的车能在没有车顶的情况下行驶,它会花多少钱?通过比较模型的预测结果,推断比非线性预测更容易理解。

2、分类

与其他方法一样,训练机器学习算法的方法也各不相同,而且各有优缺点:

① 监督学习。
任务驱动型方法,在这个过程中,计算机由“老师”提供示例输入及其期望的输出,目标是学习将输入映射到输出的一般规则。

② 无监督学习。
数据驱动型方法,目标是通过对数据中的底层结构或分布进行建模来了解更多有关数据的信息。它可以是两种类型:发现数据中隐藏的模式,也可以是达到目的的方法(特征学习)。

③ 强化学习。
此类别基于从错误中学习,该错误使用奖励和惩罚系统训练算法。

3、问题类型

如果要深入研究机器学习类别,还有五种其他类型的问题:

① 回归。我们需要预测连续响应值的监督问题。回归拟合数据并给出映射的所有特征点的答案,如果预测值趋向于一个连续的值,那么它就会下降。例如:给出区域名称、土地面积等作为特征,并预测土地的预期成本。

② 分类。监督问题,其主要目的是分离数据。如果预测值趋向于是/否、正/负等类别,那么它就属于机器学习中的分类问题。例如,给定一个句子来预测它是否定的还是正面的。

③ 集群。无监督问题,我们将相似的事物组合到一个给定数量的簇中。对于这些分数,我们不会给出答案。示例:给定3、4、8、9,并且簇的数目为2,那么机器学习系统可以将给定的集合分成簇1–3,4和簇2–8,9。

④ 密度估计。它是在观测数据的基础上,对一个不可观测的潜在概率密度函数的估计。查找输入在某个空间中的分布。

⑤ 降维。通过将输入映射到低维空间来简化输入。

4、类

① 机器学习算法可分为参数或非参数:

参数化-有固定数量的参数,分两步完成:

  • 第一步:假设我们的函数(f)的函数形式或形状,即:f是线性的,因此我们将选择一个线性模型。
  • 第二步:选择一个程序来适应或训练我们的模型。这意味着估计线性函数中的β参数。一种常见的方法是(普通)最小二乘法。

② 非参数化-使用灵活数量的参数,参数的数量通常随着它从更多数据中学习而增长。由于这些方法并不能将f的估计问题简化为少量的参数,因此需要大量的观测数据来获得f的精确估计。例如薄板样条模型。

5、性能分析

算法的性能分析是计算该算法所需的空间和时间的过程。算法的性能分析采用以下措施:

  • 混淆矩阵-通常用于描述分类模型(或“分类器”)在已知真实值的一组测试数据上的性能的表。
  • 准确度。正确预测的一部分,当数据集不平衡时(即不同类别中的样本数量变化很大)不可靠
  • f1分数-测试准确性的另一个衡量标准,其计算依据是:
    ① 精度-在分类器标记为阳性的所有示例中,哪个分数是正确的?
    ② 回忆一下。在所有的正面例子中,分类器提取了什么分数?
  • ROC曲线-接收器工作特性。真阳性率(回忆/敏感性)vs假阳性率(1-特异性)
  • 偏差-方差权衡-一组预测模型的特性,其中参数估计偏差较低的模型在样本间的参数估计方差较高,反之亦然。
  • 均方误差(MSE)-测量误差或偏差平方的平均值-即估计值与估计值之间的差值。
  • 错误率。在分类环境下,应用估计模型的错误率函数是训练观测值的函数。

6、算法

机器学习真正有趣的部分来了!以下内容能够帮助你如何将机器学习付诸实践:

  • 决策树学习-通过一种算法方法来构建,该方法根据不同的条件识别数据集的分割方法。
  • 关联规则学习-一种基于规则的机器学习和数据挖掘技术,可以发现数据集中变量或特征之间的重要关系。
  • 人工神经网络-一种信息处理模型,其灵感来源于生物神经系统,如大脑,处理信息的方式。
  • 深度学习-网络能够在无监督的情况下从非结构化或未标记的数据中学习。它教计算机通过层过滤输入,学习如何预测和分类信息。
  • 归纳逻辑编程-使用逻辑编程作为统一的表示,例如,背景知识和假设。
  • 支持向量机-分析用于分类和回归分析的数据。
  • 聚类-将一组对象分组的任务,使同一组(称为群集)中的对象彼此之间(在某种意义上)比其他组(簇)中的对象更相似(在某种意义上)。
  • 贝叶斯网络-通过有向无环图表示一组变量及其条件依赖关系的概率图形模型。
  • 强化学习-通过与环境互动来学习。
  • 特征学习-允许从原始数据中发现特征检测或分类所需的表示。
  • 相似性和度量学习-学习度量两个对象的相似性函数。
  • 稀疏字典学习-旨在寻找输入数据的稀疏表示形式的基本元素的线性组合。
  • 遗传算法-一个受自然选择过程启发的元启发式算法。
  • 基于规则的机器学习-一种数据驱动的方法,使用标记的文本语料库和他们的情感来预测。
  • 学习分类器系统-结合发现组件和学习组件。

7、调试

调试是为学习算法选择一组最佳超参数的问题。这是它的组成部分:

交叉验证—一种用于评估统计分析结果如何概括为独立数据集的技术。一轮交叉验证涉及将数据样本划分为互补的子集,对一个子集(称为训练集)执行分析,并对另一个子集(称为验证集或测试集)进行分析验证。

方法:Leave-p-out交叉验证,Leave-one-out交叉验证,k倍交叉验证,Holdout方法和重复随机采样验证。

超参数-一个参数,其值用于控制学习过程。相反,其他参数的值(通常是节点权重)是通过训练得出的。可以使用以下方法对其进行优化:

1)网格搜索。传统方式只是简单地穷举搜索学习算法的超参数空间的手动指定子集。

2)随机搜索。它只是简单地对参数设置进行采样,发现在高维空间中,进行固定次数要比穷举搜索更为有效。

3)基于梯度的优化。对于特定的学习算法,可以计算相对于超参数的梯度,然后使用梯度下降优化超参数。

正则化(提前停止)-提前停止规则可指导学习者开始过度拟合之前可以运行多少次迭代,然后停止算法。

过度拟合。当模型学习训练数据中的细节和噪声时,会在一定程度上影响新数据上模型的性能,因此会发生这种情况。

欠拟合(Underfitting)。模型从训练数据中“学习不足”的情况下,导致泛化率低和预测不可靠。

引导。它是使用替换随机抽样并属于更广泛的重采样方法的任何测试或度量。自举法将准确性的度量(偏差,方差,置信区间,预测误差等)分配给样本估计。

套袋(bagging)。它是一种集成的机器学习算法,结合了许多决策树的预测。

总结

以上内容基本上包含了机器学习的全部知识点,温故而知新,学过的东西如果不回过来看一下,说不定哪天就彻底忘记了。希望以上内容能给大家提供帮助~

参考链接:https://towardsdatascience.com/roadmap-to-machine-learning-key-concepts-...

声明:本文为转载文章,转载此文目的在于传递更多信息,版权归原作者所有,如涉及侵权,请联系小编删除。

本文转载自:AI呐喊(weainahan)

推荐阅读