机器学习 | 特征工程(二)- 特征选择
demi 在 周三, 03/20/2019 - 09:18 提交
当数据预处理完成后,我们需要选择有意义的特征输入机器学习的算法和模型进行训练。通常来说,从两个方面考虑来选择特征:特征是否发散——如果一个特征不发散,例如方差接近于0,也就是说样本在这个特征上基本上没有差异,这个特征对于样本的区分并没有什么用;特征与目标的相关性——这点比较显见,与目标相关性高的特征,应当优选选择。
机器学习(Machine Learning,简称ML)是一种人工智能(AI)的分支,致力于研究让计算机系统能够从数据中学习并自动改进性能的算法和技术。机器学习使计算机系统能够从经验中学习,而不需要明确地进行编程。
当数据预处理完成后,我们需要选择有意义的特征输入机器学习的算法和模型进行训练。通常来说,从两个方面考虑来选择特征:特征是否发散——如果一个特征不发散,例如方差接近于0,也就是说样本在这个特征上基本上没有差异,这个特征对于样本的区分并没有什么用;特征与目标的相关性——这点比较显见,与目标相关性高的特征,应当优选选择。
特征工程(Feature Engineering)目的是最大限度地从原始数据中提取特征以供算法和模型使用,是数据挖掘模型开发中最耗时、最重要的一步。内容包括:特征处理(Feature Processing)、特征选择(Feature Selection)。
机器学习算法可以通过概括示例来确定如何执行重要任务。手动编程很难完成这样的目标,所以机器学习通常是可行且成本有效的。随着更多数据的出现,可以解决更加雄心勃勃的问题。因此,机器学习被广泛应用于计算机真诚等领域。然而,开发成功的机器学习应用程序需要大量的“黑色艺术”,这在教科书中很难找到。
大部分分类任务中,各类别下的数据个数基本上不可能完全相等,但是一点点差异是不会产生任何影响与问题的。在现实中有很多类别不均衡问题,它是常见的,并且也是合理的,符合人们期望的。
机器学习的目的是得到可以泛化(generalize)的模型,即在前所未见的数据上表现很好的模型,而过拟合则是核心难点。你只能控制可以观察的事情,所以能够可靠地衡量模型的泛化能力非常重要。
机器学习中的所有算法都依赖于函数的最小化或最大化,我们称之为“目标函数”。一组最小化的函数称为“损失函数”。损失函数是衡量预测模型在预测预期结果方面做得有多好。求函数最小值的一种常用方法是“梯度下降法”。把损失函数想象成起伏的山,而梯度下降就像从山上滑下来到达最低点。
机器学习中涉及到了很多的概念,当然要想了解机器学习的话就需要对这些基础知识有一个深入的了解才能够入门机器学习,那么机器学习的基础知识都有哪些呢?本文给大家列举一下机器学习的基础知识。
机器学习有四种广受认可的形式:监督式、无监督式、半监督式和强化式。在研究文献中,这些形式得到了深入的探讨。它们也被纳入了大多数机器学习算法的入门课程。本文对这四种形式作了总结。
大家都知道,机器学习在人工智能中是一个非常重要的内容,我们在进行学习人工智能之前要对机器学习有一定的了解,而机器学习中最重要的就是那些算法了,只有我们掌握了那些算法我们才能够更好地掌握和熟料机器学习的内容。对于机器学习我们需要清楚很多事情,我们在这篇文章中给大家总结了几点内容,希望这几点内容能够帮助大家解决更多的问题。
我们都知道,现阶段人工智能是一个十分火爆的概念,人工智能能够给我们的生活带来很多的方便。其实人工智能中机器学习也是一个十分火热的概念,而不管是什么技术都会有很多的步骤,那么机器学习用的步骤都有哪些呢?