机器学习(深度学习)通用工作流程
demi 在 周二, 04/23/2019 - 10:39 提交
机器学习只能记住训练数据中存在的模式。你只能认识你已经看到过的东西。利用机器学习对过去的数据进行训练,用于预测未来,这样的做法假设未来的行为将于过去类似。但是,通常并非如此。
机器学习(Machine Learning,简称ML)是一种人工智能(AI)的分支,致力于研究让计算机系统能够从数据中学习并自动改进性能的算法和技术。机器学习使计算机系统能够从经验中学习,而不需要明确地进行编程。
机器学习只能记住训练数据中存在的模式。你只能认识你已经看到过的东西。利用机器学习对过去的数据进行训练,用于预测未来,这样的做法假设未来的行为将于过去类似。但是,通常并非如此。
在特征工程之特征选择中,我们讲到了特征选择的一些要点。本篇我们继续讨论特征工程,不过会重点关注于特征表达部分,即如果对某一个特征的具体表现形式做处理。主要包括缺失值处理,特殊的特征处理比如时间和地理位置处理,离散特征的连续化和离散化处理,连续特征的离散化处理几个方面。
“一图胜千言”,10张有用的幻灯片和简短解释,带你了解AI。
最优化问题是机器学习算法中非常重要的一部分,很多机器学习算法的核心都是在处理最优化问题。梯度下降法(gradient descent)是一种常用的一阶(first-order)优化方法,是求解无约束问题最简单、最经典的方法之一。
机器学习的特征工程是将原始的输入数据转换成特征,以便于更好的表示潜在的问题,并有助于提高预测模型准确性的过程。找出合适的特征是很困难且耗时的工作,它需要专家知识,而应用机器学习基本也可以理解成特征工程。但是,特征工程对机器学习模型的应用有很大影响,有句俗话叫做“数据和特征决定了机器学习模型的性能上限”。
逻辑回归是一个分类算法,它可以处理二元分类以及多元分类。虽然它名字里面有“回归”两个字,却不是一个回归算法。那为什么有“回归”这个误导性的词呢?个人认为,虽然逻辑回归是分类模型,但是它的原理里面却残留着回归模型的影子,本文对逻辑回归原理做一个总结。
我们发展人工智能,核心目的是为了用人工智能来解决我们日常工作生活中的各种问题,机器学习当然也不例外。那机器学习适合解决哪些问题呢?首先,我们一定要知道,机器学习不是万能的。其次,我们要认识到日常工作生活中的最大任务是“决策”。最后,“决策”背后的本质是“分类”。
我们知道,人类在发展、成长、生活的过程中积累了很多的经验。通过定期的对这些经验进行总结,获得了一些规律,这就叫“归纳”。利用这个“归纳”出来的“规律”,对类似的情况进行决策判断,从而指导我们的行动,这就是“演绎”。
机器学习有望从根本上改变软件开发的本质,这也许是自FORTRAN和LISP被发明以来软件开发领域改变最大的一次。这些变化对数百万正在从事软件开发的人而言,意味着什么呢?失业?裁员?现有的软件开发将变得面目全非?
学习算法的预测误差,或者说泛化误差(generalization error)可以分解为三个部分:偏差(bias),方差(variance) 和噪声(noise)。在估计学习算法性能的过程中,我们主要关注偏差与方差。因为噪声属于不可约减的误差 (irreducible error)。