你绝对能懂的“机器学习”(三)
demi 在 周一, 04/08/2019 - 09:12 提交
很多人对机器学习的边界范围似是而非,机器学习是人工智能吗?机器学习与大数据、云计算有什么关系?机器学习是不是就是数据挖掘?机器学习是不是就是算法,就是统计学?深度学习是不是机器学习的升级版?
机器学习(Machine Learning,简称ML)是一种人工智能(AI)的分支,致力于研究让计算机系统能够从数据中学习并自动改进性能的算法和技术。机器学习使计算机系统能够从经验中学习,而不需要明确地进行编程。
很多人对机器学习的边界范围似是而非,机器学习是人工智能吗?机器学习与大数据、云计算有什么关系?机器学习是不是就是数据挖掘?机器学习是不是就是算法,就是统计学?深度学习是不是机器学习的升级版?
我们知道,机器学习近些年来有非常多的应用,例如无人驾驶汽车、棋类游戏、垃圾邮件检测、金融分析、语音识别、图像识别、自然语言处理、产品推荐等,那么机器学习和他们到底是什么关系呢?
极大似然估计中取对数的原因:取对数后,连乘可以转化为相加,方便求导;对数函数ln为单调递增函数,不会改变似然函数极值点。统计学三大相关系数对比:pearson积差相关系数,计算连续性变量才可采用;Spearman秩相关系数或Kendall等级相关系数,适合于定序变量或不满足正态分布假设的等间隔数据......
本文将推荐五种机器学习算法,你应该考虑是否将它们投入应用。这五种算法覆盖最常用于聚类、分类、数值预测和朴素贝叶斯等四个门类。
监督学习(supervised learning)关注对事物未知表现的预测,包括分类问题(classification)和回归问题(regression)。无监督学习(unsupervised learning)倾向于对事物本身特性的分析,数据降维(dimensionality reduction)和聚类(clustering)。
近几年,机器学习成为一个非常火爆的词语,几乎所有的人,或多或少都听说过它,但很多人对机器学习的理解似是而非。机器学习是人工智能吗?机器学习与大数据、云计算有什么关系?机器学习是不是就是数据挖掘?机器学习是不是就是算法,就是统计学?深度学习是不是机器学习的升级版?
虽然人工智能和机器学习为企业改善运营和最大化收入提供了充足的可能性,但没有“免费午餐”。在 “没有免费的午餐”问题是古老的“没有一个放之四海而皆准的所有”问题的AI / ML行业适应。企业面临的一系列问题是巨大的,用于解决这些问题的ML模型的种类非常广泛,因为有些算法在处理某些类型的问题方面比其他算法更好。
当特征选择完成后,可以直接训练模型了,但是可能由于特征矩阵过大,导致计算量大,训练时间长的问题,因此降低特征矩阵维度也是必不可少的。降维(dimensionality reduction)是指通过对原有的feature进行重新组合,形成新的feature,选取其中的principal components。
当数据预处理完成后,我们需要选择有意义的特征输入机器学习的算法和模型进行训练。通常来说,从两个方面考虑来选择特征:特征是否发散——如果一个特征不发散,例如方差接近于0,也就是说样本在这个特征上基本上没有差异,这个特征对于样本的区分并没有什么用;特征与目标的相关性——这点比较显见,与目标相关性高的特征,应当优选选择。
特征工程(Feature Engineering)目的是最大限度地从原始数据中提取特征以供算法和模型使用,是数据挖掘模型开发中最耗时、最重要的一步。内容包括:特征处理(Feature Processing)、特征选择(Feature Selection)。