机器学习理论基础--常用算法思想要点
demi 在 周四, 07/02/2020 - 17:14 提交
机器学习是通过算法使得机器从大量历史数据中学习规律,从而对新样本做分类或者预测。一个机器学习过程主要分为三个阶段:(1)训练阶段,训练阶段的主要工作是根据训练数据建立模型。(2)测试阶段,测试阶段的主要工作是利用验证集对模型评估与选择。(3)工作阶段,工作阶段的主要工作是利用建立好的模型对新的数据进行预测与分类。
机器学习(Machine Learning,简称ML)是一种人工智能(AI)的分支,致力于研究让计算机系统能够从数据中学习并自动改进性能的算法和技术。机器学习使计算机系统能够从经验中学习,而不需要明确地进行编程。
机器学习是通过算法使得机器从大量历史数据中学习规律,从而对新样本做分类或者预测。一个机器学习过程主要分为三个阶段:(1)训练阶段,训练阶段的主要工作是根据训练数据建立模型。(2)测试阶段,测试阶段的主要工作是利用验证集对模型评估与选择。(3)工作阶段,工作阶段的主要工作是利用建立好的模型对新的数据进行预测与分类。
机器学习问题之中,通常需要建立模型来解决具体问题,但对于模型的好坏,也就是模型的泛化能力,如何进行评估呢?很简单,我们可以定一些评价指标,来度量模型的优劣。比如准确率、精确率、召回率、F1值、ROC、AUC等指标,但是你清楚这些指标的具体含义吗?一起来看看吧。
近几年,机器学习异常火爆,可以用来解决各种各样的问题,但却很少有人意识到机器学习本身也容易受到攻击,终于Ian Goodfellow和Papernot首次将机器学习的攻击提出,并且做了很多非常重要的研究,这里给出这二位大牛的博客的翻译,有兴趣的朋友可以关注一下,觉得还是很有意思的研究。本文也是安全方面的学习,有兴趣的希望可以一起讨论学习~~
我们知道距离的定义是一个宽泛的概念,只要满足非负、自反、三角不等式就可以称之为距离。范数是一种强化了的距离概念,它在定义上比距离多了一条数乘的运算法则。有时候为了便于理解,我们可以把范数当作距离来理解。
性能度量是衡量模型泛化能力的评判标准,性能度量反映了任务需求,在对比不同模型的能力时,使用不同的性能度量往往会导致不同的评判结果,因此什么样的模型是好的,不仅取决于算法和数据,还取决于任务需求。
K近邻法(k-nearst neighbors,KNN)是一种很基本的机器学习方法。它的基本思想是: 在训练集中数据和标签已知的情况下,输入测试数据,将测试数据的特征与训练集中对应的特征进行相互比较,找到训练集中与之最为相似的前K个数据,则该测试数据对应的类别就是K个数据中出现次数最多的那个分类。
machine learning : 机器学习;
deep learning : 深度学习;
image processing : 图像处理;
natural language processing : 自然语言处理
机器学习可以让我们解决一些人为设计和实现固定程序很难解决的问题。从科学和哲学的角度来看,机器学习受到关注是因为发展我们对机器学习的认识需要发展我们对智能背后原理的理解。
特征提取和特征选择是DimensionalityReduction(降维)的两种方法,针对于the curse of dimensionality(维灾难),都可以达到降维的目的。但是这两个有所不同。
众所周知,数据对于机器学习的重要性。了解数据访问模式将帮助数据科学家确定适合其项目的正确存储基础架构。数据基础架构使机器学习成为可能。然而,一旦开始使用,机器学习就面临着关键的数据挑战......