机器学习和统计学的区别

机器学习跟统计学有很多联系,的确这两个专业有很多共性,但本文尝试列举一些差异,供大家参考和对比,也欢迎大家补充。

百度百科的定义

机器学习:机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心。

统计学:统计学是关于认识客观现象总体数量特征和数量关系的科学。它是通过搜集、整理、分析统计资料,认识客观现象数量规律性的方法论科学。

所属学科

机器学习:不是一级学科,通常设在计算机科学、数学或自动化专业下面。机器学习在本科课程中顶多只是一门课,而不是一个独立的专业。

统计学:本身就是一级学科,国内高校也有把统计学归入数学学科下的,国外高校统计学专业一般设在独立的统计系里。

分析数据时关注点

机器学习:模型的泛化能力,预测的精确度/召回率,算法的计算复杂度。

统计学:模型或参数的显著性水平,置信度,及各种统计量意义,例如估计的无偏性、相合性,P Value。

模型验证方法

机器学习:直接用数据集验证,通常将数据集先分成training data和testing data,把training data上训练得出的模型放到testing data上检验效果。

统计学:一般不做交叉验证,而用各种统计量、假设检验、拟合优度和置信度来评价模型。交叉验证是一种直观的实证手段,但结果具有偶然性,而统计学讲究数学上的一般性。

分类

机器学习:监督学习、无监督学习、强化学习,或者分为统计学习和深度学习。深度学习跟统计学联系不大。

统计学:有多种分类方法,按学科发展历史分为经典统计学(频率统计学)和贝叶斯统计学,按功能分为描述统计和推断统计,按研究重点分为理论统计学和应用统计学。此外,统计学可应用于不同学科,衍生出统计学分支领域,例如生物信息学、计量经济学、量子力学、随机信号处理等。

Python典型的库

机器学习:sklearn, tensorflow, keras, XGBoost等

统计学:scipy, statsmodels

版权声明:本文为CSDN博主「sigtem」的原创文章,遵循CC 4.0 by-sa版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/sigtem/article/details/80586388

最新文章