浅谈机器学习中的过拟合
demi 在 周二, 09/10/2019 - 09:23 提交本篇博客主要是基于花书(古德费洛的《Deep Learning》)和西瓜书(周志华的《机器学习》)撰写的,其中插入了博主的一些个人见解,如有不对之处希望大家指出来一起来讨论一下嘿嘿,万分感谢。
机器学习(Machine Learning,简称ML)是一种人工智能(AI)的分支,致力于研究让计算机系统能够从数据中学习并自动改进性能的算法和技术。机器学习使计算机系统能够从经验中学习,而不需要明确地进行编程。
本篇博客主要是基于花书(古德费洛的《Deep Learning》)和西瓜书(周志华的《机器学习》)撰写的,其中插入了博主的一些个人见解,如有不对之处希望大家指出来一起来讨论一下嘿嘿,万分感谢。
过去,机器学习这个名词的头上曾经笼着科学的光环,只有少数高薪数据科学家才懂得如何用数据“喂养”复杂的算法,得出有用的分析结果。但如今随着自动化工具的快速发展,数据的采集、结构化和分析已经变得更加容易,机器学习的使用门槛已经大幅降低,即使那些不懂编程的业务人员,只要能提出正确的问题,同样也能用机器学习工具得到想要的结果。
入门机器学习,总有几张图片,令人印象深刻。以下是十张经典图片,图解机器学习,非常有启发性。
xgboost中的基学习器除了可以是CART(gbtree)也可以是线性分类器(gblinear)。xgboost主要优点:xgboost不仅使用到了一阶导数,还使用二阶导数,损失更精确,还可以自定义损失;XGBoost的并行优化,XGBoost的并行是在特征粒度上的;考虑了训练数据为稀疏值的情况,可以为缺失值或者指定的值指定分支的默认方向,这能大大提升算法的效率......
机器学习模型的好坏取决于你所拥有的数据。这就是为什么数据科学家可以花费数小时对数据进行预处理和清理。他们只选择对结果模型的质量贡献最大的特征。这个过程称为“特征选择”。特征选择是选择能够使预测变量更加准确的属性,或者剔除那些不相关的、会降低模型精度和质量的属性的过程。
如果你对人工智能和机器学习的理解还不是很清楚,那么本文对你来说将会很有用。我将配合图文解说来帮助你全面理解机器学习。如果它们不能激发你的兴趣,那我也没办法了。
交叉验证是在机器学习建立模型和验证模型参数时常用的办法。交叉验证,顾名思义,就是重复的使用数据,把得到的样本数据进行切分,组合为不同的训练集和测试集,用训练集来训练模型,用测试集来评估模型预测的好坏。在此基础上可以得到多组不同的训练集和测试集,某次训练集中的某样本在下次可能成为测试集中的样本,即所谓“交叉”。
应用程序编程接口(API)是一个现成的代码,可以简化程序员的生活。它有助于数字化单调的任务并自动化一系列复杂功能,从而降低生产成本。在AI/ML编程方面,处理将商业API集成到现有平台中。它可以与当前的代码片段进行交互,当然还可以与用户群进行交互。本文列出了20个适合AI和ML编程的API。选择是完全基于平台的效率,易用性和功能,而不是它的受欢迎程度。不包括像谷歌,IBM或微软平台等大玩家。
人工智能在各产业中的超凡表现奠定了它对未来世界不可或缺的地位,比如制造业、医疗保健、建筑业、在线零售业等几乎各个行业都在利用人工智能技术融入物联网。不断演化的机器学习技术使每个企业都有望成为数据驱动的企业,都能利用云平台的机器学习技术使用人工智能应用程序。未来的企业将不必安装和维护机器学习系统,花很低的开销就能分析海量又复杂的数据,最终做出详细精准的分析和预测。
科技发展很快,数据在指数级增长,环境也在指数级改变,因此很多时候教科书会跟不上时代的发展。有时,即便是写教科书的人,也不见得都明白结论背后的“所以然”,因此有些结论就会落后于时代。针对这个问题,第四范式创始人、首席执行官戴文渊在公司内部分享上,向大家介绍了机器学习教材中的七个经典问题。本文根据演讲实录整理,略有删减。