机器学习算法

机器学习理论基础--常用算法思想要点

机器学习是通过算法使得机器从大量历史数据中学习规律,从而对新样本做分类或者预测。一个机器学习过程主要分为三个阶段:(1)训练阶段,训练阶段的主要工作是根据训练数据建立模型。(2)测试阶段,测试阶段的主要工作是利用验证集对模型评估与选择。(3)工作阶段,工作阶段的主要工作是利用建立好的模型对新的数据进行预测与分类。

机器学习--K近邻 (KNN)算法的原理及优缺点

K近邻法(k-nearst neighbors,KNN)是一种很基本的机器学习方法。它的基本思想是: 在训练集中数据和标签已知的情况下,输入测试数据,将测试数据的特征与训练集中对应的特征进行相互比较,找到训练集中与之最为相似的前K个数据,则该测试数据对应的类别就是K个数据中出现次数最多的那个分类。

【图解机器学习】人人都能懂的算法原理

算法公式挺费神,机器学习太伤人。任何一个刚入门机器学习的人都会被复杂的公式和晦涩难懂的术语吓到。但其实,如果有通俗易懂的图解,理解机器学习的原理就会非常容易。本文整理了一篇博客文章的内容,读者可根据这些图理解看似高深的机器学习算法。

机器学习之超参数调优

对于很多算法工程师来说,超参数调优是件非常头疼的事,这项工作比较玄学。除了根据经验设定所谓的“合理值”之外,一般很难找到合理的方法去寻找超参数的最优值。而与此同时,超参数对于模型效果的影响又至关重要。那么有没有一些可行的办法进行超参数调优呢?

机器学习算法的随机数据生成

在学习机器学习算法的过程中,我们经常需要数据来验证算法,调试参数。但是找到一组十分合适某种特定算法类型的数据样本却不那么容易。还好numpy, scikit-learn都提供了随机数据生成的功能,我们可以自己生成适合某一种模型的数据,用随机数据来做清洗,归一化,转换,然后选择模型与算法做拟合和预测。

干货|机器学习算法工程师速查表大全

该内容是Kailash Ahirwar首发在Github的,以下是GitHub链接:https://github.com/kailashahirwar/cheatsheets-ai 。对新手来说,学习机器学习和深度学习是比较困难的,各种深度学习库也是比较难理解,所以,我(原作者)创建了这个机器学习和深度学习速查表,希望对多家有帮助:

梯度提升树(GBDT)原理小结

本文就对Boosting家族中另一个重要的算法梯度提升树(Gradient Boosting Decison Tree, 以下简称GBDT)做一个总结。GBDT有很多简称,有GBT,GTB,GBRT,MART,其实都是指的同一种算法,本文统一简称GBDT。GBDT在BAT大厂中也有广泛的应用,假如要选择3个最重要的机器学习算法的话,个人认为GBDT应该占一席之地。