warning: Creating default object from empty value in /mydata/wwwroot/xilinx.eetrend.com/modules/taxonomy/taxonomy.pages.inc on line 33.

机器学习

关于人工智能、编程以及机器学习

人工智能会让程序员失业吗?

当人工智能逐渐强大,大家开始担心:人工智能下一步又要在哪个领域干掉人类?

AI会让人类程序员失业吗?对此问题持肯定态度的人并不在少数。

比如:美国橡树岭国家实验室在去年底发布的论文《人机混编的代码意味着什么?人类 2040 年还需要亲自编写代码吗? 》中表示:到了2040年,大多数的程序代码将由机器生成。

2040年距今天还有些距离,至少当下,AI没有让程序员失业,而是让程序员更贵了。

前几天刷屏的《AI 时代,为什么程序员这么贵》一文,csdn的蒋总认为:AI的发展,不仅不会使程序员消亡,反而使得各行各业比现在更加需要程序员——程序员的求职范围不再局限于软件或互联网行业,社会总需求激增,人才自然也就更贵了。

笔者对蒋总的观点蛮赞同的,当前的势头也确实如此。

不过,再过5-10年,程序员还会如今日行情吗?

1、决策树

适用条件:数据不同类边界是非线性的,并且通过不断将特征空间切分为矩阵来模拟。特征之间有一定的相关性。特征取值的数目应该差不多,因为信息增益偏向于更多数值的特征。

优点:
  •   直观的决策规则;
  •   可以处理非线性特征;
  •   考虑了变量之间的相互作用。

缺点:
  •   容易过拟合(随机森林、剪枝);
  •   处理缺失数据时的困难;
  •   数据集中属性间的相关性。

2、SVM

适用条件:特征空间大,可以处理非线性的特征。

优点:
  •   可以处理小样本情况下的机器学习问题;
  •   可以处理高维特征;
  •   使用核函数应对非线性特征空间,解决非线性问题;
  •   分类面不依赖所有数据,只与几个支持向量有关

缺点:
  •   对于大量的预测样本,效率会很低;

聚类算法

任务:将数据集中的样本划分成若干个通常不相交的子集,对特征空间的一种划分。

性能度量:类内相似度高,类间相似度低。两大类:1.有参考标签,外部指标;2.无参照,内部指标。

距离计算:非负性,同一性(与自身距离为0),对称性,直递性(三角不等式)。包括欧式距离(二范数),曼哈顿距离(一范数)等等。

1、KNN

k近邻(KNN)是一种基本分类与回归方法。

其思路如下:给一个训练数据集和一个新的实例,在训练数据集中找出与这个新实例最近的k 个训练实例,然后统计最近的k 个训练实例中所属类别计数最多的那个类,就是新实例的类。其流程如下所示:

1、计算训练样本和测试样本中每个样本点的距离(常见的距离度量有欧式距离,马氏距离等);
2、对上面所有的距离值进行排序;
3、选前k 个最小距离的样本;
4、根据这k 个样本的标签进行投票,得到最后的分类类别;
  
KNN的特殊情况是k =1 的情况,称为最近邻算法。对输入的实例点(特征向量)x ,最近邻法将训练数据集中与x 最近邻点的类作为其类别。

(1)一般k 会取一个较小的值,然后用过交叉验证来确定;

(2)距离度量:一般是欧式距离(二范数),或者曼哈顿距离(一范数)

机器学习(九)——逻辑回归与SVM区别

1、LR和SVM有什么相同点

(1)都是监督分类算法,判别模型;

(2)LR和SVM都可以处理分类问题,且一般都用于处理线性二分类问题(在改进的情况下可以处理多分类问题);

(3)两个方法都可以增加不同的正则化项,如L1、L2等等。所以在很多实验中,两种算法的结果是很接近的。

2、LR和SVM有什么不同点

(1)本质上是其loss function不同;

区别在于逻辑回归采用的是Logistical Loss,SVM采用的是hinge loss.这两个损失函数的目的都是增加对分类影响较大的数据点的权重,减少与分类关系较小的数据点的权重。

逻辑回归损失函数:
机器学习(九)——逻辑回归与SVM区别

SVM损失函数:

自动机器学习(AutoML)最新综述

机器学习的应用需要大量的人工干预,这些人工干预表现在:特征提取、模型选择、参数调节等机器学习的各个方面。AutoML 试图将这些与特征、模型、优化、评价有关的重要步骤进行自动化地学习,使得机器学习模型无需人工干预即可被应用。

机器学习模型为什么要将特征离散化

在学习机器学习中,看过挺多案例,看到很多人在处理数据的时候,经常把连续性特征离散化。为此挺好奇,为什么要这么做,什么情况下才要做呢。

一、离散化原因

数据离散化是指将连续的数据进行分段,使其变为一段段离散化的区间。分段的原则有基于等距离、等频率或优化的方法。数据离散化的原因主要有以下几点:

1、算法需要

比如决策树、朴素贝叶斯等算法,都是基于离散型的数据展开的。如果要使用该类算法,必须将离散型的数据进行。有效的离散化能减小算法的时间和空间开销,提高系统对样本的分类聚类能力和抗噪声能力。

2、离散化的特征相对于连续型特征更易理解,更接近知识层面的表达

比如工资收入,月薪2000和月薪20000,从连续型特征来看高低薪的差异还要通过数值层面才能理解,但将其转换为离散型数据(底薪、高薪),则可以更加直观的表达出了我们心中所想的高薪和底薪。

3、可以有效的克服数据中隐藏的缺陷,使模型结果更加稳定

二、离散化的优势

机器学习:未来十年研究热点

人工智能正热。技术创新是经济增长的根本动力。这些技术中,最重要的就是经济学家提到的“通用技术”,比如蒸汽机、内燃机、电力等。如今这个时代,人工智能就是最重要的“通用技术”。

机器学习(八)——GBDT 与 XGBOOST

RF、GBDT和XGBoost都属于集成学习(Ensemble Learning),集成学习的目的是通过结合多个基学习器的预测结果来改善单个学习器的泛化能力和鲁棒性。

根据个体学习器的生成方式,目前的集成学习方法大致分为两大类:即个体学习器之间存在强依赖关系、必须串行生成的序列化方法,以及个体学习器间不存在强依赖关系、可同时生成的并行化方法;前者的代表就是Boosting,后者的代表是Bagging和“随机森林”(Random Forest)。

1、GBDT和XGBoost区别

XGBOOST相比于GBDT有何不同?XGBOOST为什么快?XGBOOST如何支持并行?

①传统的GBDT以CART树作为基学习器,XGBoost还支持线性分类器,这个时候XGBoost相当于L1和L2正则化的逻辑斯蒂回归(分类)或者线性回归(回归);

②传统的GBDT在残差梯度方向拟合只用到一阶导数信息,XGBoost则对代价函数进行了二阶泰勒展开,得到一阶和二阶导数,xgboost工具支持自定义代价函数,只要函数可一阶和二阶求导;

机器学习不断接近人脑水平,AI图像识别未来发展如何?

文/张康康

过去十几年,人类可以说是在机器智能面前节节退败,屡败屡战,而多任务处理(multi-tasking)几乎是为数不多可以让人类骄傲的事情了。人们可以同时打开8个网站、数份文档和一个交友软件,即使正在专心处理其中一件事,只要突然收到一条回复或更新提醒,也能够快速安排。对机器而言,要在同一时间完成这样的任务显然有点困难,因此,多任务处理一直被视为人类独有的技能点。

然而,这个优势也将失去了。

近几年,Alphago、视频识别、指纹解锁、图片识别、语音转文字、机器人看病等一系列事件,使我们深刻的感受到人工智能在改变我们的工作方式和认知。国内人工智能产业中,就算集视觉与图像领域公司的数量已达数百家,仅次于自然语言处理类公司,位居第二。其中该领域最为出名的创业公司包括旷世科技Face++、商汤科技、极链科技Video++等。

一百多年前,电改变了生产、交通和农业等产业,而今天,人工智能也像电一样将改变传统产业。人脸识别和图片识别是人工智能视觉与图像领域中的两大热门应用。但将人工智能技术单纯用于图片识别分析的应用企业数量并不如预想的多,可能有以下几个方面的原因:目前视频监控方面的盈利空间大,众多企业的注意力都放在了视频监控领域,人脸识别属于图片识别的一个应用场景,做人脸识别的大多数企业同时也在提供图片识别服务,但是销售效果不佳,主要赢利点还在于人脸识别等。

机器学习(七)——Adaboost和梯度提升树GBDT

1、Adaboost算法原理,优缺点:

理论上任何学习器都可以用于Adaboost.但一般来说,使用最广泛的Adaboost弱学习器是决策树和神经网络。对于决策树,Adaboost分类用了CART分类树,而Adaboost回归用了CART回归树。

Adaboost算法可以简述为三个步骤:

(1)首先,是初始化训练数据的权值分布D1。假设有N个训练样本数据,则每一个训练样本最开始时,都被赋予相同的权值:w1=1/N。

(2)然后,训练弱分类器hi。具体训练过程中是:如果某个训练样本点,被弱分类器hi准确地分类,那么在构造下一个训练集中,它对应的权值要减小;相反,如果某个训练样本点被错误分类,那么它的权值就应该增大。权值更新过的样本集被用于训练下一个分类器,整个训练过程如此迭代地进行下去。

(3)最后,将各个训练得到的弱分类器组合成一个强分类器。各个弱分类器的训练过程结束后,加大分类误差率小的弱分类器的权重,使其在最终的分类函数中起着较大的决定作用,而降低分类误差率大的弱分类器的权重,使其在最终的分类函数中起着较小的决定作用。

换而言之,误差率低的弱分类器在最终分类器中占的权重较大,否则较小。

Adaboost的主要优点有:

同步内容
--电子创新网--
粤ICP备12070055号