机器学习

关于机器学习,你所知道的,可能都是错的?

虽然机器学习已经成为一个高频名词,但是对于大众而言,它依然是一个遥不可及乃至模糊不清的概念。为此,著名投资人 Benedict Evans 在自己的博客上发表博文,针对这一问题表达了自己的看法;本文对这篇博文进行了不改变原意的编译。

机器学习的风潮已经刮了四五年了,除了以 AI 为名如雨后春笋般快速崛起的新创公司们,各家科技巨头也希望围绕这个时髦词“重塑金身”。此外,通过媒体的大肆宣传,机器学习也已经成了一个家喻户晓的名词。总之,机器学习将成为下一个能帮“猪”起飞的风口已经是大家的共识。

在正式开始之前,我们先说说人工智能(AI),机器学习,神经网络和深度学习四者的关联。简单来说,人工智能的范畴最大,机器学习包含在内,它是带来人工智能的方法。至于神经网络,则是机器学习众多算法中的一类,而深度学习则是实现机器学习的技术,是它的一种延伸。

经过这么多年的知识普及,恐怕理解(理论上)神经网络是什么的人已经相当多,至少大家都知道它与范式和数据有关。机器学习让我们能在数据中找到那些暗示性和随机性的范式或结构,而在此之前能找到这些隐含属性的只有人类,因为我们会推理。

有了机器学习,那些原本对人类来说相当简单(或者说无法向计算机描述的问题)但却能难倒计算机的问题就迎刃而解了,各路公司也都拿出了相当炫酷的演示。

机器学习实践的10个小秘诀

对于开发人员而言,基于云的机器学习工具带来了使用机器学习创造和提供新的功能的可能性。然而,开发者想要在它们的应用程序中融入机器学习,通常会犯一些错误,本文列了十条注意点以飨读者。

在提供发现埋藏数据深层的模式的能力上,机器学习有着潜在的能力使得应用程序更加的强大并且更能响应用户的需求。精心调校好的算法能够从巨大的并且互不相同的数据源中提取价值,同时没有人类思考和分析的限制。对于开发者而言,机器学习为应用业务的关键分析提供了希望,从而实现从改善客户体验到提供产品推荐上升至超个性化内容服务的任何应用程序。

像Amazon和Micorosoft这样的云供应商提供云功能的机器学习解决方案,承诺为开发者提供一个简单的方法,使得机器学习的能力能够融入到他们的应用程序当中,这也算是最近的头条新闻了。承诺似乎很好,但开发者还需谨慎。

对于开发人员而言,基于云的机器学习工具带来了使用机器学习创造和提供新的功能的可能性。然而,当我们使用不当时,这些工具会输出不好的结果,用户可能会因此而感到不安。测试过微软年龄检测机器学习工具( http://how-old.net/ )的人都会发现,伴随即插即用的易用性而来的是主要的精度问题——对于关键应用程序或者是重大决策,它应该不值得信赖。

想要在应用程序中成功地融入机器学习的开发者,需要注意以下的一些关键要点:

【译】如何给你的机器学习问题选择正确的算法

随着机器学习浪潮的高涨,越来越多的算法在许多任务中表现得很好。但是我们通常不可能在事先知道哪种算法会是最优的。如果你有无限的时间逐一去尝试每一个算法那就另当别论。接下来的文章我们将依赖从模型选择和超参数调节中得到的知识向你一步一步展示如何来选择最优的算法。

原文地址:http://www.askaswiss.com/2017/02/how-to-choose-right-algorithm-for-your-machine-learning-problem.html

Step 1: 基本知识

在深入讨论之前,我们应当确保已经疏通了基本的知识点。首先,我们应该知道机器学习主要有三大分类:监督学习、无监督学习和强化学习。

  •  在监督学习中,每个数据点都有标签、类别或是数值。比如,给一幅图的标签分为猫或者狗;数值标签的例子是二手车的出售价格。监督学习的目的在于通过学习众多有标签的数据来对未来的数据做出预测——比如通过新照片识别动物(分类)、给二手车一个预测的价格。

机器学习算法中的过拟合与欠拟合

在机器学习表现不佳的原因要么是过度拟合或欠拟合数据。

机器学习中的逼近目标函数过程

监督式机器学习通常理解为逼近一个目标函数(f)(f),此函数映射输入变量(X)到输出变量(Y).

Y=f(X)Y=f(X)

这种特性描述可以用于定义分类和预测问题和机器学习算法的领域。

从训练数据中学习目标函数的过程中,我们必须考虑的问题是模型在预测新数据时的泛化性能。泛化好坏是很重要的,因为我们收集到的数据只是样本,其带有噪音并且是不完全的。

机器学习中的泛化

在In机器学习中,我们描述从训练数据学习目标函数的学习过程为归纳性的学习。

归纳与特别的样本中学习到通用的概念有关,而这就是监督式机器学习致力于解决的问题。这与推演不同,其主要是另一种解决问题和寻求从通常的规则中找寻特别的内容。

泛化即是,机器学习模型学习到的概念在它处于学习的过程中时模型没有遇见过的样本时候的表现。

好的机器学习模型的模板目标是从问题领域内的训练数据到任意的数据上泛化性能良好。这让我们可以在未来对模型没有见过的数据进行预测。

在机器学习领域中,当我们讨论一个机器学习模型学习和泛化的好坏时,我们通常使用术语:过拟合和欠拟合.

过拟合和欠拟合是机器学习算法表现差的两大原因。

机器学习之决策树

一、基本流程

决策树是一类常见的机器学习方法,其是基于树结构来进行决策的,这恰是人类在面临决策问题时很自然的一种处理机制。例如我们要对“这是好瓜吗?”这样的问题进行决策时,通常会进行一系列的判断或者“子决策”。这个决策的流程如下图所示:
机器学习之决策树
一般的,一棵树包含一个根节点,若干个内部节点和若干个叶子结点,叶子结点对应于决策结果,其它每个节点则对应于一个属性测试,每个节点包含的样本集合根据属性测试的结果被划分到子节点中;根节点包含样本全集。决策树的目的是产生一课泛化能力强,即处理未见示例能力强的决策树,其基本流程遵循简单而直观的分而治之的策略,如下图所示:
机器学习之决策树
由上图发现,很显然,决策树的生成是一个递归过程。

机器学习算法综述

近些年来,随着大数据、云计算、移动互联网、人工智能技术的兴起,“机器学习”成为了行业内炙手可热的一个名词。从通信互联网领域的专家,到各式各样的企业,甚至到普通的老百姓,都对“机器学习”技术略知一二。那么,机器学习到底是什么,它与我们常见的“人工智能”、“神经网络”、“数据挖掘“等相似概念都有什么关系?机器学习有那些基本分支、基本方法?在本文中,我们将用最简单易懂的语言解释这些问题。

问题一:“机器学习”和“人工智能”的关系是什么?

随着“机器学习”火起来的还有一个词语,即“人工智能”。每个人都肯定还记得不久以前的AlaphGo,随着机器打败围棋顶级高手李世石,人们也不得不感叹:“人工智能”时代真正到来了。

那么,“机器学习”和“人工智能”的关系到底是什么尼?其实,“人工智能”是一个很大的学科领域,里面包含很多子领域,如“机器学习”,“数据挖掘”,“模式识别”,“自然语言处理”等。这些子领域可能有交叉,但侧重点往往不同。比如”机器学习“就比较侧重于算法方面。总的来说,“人工智能”是一个学科领域,是我们研究的最终目的,而”机器学习“是这个领域中比较核心的,比较重要的,侧重于算法的一门学科,可以说,“人工智能”和“机器学习”是包含与被包含的关系。

一、C4.5 算法:

ID3 算法是以信息论为基础,以信息熵和信息增益度为衡量标准,从而实现对数据的归纳分类。ID3 算法计算每个属性的信息增益,并选取具有最高增益的属性作为给定的测试属性。

C4.5 算法核心思想是ID3 算法,是ID3 算法的改进,改进方面有:
1)用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足;
2)在树构造过程中进行剪枝
3)能处理非离散的数据
4)能处理不完整的数据

优点:产生的分类规则易于理解,准确率较高。

缺点:
1)在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。
2)C4.5 只适合于能够驻留于内存的数据集,当训练集大得无法在内存容纳时程序无法运行。

二、K means 算法:

是一个简单的聚类算法,把 n 的对象根据他们的属性分为k 个分割,k < n。算法的核心就是要优化失真函数J,使其收敛到局部最小值但不是全局最小值。

机器学习难吗?这12大经验总结,让你瞬间理解机器学习

机器学习难吗?有些小伙伴们会说,难!真的难!不知道怎么去应用实践?弯路陷阱太多不知如何避免?不知道如何更好的学习机器学习?这些问题相信大部分人都有过疑虑。

今天,小编整理了下,关于机器学习研究者和从业者的 12 个宝贵经验,包括需要避免的陷阱、需要关注的重点问题、常见问题的答案。

希望这些经验对机器学习爱好者有一些帮助。

01“表征+评估+优化”构成机器的主要内容

构成机器学习算法的 3 部分:

  •  表征(Representation):分类器必须用计算机可以处理的形式化语言来表示。相反地,为训练模型选择一个表征就等同于选择可训练分类器的集合。这个集合称为训练模型的「假设空间」。如果分类器不在「假设空间」中,那么它就不能由训练所得到。一个相关的问题是如何表征输入,即使用哪些特征。

  •  评估(Evaluation):需要一个评估函数来区分分类器的好坏。算法内部使用的评估函数可能与分类器优化的外部评估函数不同,这是为了便于优化,并且是由我们下一节所要讨论的问题导致的。

预见未来丨机器学习:未来十年研究热点

本文中,微软亚洲研究院机器学习组的研究员们为我们盘点最热门的机器学习技术,梳理机器学习面临的挑战以及未来十年的发展趋势。

人工智能正热。

技术创新是经济增长的根本动力。这些技术中,最重要的就是经济学家提到的“通用技术”,比如蒸汽机、内燃机、电力等。如今这个时代,人工智能就是最重要的“通用技术”。特别是行业与人工智能的结合,释放了行业的潜力,重塑了我们的生活。

人工智能备受关注、取得革命性进步背后的推手,其实是“机器学习”。

机器学习其实是一门多领域交叉学科,它涉及到计算机科学、概率统计、函数逼近论、最优化理论、控制论、决策论、算法复杂度理论、实验科学等多个学科。机器学习的具体定义也因此有许多不同的说法,分别以某个相关学科的视角切入。但总体上讲,其关注的核心问题是如何用计算的方法模拟类人的学习行为:从历史经验中获取规律(或模型),并将其应用到新的类似场景中。

那么,当我们谈机器学习时,到底在谈些什么?从业者需要掌握哪些前沿技术?未来,又有什么技术趋势值得期待?

看前沿:你需要掌握的机器学习技术

物联网中机器学习的挑战和机遇

据研究报告到2020年,将有超过200亿台互联网连接设备投入使用,这些设备每年将产生超过500个zettabytes的数据,随着更多的技术进步,这个数字预计将继续大幅增加。对于已经投资物联网的70%以上的组织而言,所有这些数据自然代表了独特的竞争优势,并且获得了用于开发创新AI应用程序的宝贵信息和见解的巨大机会。

事实证明,对于数据科学家和机器学习工程师而言,物联网数据与商业领袖一样令人兴奋。从医疗保健和农业到教育和运输,物联网蓬勃发展的领域与其应用程序一样多样化,从发现新信息到决策控制。物联网数据科学为创建令人兴奋的新数据产品打开了大门。但是,我们将在本文中研究物联网数据科学的一些特殊性。

数据注意事项

正如我们所看到的,物联网构成了新数据的最大来源之一。物联网数据实际上可能被视为大数据的缩影。如果我们查看通过一个设备生成的数据,我们通常会处理相当少量的数据(即使这也正在改变)。然而,随着无数分布式设备生成连续的数据流,物联网产生了大量的数据。它的多样性同样令人印象深刻:物联网设备收集各种类型的信息,从音频到传感器数据,并且总体上负责数据格式多样性的奇妙爆发。因为这些设备靠近用户并不断收集信息,这个生成的数据通常是高速的; 这使得物联网数据特别适合时间序列建模。

同步内容
--电子创新网--
粤ICP备12070055号