机器学习

机器学习工具:Python 和 Numpy入门

写在前头

我们一般都是从C语言开始学起的,后来发现C语言不能满足我们快速开发的需求,因为它的API使用起来不很方便,还有就是有些功能亟待扩展,这时候我们很多人选择了C++或Java,C#,这些更高级的语言让我们开发软件时,使用起来更方便了。如今,随着人工智能时代的到来,Python迅速成为了机器学习,深度学习的必备语言,流行的机器学习库,sklearn,完全是基于Python开发的API,深度学习库tensorflow也是对Python的支持最好。

由此可见,随着时代的发展,各种语言不断迭代,顺应时代的需求。这样看来,作为开发者的我们除了要学习机器学习,深度学习的一些理论和算法的同时,还得去学各种语言,真的看起来很辛苦,有时候好不容易学会一门语言后,它已经又被新的语言迭代掉了。

实际上,当你深入了掌握一门语言后,再学起其他语言来就会相对更快,与那些从来没接触一门编程语言的来比起来。这是为什么呢?

原来,任何一门语言,本质上都是语言定义的内置类型和相关的API,及我们的扩展自己所需要的类型及定义的方法。

因此,我们只需要把握住两点就能很快入门这门语言:
• 基本数据类型及封装的API
• 库内定义通用API,如文件处理等

如何向普通人解释机器学习、数据挖掘

随着数据科学在人工智能发展中大放异彩,数据挖掘、机器学习进入了越来越多人的视野。而对于很多人来说,诸如机器学习之类的名次听起来是神乎其技,但其真正的内涵却不为一般人所知。

特别是对于从事数据科学领域的人来说,如何向外行人解释自己所从事的工作几乎是一个超级难题。那么到底什么是机器学习,如何用通俗易懂的语言来解释?我们通过以下几重境界来解释。

一、专业理论型

百科定义+专业术语,让人听起来不明觉厉,实则一脸懵逼

机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。

机器学习已经有了十分广泛的应用,例如:数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序、语音和手写识别、战略游戏和机器人运用。

对于机器学习,到底该选择哪种编程语言?

开发者到底应该学习哪种编程语言才能获得机器学习或数据科学这类工作呢?这是一个非常重要的问题。我们在许多论坛上都有讨论过。现在,我可以提供我自己的答案并解释原因,但我们先看一些数据。毕竟,这是机器学习者和数据科学家应该做的事情:看数据,而不是看观点。

让我们看一些数据。我将在Indeed.com上使用趋势搜索。它可以根据时间搜寻实际工作机会中特定的条款。这表明了雇主们正在寻找拥有该技能的人才。然而,请注意,这并不是一项有效使用技能的民意调查。这种指标更能体现技能的受欢迎程度。

话不多说,上数据。我搜索了与“机器学习”和“数据科学”一起使用的技能,搜索选项包括编程语言Java、C、C+++和JavaScript。然后还包括了Python和R,因为我们知道它在机器学习和数据科学方面很受欢迎,当然还有Scala,考虑到它与Spark的关系,再加上Julia,一些开发中认为这是“the next big thing”。运行这个查询,我们得到的数据如下:

对于机器学习,到底该选择哪种编程语言

学懂GAN的数学原理,让它不再神秘

知乎上有个讨论,说学数学的看不起搞深度学习的。曲直对错不论,他们看不起搞深度学习的原因很简单,因为从数学的角度看,深度学习仅仅是一个最优化问题而已。比如,被炒的很热的对抗式生成网络(GAN),从数学看,基本原理很容易就能说明白,剩下的仅仅是需要计算资源去优化参数,是个体力活。

本文的目的就是尽可能简单地从数学角度解释清楚GAN的数学原理,看清它的庐山真面目。

1,从生成模型说起

机器学习的模型可分为生成模型和判别模型。

简单说说二者的区别,以二分类问题来讲,已知一个样本的特征为x,我们要去判断它的类别y(取值为0,1)。也就是要计算p(ylx),假设我们已经有了N个样本。

计算p(ylx)的思路有两个,一个就是直接求,即y关于x的条件分布,逻辑回归就是这样干的。凡是按这种思路做的模型统一称作判别模型

另一个思路是曲线救国,先求出x,y的联合分布p(x,y),然后,根据p(ylx)=p(x,y)/p(x)来计算p(ylx),朴素贝叶斯就是这样干的。凡是按这种思路做的模型统一称作生成模型。

那么,GAN属于什么呢?答案是生成模型,因为它也是在模拟数据的分布。

大规模机器学习框架的四重境界

作者:carbon zhang

1. 背景

自从google发表著名的GFS、MapReduce、BigTable三篇paper以后,互联网正式迎来了大数据时代。大数据的显著特点是大,哪里都大的大。本篇主要针对volume大的数据时,使用机器学习来进行数据处理过程中遇到的架构方面的问题做一个系统的梳理。

有了GFS我们有能力积累海量的数据样本,比如在线广告的曝光和点击数据,天然具有正负样本的特性,累积一两个月往往就能轻松获得百亿、千亿级的训练样本。这样海量的样本如何存储?用什么样的模型可以学习海量样本中有用的pattern?这些问题不止是工程问题,也值得每个做算法的同学去深入思考。

1.1简单模型or复杂模型

在深度学习概念提出之前,算法工程师手头能用的工具其实并不多,就LR、SVM、感知机等寥寥可数、相对固定的若干个模型和算法;那时候要解决一个实际的问题,算法工程师更多的工作主要是在特征工程方面。而特征工程本身并没有很系统化的指导理论(至少目前没有看到系统介绍特征工程的书籍),所以很多时候特征的构造技法显得光怪陆离,是否有用也取决于问题本身、数据样本、模型以及运气。

一文读懂深度学习与机器学习的差异

如果你经常想让自己弄清楚机器学习和深度学习的区别,阅读该文章,我将用通俗易懂的语言为你介绍他们之间的差别。
机器学习和深度学习变得越来越火。突然之间,不管是了解的还是不了解的,所有人都在谈论机器学习和深度学习。无论你是否主动关注过数据科学,你应该已经听说过这两个名词了。

为了展示他们的火热程度,我在 Google trend 上搜索了这些关键字:

一文读懂深度学习与机器学习的差异

如果你想让自己弄清楚机器学习和深度学习的区别,请阅读本篇文章,我将用通俗易懂的语言为你介绍他们之间的差别。下文详细解释了机器学习和深度学习中的术语。并且,我比较了他们两者的不同,别说明了他们各自的使用场景。

什么是机器学习和深度学习?

让我们从基础知识开始:什么是机器学习?和什么是深度学习?如果你对此已有所了解,随时可以跳过本部分。

什么是机器学习?

适合入门的8个趣味机器学习项目

谈到机器学习,相信很多除学者都是通过斯坦福大学吴恩达老师的公开课《Machine Learning》开始具体的接触机器学习这个领域,但是学完之后又不知道自己的掌握情况,缺少一些实际的项目操作。对于机器学习的相关竞赛挑战,有些项目的门槛有些高,参加后难以具体的实现,因此造成自己对机器学习的热情逐渐衰减。大部分都经历过这个过程,一直想找一些练手的项目,最典型的练手项目比如手写体识别等,但这类的项目成熟得不能再成熟了,参考别人的网络模型跑一下实验,结果的准确率都快达到100%,学习调参的机会比较少,因此都想找一些适合初学者的项目练手。下面将给大家带来8个适合初学者学习的有趣的机器学习项目。

将自己的时间花在项目上是最好的一种投资方式,在项目中你会享受学习、保持积极性并取得更快的进展。没有任何理论可以代替实践,虽然教材和课程能让你掌握一些基本原理,但在尝试应用时,你会发现具体操作起来比较困难。因此项目有助于提高应用机器学习的技巧,此外在找工作中也会给自己增添一些筹码。

以下将具体介绍这8个项目,其中的任何一个项目都能在一个周末完成,如果你喜欢的话,可以对其进行相关的扩展。

1.机器学习的角斗士

有关机器学习每个人都应该了解的东西

摘要:本文科普了机器学习方面的知识,简单介绍了机器学习可以做什么,以及如何做的。以下是译文。

在过去的几个月中,我与很多的决策者交流了有关人工智能特别是机器学习方面的问题。其中有几名高管已经被投资者询问了有关他们在机器学习(Machine Learning)方面的战略,以及在哪些方面运用了机器学习。那么这个技术课题为什么突然会成为公司董事会讨论的话题呢?

计算机应该为人类解决问题。传统的方法是“编写”所需的程序,换句话说,就是我们教电脑问题解决的算法。该算法详细描述了解决问题的过程,就像食谱一样。很多任务都可以用算法来描述。例如,在小学里,我们学习了数字加法算法。当涉及到要快速、完美地运行这种算法时,计算机比人类更胜任这个工作。

有关机器学习每个人都应该了解的东西

大话人工智能:机器学习的优与劣

从 20 世纪 60 年代开始,人们就在期待像哈尔(HAL)这样的科幻级别的 AI,然而直到最近,PC 和机器人还是非常愚笨。现在,科技巨头和创业公司宣告了 AI 革命的到来:无人驾驶汽车、机器人医生、机器投资者等等。普华永道认为,到 2030 年,AI 将会向世界经济贡献 15.7 万亿美元。“AI”是 2017 年的热词,就像“.com”是 1999 年的时髦用语那样,每一个人都宣称自己对 AI 感兴趣。不要被有关 AI 的炒作所迷惑,它是泡沫还是真实?和旧有的 AI 潮流相比,它现在有什么新颖之处?

AI 并不会轻易或迅速地被应用。最令人兴奋的 AI 实例往往来自大学或者科技巨头。任何许诺用最新的 AI 技术让公司发生革命性变革的自封的 AI 专家,都只是在传递错误的 AI 信息,其中某些人只是重塑旧有技术的形象,把它们包装成 AI。每个人都已经通过使用 Google、微软、亚马逊的服务,来体验了最新的 AI 技术。但是,“深度学习”不会迅速地被大企业所掌握,用来定制内部项目。大多数人都缺乏足够的相关数字数据,不足以可靠地用来训练 AI。结果就是,AI 并不会杀死所有的工作机会,尤其因为它在训练和测试每个 AI 的时候还是需要人类。

解析阻止机器学习的十种网络攻击

即使是瑟曦.兰尼斯特的阴谋诡计或者乔拉.莫尔蒙爵士父亲般的保护(译注:两者都是HBO剧集《权力的游戏》中的人物)也无法阻止攻击者攻破HBO的网络并窃取了1.5TB的数据(包括未播出的《权力的游戏》剧集)。然而,机器学习可能已经为HBO的虚拟要塞提供了更好的防护。

人工智能(AI)和机器学习(ML)是众多辩论的主题,特别是在网络安全社区内更是如此。那么,机器学习会是下一个大的安全趋势吗?人工智能准备好了接受机器学习推动的攻击吗?总的来说,人工智能是否做好了使用的准备?无论你对于机器学习是否会成为网络安全救世主的看法如何,有两件事情却是真实的:一是分析在安全领域占有一席之地,二是机器学习在一些具体的使用案例中代表了我们今天所能给出的最好答案。

尽管有报道称黑客使用了”复杂老道”的入侵方法,但是很有可能的是黑客或黑客团体聪明地使用了常见的攻击方法攻入了这家银幕巨头的系统,并使用了 “little.finger66″(译注:”小指头66″,”小指头”是《权力的游戏》剧集人物培提尔.贝里席的绰号)这个绰号。

下面列举了一些使用案例,它们代表了一些会影响每一家企业的常见安全威胁。不过,机器学习可能是也可能不是网络安全的灵丹妙药,但在下面这些情况中,它肯定会有所帮助。

同步内容
--电子创新网--
粤ICP备12070055号