机器学习

关于机器学习,你应该知道的3个热门专业术语

作者:吴郦军、罗人千

编者按:如果你是刚入门机器学习的AI探索者,你知道什么是胶囊网络吗?AutoML和元学习又是什么?为了帮大家节省查阅晦涩难懂的论文的时间,我们邀请微软亚洲研究院机器学习组实习生吴郦军、罗人千帮大家用最通俗的语言解释了这三个机器学习领域的热门词汇,赶紧收藏吧!

胶囊网络Capsule Networks

胶囊网络(Capsule Networks)是深度学习三巨头之一的Geoffrey Hinton提出的一种全新的神经网络。最初发表在2017年的NIPS会议上:Dynamic Routing Between Capsules。胶囊网络基于一种新的结构——胶囊(Capsule),通过与现有的卷积神经网络(CNN)相结合,从而在一些图像分类的数据上取得了非常优越的性能。

何谓胶囊?简单来说,胶囊就是将原有大家熟知的神经网络中的个体神经元替换成了一组神经元组成的向量,这些神经元被包裹在一起,组成了一个胶囊。因此,胶囊网络中的每层神经网络都包含了多个胶囊基本单元,这些胶囊与上层网络中的胶囊进行交互传递。

神经符号系统:让机器善解人意

深度学习和符号智能的结合将是下一代自然语言理解的新范式,也是解决自然语言理解这个困难任务的唯一路径。

1. 通往语言理解之路

什么是理解

自然语言理解是人工智能的核心课题之一,也被广泛认为是最困难和最具标志性的任务。最经典的两个人工智能思想实验——图灵测试和中文房间,都是围绕自然语言理解来构建的。自然语言理解在人工智能技术体系中的重要性不言而喻,它一方面承载着机器和人的交流,另一方面直达知识和逻辑。自然语言理解也是人工智能学者孜孜以求的圣杯,机器学习的巨擘 Michael I. Jordan 就曾经在 Reddit 上的 AMA(Ask Me Anything)栏目中畅想用十亿美元建立一个专门用于自然语言理解的实验室。

那么究竟什么是自然语言理解呢?我们可以认为,理解是从自然语言到语义的映射,但是这个定义只是把问题转移到了「语义」的定义上,而关于语义,一直缺乏在形式和功能上都普遍适用的定义。事实上,语义往往需要被放在特定领域和特定语境下去考量,比如一句「你开心就好」,可以在不同的场景下传达鄙视和祝愿等多种意思。关于理解或者语义,我们不得不采取了下面两种耍赖式的定义来刻画它们的不同侧面:

[收藏]机器学习高清思维导图(统计基础知识)

分享17张机器学习高清思维导图:描述性统计:表格和图形法 、描述性统计:数值方法、概率、概率分布、抽样分布、区间估计、假设检验、两总体均值之差和比例之差的推断、总体方差的统计推断、多个比率的比较&独立性检验&拟合优度检验、实验设计&方差分析、简单线性回归、残差分析、多元回归、回归分析、时间序列及预测、非参数方法...

浅谈Attention-based Model【原理篇】

0. 前言

看了台大的李宏毅老师关于Attention部分的内容,这一部分讲得挺好的(其实李宏毅老师其它部分的内容也不错,比较幽默,安利一下),记录一下,本博客的大部分内容据来自李宏毅老师的授课资料:Attention-based Model。如发现有误,望不吝赐教。

1. 为什么需要Attention

最基本的seq2seq模型包含一个encoder和一个decoder,通常的做法是将一个输入的句子编码成一个固定大小的state,然后作为decoder的初始状态(当然也可以作为每一时刻的输入),但这样的一个状态对于decoder中的所有时刻都是一样的。

机器学习相关——协同过滤

在现今的推荐技术和算法中,最被大家广泛认可和采用的就是基于协同过滤的推荐方法。本文将带你深入了解协同过滤的秘密。下面直接进入正题

1 什么是协同过滤

协同过滤是利用集体智慧的一个典型方法。要理解什么是协同过滤 (Collaborative Filtering, 简称 CF),首先想一个简单的问题,如果你现在想看个电影,但你不知道具体看哪部,你会怎么做?大部分的人会问问周围的朋友,看看最近有什么好看的电影推荐,而我们一般更倾向于从口味比较类似的朋友那里得到推荐。这就是协同过滤的核心思想。

换句话说,就是借鉴和你相关人群的观点来进行推荐,很好理解。

2 协同过滤的实现

要实现协同过滤的推荐算法,要进行以下三个步骤:

收集数据——找到相似用户和物品——进行推荐

收集数据

这里的数据指的都是用户的历史行为数据,比如用户的购买历史,关注,收藏行为,或者发表了某些评论,给某个物品打了多少分等等,这些都可以用来作为数据供推荐算法使用,服务于推荐算法。需要特别指出的在于,不同的数据准确性不同,粒度也不同,在使用时需要考虑到噪音所带来的影响。

找到相似用户和物品

机器学习常用评估指标的前世今生

在机器学习中,性能指标(Metrics)是衡量一个模型好坏的关键,通过衡量模型输出y_predict和y_true之间的某种“距离”得出的。

性能指标往往使我们做模型时的最终目标,如准确率,召回率,敏感度等等,但是性能指标常常因为不可微分,无法作为优化的loss函数,因此采用如cross-entropy,rmse等“距离”可微函数作为优化目标,以期待在loss函数降低的时候,能够提高性能指标。而最终目标的性能指标则作为模型训练过程中,作为验证集做决定(early stoping或model selection)的主要依据,与训练结束后评估本次训练出的模型好坏的重要标准。

在机器学习的比赛中,有部分比赛也是用metrics作为排名的依据(当然也有使用loss排名)。

在使用机器学习算法的过程中,针对不同的场景需要不同的评价指标,常用的机器学习算法包括分类,回归,聚类等几大类型,在这里对常用的指标进行一个简单的总结,小编总结了前人的很多博客,知乎等,方便自己学习。当然,需要的同学们也可以看一下。

一,分类

分类是机器学习中的一类重要问题,很多重要的算法都在解决分类问题,例如决策树,支持向量机等,其中二分类问题是分类问题中的一个重要的课题。

从人工智能到机器学习

一、机器学习的背景

大家都说人工智能是综合的学科,而机器学习就是人工智能的大脑。它通过对数据的处理,不断地变得更好和更强,做出各种各样的判断和决策。

人工智能、机器学习、深度学习,这三者是什么关系?

我们可以参照下面这张图:

从人工智能到机器学习

机器学习是实现人工智能的一种方法,机器学习有很多的细分领域,其中有一个领域是人工神经网络,而深度学习是人工神经网络这个领域的一个分支。

二、什么是机器学习呢?

做机器学习,大部分工作其实是编程。通俗地讲:机器学习是一种计算机程序,可以从现有的经验中学习如何完成某项任务,并且随着经验的增加,性能也随之提升。

三、机器学习有哪些分类?

揭开机器学习的面纱

你周围的人是否都在谈论着“机器学习”?而你是否也听说过一些算法技术却仍旧缺乏一个全局的认识?本文也许就是一个好的起点……

智力的新纪元

在科学界,机器学习是目前很热门的话题。通过把计算机和人类的能力相结合,一些相当复杂甚至是难以想象的问题正在被逐个突破。

如今的机器可以更容易地处理不断产生的大量数据,也能够对复杂的科学发现进行破译。另一方面,研究人员已经承认机器学习具有用于广泛领域的潜力,并且最终可以付诸实践。

当开始着手研究机器学习,我们会发现这其中很多的算法技术对于统计学家、工程师、程序员、数学家和金融工程师而言也许并不陌生。这是因为这些算法技术实际上已经被研究很多年了。“机器学习”是一个相对而言的新名词,但对于数据科学家而言这并不是一个完全陌生的领域。

本文汇总了原作者在研究初时遇到的一些有趣的实例,从而有助于理解机器学习的相关内容是如何联系在一起,并列出其知识体系各部分之间的不同之处,最终针对现有的项目,选择最佳的方案。

虽然本文并没有提出什么新的观点,甚至算不上专业,但原作者希望本文可以帮助那些对入门机器学习仍有疑惑的人。

机器学习实践中应避免的七种常见错误

统计建模和工程开发很相似。在工程开发中,人们有多种方法搭建一套键-值存储系统,每种设计针对使用模式有一套不同的假设。在统计建模中,也有很多算法来构造一个分类器,每种算法对数据也有各自的假设集合。

当处理少量数据时,因为实验成本很低,我们尽可能多的尝试各种算法,从而选出效果最优的算法。但提到“大数据”,提前分析数据,然后设计相应“管道”模型(预处理,建模,优化算法,评价,产品化)是事半功倍的。

正如在我以前的文章里提到,每个给定的建模问题都存在几十种解法。每个模型会提出不同的假设条件,我们也很难直观辨别哪些假设是合理的。在业界,大多数从业人员倾向于挑选他们熟悉的建模算法,而不是最适合数据集的那个。在这篇文章中,我将分享一些常见的认识误区(要避免的)。在今后的文章中再介绍一些最佳实践方法(应该做的)。

1. 想当然地使用默认损失函数

干货:你知道模型参数和超参数之间的区别吗?

翻译 | AI科技大本营(rgznai100)
参与 | 姜沂,焦燕

导语

机器学习中的模型参数和模型超参数在作用、来源等方面都有所不同,而模型超参数常被称为模型参数,这样,很容易对初学者造成混淆。本文给出了模型参数和模型超参数的定义,并进行了对比,指出了二者本质上的区别:模型参数是模型内部的配置变量,可以用数据估计模型参数的值;模型超参数是模型外部的配置,必须手动设置参数的值。

我们在做研究的时候,会碰到很多术语。有时,在不同的研究领域还会出现同样名称的术语。比如,统计学、经济学中经常使用的“模型参数”和“模型超参数”,在机器学习中也同样存在。

机器学习领域中的“模型参数”“模型超参数”在作用、来源等方面都有所不同,初学者如果对二者没有明确的认识,学习起来往往会比较吃力,尤其是那些来自统计学和经济学领域的初学者们。

为了让大家在应用机器学习时,对“参数模型”和“超参数模型”有一个清晰的界定,在这篇文章中,我们将具体讨论这两个术语。

首先,我们来看一下“参数”是什么?

参数作为模型从历史训练数据中学到的一部分,是机器学习算法的关键。

同步内容
--电子创新网--
粤ICP备12070055号